首页 > 范文大全 > 正文

用户兴趣迁移模式与个性化服务

开篇:润墨网以专业的文秘视角,为您筛选了一篇用户兴趣迁移模式与个性化服务范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:提出用户浏览兴趣迁移模式作为关联规则生成的基础的思路;给出了用户频繁访问路径的更新算法,用聚类主题号代替浏览序列的页面号,获得用户浏览兴趣迁移模式,以此得到更优化的个性化服务。

关键词:用户兴趣迁移模式个性化服务;聚类主题

中图分类号:TP393文献标识码:A文章编号:1009-3044(2007)17-31280-01

Research on Personalized Service by User Interests Transfer

DONG Quan-de1,2

(1. School of Computer & Information, Hefei University of Technology, Hefei 230009, China; 2. Department of Computer Suzhou College, Suzhou 234000, China)

Abstract:This paper proposes bronning association rules based on transfer pattern of user interests;gives updating algorithms of users' multifarious interview path,and obtains transfer pattern of user interests by clustering topics number replacing page number of user browsing sequence;so,we access more optimized personalized service.

Key words:transfer pattern of user interests;personalized service;clustering topics

1 引言

Web个性化服务是指一个Web网站根据发现的用户喜好,动态地为用户定制观看内容或提供浏览建议,为用户导航。目前,关联规则方法是实现许多个性化服务系统的技术之一,但关联规则方法往往忽略的问题有:(1)没有充分考虑用户的兴趣变化。用户的兴趣会随着时间而发生迁移,对同一个用户而言,经过一个时间段再访问站点,如果仍按照从前一时间段挖掘的关联规则为用户浏览导航,其可能对推荐的页面并不满意。因此,需要动态跟踪用户的访问,扑捉用户兴趣迁移的模式,实时为用户提供优质的个性化服务;(2)生成的推荐序列没有涉及Web页面的主题,结果仅仅指出哪些网页是关联的;为用户提供推荐的策略也只是根据用户访问的当前页面,按照生成的关联规则,推荐一组用户可能要访问的页面;推荐序列中不考虑Web页面的主题,若页面的内容发生改变,网站为用户提供推荐服务同样在做无用功。

针对上面提到的问题,本文提出了一个动态地发现用户频繁访问路径的更新算法及对Web页面进行聚类,用聚类号代替用户频繁访问路径的页面,从而得到用户兴趣迁移模式,以此模式作为关联规则生成的基础,为用户提供更准确地个性化服务。

2 用户频繁访问路径的更新算法

D是前一段时间的用户事务库,Log+是Web站点一个时间间隔新增加的访问日志,d+是经过Log+增量日志预处理后新增的事务集合。设D′是更新后的用户事务库,d+是新增的用户事务部分。显然,D′=D∪d+,D= D/- d+。令sup(x)为D中用户浏览序列x的支持数,L为D中的频繁序列集;sup′(x)为更新后的用户事务库中D′中浏览序列x的支持数,为D′中的频繁序列集,LK′为L′中频繁K-序列集;为d+中浏览序列x的支持数,根据支持数的含义可得:sup′(x)= sup(x)+ sup+(x)。在用户事务库D中我们已经得到了L、sup(x)以及X∈L。新增加d+后,更新任务就是:给定D、D′、d+、L和sup(x),对于?坌x∈L′,我们需要高效地计算sup′(x)和L′。

为了求解D′中频繁序列集L′,给出用户频繁访问路径的更新算法,其思路是:借助类Apriori算法的迭代方法从频繁K―序列候选集CK中求出所有频繁K―序列集L′。在Apriori算法中用频繁K-1序列集生成长度为K的候选集,记为CK=candidate_gen(Lk-1′)。新增d+后,通过CK求L′过程中需要考虑D中非频繁K-序列集在D′中是否是频繁的,可以将CK划分为2个部分:PK=CK∩LK,QK= CK-PK,其中PK是D中频繁K-序列集,QK是D中非频繁K-序列集,即QK?埸LK。?坌X∈PK,根据上面的sup′(x)=sup(x)+sup+(x),其中sup+(x)通过扫描d+求得。如果sup′(x)?叟|D′|minsup,则X∈L′。?坌X∈QK,sup(x)未知,但sup(x)<minsup。通过下面的定理,可将QK中某些非频繁序列删掉。

定理 如果X?埸L,并且sup+(x)<|d+|minsup,则X?埸L′。

证明X?埸L,则sup(x)<minsup。因此,sup′(x)=sup(x)+sup+(x)<|D|×minsup+|d+|minsup=(|D|+|d+|)×minsup=|D′|minsup,由L′定义可知X?埸L′。证毕。

根据上面的定理,对QK可以做如下处理:?坌X∈QK,扫描d+,计算sup+(x),若sup+(x)?燮|d+|minsup,直接将X从QK中删掉;对QK的余下的X,计算,如果sup′(x)|D′|×minsup,则X可以加到L′中。

用户频繁访问路径的更新算法可描述如下:

输入:D、D′、 、L、sup(x)和最小支持阀值minsup;

输出:D′中的频繁序列集L′

L1′=find_frequent_1_itemsets(D′);

For(k=2;Lk-1≠?椎;k++)

{ CK=candidate_gen(Lk-1′);

将CK划分为2个部分:PK和QK;

For each candidate x∈PK∪QK,扫描d+,计算sup+(x);

For each candidate x∈PK,计算sup′(x)= sup(x)+sup+(x);

( if sup′(x)?叟|D′|×minsup then

将x加入L′,

End if

}

For each candidate x∈QK

{ if sup+(x)<|d+|×minsup then

Delete candidate x from QK,

End if

}

For each candidate x ∈QK,扫描D,计算sup′(x)=sup(x)+sup+(x);

{if sup′(x)?叟|D′|×minsup then

将x加入L′,

End if

}

}

3 用户浏览兴趣序列的生成

以HTML或XML格式组织的Web文档是一种半结构化数据,需要进行形式化描述。

对于一个文本D,它的表示形式为:Di= (Wi,IDi)。其中IDi为文本的标识符,Wi= (wi1,wi2,…,win)为文本的特征向量,wij为第j个特征在文本Di中的权重,1?燮j?燮n,n为特征数目。

基于上述文本的表示方法,给出Web网页Pi的形式化定义:Pi为文本簇集合,对于其中容量为N的簇,将其定义为一个三元组:Pi=(N,ID,W),其中N为Pi中文本的数目,ID为Pi中文本标识符的集合,例如,ID={id1,id2, …,idN},W为Pi的特征向量W=(w1,w2,…,wN),其中wj= wij,N为特征向量的数目。

给定两个页面Pi= (N1,ID1,W1)和Pj=(N2,ID2,W2),它们之间的相似性可按下式计算:

cos(Pi,Pj)= ,其中n为以向量空间模型表示页面的特征个数。若两个页面的相似度大于或等于最小相似度阀值时,则构成一个新页面簇,合并后的页面簇表示为Pnew=(N,ID1∪ID2,W)。

为了得到页面的聚类主题,给出下面两个形式化定义:

定义1:一组页面的聚类中心:给定一组Web页面Sp,聚类中心可以定义为

定义2:页面聚类主题:可以将Web页面聚类中两个具有最大值的主题作为聚类的主题。

通过1获得的更新后的用户频繁访问路径是用页面号来表示的,如果用相应的聚类号进行替代,就可以得到用Web页面主题表示的用户浏览兴趣序列迁移模式。

4 个性化服务的实现

获得用户浏览兴趣序列迁移模式以后,应用于个性化服务的关联规则具有这样的形式:za1、za2、…、zai?圯zc(i=1,2,…,n)。该规则可以描述为用户的访问习惯通常是访问了兴趣主题za1、za2、…、zai后访问 zc。个性化服务的推荐步骤如下:

(1)获得用户当前的访问模式,即获得用户访问的当前的主题页面和前n-1的主题页面za1、za2、…、zai构成规则的前项;

(2)在规则集中查找前项与当前用户的访问模式相匹配,即{z1、z2、…、zn}= {za1、za2、…、zai}的规则za1、za2、…、zai?圯zc ,工作的后项zc 就是当前页面主题推荐的页面主题。

(3)网站的结构生成器和网页的生成器能依据这些信息完成自我组织,自动生成新的预送网页,使用户的浏览兴趣得到满足。

5 结束语

本文分析目前关联规则存在的两个问题的基础上,提出用用户浏览兴趣迁移模式作为关联规则生成的基础的思路;给出了用户频繁访问路径的更新算法,用聚类主题号代替浏览序列的页面号,获得用户浏览兴趣迁移模式,以此得到更优化的个性化服务。另外,如何提高用户频繁访问路径的更新算法的效率及简洁地表达页面主题的交叉,提高个性化服务的质量,还有待进一步的研究和试验。

参考文献:

[1] 何波, 王越. 基于数据挖掘的Web个性化信息推荐系统[J]. 计算机工程与应用,2006(3):78-180.

[2] 金玮,张克君,曲文龙,杨炳儒. 分布式Web用户兴趣迁移模式挖掘研究[J]. 计算机工程, 2006(24):44-47.

[3] 将学锋. 用户兴趣的结构和个性化服务的实现[J]. 计算技术与自动化,2005(4):83-86.

注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。