首页 > 范文大全 > 正文

基于模糊聚类的数字图书馆个性化推荐系统方案设计

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于模糊聚类的数字图书馆个性化推荐系统方案设计范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要: 用户建模是数字图书馆个性化推荐系统中的关键技术,本文依据中图法对用户兴趣进行了建模,并通过Apriori关联规则算法挖掘了信息资源各类别间的关联,然后通过FCM算法对用户进行聚类分析得到目标用户的最近邻,在Top_n最近邻居集中通过协调过滤技术产生推荐。实验结果表明,本文提出的方案是可行的和有效的,也为创新数字图书馆个性化服务提供了一种新的思路。

Abstract: User modeling is a key technology of personalized recommendation system. According to the Chinese library classification, we established the user interest model, and mined the link of the information resources through the Apriori algorithm. Then we get the target user’s nearest neighbor by clustering analysis to the user through FCM algorithm and produce recommend through the collaborative filtering in the top_n nearest neighbor concentration. Experimental results show that the proposed scheme is feasible and effective, and also provide a new way for the innovation of digital library personalized service.

关键词: 数字图书馆;推荐系统;模糊聚类;协同过滤

Key words: Digital Library;recommended system;Fuzzy Clustering;Collaborartive Filtering

中图分类号:TP39 文献标识码:A 文章编号:1006-4311(2013)06-0174-03

0 引言

数字图书馆个性化推荐系统通过有效利用不同层次、不同类别的数据资源,以满足不同用户的个性化需求,已成为当前提高数字图书馆的服务质量、效率和信息资源利用水平的一种重要工具。如康奈尔大学图书馆的My Library[1]、Stanford大学数字图书馆Fab系统[2]、NEC研究院的CiteSeer系统[3]等都以不同形式向用户提供了个性化信息服务。如何构建一个有效的个性化信息推荐系统,快速高效地从海量的数据和信息中获取有关知识,提高资源检索和推荐的智能水平,满足各类用户不同的个性化需求,已成为数字图书馆领域研究的一项重要内容。

作为个性化推荐系统的核心技术,协同过滤是当前应用最广、研究最多的推荐技术,它根据与目标用户兴趣相似的邻居用户的偏好信息产生对目标用户的推荐。协同过滤技术主要通过其他用户对项目的评价进行推荐,无需考虑推荐内容的形式,相比信息检索、基于内容的推荐等技术,具有一定的优越性,Amazon、CDNow、MovieFinder等都采用了协同过滤的技术来提高服务质量。但随着系统用户和资源数量的急剧增长,协同过滤技术也存在冷启动问题、最初评价问题、和扩展性问题等[4]。本文提出了一种基于协同过滤盒模糊聚类相结合的推荐技术,通过对用户文献资源使用记录的分析,得到用户的文献偏好类别及权值,建立用户兴趣模型,在此基础上,使用FCM算法对用户进行聚类分析,得到相似用户的Top_n最近邻居集,从而出生推荐。

1 用户兴趣建模

1.1 用户兴趣的收集与表示 数字图书馆环境下,用户兴趣信息主要包括:用户注册信息、图书借阅记录、用户定制信息、Web服务器日志等,这些数据的收集主要包括显性收集方式和隐性收集方式两种[5]。用户兴趣信息收集好后,需要对这些数据进行预处理,包括数据清理、格式转化、归一化处理等步骤,本文不再赘述。

对用户兴趣信息进行预处理后,下一步工作就是如何表示用户对某一类资源的兴趣爱好。本文依据中图法来对文献资源进行分类,并通过建立“多层分类树”的方式来表示读者对各类文献资源的兴趣爱好,如图1所示为某一用户计算机技术领域的“多层分类树”。

图1中,每个结点(分类)都有一个权值,其中父亲点的权值为其子结点之和,所有叶子结点的权值之和为1。每个结点包含子结点及与同层结点的关系(关联程度),如某一读者对“算法设计”领域的兴趣权值为0.1022,同时与之相关的领域信息有(数据库,0.72),(数据结构,0.63),后面的数字为与“算法设计”的相关度。各类文献资源的相关度值可以由专家指定,也可以通过数据挖掘方法找出各类文献资源的关联规则。

1.2 用户兴趣权值计算 用户兴趣权值主要表现在兴趣的方向和程度两方面,应根据用户对不同资源(表现为兴趣方向)的不同访问方式(浏览、下载等,表现为兴趣程度)来修改用户的权值,并根据权值的调整来对用户进行分组[6],因此用户兴趣权值的计算方法为:

nweight=oweight+v*t*r (1)

公式(1)中各参数的说明如下:

v:资源访问方式参数,本文设置v(浏览)=1、v(下载)2;

t:浏览时间长度,可从Web日志中获取该时间长度;

r:文献资源的关联度,若为文献本身则r为1。

若某一文献资源长时间没有被访问,则该文献的权值应相应减小,其计算方法为:

nweight=oweight*(1-t/D)*r (2)

其中D为一个时间周期常量,如可以取30天为一个周期。

2 用户模糊聚类分析

协同过滤中重要的一个步骤是把具有相近兴趣的用户分为一组,对用户分组的方法很多,本文采用了基于模糊C均值(FCM,Fuzzy c—Means)的聚类算法[7]。FCM方法用值在0,1间的隶属度来标识某一对象属于不同类别的程度,具有模糊特性,可以更好的体现用户兴趣的多样性特点,适合数字图书馆用户的分类需求。

使用FCM聚类算法对用户进行聚类的过程如下:

1)数据集W=w■,w■,…,w■表示用户兴趣度向量,n为用户数;

2)初始化用户隶属矩阵U=u■,u■,…,u■,其中u■=u■,u■,…,u■■,u■表示某用户j在第i类中的隶属度, 介于0,1之间,使其满足式(3)中的约束条件;

■u■=1,?坌j=1,…,n (3)

3)用式(4)计算c个聚类中心c■,i=1,…,c;m是加权指数,且m∈[1,∞);

c■=■ (4)

4)计算价值函数式(5),若小于某一阈值,或连续两次价值函数值的该变量小于某个阈值,则算法停止;

JU,c■,…,c■=■J■=■■u■■d■■ (5)

d■=c■-w■为聚类中心c■与数据点w■间的欧几里德距离;

5)用式(6)计算新的用户隶属矩阵U,返回3)。

u■=■ (6)

计算出用户在各聚类中的隶属度后,可以根据式7)[8]的相似性度量方法来计算用户之间的相似度,从而得到目标用户的Top_n最近邻居集,然后根据最近邻居集的所访问的文献资源情况来产生向目标用户的推荐文献。

sin(i,j)=■ (7)

3 实验结果分析

本文以宁波外事学校数字图书馆Web日志数据为数据源,对所提出的数字图书馆个性化推荐系统方案进行了模拟测试,以验证不同参数设置对读者分类的影响,从而达到最佳分类效果。

3.1 建立资源分类树 对依据中图法建立的多层分类树进行编码,如表1所示。中图法有一级类目A到Z,则分类树的第一层编码分别为01,02,…、26,如T用18表示,用1817表示TP二级类目。

3.2 读者访问信息收集 读者访问信息主要来源于Web日志,对Web日志信息预处理后如下表2所示。

3.3 关联度计算 本文以Apriori算法对各类文献之间的支持度和执行度进行了计算,如表3所示。然后依据关联度计算公式r=e*a+r1*(1-a)计算不同类别文献之间的关联度,如表4所示。关联度计算公式中若专家指定了值时a取0.6,否则取0。

3.4 用户权值计算 利用式(1)和式(2)对表2、表4计算出用户兴趣权值,所得到的读者兴趣值如下表5所示。

3.5 相似用户聚类 根据读者兴趣表5,建立模糊隶属矩阵,如表6所示。

将用户分成10-22类,以目标用户Top_10最近邻居集分别占模糊聚类和整个用户空间中的比率作为指标来说明用户聚类的可行性。如图2所示,可以看出目标用户的最近邻居大部分分布在用户所在的聚类中。实验结果表明本文提出的基于模糊聚类和协同过滤相结合的数字图书馆个性化推荐系统方案是可行和有效的。

4 结语

利用推荐系统提高个性化信息服务,是数字图书馆发展的必然趋势,也是目前研究的一个热点问题。从文献资源的查新来看,国内还没有成熟的数字图书馆环境下个性化推荐系统的相关研究报道,与用户的实际需求还存在一定的差距。本文提出的个性化推荐系统方案,为提高数字图书馆个性化服务水平为作了有益的探索与尝试。

参考文献:

[1]Balabanovic M, Shoham Y.Fab:Content-based,Collaborative munications of the ACM, 2007,40(3):6672.

[2]Rucker J,Polance M J. Siteseer: Personalized Navigation for the munications of the ACM, 1997,40 (3):7375.

[3]Giles L,Bollacker K, Lawrence S. CiteSeer: An Automatic Citation Indexing System. In: Proceedings of the 3rd ACM Conference on Digital Libraries.1998:89-98.

[4]黄正.协同过滤推荐算法综述[J].价值工程,2012,31(21).

[5]Aggarwal C.,Yu P.Data Mining Techniques for Personalization[J].IEEE Data Engineering Bulletin, 23(1), 2000:4-9.

[6]孙守义,王蔚.一种基于用户聚类的协同过滤个性化图书推荐系统[J].现代情报,2007,11(11).

[7]李宝刚.基于读者日志分析的模糊聚类研究[J].2011,(33).