基于MapReduce的微博用户搜索排名算法梁秋实(全文)

开篇：润墨网以专业的文秘视角，为您筛选了一篇基于MapReduce的微博用户搜索排名算法梁秋实范文，如需获取更多写作素材，在线客服老师一对一协助。欢迎您的阅读与分享！

摘要：在微博搜索领域，单纯依赖于粉丝数量的搜索排名使刷粉行为有了可乘之机，通过将用户看作网页，将用户间的“关注”关系看作网页间的链接关系，使PageRank关于网页等级的基本思想融入到微博用户搜索，并引入一个状态转移矩阵和一个自动迭代的MapReduce工作流将计算过程并行化，进而提出一种基于 mapreduce的微博用户搜索排名算法。在Hadoop平台上对该算法进行了实验分析，结果表明，该算法避免了用户排名单纯与其粉丝数量相关，使那些更具“重要性”的用户在搜索结果中的排名获得提升，提高了搜索结果的相关性和质量。

关键词：微博搜索；云计算； MapReduce编程模型； Hadoop平台/系统； PageRank算法

中图分类号： TP391.3

文献标志码：A

0引言

随着微博蹿红网络，网民逐渐热衷于这种新的资讯交流方式，较之于传统媒体，其特点在于它通过添加关注来实现信息的分享与讨论。关注是一种单向、无需对方确认的关系，用户可以随意关注他所感兴趣的人，添加关注后，用户成为所关注网友的粉丝，并可及时了解到所关注网友的动态。关注的网友越多，获取的信息量越大，粉丝越多，的消息就会被越多人看到。值得注意的是，用户关注的网友往往很多，多数情况下，这些关注不是一次性添加起来的，人们往往需要通过关键字搜索来寻找他们感兴趣的人，从而建立起关注关系，但搜索结果常常鱼目混杂，令人无所适从。

出现这种情况的原因是多方面的，部分在于昵称抢注，部分则归结于算法需适用于海量数据，部分还在于网络中出现了大量刷粉行为，甚至出现了以此牟利的职业刷粉人。微博应用中包含了海量实体，这些实体间的关系则是实体数量的平方，为处理海量数据，很多微博服务提供商大都采用了MySQL拆分技术，对于结构化数据，这种处理显然是合适有效的，但对于非结构化数据，这种方法则显得力不从心。而且，关系型数据库还受到磁盘因素的制约，这源于磁盘发展的一个趋势：寻址效率的提高远远慢于传输速率的提高，寻址是将磁头移动到特定磁盘位置进行读写操作的过程，它是导致磁盘操作延迟的主要原因，而传输速率取决于磁盘的带宽。如果数据库系统读写一小部分记录，那么传统的B树更有优势，但数据库系统在读写大部分记录时，其效率相对较低。另一方面，对于昵称抢注，虽然通过在微博头像上加“V”一定程度上解决了利用名人姓名进行冒充的问题，但对于普通用户的搜索排名仍然不够客观。按照微博开通的时间进行排名不能很好地反映用户的活跃程度，而按照粉丝数量进行排名则无法防止用户通过刷粉快速提升等级。

基于MapReduce的微博用户搜索排名算法梁秋实

优秀范文

精选范文