首页 > 范文大全 > 正文

基于序列模式挖掘的社交网络用户行为分析

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于序列模式挖掘的社交网络用户行为分析范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

〔摘 要〕针对SNS用户行为存在序列性这个特点,文章提出了一种SNS用户行为分析模型。模型以SNS群体用户为研究对象,引入序列模式挖掘的方法实现用户行为分析,最终获得用户的频繁行为序列模式。文章应用实例对该模型进行了可行性验证,并对未来研究进行展望。

〔关键词〕社交网络;社群发现;行为分析;序列模式

随着在Web2.0技术的迅速发展,社交网络备受关注,它为广大用户提供了一个交流平台,通过这个社交平台,用户可以将现实交际网络化,找到拥有相同兴趣爱好的朋友圈。面对不同行业背景下涌现出的各种社交网络,掌握用户的兴趣变化和行为趋势能够帮助商家制定商业策略,及时更换适合用户的新产品,增强商业竞争力。对社交网络用户行为进行分析可以了解用户的行为特点和兴趣变化。目前关于社交网络用户行为的分析研究,主要集中在3个方面:(1)应用马尔科夫链分析预测用户行为。Sarukkai运用马尔科夫链进行访问路径分析和链接预测,根据用户访问记录,计算出网页间的转移概率,作为分析用户行为的依据[1]。王实等提出了一种基于隐马尔科夫模型的兴趣迁移模式发现方法,通过分析用户迁移模式间的关联规则来发现用户行为特征和兴趣迁移变化[2]。(2)通过研究影响用户行为变化的因素,分析用户行为特征。Anagnostopoulos等通过研究社会影响力,找出了社交网络用户行为的变化原因,并在此基础上分析用户行为变化趋势[3]。Goyal等人通过研究,解决如何从用户的历史记录里学习影响的概率,并得到分析预测结果[4]。史学敏通过研究时区差异对社交网络用户行为的影响,发现社交网络用户行为呈现时区特性,以此建立了用户行为模型[5]。(3)借助统计方法分析用户行为。从统计学角度,对日志数据项进行简单的统计分析,得到用户访问频率高的网页。目前绝大多数商用免费分析工具都属于此类。由于用户访问状态是动态时变的,采用固定阶数的Markov链模型并不能准确地对用户的访问行为建模;而通过研究影响因素进行用户行为分析,只考虑了外部环境变化对行为的影响,忽略了社交用户行为本身所具有的特征,而这种内在特征对分析过程具有重要影响。在上述问题的基础上,本文提出了采用序列模式挖掘的方法实现社交网络用户行为分析。把握社交网络用户行为呈现序列特征这一重要特点,应用序列模式挖掘方法提取用户行为的频繁序列,分析用户行为特征。这种方法能够有效地提取出用户访问的序列规则,使得分析结果更加准确,弥补其他分析方法的不足。

1 相关理论研究

1.1 社交网络社交网络源于英文SNS(SocialNetworkService),是指人和人之间通过兴趣爱好、交易、人际脉络等关系建立起来的社会网络结构,它能够反映真实的社会关系发展,并促进交往活动的形成,使得人们的活动与网站所提供的功能融为一体。社交网络的构成要素有节点、关系和用户群。节点是网络中的个体,也称社交网络的参与者;关系是指节点与节点之间的连接,是参与者基于朋友关系或共同兴趣建立起来的;用户群是指在一部分节点为了某些共同目的而组成的群落,是关系的一种部分聚合体。一个社交网络用户隶属于不同的用户群,这些群落中的成员有些是该用户在实际生活中的朋友,有些则互不相识,由于具有共同兴趣和目的隶属于同一群体,社交网络结构如图1所示。社交网络使用户拓展了交际,找到了更多交流对象。

图1 社交网络结构示意图

2013年3月第33卷第3期现?代?情?报Journal of Modern InformationMar.,2013Vol.33 No.32013年3月第33卷第3期基于序列模式挖掘的社交网络用户行为分析Mar.,2013Vol.33 No.31.2 基于社交群体的用户行为社交网络的核心是“以人为本”,提供各种社交应用满足用户需求。目前社交网站提供的应用包括游戏、搜索、交友、邮件、聊天、电子商务等。用户对诸多社交应用的使用称之为社交网络用户行为,如图2所示。

图2 社交网络用户行为示意图 在现实生活中,人们是以群体生活方式聚集在一起,人们之间的行为习惯相互影响、相互作用。虚拟世界中,用户群是社交网络的重要组成部分。群体代表了社交网络中的社会活动,对群体的深入研究可以了解社交网络中知识信息及其组织结构的发展状况,也有利于商家准确地找到客户。将社交网络信息以群体的形式组织,为信息查询分析提供了有效和便捷的途径。所以本文以社交网络群体为研究背景,通过获得目标群体中用户的行为记录进行分析。

2 社交网络用户行为分析模型调查分析表明,用户对社交网站的使用行为具有序列特征。比如,很多用户在浏览视频后会进行视频评论或发表日志记录心得,使用游戏功能的用户会应用电子商务功能。用户的这些行为反映了他们的需求和行为规律,使用户行为产生明显的序列特征。所以本文在结合SNS结构特征的基础上,提出了基于序列模式挖掘[6-7]的社交网络用户行为分析模型,如图3所示。该模型主要分为提取事务集、序列模式挖掘和模式分析3个模块。其中,提取用户事务集模块是该模型的基础,主要任务是选取与挖掘目标相关的社交网络用户行为信息,并对其进行数据预处理,生成供挖掘使用的行为事务集;序列模式挖掘模块的主要任务是利用序列模式挖掘算法从用户行为事务集中提炼出频繁序列;模式分析模块的任务是根据用户的行为特点查找到与之匹配的频繁序列,形成用户偏好视图,然后制定出合理的发展策略。

3 提取用户事务集模块提取事务集模块分为两个阶段,数据采集和数据预处理。数据采集的任务是通过响应方式完成原始数据的获取,而由于原始数据具有不完整和不规则特性,需要通过数据预处理对其进行清洗和处理,以便适用于之后的工作。

3.1 数据采集目前数据采集的主要途径有两个:(1)基于服务器日志的数据采集。服务器日志文件是图3 SNS用户行为分析模型图

用来记录web服务器活动的一种重要工具,主要通过Web服务日志文件中记录的客户端HTTP请求的相关信息,实现对用户访问行为数据的统计。服务器日志文件提供了详细的客户和服务器的交互活动日志。(2)客户端数据采集方式。这种方法直接从客户端获得数据,能够获得大量的难以从服务器端获得的用户行为数据。可以利用JavaApplet技术、JavaScript技术和网页跟踪帧技术实现客户端数据采集。以学校动漫社交网站为研究背景,选取该社交网站用户在一个月中的行为数据进行分析,网站注册人数为15300人,当月参与人数约为2150人。首先通过Web日志获取用户行为数据,共采集到6473条记录。

3.2 数据预处理该阶段的主要工作是根据不同的业务和需求,从海量原始数据中抽取所需要的数据,并对不完整的数据做相应的处理,以适应挖掘分析。它包括数据清洗、用户识别、会话识别、事务识别等几个步骤[8]。(1)数据清洗主要解决原始数据中出现的冗余信息,错误信息以及与分析不相关的用户行为数据。由于机器故障、人工疏忽等导致记录缺失和输入错误,对于这些数据要进行删除。序列模式挖掘的目的是获得用户行为的序列模式,对那些没有显示请求的文件并不关心,所以需要检查URL后缀,删除不相关数据。当用户请求某一个网页时,相关的图片、视频等信息会自动下载,并记录在日志中,这些文件对研究的意义不大,所以要将其删除。如果一个站点的主要内容是图形信息,那么日志中的图形文件就可能代表了用户的显示请求,所以面对这种情况时就不能删除图片文件。除了记录删减外,还要对属性进行删减。例如,我们关注的信息是:用户使用了哪些应用功能,在网站及不同网页的驻留时间长度,所以只需要保留与其相关的日志信息即可,而像用户年龄、身份、登录地点等不相关的属性信息就可以删除。(2)用户识别是指识别出访问网站的每一个用户。不同的用户可以在同一时间段内通过一个访问Web服务器,同一个用户也可能通过不同的机器,或不同的浏览器访问Web服务器;而当不同用户使用同一台计算机浏览某一站点时也会造成混淆。为此,通常采用以下方法来识别用户:①以IP地址为区分标识的匿名访问者。②在用户允许Cookie的情况下,以CookielD作为用户表示。③提供注册功能,通过用户的注册ID进行识别。(3)用户会话[9]指的是用户对服务器的一次有效访问。根据用户访问的页面可以获得其在网站中的浏览行为和浏览兴趣。日志中不同用户访问的页面属于不同的会话。可以通过设置一个时间跨度值将用户的访问记录分成多个会话,如果用户访问页面的时间差超过了这个值,则认为用户开始了一个新的会话。会话识别的目的就是将用户的访问记录分为单个的会话。(4)事务识别是在用户会话对于某些挖掘算法而言粒度太粗的情况下进行,此时需要利用分割算法将它转化为更小的事务,以适应于特定知识的发现。最常用的事务识别方法是最大向前引用路径(MaximalForwardReferencePath)方法[10-11]。根据上述流程对采集的Web日志数据进