开篇:润墨网以专业的文秘视角,为您筛选了一篇基于用户社会属性及行为特征吸引度的微博粉丝网络演化模型范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!
摘 要:分析用户社会属性和行为特征对微博粉丝网络演化的影响,提出一种基于用户社会属性及行为特征吸引度的微博粉丝网络演化模型SBPAF。模型引入社会属性吸引度及行为特征吸引度概念,依据吸引度优先连接的原则和第二跳连接原则增边,并引入边消亡过程,从而精确刻画现实微博粉丝网络演化过程。模型中的参数能够进行灵活调整,可以得到不同微博粉丝网络的仿真拓扑。仿真结果验证了SBPAF模型的合理性和有效性。
关键词:微博粉丝网络;社会属性;行为特征;吸引度;网络演化;拓扑属性
0 引言
国内外学者围绕在线社交网络的拓扑结构、形成机制及演化规律等开展了各种系统研究,并取得了丰硕的成果。Kumar等[1]采用网络快照的方法,对博客网络的连接生长模式进行了研究,分析了博客结构的聚合性和网络结构的演进过程。Fu等[2]采集了Xiaonei网络数据,对其拓扑结构属性进行了深入研究,揭示了在线社交网络的自组织性。文献[3]提出了一种通用的大规模社交网络演化模型,该模型能很好地仿真出社交网络的分层结构。Yu等[4]分析了豆瓣社区中朋友关系形成的原因。近年来,人们又将关注的焦点转移到新型社会媒体――微博网络,分别从度分布、度相关性、聚类系数、平均半径、中心度、同质性等多个方面对粉丝网络的拓扑结构进行研究[7-12],发现微博粉丝网络与传统社交网络在很多拓扑特征属性上存在差异。Kwak等[7]发现Twitter粉丝网络的入度并不完全服从幂律分布,当粉丝数量超过106以后会出现重尾分布。樊鹏翼等[12]发现新浪微博粉丝网络的节点出度分布表现为分段幂律函数,出度和入度之间不存在相关性。用现有社交网络拓扑演化模型仿真微博粉丝网络,均不能获得理想的仿真结果。
研究粉丝网络的拓扑结构、理解其演化机制,并建立演化模型,不仅能更好地认识和理解诸多因素对微博粉丝网络演化过程的影响,而且有助于对其网络拓扑特征的内在成因进行剖析,同时也能微博消息传播、微博社区发现、微博影响力、微博网络监控等方面的研究提供重要的依据和仿真基础。目前微博粉丝网络演化模型方面的研究刚刚引起学术界的重视。Yin等[13]通过收集的Twitter数据,发现了微博网络中老节点之间产生新边的生长模式,Twitter网络中91.78%的新边都是由节点与其邻居的邻居连接产生的,即为第二跳连接,只有少数新边的节点跨度超过两跳;Mitsuhiro等[14]提出了文本消耗的问题,它将会导致已存在关注关系的消亡。文献[15-16]就微博粉丝之间的连接成因问题进行了较为详细的研究,并且提出了连接建立的预测算法。总而言之,现有的研究还不够系统,尚未提出完整的微博粉丝网络演化模型。
本文在分析微博粉丝网络拓扑结果特征、发展特点及规律基础上,发现微博用户的行为特征和社会属性是影响粉丝关系拓扑演化的两个重要因素,借鉴陶少华等[6]提出的基于吸引因子的无尺度网络演化模型,首次提出了一种基于用户社会属性和行为特征吸引度的微博粉丝网络演化模型SBPAF(users’ Social characteristics and Behavior Properties Attractive Factorbased microblog fans network evolving model)。模型中提出了通过用户行为特征和社会特征具体刻画节点吸引力的方法,并且结合实际微博粉丝网络的演化特征,综合考虑了多种影响网络演化的因素。仿真结果说明,SBPAF模型仿真的网络在拓扑属性特征方面与实际的数据相契合,能更好地描述真实微博粉丝网络的演化过程。
1 微博粉丝网络拓扑建模
微博粉丝网络是指微博用户之间由关注与被关注关系建立起来的关系网络,本文简称为粉丝网络。粉丝网络可以形式化定义为一个有向图:G=(V,E)。其中:节点集合V代表微博用户,节点之间的有向边E:V*V,代表了用户之间的关注关系,边的方向代表了用户之间关注行为的方向。图1是由8个节点组成的粉丝网络拓扑结构示意图。
2 SBPAF粉丝网络演化模型算法
在微博粉丝网络中,节点的连接与增长率并不仅仅依赖节点进入网络的时间长短。经常会出现“一夜成名”的用户,他们可以在短时间内获得大量的粉丝连接,超过那些注册时间很久的早期用户。这说明在粉丝网络中,有些节点能以更高的速率获得连接数量。基于粉丝网络的这一特征,在设计粉丝网络演化模型时参考吸引因子的无尺度网络演化模型[6],充分考虑节点对其他节点的吸引因素。
2.1 用户社会属性和行为特征吸引度
定义能够准确刻画微博粉丝网络用户吸引力的具体指标,是建立演化模型首先需要解决的问题。由于微博粉丝网络是由用户的关注与被关注行为产生的,而用户的社会属性和行为特征是驱动关注行为产生的主要因素。其中,用户的社会属性是指由于人的各种社会关系而形成的属性,主要包括性别、年龄、学历、职业、信仰等。在粉丝网络中,社会属性相似的节点之间建立连接的吸引力更大[17]。行为特征是指用户在使用微博时表现出的特征,不同用户具有不同的行为特征,这些节点在网络演化过程中扮演不同的角色,通常行为模式越为活跃的用户对于其他节点的吸引力越大。关注、微博、转发、评论是四个典型的微博行为,可以使用粉丝数量、博文数量、转发数量、评论数量这些行为特征值对用户的行为特征进行定量刻画。下面给出SBPAF模型节点社会属性吸引度和行为特征吸引度的定义及计算方法。
定义1 社会属性吸引度βi j是指由于节点i具有的社会属性形似度而产生的对新节点j的吸引力。具体计算公式为
会属性特征向量,n是向量维数,表示社会属性的数量,每个分量表示一种社会属性。两个节点的社会属性特征向量的方向一致,说明它们的社会属性基本一致。因此可以通过计算社会属性特征向量之间的夹角来判断对于节点的社会属性相似度,从而得到节点之间的吸引度βi j。式(1)是计算两个节点社会属性特征向量夹角余弦计算公式,βi j是一个介于0到1之间的数,值越大说明吸引度越大。
权重向量,每个分量代表了每种行为特征对于行为特征吸引度的贡献。m是向量的维度,表示选取的行为特征数量。由于粉丝数量等于节点的入度,为了避免重复,在选择行为特征向量的分量时不考虑粉丝数量这个行为特征值。
2.2 SBPAF模型及其算法
根据上一节中的分析,提出一种基于用户社会属性和行为特征吸引度的微博粉丝网络演化模型SBPAF。模型的基本思想是:通过社会属性和行为特征具体计算每个节点的吸引度,新节点依据节点吸引度优先连接的原则增边,老节点依据第二跳连接原则增边,当节点的出度达到上限要求时则进行删边,并且节点的属性特征和行为特征随着网络演化而进行动态调整。在网络演化过程中,可以通过调整模型中相关的计算函数及参数,来决定社会属性、行为特征随时间的变化规律和它们对网络演化过程的影响作用。
模型的核心算法描述为:
1)初始条件:设置网络的初始节点为m0,然后按随机图的方式在节点之间连接边,并且按用户的社会属性分布概率为每个节点的社会属性向量赋值。社会属性分布概率是具有某种社会属性的用户出现的统计概率。假设总共统计的用户数量为n,第k维社会属性sk具有(a1,a2,…,am)m种取值,社会属性sk的概率分布计算公式为
P1(sk=ai)=sk的取值等于ai的用户数总用户数量n(3)
然后依据用户的社会属性特征向量计算节点的行为特征向量。式(4)是对行为向量计算过程的数学描述,其中函数fi的具体形式要根据所仿真的具体微博网络统计数据来进行拟合。在第3章的仿真中,将给出依据新浪微博数据拟合函数fi的具体实例。
B=(b1,b2,…,bm);bi=fi(s1,s2,…,sn)(4)
2)网络的增长:在每个时间步长,增加m1个新节点,每个新节点将与网络中的老节点建立m2条新边;k个老节点与网络中的其他节点分别建立m3条新边。具体规则如下:
① 新加入节点数m1服从指数为λ的泊松分布。对每一个新节点v,依据社会属性分布概率计算式(3)确定社会属性向量取值。
② 每个新节点j与网络中的老节点i建立新边时,按吸引度优先连接原则,即建立连接时的概率依赖于节点的入度ki、社会属性吸引度βi j和行为特征吸引度ρi,概率计算公式为
Πji=(1-ψ)・ki∑kn+ψ・βi j+ρi∑(βnj+ρn)(5)
其中:∑(βnj+ρn)为网络中其余节点所有的吸引度之和,∑kn为其余节点的入度之和。ψ是0~1的数,表示优先连接和吸引度连接对于模型演化的影响大小;当ψ=0时,边的增长就是一个完全按优先连接原则增长的过程。
③ 老节点与网络中的其他节点建立新边连接时,按第二跳连接原则。将粉丝网络中的第二跳关系划分为三类[13]:R1关注者关注者,R2关注者粉丝,R3互粉互粉;然后按三类关系的概率分布函数P2在三类第二跳关系中选择节点。其中P2的计算公式为
P2(Ri)=第二跳关系为Ri的用户关系数量所有的第二跳用户关系数量(6)
3)网络的消亡:在每个时间步长,调整老化节点集合Vaged,然后在Vaged中随机选择节点,删除m4条以老化节点为源点的边。老化节点是指那些出度达到阈值kout的节点。其中kout根据所仿真的具体微博网络确定,它的物理含义是系统允许的微博用户最多关注人数,如新浪微博的kout=2000。
4)网络节点的演化:每个节点随着时间变化,依据式(4)动态调整其行为特征向量值。
5)演化终止:当网络节点数量达到N时,结束演化。
3 SBPAF模型的仿真与分析
本章采用数据仿真对SBPAF模型的合理性和可用性进行验证。首先,通过不同参数变化对于网络演化过程的影响仿真实验,来验证模型的合理性;然后,利用SBPAF模型对新浪微博粉丝网络的演化过程进行仿真,并对仿真网络的拓扑属性特征进行分析比较,从而验证模型的可用性。
3.1 模型合理性验证
本节验证模型中参数对网络演化过程的影响是否与参数代表的物理含义对实际网络的影响情况相符,从而来验证模型的合理性。
选择ψ、λ、w和m3这四个参数进行仿真实验。其中,ψ的物理含义是吸引度对于新节点增边的影响力,λ代表了节点加入网络的速度,w代表各种不同的行为特征对于行为特征吸引力的贡献程度,m3表示老节点增边的速度。由于模型中存在大量概率事件,为确保实验结果的正确性,采取多次实验取平均值的方法来统计SBPAF模型的入度分布特征。此外,在设置w权重向量时,只设置了两个分量(w1,w2)。图3和图4是在不同参数下绘制的互补累积分布函数(Complementary Cumulative Distribution Function,CCDF)图。
通过分析,发现SBPAF模型参数ψ和m3的取值直接影响入度分布的指数(图3);而其他参数对入度分布的影响不大,只影响网络增长的速度(图4)。
通过上述分析,发现SBPAF模型的参数对于网络拓扑演化的影响情况与实际粉丝网络演化过程的特点基本一致:1)节点加入网络的速度只会影响网络演化的速度,并不会影响网络的拓扑属性;2)粉丝数量、微博数量等这些用户的行为特征对于行为特征吸引度的影响基本相同,即用户的各种行为特征对于用户的影响力的贡献是相似的;3)用户在添加关注时,更倾向于连接那些吸引度大的用户。
3.2 模型有效性验证
通过调整模型中的参数,设置行为特征调整函数,SBPAF模型能仿真出具有不同属性特征的粉丝网络。通过实验拟合,用SBPAF模型仿真出与新浪微博粉丝网络拓扑结构相似的网络拓扑,表1是仿真新浪微博粉丝网络时的模型参数值,行为特征调整函数选取线性递增函数。
从图5和图6的仿真结果分析,SBPAF模型能够很好地刻画微博粉丝网络入度分布的幂律属性特征。通过曲线拟合,当N=5000时,入度概率分布的幂指数为-1.428;当N=10000时,入度概率分布的幂指数为-1.436。在出度分布方面模型虽然也表现出了与实际网络相似的分段特性[12],但并没有表现出明显的幂律特征,这主要与SBPAF模型老节点的边生长过程没有考虑节点吸引度有关,这是后续模型需要改进的方面。
4 结语
针对现有社会网络演化模型无法仿真微博粉丝网络的问题,本文分析了微博用户的社会属性和行为特征在粉丝网络的演化过程中起到的重要作用,定义了社会属性和行为特征吸引度的概念和计算方法,并根据粉丝网络演化的规律,提出了一种基于用户社会属性和行为特征吸引度的微博粉丝网络演化模型SBPAF。模型充分考虑了粉丝网络节点及边生长的复杂性,深入刻画了粉丝网络中节点吸引度对于网络演化的作用,同时模型还依据真实网络的特性,增加了刻画边消亡的事件。模型中的参数能够动态调整,从而来决定各种因素在网络演化过程中的影响作用大小。仿真实验结果显示,通过恰当的参数及行为特征调整函数设置,SBPAF模型能仿真出与实际微博粉丝网络具有相似拓扑属性特征的网络拓扑。
需要指出的是,SBPAF模型也存在一定的缺点,如在聚类系数和节点出度方面的仿真结果不够理想。这是因为模型的边增长过程与实际的网络演化过程还存在差异,在后续的研究中应该考虑更多的网络演化影响因素。此外,对于行为特征调整函数的研究还不够深入,新节点的增长模式是否服从泊松分布还不明确,这些都是日后需要进行验证和改进的方向。
参考文献:
[1] KUMAR P, NOVAK J, RAGHAVAN P, et al. On the bursty evolution of blogspace [J]. World Wide Web Journal, 2005,8(2):159-178.