首页 > 范文大全 > 正文

基于稀疏特征的中文微博短文本聚类方法研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于稀疏特征的中文微博短文本聚类方法研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:微博文本聚类是依据微博主题不同将描述同一类主题的微博文本汇聚到一起的过程。由于微博文本非常短,在使用常规的机器学习方法对微博短文本进行聚类时,常会出现严重的数据稀疏问题,继而对聚类性能产生影响。分析了中文微博文本的数据稀疏特征,并基于这一特征分析比较了几种中文微博文本表示及聚类方法,为中文微博文本聚类分析的难点问题提供了一定的解决途径。

关键词:微博;短文本;聚类;LDA;文本表示

中图分类号:TP391 文献标识码:A 文章编号文章编号:16727800(2014)001013302

基金项目基金项目:安庆职业技术学院2013年院级自然科学研究项目(2013ZRKX004)

作者简介作者简介:熊祖涛(1978-),男,硕士,安庆职业技术学院电子信息系讲师,研究方向为软件技术。

0 引言

微博是一种通过关注机制分享简短实时信息的广播式社交网络平台。据中国互联网络信息中心(CNNIC)2013年1月的《中国互联网络发展状况统计报告》显示,截至2012年12月底,中国网民规模为5.64亿,其中微博用户规模达到3.09亿,占网民总数的54.7%,微博已成为中国互联网第二大舆情源。面对数量庞大的微博舆情数据,依靠传统人工统计分析方法已经力不从心。因此,利用技术手段,通过建立合适的微博文本表示模型,运用聚类分析方法,获取舆情热度和舆情倾向信息,实现微博舆情的实时监测就显得尤为重要。

1 微博文本表示

1.1 文本表示方法

文本表示是指将用来描述文本特征的信息从文本中提取出来,并按照一定的规则进行形式化处理的结果。目前的文本表示模型主要有向量空间模型(Vector Space Model,VSM)、N-gram语言模型、类短语串模型、概念模型、图模型、事件模型等。向量空间模型因其表示方法简单、有效,应用最为广泛。向量空间模型将文档表示为特征空间中由一组特征项(T1,T2,…,Tn)构成的特征向量,特征项Ti通常是与文本分类有关的字、词或短语。每一个特征项Ti表示文本的一个维度,并根据Ti在文档中的重要程度赋予一定的权重Wi。所有文本可以用特征向量(T1,W1,T2,W2,…,Tn,Wn)表示。利用向量空间模型,文本内容被简化为特征项与权重的向量表示,文本的处理被简化为向量运算,极大地降低了文本处理的难度。鉴于向量空间模型的突出优势,为了能对中文微博文本数据进行有效的分析和处理,我们将微博文本用这一模型表示。

1.2 传统的特征权重计算方法

在完成文本表示后,需要通过特征降维方法,如文档频率、信息增益、CHI统计量、互信息或期望交叉熵等,对文本表示所形成的初始高维特征集作降维处理,并根据一定的标准将特征集中的特征词赋以一定的权重。特征权重的计算方法有布尔权重、绝对词频权重、归一化词频权重、TFIDF权重等。其中,TFIDF(Term FrequencyInverse Document Frequency)方法是目前研究和应用最为广泛的权值法之一。TF-IDF权重的计算可表示为公式(1):

wik=TFik×log(Nnk+0.01)(1)

公式(1)中,TFik表示词条Tk在文档di中出现的频数,nk表示含有词条Tk的文档数,N表示全部训练文本中的文档数。通常情况下,由于待处理文本集中文档长度不一样,难以准确比较,为了更好地表示文本特征,还要对文本特征向量作归一化处理。此时,权重计算可表示为公式(2):

wik=TFik×log(nnk+0.01)∑mk=1(TFik×log(nnk+0.01))2(2)

1.3 微博文本特征权重计算方法

由于微博文本非常短,在使用TF-IDF方法计算特征权重时,同一词语在某一短文本中出现的次数多为1~2次。在这种情况下TF值基本在1~2左右,导致TF-IDF公式的取值受TF影响不大,主要由IDF值决定。而根据IDF取值规定,在整个文本集中出现的特征词频率越高,其IDF值越小,致使其TF-IDF权重越小。这与在短文本中高频出现的特征词往往与主题密切相关相悖。另外,在微博中,同一特征词出现在不同短文本中的概率要远远小于长文本,在使用机器学习的方法对微博短文本进行聚类时,常常会产生严重的数据稀疏问题,对聚类性能产生影响。针对微博文本这一特点,文中采用了基于LDA(Latent Dirichlet Allocation)的表示方法。LDA是一种具有文本主题表示能力的三层贝叶斯概率模型,包含词、主题和文档三层结构。LDA训练模型对所有待处理的文档进行建模,将其作为K个主题的集合。这些主题通过建模后会与文档中的所有词语存在概率分布关系。文档到主题服从Dirichlet分布,主题到词服从多项式分布,LDA生成过程的概率模型如图1所示。

图1 LDA生成过程的概率模型

其中,实心圆表示可观察值,空心圆表示隐含变量,矩形表示重复过程。外层矩形表示从Dirichlet分布中为文档集D的每一个文档d反复抽取主题分布θd,内层矩形表示从主题分布中反复抽样,产生文档d的词集{w1,w2,…,wn}。α表示整个文档集上主题的先验分布,β表示所有主题上词语的先验分布。通过Gibbs抽样算法学习这两个参数,可以了解文档作者感兴趣的主题,每篇文档所包含的主题比例等。φ表示主题——单词分布,w表示目标文档的词向量。θ是一个1×K的随机行向量,zn是离散随机变量,在主题T中取K个离散值。N表示文档集中包含的文档总数,Nd表示文档d中包含的总词数。LDA生成过程的概率模型为:

P(θ,z|w,α,β)=p(θ|α)∏Kn=1p(zn|θ)p(wn|zn,β)(3)

使用LDA表示文本后,文本向量的形式可以表示为:Di:(P1(t1),P2(t2),…,Pk(tk))Pj(tj)表示文档Di中主题tj对应的词概率总和为Pj。根据向量空间模型计算可得文档之间的相似度:

Sim(d1,d2)=DT1,D2DT1,D1.DT2,D2(4)

采用LDA模型表示微博文本,有效地减少了数据稀疏的情况,使得文本聚类的效果明显改观。

2 微博短文本聚类方法

Kmeans聚类算法是一种广泛使用的聚类算法,它将各聚类子集内所有样本的均值作为聚类中心,通过迭代过程将数据划分到不同类别,使评价聚类性能的函数达到最优。这种算法对于处理连续型长文档有着较好的聚类效果,但算法对于“噪声”和孤立点数据很敏感,少量这样的数据会对均值产生很大的影响,对于微博文本这种具有离散型属性和数据稀疏特点的数据,聚类效果并不十分理想。

层次聚类算法是另一种应用广泛的聚类算法。这种算法对给定的数据对象集合进行层次分解。按照层次的形成方式,算法又分为凝聚的层次聚类算法和分裂的层次聚类算法。层次聚类算法可以有效地控制噪声,降低了孤立点数据对于聚类结果的影响。但是,层次聚类算法也存在缺陷,在聚类过程中一旦一个分裂或合并被执行,就不能修正。若聚类过程中某一步骤出现差错,那么这样的错误将会被延续,层次化的迭代运算使误差不断累积,导致聚类结果较差。

在进行微博短文本聚类时,为了有效克服这两种算法存在的缺陷,同时充分利用它们各自在文本聚类上的优点,我们将这两种算法结合起来。利用层次聚类算法计算每个类中对象的均值,得到kmeans算法的初始聚类中心;利用kmeans算法通过重新计算每个对象与聚类中心的距离,修正层次聚类结果中对象的归属类。算法步骤如下:①确定聚类中心的个数k;②利用层次聚类的方法对数据集进行层次聚类分析,得到k个类的均值,将它们作为kmeans的初始聚类中心;③计算每个对象与聚类中心的距离,将对象划分到离该对象最近的聚类中心所代表的簇;④利用得到的值重新计算每个簇的聚类中心;⑤重复③和④,直到每个对象所属的类不再变化为止。

这里,我们利用R语言工具Rweibo对于新浪微博信息进行获取,并对以上3种聚类分析进行对比试验,得到3种方法的查全率与查准率关系曲线如图2所示。

图2 微博文本聚类分析查全率与查准率

从图2中可以看出,采用LDA模型表示微博文本,并将kmeans算法与凝聚的层次聚类算法结合起来对微博文本进行聚类分析,可以明显提高聚类分析性能。

3 结语

由于微博文本内容简短,存在突出的特征稀疏问题,给微博文本的聚类效果带来了很大的影响。微博文本形式自由,语法缺乏规范,这些都给基于微博的聚类分析研究带来挑战,本文在这方面进行了有益的探索。如何更好地利用微博本身存在的联系并将其抽取出来丰富文本特征,是今后进一步研究的目标。

参考文献参考文献:

[1] 王乐. 短语消息聚类相关技术研究[D].长沙:国防科学技术大学,2008.

[2] 倪兴良.问答系统中的短文本聚类研究与应用[D].合肥:中国科学技术大学,2011.

[3] 朱文焕.BBS短文本聚类技术研究[D].哈尔滨:哈尔滨工业大学,2009.

[4] 时睿.面向短文本的网络舆情分析[D].西安:西安电子科技大学,2012.

[5] 张晨逸,孙建伶,丁轶群. 基于MBLDA模型的微博主题挖掘[J].计算机研究与发展,2011(10):17951802.

[6] 王永恒,贾焰,杨树强. 海量短语信息文本聚类技术研究[J].计算机工程,2007(14):3840.

[7] 索红光,王玉伟. 一种用于文本聚类的改进kmeans算法[J].山东大学学报:理学版,2008(1):6064.

[8] 黄承慧,印鉴,侯昉. 一种结合词项语义信息和TFIDF方法的文本相似度量方法[J].计算机学报,2011(5):856864.

[9] 熊祖涛. 基于Web文本信息抽取的微博舆情分析[D].西安:西安科技大学,2013.

[10] 张志飞,苗夺谦,高灿. 基于LDA主题模型的短文本分类方法[J].计算机应用,2013(6):15871590.