首页 > 范文大全 > 正文

面向互联网新闻的话题检测与追踪

开篇:润墨网以专业的文秘视角,为您筛选了一篇面向互联网新闻的话题检测与追踪范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要: 为了更加准确有效地从海量的互联网网页中获取感兴趣的信息,设计并实现了一个面向互联网新闻话题追踪与检测系统,并在该系统的基础上提出了面向海量互联网网页时话题检测中聚类算法选择策略以及一个基于多重特征的话题追踪模型,该模型能够很好地区分相似与相同的话题,并且话题追踪正确率达到了85.7%,实验结果表明文中系统能够有效地检测和追踪互联网上的话题。

关键词:

中图分类号: TP391 文献标识码:A 文章编号:2095-2163(2011)01-0059-04

0引言

互联网因其时效性强,交互性好等特点,已经成为人们日常获取信息的重要途径,但是面对每天新增的海量的互联网网页,人们往往难以从中准确有效地获取到自己感兴趣的信息,在这种情况下,话题检测与追踪受到了越来越多研究者的关注。

话题检测与追踪的主要任务是在缺乏话题先验知识的前提下,检测出系统未知的话题,并追踪已知话题的后续报道,所以话题检测和追踪系统必须在假设没有话题的先验知识的前提下构造话题模型,并且该模型必须适用于所有话题,而不是局限于某一话题[1]。在这一领域已经有很多研究者做了许多深入的工作,KUMARAN[2]用自然语言处理的技术辅助统计策略来提高话题检测和追踪的正确率,并验证了命名实体名词对区分不同的话题有着重要的作用;PAPKA[3]对话题检测中不同的聚类算法进行了对比研究,并提出了一种融合各自优点的聚类策略;ALLAN J[4]的话题追踪系统嵌入了自学习模块,利用后续报道更新话题模型;YANG[5]在计算两个话题相似度时引入了时间衰减函数。相对于国外学者更侧重于以统计概率模型为主体进行的研究,国内学者的研究则主要侧重于研究话题检测与追踪本身的特点。贾自艳等[6]提出标注时间、地点、人物等命名实体,在权重计算时提高命名实体的权重系数;骆卫华[7]针对层次化话题模型进行了研究;宋丹[8]则基于地点名词建立地理树,并根据地点名词在地理树中的路径覆盖率来计算两个话题的相似度。

基于以上讨论,可以看出目前国内外的研究主要集中在话题检测与追踪(TDT)评测数据上,而面向互联网新闻的话题检测与追踪的研究却较少。虽然一系列改善话题检测和追踪效果的模型及算法被相继提出,有效地提高了话题检测与追踪的正确率,但是这些模型大多只适用于评测数据,并不能完全适用于互联网的海量数据。针对互联网上的新闻报道冗余性高、数据量大、易漂移,持续时间长等特点,本文进行了面向互联网新闻的话题检测与追踪系统研究,实验结果证明文中的系统达到了实用的程度,能够正确地检测并追踪到互联网上出现的热点话题。

1话题检测与追踪

本文所讨论的面向互联网网页的话题检测和追踪系统主要包含:数据层、话题层、分析层、用户层等模块,如图1所示。

1.1数据层

数据层的任务是抽取爬虫抓取到的互联网网页中新闻正文文本、标题、时间、URL等结构化信息,然后进行分词、

过滤停用词、词性标注等处理。因为新闻报道中最重要的是人物、时间、地点等命名实体,所以在此引入了命名实体识别的工具来标示命名实体。

1.2话题层

1.2.1向量空间模型(VSM)

话题层的输入是经过数据层预处理后的新闻文本集合。基于时间与正确率的考虑,采用向量空间模型来表示新闻文本。假设Di是一个预处理后的新闻文本,则Di可以表示为(term1,wi1;term2,wi2,…;termk,wik)。wik表示第k个词在文档Di中的权重,采用公式(1)中定义的TF?IDF公式来计算特征词的权重wik。

式中,tfik代表termk在新闻文本Di中出现的次数,idfk代表termk在所有文档中出现的次数。

在经过对大量新闻语料的分析后,发现人物、地点和时间等命名实体是区分不同新闻文本的重要因素[2],而一篇新闻的标题往往就是一篇新闻文本的主旨,所以本文在计算权重时增加了这些词在相应文档中的权重,采用了如公式(2)所示的改进的TF?IDF计算公式。

式中,采用权重系数W来控制wik的大小。在计算命名实体以及新闻标题权重时,需赋予W>1,以提高这些词在相应的文档中的权重;N代表新闻文档的总数。

1.2.2话题检测

话题检测的关键技术是文档聚类算法[9],聚类算法的选择直接影响到话题检测的正确率和召回率。与传统的TDT评测数据相比,本文所处理的海量的新闻文本具有冗余性高、数量庞大、动态更新的特点。

针对互联网海量网页的这些特点,对各种聚类算法进行了深入的研究:基于划分的方法需要预先提供划分的个数;基于密度的方法时间复杂度为O(n2);基于网格的方法算法效率较高,但是聚类的精确度较低[3],等。综合评判后,文中选用了BIRCH(Bala-nced Iterative Reducing and Clustering using Hierarchies)聚类算法[10],因其较好地满足了研究工作的要求:

首先,BIRCH是一种层次聚类算法,不需要预先给出划分的个数,满足互联网上每天产生的热点话题数目不固定的要求。

其次,BIRCH聚类算法的I/O花费与数据量成线性关系,因此BIRCH算法的聚类速度较快,满足互联网上每天海量网页、大数据量、高复杂性的要求。

最后,BIRCH聚类算法具有增量式聚类的特性,当遇到新的文档集时,不需要全部重新聚类,满足话题随着时间而动态更新的需求。

1.2.3话题追踪

话题追踪是整个系统的核心部分,其流程如图2所示。

话题追踪的主要任务是:判断一个话题是否为已有话题。如果是已有话题,则更新该话题信息;反之,如果是首次出现的话题,则将其添加到已有话题集。

话题追踪的关键技术是话题间的相似度计算。一个有效的度量两个话题之间相似度的方法是:如果两个话题在“距离”上越近,则其相似度就越高。基于这个原理,采用了余弦相似度计算公式,即两个话题ti,tj之间的相似度定义如公式(3)所示。

式中,wki是第k个词 在话题 i中的权重,wkj是第k个词在话题j中的权重.。

经过实验后,分析可知两个话题发生的时间间隔越小,是同一话题的概率就越高[5]。基于上述原理,引入了如公式(4)所示的时间衰减函数。

T(ti,tj)=1-tm (4)

公式中,参数m是衰减因子,用来控制衰减速度和话题追踪的最大间隔时间,t代表了两个话题的间隔时间。最终的两个话题之间的相似度计算公式如公式(5)所示。

sim(ti,tj)=cos(ti,tj)+T(ti,tj)(5)

由进一步的实验分析获知:采用公式(5)仍难以区分相似与相同的话题,再经过大量的语料分析,推证可得:命名实体与其他词在确定一个话题时起着不同的作用。命名实体主要描述话题中的时间、地点、人物信息,而其他词则主要描述话题中发生了什么。通过上述分析,提出了基于多重特征的话题追踪模型来计算两个话题的相似度,特征定义如下所示。

(1)利用话题中所有的词,计算两个话题的相似度,定义为d1;

(2)利用话题中命名实体,计算两个话题的相似度,定义为d2;

(3)利用话题中命名实体以外的词,计算两个话题的相似度,定义为d3。

话题相似度的综合计算公式如公式(6)所示。

d=(d1>λ1)∧(d2>λ2)∧(d3>λ3) (6)

λ1,λ2,λ3是设定的阈值,只有公式(6)中的三个特征都满足阈值要求时,即d=1,才认为两个话题描述的为同一话题;如果d=0,就认为两个话题不是相同话题。第三部分的实验证明,本文的话题追踪模型能够有效地区分相似与相同的事件,正确地追踪互联网上已经出现的话题。

1.3分析层

在分析层中,系统根据话题的上榜天数、报道数目等信息计算话题的热度,话题的热度计算公式如(7)所示。

公式中,参数t代表时间单元的总数,ni代表时间单元i内新闻报道的总数,hi代表时间单元i内话题新闻报道的数目,λ是调整因子,ti代表话题出现的时间单元的数目。在此基础上,系统可以根据话题热度指数、新闻报道数量的变化预测话题下一步的发展趋势。

1.4用户层

在用户层中,管理员可以管理自动生成的话题,比如更正话题的摘要、编辑话题的其他信息,增加编辑选择等。普通用户可以通过可视化界面查阅系统检测和追踪到的热点话题。

2实验分析

本文采用腾讯新闻频道报道的从2011-04-01至2011-04-10的8 478个新闻文本作为实验数据。

为了评估系统话题检测模型的效果,本文采用人工识别的话题作为参考标准,采用正确率(正确识别的话题/识别到的所有话题)和错误关联率(被错误分类的文档/总文档数)来评估文中的系统,得到话题检测的正确率为85.3%,错误关联率为5.52%。因此认为该系统达到了实际应用的水平。

为了评估基于多重特征的话题追踪模型(记为M2)的效果,本文选择只基于话题中所有词这一单一特征的话题追踪模型(记为M1)作为比较对象,用正确率、召回率以及F值来评价文中的模型。每两天对话题追踪的结果做一次统计,所得曲线图如图3所示,表1是从2011-04-01到2011-04-10对话题追踪进行统计得到的结果。图4则是由文中设计系统检测和追踪到的两个热点话题。

开展研究的目的是为了帮助用户更加快速有效地从互联网中获取感兴趣的信息,而用户往往只关心几个热点的

话题,所以相对于系统的召回率,用户更加关心系统的正确率。从图3中,可以看到从2011-04-01到2011-04-10,每次话题追踪的正确率与F值均有不同程度的提高,而且通过统计这10天的话题追踪结果(如表1所示),可以看到话题追踪在召回率基本不变的情况下,正确率提高了9.78%,F值也有显著的提高,这得益于文中系统正确地区分了相似的话题与相同的话题。实验结果证明此系统可以有效地追踪到互联网上出现的话题,满足了实际应用的要求。

3结束语

本文设计并实现了一个面向互联网新闻的话题检测与追踪系统,该系统能够适应互联网上的新闻事件冗余性高、数据量大、易漂移、持续时间长的特点,在系统中选择了BIRCH聚类算法用于话题检测,并提出了一个基于多重特征的话题追踪模型。实验结果表明系统达到了实用的程度,能够有效地检测和追踪到互联网上出现的话题,从而帮助用户更加快速有效地获得感兴趣的信息。

参考文献:

[1] 洪宇,张宇,刘挺,等. 话题检测与追踪的评测及研究综述[J].中文信息学报,2007,11(6):71-87.

[2] KUMARAN G,ALLAN J. Text classification and named entit- ies for new event detection[C]// Proceedings of the SIGIR Con- ference on Research and Development in Information Retrieval. Sheffield, South Yorkshire: ACM, 2004:297-304.

[3] Ron PAPKA. On-line New Event Detection, Clustering and T- racking [D]. Amherst: Department of Computer Science, UMA- SS, 1999.

[4] ALLAN J,LAVRENKO V,FREY D,et al. UMass at TDT 20- 00[C]// Proceedings of Topic Detection and Tracking Workshop. USA: National Institute of Standar and Technology, 2000:109- 115.

[5] YANG Y, PIERCE T,CARBONELL J. A study on Retrospec- tive and On-Line Event detection[C]// Proceedings of the 21st annual international ACM SIGIR conference on Research anddevelopment in information retrieval. CMU,USA:ACM,1998:28- 36.

[6] 贾自艳,何海,张俊海,等. 一种基于动态进化模型的事件探测 和追踪算法[J]. 计算机研究与发展,2004,41(7):1273-1280.

[7] 骆卫华,刘群,程学旗. 话题检测与跟踪技术的发展与研究[C]// 全国计算语言学联合学术会议(JSCL-2003)论文集. 北京:清 华大学出版社,2003:560-566.

[8] 宋丹,卫东,陈英. 基于改进向量空间模型的话题识别与追踪 [J]. 计算机技术与发展,2006,9(16):62-67.

[9] MEYER zu EISSEN S,STEIN B. Analysis of clustering algo- rithms for web-based search [J]. Lecture Notes in ComputerScience,2002, 2569:168-178.

[10] ZHANG Tian, Raghu Ramakrihnan and Miron Livny. BIRCH:A New Data Clustering Algorithm and Its Applications[J]. D-ata Mining and knowledge discovery, 1997,1(2):141-182.