首页 > 范文大全 > 正文

数据抽取中文本分类分析与研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇数据抽取中文本分类分析与研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

【摘 要】在数据抽取中,主要是对文本的处理。文本分类是文本处理的基本过程。文本分类技术同时还在自然语言处理、信息检索、文本挖掘等领域都有着广泛的应用。经过分类后的文本可以减少用户甄别信息时间,满足不同用户需求,发挥信息自身其最大使用价值。

【关键词】向量;信息增益;特征项

0 引言

Web信息抽取技术可以大大的缩短人们对资料的整理时间,为信息检索提供方便,有利于现实文档的存档管理。而Web信息抽取技术所抽取的内容主要为文本,不断迅速发展的互联网可以被看作是十分巨大的文档库,大量的文档信息通常分散存放在不同网站上,它们具有不同的表现形式。为实现数据抽取,首要任务是需要将文本分类处理。

1 文本的表示方法

普通的文本是无结构的,为了让计算机分析它们所属的类别,需要将文本转化成可被处理的结构化形式,目前应用最广泛方法的是向量空间模型,基本思想是把文档表示向量空间中的一个向量。特征项必须具备一定的特性:

1)特征项要能够准确标识文本内容,表征文本的主题信息;

2)特征项具有将目标文本与其他文本相区分的能力;

3)特征项的在数量上不能太多,且出现频率适中;

4)特征项要容易从文本中分离,具有明确的语义。

中文文本类中最常用的是采用词语作为文本的特征项。词语有几个优点:相对于字具有更强的语义信息歧义较少;相对于短语,词更容易从文本中进行切分。词语由于含了多个文字组合,在文本中出现的频率较低,不适合作为特征项。

文本中关键字出现的频率统计量用x表示,最高关键字出现频率取值为1,其它关键字频率取其与最高关键字出现次数的比值。页面向量空间表达式为:Dt(x1w1,x2w2,…,xnwn),i=1,2,…,n。关键字构成的主题向量Dk=(w1,w2,…,wn), i=1,2,…,n。网页文本Dt与领域主题Dk之间的内容相关度Sim(Dt,Dk)使用向量夹角余弦值表示:

sim(D■,D■)=cos?兹=■

=■

选择合适的多个特征词构成特征向量来表征所在的文本主题,使用特征向量作为文档的中间表示形式进行相互比较,降低了文本相似度算法复杂度。

2 文本特征的选择

待分类的网页文本中往往包括很多词语,这些词语对分类没有太大帮助,未经筛选特征项集合规模较大,文本特征向量维数较高给计算带来困难。需要提取一个能够很好地概括领域相关网页内容的特征子集,同时该子集要求能很好的区分领域主题。领域关键词是从领域文本集中经过算法选取出来的,能够高度概括和体现领域文本基本内容的词语。本文将这些词语通过特征提取算法选择出来构成空间向量。目前常用的特征选择方法有CHI统计、信息增益和互信息等。

2.1 CHI统计

CHI统计方法衡量词语t和文档类别c之间的依赖关系,并假设t和c之间的非独立关系符合具有一阶自由度的x2分布。词条对于某类别的x2统计值越高,表明它们之间的相关性越大,特征词t对类别c表征能力越强。令N表示训练语料中的文档总数,c为某一特定类别,t表示特定的词条,A表示属于类别c且包含t的文档频数,B表示不属于类别c但是包含t的文档频数,C表示属于类别c但不包含t的文档频数,D是既不属于c也不包含t的文档频数。则t对于类别c的CHI值由下列计算:

x2(t,c)=■

2.2 互信息

互信息的基本思想:以词条t和类别ci之间的共同出现程度来表示词条t与类别ci的相关程度。词条对于类别的公共概率越大,它们之间的互信息也越大。假设p(t,ci)表示训练集合中既包含特征t又属于类别ci的文本出现的概率,p(t)表示包含特征t的文本在训练集合中出现的概率,p(ci)表示训练集合中属于类别ci的文本的概率,A为包含词语t且属于类别ci的文本数,B为为包含词语t且不属于类别ci的文本数,C为类别Ci中不出现特征t的文本数,N为文本总数,则特征t与类Ci之间的互信息定义为:

M(t,c■)=log■=log■≈log■

为了衡量一个特征在全局特征选择中的重要性,计算特征提供的关于类别信息的加权平均值。

2.3 信息增益

信息增益方法的基本思想是:通过计算某个特征词语存在与否对文档的信息熵的差值来判断该特征词的类别表征能力。具体方法是把训练文档集D看作按某种概念分布的信息源,依靠文档集的信息熵和文档中词语t的条件熵之间信息量的增益关系确定该词语在文本分类中所能提供的信息量。

3 中文文本分类方法

文本分类的方法中要有贝叶斯分类、支持向量机、K近邻等方法。

3.1 朴素贝叶斯文本分类

贝叶斯分类器其原理是计算文本属于某个类别的概率,将文本分到概率最大的类别中去,计算时,利用了贝叶斯公式:

P(c■|d■)=■

P(ci)是类的先验概率,P(dx|ci)是类的条件概率。对同一篇文本,P(dx)不变。设dx表示为特征集合(t1,t2,..,tn),n为特征个数,假设特征之间相互独立,则有:

P(d■|c■)=P(t■|c■)×P(t■|c■)×…×P(t■|c■)=■P(t■|c■)

其中P(tj|ci)为特征词的条件概率。

贝叶斯分类器因具有容易实现,运算速度快的特点而被广泛使用。

3.2 K近邻

K近邻分类算法是一种非参数的分类技术, 在基于统计的模式识别中非常有效。

基本原理是通过计算待分类文档与训练文档集所有文档之间的相似度,找出K个与待分类文档距离最相近的样本,即K个邻居,并依据这K个邻居所属的类别来判定待分类文档的类别。先比较待分类文档与其k个邻居的相似度,并以此作为候选类别的权重,然后使用预先得到的相似度的阈值,就可以得到文档的最终所属类别。

4 结束语

文本分类技术在自然语言处理、信息检索、文本(下转第209页)(上接第143页)挖掘等领域都有着广泛的应用,其主要任务是在预先给定的主题类别标记集合下,根据文本内容判定它所属的类别。文本分类是许多数据管理任务的重要组成部分,基于文本分类技术的应用领域越来越多,自动论文摘要,数字图书馆、网络分类新闻组、文本过滤、机器翻译等获得大量应用。同时,经过分类后的文本可以减少用户甄别信息时间,满足不同用户需求,发挥信息自身其最大使用价值。

【参考文献】

[1]郑庆华,刘均,田锋,等.Web知识挖掘理论、方法与应用[M].科学出版社,2010,6:136-140.

[2]蒲筱哥.基于Web 的信息抽取技术研究综述[J].现代情报,2007,10:215-219.

[3]陈钊,张冬梅.Web信息抽取技术综述[J].计算机应用研究,2010,12.

[4]刘伟,孟小峰,孟卫一.Deep Web数据集成研究综述[J].计算机学报,2007,30(9): 1475-1489.