首页 > 范文大全 > 正文

文本分类技术研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇文本分类技术研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:文本分类作为机器学习和信息检索之间的交叉学科,涉及到多个领域的技术。它的完善有赖于各个相关领域的技术发展和提高,该文介绍了文本分类过程中的各个关键技术和存在的问题,讨论了文本表示模型、分类算法、分类器性能评价原理和方法,最后并对今后的发展进行了展望。

关键词:文本分类;分类算法;VSM(Vector Space Model);语义网络;特征提取

中图分类号:TP354文献标识码:A文章编号:1009-3044(2009)32-9023-03

Research of Text Categorization Technique

CAO Feng, ZHANG Dai-yuan

(School of Computer, Nanjing University of Posts & Telecommunications, Nanjing 210003, China)

Abstract: As an intersection of machine learning and information retrieve, text categorization refers to technology of multi-field. Its improvements rely on the technology development of multi-fields. In the paper, key technologies and problems of text categorization are presented. The model of text representation, algorithm of text categorization and text categorization classifier evaluation are discussed. In the end, the prospect of categorization techniques is given.

Key words: text categorization; categorization method; VSM(vector space model); semantic network; feature selection

文本分类是信息检索技术的一个重要研究领域,它主要是用来对信息进行标注分类,帮助人们高效率的组织和管理文本信息。这一技术被广泛的应用到自动文摘(Automatic Document Indexing)、文本过滤(Document Filtering)、词义消歧(Word Sense Disambiguation)和文档组织(Document Organization)等多个领域 。

1 文本分类过程

按照文本分类过程中各个处理的先后秩序,我们可以简单的把文本分类划分为,文本分类预处理阶段;文本分类训练、选择阶段;文本分类评价阶段。其各个阶段所涉及的技术可以简单的由表1给出。

2 文本预处理

人在阅读文章的时候,可以根据自己对文章内容的理解、分析来对文章所属的类别进行判断,而当把文章交给计算机时,计算机是无法对文章的内容形成自己的理解的,它只能对文章进行简单的存储,或根据一定的规则进行机械的计算。如果让计算机对文本进行分类,那么摆在面前首要的问题便是如何把文本表示成计算机能够按规则处理的形式,也就是我们说的文本表示模型。目前文本表示模型可以分成两大类,一类是符号表示模型,另一类是语意表示模型。

2.1 符号表示模型

符号表示模型中对文本仅仅进行符号层面的建模,忽略文本词义的连贯性,和单词之间的联系,把各个单词看成是互不相关独立的信息体。目前主流的文本表示模型Salton提出的向量空间模型(Vector Space Model)就是符号表示模型的一种。在该模型中,文档空间被视为一组正交词条向量张成的向量空间,每个文本di都可以映射为此空间中的一个特征向量,V(di) =((ti1 , wi1) , (ti2 , wi2) , …, (tin , win))其中tij为词条项权重wij表示特征项tij对文本di分类的贡献程度(例如词频),文本di简化为以特征项权重为分量的向量(wi1, wi2, … , win )表示,文本的分类问题转化为向量空间中向量夹角计算的问题,大大减小了问题的复杂性。计算两个文本相似程度也就转化为计算两个文本向量夹角的余弦值:

2.2 语义表示模型

语义表示模型是有别于符号表示模型的另一种模型。由于符号表示模型具有机械性和语义的隔断性,其分类的精度和分类的灵活性受到了一定的影响,因此为了提高分类的准确性,文本的语义表示模型也开始蓬勃发展。目前这方面研究比较突出的是WordNet,语义网络以及本体论(Ontology)。WordNet是由Princeton大学的心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是光把单词以字母顺序排列,而且按照单词的意义组成一个“单词的网络”,但是对于概念间的关系推理支持不够,因此同基于词的符号模型比较来说,虽然有了进步,但仍然有限。语义网络(Semantic Network)常被用作知识表示的一种形式。它是一个有向图,图的顶点代表概念,而边则用于表示这些概念之间的语义关系。它专注于概念之间的关系与推理研究,由于没有一个统一的知识工程作为基础,虽然在关系建模方面有所建树,但应用的领域十分狭窄,前期的知识建模工程浩大,很难投入到实际应用中去。本体论力图构建一种统一的语义模型,当有新的领域加入时,可以方便的利用本体论框架让领域专家构建起领域知识模型。这样随着越来越多的领域知识的构建,可以逐步构建起一套完整的计算机语义模型。目前本体论的研究刚刚起步,有各种各样基于本体论的模型。国内现在比较有影响力的是知网。

知网是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念之间以及概念所具有的属性之间的基本内容的常识知识库。使用义原的组合来标注各种各样的单纯或复杂的概念,其标注时按其特征的重要性从大到小顺序来定义概念。知网概括了八百多个事件义原,通过义原的组合来标注各种各样的单纯的或复杂的概念,以及各个概念与概念之间、概念的属性与属性之间的关系。现在知网已经初具规模,其应用现在也蓬勃发展。

2.3 分词技术

在文本的向量空间模型中一项重要的技术便是分词,只有对文本进行准确的分词,文本在表示成词条向量时才能尽可能的带有文本所属类别的信息,也才能保证对文本进行准确的分类。目前中文分词技术经过20多年的发展已经日趋成熟。其主要有基于字符串匹配的分词,基于统计的分词,基于理解的分词等分词技术。目前中文分词处于领先的是中科院的ICTCLAS分词系统,这个分词系统已有多个语言版本处于应用阶段。

2.4 文本特征提取技术

一篇文章中可能出现大量的词汇,如果把这些词全部加入的词条向量中,那么向量的维数将是难以处理的,怎么样选取词汇加入到词条向量中,使得这些词汇最大可能的带有文本的特征属性,而又不致使得词条向量的维数过大,便是文本特征提取技术所要解决的问题。文本特征提取主要有以下技术:

文档频次(DF):文档频次是指有该词条出现的文档数量。在训练文本集中对每个词条计算它的文档频次,并且剔除在特征空间中文档频次小于预先定义的阈值的词条。文档词频是缩减词条的最简单的方法。它通过在训练文档数量中计算线性近似复杂度来衡量巨大的文档集,该方法通常被认为是一个提高效率的特别方法,而不仅仅是一个选择特征词的规则标准,因为在信息提取中有一个广泛承认的规则标准。低的文档频次被认为和文本分类任务不相关。

信息增益(IG):信息增益在机器学习中经常被用作特征词评判的标准,它是一个基于熵的评估方法,涉及较多的数学理论和复杂的熵理论公式,定义为某特征在文档中出现前后的信息熵之差。假设有词条t和类别系统c,c中有类别ci(i=1,2,…,n)。则词条t信息增益值的计算公式如下:

互信息(MI):互信息衡量的是某个词和某个类别之间的统计独立关系,它普遍应用在相关词统计语言建模中。假设有词条t和类别c,互信息定义如下:

其中P(t∧c)表示为单词t和类别c同时出现的概率,P(t)为单词t出现的概率,P(c)为类c出现的概率。如果某个词和某一类别在分布上统计独立,那么P(t∧c)=P(t)×P(c)从而I(t,c)=0也就是说词条t不含有c类别的信息量。在实际计算中,这些概率可以用训练集中相应的出现频率予以近似。定义t和c在训练集中的同现频率为A,N为训练集中文本的数目,B为t在训练集中出现的文本频数,C为c在训练集中出现的文本频数,那么互信息I(t, c)可以近似为

3 文本分类算法

从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中。该映射可以是一一映射,也可以是一对多的映射,因为通常一篇文本可以同多个类别相关联,用数学公式可表示为f: A―>B,其中A为待分类的文本集合,B为分类体系中的类别集合。f为A到B的映射文本分类的映射规则是系统根据己经掌握的每类若干样本的数据信息,总结出分类的规律性而建立的判别公式和判别规则。当遇到新文本时,根据己经总结出的判别规则,确定文本相关的类别。

从数据挖掘的角度来说,自动分类是一个有指导(supervised Learning )的学习过程。在这个学习过程中,它根据一个己经被人工处理过的训练文本集合(Training set )去挖掘出文本属性和文本类别之间的关系模型,然后跟据学习得到的这种关系模型对新到来的文本测试集合(Test set)进行自动的类别判断。文本分类算法主要有以下几类:

3.1 K-最近邻分类法(K_Nearest _neighbor)

这是一种基于统计的分类方法,它通过计算文本之间的相似度,来达到分类的目的。K-邻近算法的分类过程是先找到和待分类文本最相似的K个已分类文本,根据这K个文本的类别来判断待分类文本的类别值。在算法中K为一个由用户指定的参数,这个参数是一个经验值,在实际的系统中,待分类文档会计算它与所有文档间的相似度,然后对这个相似度进行排序,再取出K个文本。所以K的大小不会影响到系统的整个性能。K-邻近算法是一种惰性学习算法,因为在训练阶段K-邻近算法并没有作很多工作,仅仅将训练文本表示成向量形式。当进行分类时计算量较大,一是要计算文档之间的相似度,二是要排序。所以分类阶,该算法运行期间可能消耗大量的系统资源,不能满足响应速度快的要求。K-邻近算法分类时计算复杂度和训练集中的文档数目成正比,也就是说,如果训练集中文档总数为n,那么K-邻近算法的分类时间复杂度为O(n)。

3.2 朴素贝叶斯分类方法(NB)

这是一种利用概率模型来进行文本分类的方法。其基本思想是:首先计算出特征词条属于每个类别的先验概率,在新文本到达时,根据特征词的先验概率计算该文本属于每一个类别的后验概率,最后取后验概率最大的类别作为分类结果。朴素贝叶斯分类方法是基于贝叶斯假设的,即文档中的词汇在确定文本类别的作用上相互独立。

3.3 支持向量机方法(SVM)

支持向量机方法是由V.Vapnik与其领导的贝尔实验室的小组一起开发出来的一种机器学习技术,它是基于线性模型的一种算法。SVM的理论基础来自于从冲Vapnik等提出来的统计学习理论。它的基本思想是,对于一个给定的具有有限数量训练样本的学习任务,如何在准确性和机器容量进行折中,以得到最佳的推广性能。它采用结构风险最小化(Structural Risk Minimization)原则。

3.4 神经网络方法

神经网络是随着信息技术的发展,尤其是人工智能的产生和发展而兴起的一门新兴学科,已有许多中外学者对某些结构的神经网络做了一定的研究。神经网络分类算法是网络模型的一种代表算法,它的基本思想是一组连接的输入/输出单元,输入单元代表词条,输入单元表示文本的归属值,单元之间的连接都有相应的权值,训练阶段,通过某种算法调整权值,使测试文本能够根据调整后的权值正确地学习。20世纪80年代中期,Rumelhart等人提出了一种误差反向传播(BP)的多层人工神经网络(ANN)学习算法,它是被采用最多的网络之一,具有很强的自学习、自适应、自组织能力,通过对有代表性的样本的学习能掌握被学习对象的内在规律。也是目前用于文本分类最多的神经网络算法。

当然除了以上的几种分类算法外还有最小平方拟合算法(LLSF),线性回归模型,决策树(Decision Tree)等。

4 性能评测

文本文类器的性能评测在文本分类系统中有非常重要的作用,它是文本分类器设计好坏的重要评测指标。文本分类系统最为客观,也是最为重要的指标有以下几个:

查准率(precision)=正确分类到c类中的文档数/分类到c类中的文档总数×100%

查全率(recall,也叫召回率)=正确分类到c类中的文档数/应当分类到c类中的文档总数×100%

F1测度=(查准率×查全率×2)/(查准率+查全率)

上述三个性能指标是目前学术界公认的比较重要的分类器的评测指标,其中F1测度是对查准率和查全率的综合衡量。

除了上述三个指标外,还有两个对分类器整体性能进行评测的指标,宏平均和微平均。

宏平均:将Precision、Recall、F1测度在单个类别上的数值进行平均,则分别得到它们的宏观平均值。

微平均:它是分类器在整个测试集上做出的分类中正确的比率,在各类上正确分类的文档数与分类器分类的总文档数之比,是在整体上来平均。

5 结束语

文中介绍了从文本表示,特征选择,分类算法,分类器性能评价等各个方面的关键技术。并分析了各个技术的优缺点。文本分类技术是信息归类和信息获取中都有很重要的应用。目前文本分类的更进一步精确和灵活还要依赖于自然语言领域的研究进展,机器学习和数据挖掘领域理论和技术研究的深入。当前,互联网风起云涌,每天都会有大量的新的网页出现在网络上,对这样的内容进行整理分类,势必将成为文本分类相关研究和应用的重点和主要突破方向。

参考文献:

[1] Salton G, Wong A, Yang C S.A Vector Space Model for Automatic Indexing[J].information retrieval and language processing.1975(18):613-620.

[2] 董振东,董强.知网..1999

[3] Yiming Yang,Xin Liu.A Re-examination of Text Categorization Methods[C].In Proceedings of the 22t h Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'99),1999:42-49.

[4] Joachims T.Text Categorization with Support Vector Machines:learning with many relevant features.In The 10th European Conference Machine Learning,New York:Springer.1998:137-142.

[5] Shao Fu-bo, He Guo-ping, Zhang Xin.An Improved Algorithm for Multiclass Text Categorization with Support Vector Machine[C].International Symposium on Computational Intelligence and Design.2008:336-339.

[6] 刘丽珍,宋瀚涛.文本分类中的特征选取[J].计算机工程,2004,30(4):14-16.

[7] 邹涛,王继成,黄源,等.中文文档自动分类系统的设计与实现[J].中文信息学报,1999,13(3):26-32.

[8] 崔伟东,周志华,李星.支持向量机研究[J].计算机工程与应用,2001(1):58-61.

[9] 刘钢,胡四泉,范植华,等.神经网络在文本分类上的一种应用[J].计算机工程与应用,2003(36):73-75.