首页 > 范文大全 > 正文

领域知识在文本分类中的应用

开篇:润墨网以专业的文秘视角,为您筛选了一篇领域知识在文本分类中的应用范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:该文在领域知识中的概念之间语义关系数量化的基础上,利用概念间的层次结构,根据不同概念的抽象程度,提出具体的量化公式,在类别比较相近情况下有更好的区分能力。

关键词:领域知识;文本分类;层次结构

中图分类号:TP311文献标识码:A文章编号:1009-3044(2011)27-6618-03

Application of Domain Knowledge on Text Categorization

WU Guo-xiang

(College of Minjiang, Fuzhou 350011, China)

Abstract: In this paper, based on thequantification of semantic relationships in domain knowledge's concepts, making use of hierarchical structure of concepts, proposes a specific formula to quantify concepts according to their abstract level, which improves text categorization when the categories are somewhat similar.

Key words: domain knowledge; text categorization; hierarchy structure

面对Internet上日益膨胀的信息,如何快速、准确地从浩瀚的信息资源中寻找到相关内容成了研究热点。文本自动分类已成为一项具有较大实用价值的关键技术,是组织和管理数据的有力手段。传统的文本分类方法常见方法是基于向量空间模型 。

传统分类方法并没有考虑到词之间的语义关系,现实文本中实际用词往往是有关联的,如同义词、上下位关系等,而文档向量空间把文本看作是由一组正交词条向量所组成的向量空间,这种方法的假设前提是词与词之间没有语义上的联系,从而丢失了大量的语义信息,对只有和其他特征同时出现时才对分类有贡献的特征并未考虑。为克服以上不足,不少研究者提出基于领域本体的文本分类方法。

1 相关工作

1.1 本体

本体(Ontology)是一个哲学上的概念,是客观存在的一个系统的解释或说明,关心的是客观现实的抽象本质。Neches,Fikes等人将Ontology 定义为“给出构成相关领域词汇的基本术语和关系,及利用这些术语和关系构成的规定这些词汇外延的规则的定义”。Gruber提出一种比较详细的表达,即ontology是对某一领域中术语及术语之间关系的规范而明确的说明。典型Ontology 包含5 个基本的建模元语,分别为:类,关系,函数,公理和实例。

1.2 Ontology中概念之间关系的量化

文献[1]探讨了一种无需训练文本和特征项抽取的文本分类方法。通过Hownet建立一个Ontology,然后根据分类体系建立每个类的Ontology,将领域本体中概念之间的关系数量化,最后根据每个类的Ontology对文本进行分类。其具体方法为:由知网( Hownet )得到Ontology dict_On,建立每个类C的Ontology 的方法为,dict_On中查找C或与C同义的概念,将dict_On中的关系看作边,概念看作点,那么dict_On可看作一张图,C或与C同义的概念是图中的一些点。以这些点为中心,保留与中心点距离较小的N个节点,得到T_on。

对一个概念来说,和C的关系从某种程度上决定了与该主题的相关程度。在计算T_on中概念与中心点间相关度时采取以下方法:将图中的关系分为四类,分别用R1 ,R2 ,R3 ,R4表示。R1为Similarto关系(同义关系)和Instanceof关系,规定这种关系的权重为w1; R2为PartOf关系(整体部分关系),这种关系的权重为w2; R3为RelationTo关系(相关关系),规定这种关系的权重为w3; R4为subclass关系(上下位关系)和其他关系,规定这种关系的权重为w4。权重衡量的是两个概念由于具有某种关系致使彼此之间相关程度的大小。

相邻两概念之间的距离公式为: Lr=1-wRi (i=1,2,3,4) (1)

公式的含义是如果这条边是关系Ri,边上的距离为1减去这个关系的权重。

各个概念t与该主题C的相关程度为:(2)

(t 为与中心点距离较小的概念,C为某一类别主题,α为可调整参数)。w_len(t,C)看作无向图中两概念之间的最短距离。

1.3 基于Ontology的分类法

基于Ontology的分类法Classify( W_T)

输入:所有类的Ontology,待分类文本W_T;

输出:W_T 所属的类

算法描述:

步骤1:根据第i个Ontology,找出W_T中出现的且Ontology中含有的概念,计算这些概念在W_T中出现的次数;

步骤2:计算W_T与类i的相似度。

(3)

其中Sim(W_T,i) 表示W_T与类i的相关程度。O表示类i的Ontology, ftW_T表示概念t在W_T中出现的次数,wtO 表示概念t与类i的相关程度,由公式(2)Sim(t,C)得到。

步骤3:返回Sim(W_T,i)最大的i ,即为文本W_T所属类别。

1.4 基于领域本体的文本分类

文献[2]中提出基于领域本体的文本分类,如图1是SARS本体的一部分,对于本体树不同层次的概念提出了权值计算公式。本体树中概念的位置决定了其抽象程度,概念的初始权值为

β=h/H (4)

规定根结点的层次为0,h为当前结点的层次,H为包含该结点的分支树的高度。如ConcourseAntisepsis 对应的H为4,h 为2,当结点为非叶子时,其概念权值调整为 W=β/Kn (5)

K为常数 2 ,n 为当前结点到最底端结点(分支中有最长路径的分支)的距离。

由公式(4)和(5),如图1的所有概念权值对应如表1。

2 领域本体层次结构的改进及在文本分类中的应用

2.1 基于Ontology分类算法的不足

文献[1]中对领域内的概念同等对待,在计算W_T与类i的相似度时采用的是,对于上层抽象的概念尽管其类别表征能力比较弱,并没有赋予一个比较低的权重,同时没有突出具有比较强类别特点的低层概念对类别的贡献率。对分类的影响在类别比较相近的时尤为明显。从文献[1]中实验也可以看出,其环境、经济、军事类的召回率处于40%-60%,大部分都被错分到政治类中。

2.2 领域本体中概念权重的计算

本文以领域本体为基础,提出文本特征选取时概念特征权值的改进方法。在领域本体中的概念之间语义关系量化基础上,利用概念间的结构层次特点,根据不同概念的抽象程度,提出其量化公式。

基于领域本体的文本分类即将本体中相关概念和文本中表达的概念进行比较,选出与文本相似度最大的某一类别。领域本体中概念之间的关系数量化为分类提供了一种新方法,领域本体同时提供了概念之间的一个概念树层次结构,图2是某网站新闻网页的主题概念树,本文选取对经济中的农业作细化,我们可以充分利用领域本体的层次结构信息,对于不同层次的概念予以量化,有助于类别的划分。

处于不同层次的概念具有不同的抽象能力,较低层概念是其上层概念的子类或实例,因此对于某一类别的细分,下层概念比上层概念有更强的区分能力。如某篇文本中对于粮食生产与经济对应的概念同时出现对于类别贡献不同,因为比较上层的抽象概念在多类别中出现的概率大于低层的具体概念的出现概率。本文提出以下公式对不同层次概念作出区别:

(6)

Tt 为概念t 的权重,α,K 为可调整参数(可根据实验调整),n 为以当前概念所在结点为根的树的高度,若图1中层次细化到图示为例,如图3。

文献[2]中提出的领域本体层次结构在文本分类中的应用是尽可能将文本表达的主题映射到到具体的概念中,与文[2]不同的是, 本文利用这一层次结构目的是加强本类别中更具体概念表征本类别的能力,同时又不过于削弱上层概念对本类别的贡献。

以α=1,K=1为例, 由公式(6), 则对应概念的权重如图4。

2.3 基于Ontology新的分类算法

利用概念在对应类所形成的概念树中的权重,本文提出基于Ontology分类算法的改进。

基于Ontology分类法改进Classify_w( W_T)

输入:所有类的Ontology,待分类文本W_T;

输出:W_T 所属的类

算法描述:

步骤1:根据第i个Ontology,找出W_T中出现的且Ontology中含有的概念,计算这些概念在W_T中出现的次数;

步骤2:计算W_T与类i的相似度。

其中Sim(W_T,i) 表示W_T与类i的相关程度。O表示类i的Ontology, ftW_T表示概念t在W_T中出现的次数,wtO 表示概念t与类i的相关程度。由公式(2)Sim(t,C)得到,TtO表示概念t在类i中的概念树中权值,由文中的公式(6)得到。

步骤3:返回Sim(W_T,i)最大的i ,即为文本W_T所属类别。

该算法在计算待分类文本W_T与类i的相似度时采用的公式改为:'

,

这样就把概念层次结构中的上下位概念之间区分类别能力予以数量化,进一步挖掘出了本体所含的概念层次信息。

2.4 文本分类的评价

文本分类的评价标准类似于信息检索的评价标准,包括精度(查准率)和召回率(查全率):精度是分类的正确文本数与实际分类的文本数之比。召回率是分类正确的文本数与分类应有的所有文本数的比率。在所选择对相近类别区分时,同时考虑到领域本体中的概念层次结构取得了比较好的效果,同时也有利于某一类别的细分。

3 结论

在领域本体中的概念之间语义关系数量化的基础上,本文利用领域本体所提供的层次结构特点,提出了根据不同概念抽象程度的量化公式,对类别区分有比较大贡献的对应概念赋予更大权值,提出基于Ontology的分类方法的改进。在类别比较相近情况下有更好的区分能力,同时也有利于某一类别的细分。文本征词的权值大小与特征词在文本出现的位置也有关,美国学者P. E. Baxendale 进行过统计,反映主题的短语85%出现在段首、句首等位置, 7%出现在段尾。因而下一步有必要根据特征词在文本出现的位置分别赋予不同权值,进一步挖掘出文本所蕴含的语义信息。

参考文献:

[1] 凌云,魏贵义,刘军.基于ontology的Web 文本分类法[J].情报学报,2006,4.

[2] Huazhen Gu,Kuanjiu Zhou.Text Classification Based on Domain Ontology[J].Journal of Communication and Computer,2006,3(5).

[3] Sabrina Tiun.Rosni Abdullah Tang Enya Kong.Automatic Topic Identification Using Ontology Hierarchy[J].Lecture Notes In Computer Science,2004.

[4] Mu Hee Song,Soo Yeon Lim, Dong-Jin Kang,et,al.Automatic Classification of Web Pages based on the Concept of Domain Ontology[J].APSEC,2005:645-651.

[5] 刘娇蛟,龚丽,李建华.基于本体实现对网页文本的自动主题分类[J].计算机工程,2003,29(11).

[6] 战学钢,林鸿飞,姚天顺.中文文献的层次分类方法[J].中文信息学报,1999(6).

[7] 唐晓文.基于本体论的文本特征提取[J].电脑与信息技术,2005(1).