首页 > 范文大全 > 正文

术语定义的聚类研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇术语定义的聚类研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要:术语定义的领域聚类是一项较新的研究课题。本文采用自下而上的层级聚类的方法,基于知网进行语义相似度计算,并根据不同词类对领域区分的贡献度以及构建领域聚类特有的停用词表来进行聚类的特征项选取,实现了术语定义的领域聚类。实验取得了较好的聚类结果。

关键字:术语,术语定义,语义相似度,领域聚类

中图分类号:H083;N04 文献标识码:A 文章编号:1673-8578(2011)01-0014-05

Cluster Research on Term Definition

ZHANG Rong

Abstract: Domain clustering of term definition is a relatively new research topic. In this research, we took bottomup hierarchical clustering method for semantic similarity calculation based on HowNet, and selected clusterspecific characteristics based on words with different contribution to clustering and stopused words constructing domain cluster. Our results realized the domain cluster of term definition, and achieved a desired experimental result.

Keywords: term, term definition, semantic similarity, domain clustering

一 前言

新事物、新概念的出现带来了大量的术语及术语定义。对术语定义进行分类加工,按领域划分为不同的类别,有利于领域学科专家建立领域术语数据库,以及系统地研究领域术语之间的概念层次关系、语义关系,提高术语检索的准确率与知识的系统化加工的效率。

由于术语在领域之间的相互借用,使得有些术语可以在多个应用领域被使用,这些术语在不同的领域具有不同的义项。以“病毒”这一术语为例,“病毒”可以是生物领域的“病毒”,也可以是计算机领域的“病毒”,而两个领域的“病毒”显然是不同的义项,当有若干条“病毒”定义时,如何从中鉴别出哪些是生物领域的病毒定义,哪些是计算机领域的病毒定义,需要人工的参与。我们以几组同名术语定义为例来阐述术语定义领域聚类的必要性。例如:

1.病毒

病毒是一种可以在其他生物体间传播并感染生物体的微小生物,一般包含核酸以及外壳蛋白,有些动物的病毒的外面也偶尔覆盖一层细胞膜。

计算机病毒是指编制或者在计算机程序中插入的破坏计算机功能或者毁坏数据,影响计算机使用,并能自我复制的一组计算机指令或者程序。

2.防火墙

防火墙:用于将因特网的子网与因特网的其余部分相离,以达到网络和信息安全效果的软件或硬体设施。

防火墙:两所房子之间或者一所房屋的两个部分之间的厚而高的墙,可以防止火灾蔓延。

3.蠕虫

蠕虫是指一种可以不断复制自己并在网络中传播的程序。

蠕虫是无脊椎动物的一大类,构造比腔肠动物复杂,身体长行,左右对称,质柔软,没有骨骼,没有脚。

4.树

树是指生成语法采用的一种二维图形表示,能方便地显示由一组规则生成句子的内部层级结构。

树是木本植物的统称。

例1中的“病毒”分别是生物领域的术语和计算机领域的术语;例2中的“防火墙”分别是计算机领域的术语和建筑领域的术语;例3中的“蠕虫”是属于计算机领域的术语和生物领域的术语;例4中的“树”分别是计算机领域的术语和通用领域的词语。

在领域数据库的构建和用户的使用过程中,有必要将这些定义区分开来。通过聚类将计算机科学术语聚合在一起,将生物学术语聚合在一起。但是当待处理的数据足够庞大时,人工将这些术语定义进行领域分类,将耗费大量的人力、物力,因此本文提出了计算机自动处理的术语定义的领域聚类方法。

二 术语定义聚类的流程

聚类是知识发现的重要方法,通过聚类,能够发现事物的内部规律和特征。聚类没有事先预定的类别,类别数在聚类过程中自动生成,无需人工标注和预先训练分类器。聚类作为一种无监督的机器学习方法,具有较高的灵活性和自动化处理能力[1]。本文聚类的具体过程如下图所示:

三 特征项选取

术语定义集,由汉语词法分析器ICTCLAS进行分词和词性标注,进入特征项选取阶段。术语定义聚类的过程是将相似的一组定义归为一类,如何将术语定义的文本内容转换成计算机可处理的形式,从而用于计算定义之间的相似度是整个聚类过程的关键。

本文通过将术语定义用词与普通文本用词对比发现,术语定义中的名词与普通文本中的名词具有很大的差别。在领域的判别过程中,定义句子中的名词起到的支持作用最大。考察其他词性的词语在两种文体上用词的区别,发现术语定义中的动词与普通文本中的动词的差别相对较小一些,但依然具有领域的区分度,应该作为聚类的特征,这些词性对术语定义的领域所属类别的判定,也起到了一定的贡献作用。形容词、副词对领域聚类的贡献度不大,不作为聚类的特征。

1.名词的领域区分度

术语定义的领域分类,也就是将被定义的术语做一个领域分类,被定义项属于什么领域,那么该术语定义就属于什么领域。术语在词性上大都是名词或者名词短语。定义句子中的名词对区分被定义项属于哪个领域具有最大的支持度。比如:

“卵磷脂是血管的清道夫:能将附着在血管壁上的胆固醇,中性脂肪乳化成微粒子,溶于血液中并运回肝脏而被代谢,从而改善血清脂质,清除过氧化物,使血液中胆固醇及中性脂肪含量降低,防止由胆固醇引起的血管内膜损伤。”

“胆固醇是体内最丰富的固醇类化合物,它既作为细胞生物膜的构成成分,又是类固醇类激素、胆汁酸及维生素d的前体物质。”

“核酸是细胞内的生物大分子,是细胞的核心物质,由脱氧核糖核酸(DNA)和核糖核酸(RNA)组成。”

上面三个定义中的“血管”“肝脏”“细胞”“生物”“分子”“维生素”等词对领域聚类起到了绝对的支持作用。

2.动词的领域区分度:

“语音信号处理是指语音信号输入计算机后对其进行分析处理的过程,语音通过话筒转换成电信号,再经放大或转换变成数字信号,用模式分类方法分析和识别这些信号。”

“二值化是指把一组数据按一定的规则映射为0或1的过程。”

“汉字信息处理是指用计算机对汉字表示的信息进行操作和加工,如汉字的输入、存储、识别、生成和输出等。”

上面三个句子中的动词“输入”“分析”“处理”“转化”“识别”“映射”“操作”“加工”“存储”“生成”“输出”对领域类型判别,起到了支持作用。

连词、介词和虚词对领域聚类几乎不起任何的作用,因此也可以认定,这些词性的词不具有领域区分度。

另外,还有一些词语不具有领域区分度,比如“所谓”“也就是”等等,这些作为停用词存在。

由于本文的目的是将术语定义按照领域聚类,所以特征项的选取,与普通文本聚类有所区别。我们通过停用词过滤以及定义用词的词性过滤将对领域聚类贡献极小的词语过滤掉,不参与到聚类的计算。

本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文

四 定义相似度的计算

术语定义领域聚类的本质就是通过计算术语定义之间的句子相似度,将句子相似度高的术语定义划分为一类,将相似度低的句子划分到不同的类。相似度是一个很复杂的概念,不同应用领域对相似度有不同的界定。相似度计算的常用方法有基于向量空间模型的TF/IDF方法以及基于语义的方法。向量空间模型的方法把文本看成为词的线性序列,不考虑词语之间的相互关系,不对语句进行语法结构分析,只考虑了利用句子的表层信息;而基于语义的方法则是对文本进行语义分析,属于深层结构分析法[2]。

本文的聚类方法是基于语义相似度,在计算相似度的过程中,将句子作为一个词语的集合进行处理。这样句子的相似度计算就转化为集合之间的相似度计算。本文采用刘群的集合相似度的计算方法[3]来计算句子的相似度:

输入:待聚类的定义集合(n个定义)

1) 初始化成n类使每个类包含一个定义;

2) 计算所有n个类两两之间的相似度;

3) 找出相似度最大的两个类合并成一个类,n=n-1;

4) 重复步骤2、3直到最大的相似度小于设定的阈值或最后只有一类时停止。

六 聚类结果分析

术语定义的聚类实验结果使用准确率来进行评价,用公式表示如下:

P=聚类正确的定义数目要聚类的定义总数×100%(公式4-5)

本文从中国标准化研究院提供的术语数据库语料中随机抽取1000条术语定义来做实验,聚类结果被分为19类,其中被正确分类的术语定义778条。实验的聚类正确率为77.8%。

本文选用知网作为术语定义领域聚类的知识库是因为知网里具有大量区分不同领域的义原。例如:commercial|商、medical|医、computer|电脑、education|教育、weather|天象、politics|政、information|信息、agricultural|农、industrial|工、AnimalHuman|动物、animate|生物、chemical|化学物、material|材料、vehicle|交通工具、MusicTool|乐器、machine|机器、music|音乐、sport|体育、law|律法等。这些义原对定义的领域区分与判别起到了很大的支持作用。

实验中我们也发现使用知网进行领域聚类的局限性。由于知网使用的义原的个数为2200个,但是它所涵盖的词语达65 000条,概念达80 000多。义原的个数远远小于词语和概念的个数,这样就出现多个概念之间共用同一个义原的情况,影响了领域聚类的准确度。

我们以“phenomena|现象”这个义原为例进行分析,包含该义原的词语有:白色恐怖、雹灾、饱嗝儿、暴洪、悲欢离合、弊病、表面现象、兵荒马乱、病虫害、波谱、擦网球、差错、车流、春寒等。显而易见,在聚类的过程中,这些词语由于共用一个“phenomena|现象”义原,而且该义原在大多数情况下属于第一基本义原,被赋予了一个较高的权重,通过词语的相似度计算,这些词语之间容易获得较大的相似度。由于句子的相似度是建立在词语相似度基础之上,进而又影响到句子的相似度计算,影响了聚类的结果。

同时知网中部分词语的义原描述不够详尽,无法提供对领域聚类的足够支持。例如,飓风只有一个义原描述“wind|风”;泥石流同样只有一个义原描述“stone|土石”。这两个词语属于自然现象,但知网的知识库却不能提供领域聚类的支持。

词条的完备性也会产生一定的影响,由于术语定义中包含的术语较多,有些词语未被知识库所收录,中文是一个开放集合,知网也并不能涵盖所有词语。可见一个知识库的构建是项非常艰巨的工作,同时它的构建总会受一些主观因素的影响。因此,借助知识库进行自然语言处理的相关工作既有可操作性又有其局限性。

七 结束语

术语定义的领域聚类的研究相对来说是一个新课题。定义的自动聚类有助于系统化地研究某个特定领域的术语以及术语定义的词汇、句法,以及语义的内在固有规律。对领域术语库的建设、领域知识的提取与研究具有一定的理论意义和应用价值。将同属于一个领域类别的术语定义划分到一类,不仅可以自动区分开不同领域的同名术语,而且可以集中得到一批同领域的术语定义,对特定领域的术语研究提供了方便。术语定义聚类与通常的文本聚类、句子聚类不同,本文通过考察不同词类对于领域区分程度的差异,作为聚类领域特征的选取准则,将不具有领域区分程度的词类排除在聚类计算过程之外,通过自底而上的层级聚类的方法,有效地解决了术语定义的领域聚类问题。

参 考 文 献

[1]赵世奇,刘挺,李生.一种基于主题的文本聚类方法[J].中文信息学报,2007(2):58-61.

[2]赵妍妍,秦兵.基于多特征融合的句子相似度计算[G]. 全国第八届计算语言学联合学术会议(JSCL-2005).2005:168-174.

[3]刘群,李素建.基于知网的词汇语义相似度计算[J].Computational Linguistics and Chinese Language Processing,2002,7(2):59-76.

[4][EB/OL]www.省略.

[5]许石,樊孝忠,张锋.基于知网的语义相关度计算[J].北京理工大学学报,2005(5):411-414.

[6]姚清耕,刘功申,李翔.基于向量空间模型的文本聚类算法[J].计算机工程,2008(9):39-41.

本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文