首页 > 范文大全 > 正文

术语工作中文本挖掘方法的应用探索

开篇:润墨网以专业的文秘视角,为您筛选了一篇术语工作中文本挖掘方法的应用探索范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:研究了信息管理与知识管理科技名词术语的审定工作方法。该工作由全国科学技术名词审定委员会主管并委托国家自然科学基金委员会管理科学部完成。工作内容主要包括三个连续的阶段:(1)确定领域的收词范围,(2)确定术语定义,(3)确定术语的英文名称。介绍了在每一阶段所使用的工作方法、发现的问题与解决办法。目的是向从事术语审定工作的专家汇报工作,总结工作经验,并征求意见。

关键词:术语审定,信息管理,知识管理,文本挖掘

中图分类号:N04;TP3 文献标识码:A 文章编号:1673―8578(2011)04―0009―08

引言

科学技术名词的审定和规范化工作是一个国家发展科学技术所必需的基础条件之一,对促进科技发展,保障语言健康有着重要作用和意义。为了规范科技名词,国务院于1985年批准成立了全国自然科学名词审定委员会(现名为全国科学技术名词审定委员会,以下简称全国科技名词委),授权全国科技名词委代表国家审定和公布科技名词。经全国科技名词委公布的名词具有权威性和约束力,全国各科研、教学、生产经营以及新闻出版等单位须遵照使用。

2008年,全国科技名词委主管并委托国家自然科学基金委员会(以下简称国家自然基金委)管理学部进行管理类科技名词的审定。受国家自然基金委的委托,由大连理工大学系统工程研究所所长党延忠教授领导的课题组审定了管理类中有关信息管理与知识管理领域的术语。该领域按照核心内容划分为七个子领域:(1)管理系统工程,(2)管理信息系统,(3)决策支持系统,(4)信息资源管理,(5)电子商务,(6)知识管理,(7)图书馆、情报和档案管理。

在全国科技名词委的《科学技术名词审定的原则及方法》(以下简称《原则及方法》)指导下,课题组依据国家自然基金委组织的审定工作流程,发挥课题组成员熟悉机器学习文本挖掘技术的优势,采用人机结合的方式完成了本领域术语的初步审定工作。此次,信息管理与知识管理领域初步确定了1001个术语,其中,管理系统工程子领域120个术语,管理信息系统子领域198个,决策支持系统子领域137个,信息资源管理子领域154个,电子商务子领域152个,知识管理子领域182个,图书馆、情报和档案管理子领域58个。

对每个子领域,课题组使用了相同的工作原则和方法分别审定其术语,审定工作主要分为三个阶段:(1)确定收词范围,(2)确定术语定义,(3)确定术语的英文名称。按照工作内容、工作方法和工作总结的顺序,下文将分阶段依次介绍和总结上述三个阶段的工作情况。

本文目的在于,向术语审定与术语标准化领域的专家、信息管理与知识管理领域的专家汇报工作,并为全国科技名词委今后开展其他领域科学技术名词的审定工作提供些许知识的共享。如无特别说明,下文中采用“术语”来代替“科学技术名词”。

一 确定收词范围

(一)工作内容

确定收词范围是术语审定工作的第一步。收词范围要能够反映领域的概念体系,每一个领域专有概念,包括领域内通用的概念和新涌现的概念,都应该有其对应的术语被收录。由于人们对客观世界的认识有一个渐进的过程,新概念层出不穷,过时概念不断出局,所以收词范围要能够描述领域最新的概念集合,使得人们能够通过术语表达的符号世界正确理解领域的客观世界。

该部分工作的内容是确定审定的对象,即确定收录术语的集合。工作步骤一般为:(1)从各类文献中收集术语。(2)选择这些术语定的一部分作为收词范围。工作方法一般是:首先阅读大量的现有文献,如学术专著、大专院校教材、各类辞书、专利文献、科技文献资料、国家标准等,从中收集得到一个较广泛的术语的集合;然后由专家讨论选定其中的一部分术语,即一个子集,作为领域专有术语添加进收词范围,其余的则删除不用。在全国科技名词委以前进行的领域术语审定中,确定收词范围这一阶段的工作几乎完全以人工手动的方式完成。

全国科技名词委在《原则及方法》中制定了详细的术语选择原则,如图1所示:

由于一个概念往往可以有几个不同的名称,这就产生了术语的同义现象。同义现象会导致术语使用的混乱,在术语审定工作中,应该尽量减少术语的同义现象。因此,在确定收词范围时,除了图1所列的选词原则之外,还需要遵循《原则及方法》制定的关于定名的单义性原则,即一个领域概念应确定唯一的一个中文名称作为与之相对应的领域专有术语,其他还在使用的中文名称则作为同义词列出而不再进行审定。

(二)工作方法

依据上述工作原则,课题组设计并实现了一种以人机结合的方式来确定收词范围的工作方法,综合了机器学习的定量结果和领域专家的人工经验。该方法首先采用机器学习文本挖掘技术从领域语料中自动提取领域专有术语,然后由领域专家人工修正确定最终收词范围。该方法可以在一定程度上克服手工收词存在的两个显著问题:(1)工作烦琐,耗时耗力;(2)由于专家对整个领域认知的片面和不完善,收录的术语往往会受到主观影响,导致最终的收词范围不能客观地反映本学科的概念体系。

课题组使用这种新的工作方法,在计算机辅助下,完成了确定收词范围的两个工作步骤:(1)由计算机代替人工阅读大量的文献,自动收集得到一个术语集合;(2)分析计算每个术语是领域专有术语的可能性,为专家确定最终的收词范围提供定量化的决策支持。这种工作方法的流程图如图2所示。

对图2中的各处理模块的说明:

(1)语料库是大量的电子文献,在该方法中用于提供词语集合。语料库分为前景语料(fore-ground corpora)和背景语料(background corpora)两部分。前景语料是包含丰富的领域专有术语的领域文档库。背景语料用来与前景语料作对比,以突显领域专有/非专有术语在领域文档与非领域文档中表现出的不同的统计特性。实际上,语料库c可由m(m≥13)个领域的前景语料共同构成,提取领域的Dk领域专有术语时,前景语料为Cfk,背景语料Cbk由语料库中其他m-1个领域的前景语料cfi(1≤i≤m,i≠k)构成。要求cfk完全包含Dk的所有术语,并且反映术语的真实使用状况。

(2)语料预处理模块将初始输入的电子文档标准化成统一格式的文本。该模块去除图片、公式等无法自动处理的元素,去除空行等无意义的符号,输出仅保留字符、标点符号和换行符的标准化格式的文本。通常,标准化文本的格式要求为:半角标点符号统一改为全角符号;文本采用统一的编码格式。

(3)词语提取模块使用计算机自动获取领域语料中出现的所有词语。该模块采用结合词性分

析与串频统计的词语提取方法处理领域语料(即前景语料),输出在领域语料中出现的所有词语的集合。该方法首先采用既有的分词和词性标注系统把标准化语料切分为原子词串;然后以原子词为步长取其子串,应用统计的方法判断该子串是否符合成词的标准,将符合标准的词串作为词语加入到词语集合中。该自动提词方法的准确率和召回率均较高。

(4)领域概念学习模块处理上一模块输出的词语集合,输出候选的领域概念。该模块分为两个连续的子模块:领域隶属度分析和同义词合并。前者遵照《原则及方法》的选词原则删除词语集合中的非领域专有的术语,输出候选领域术语及其领域隶属度。在领域隶属度分析子模块中,采用两个指标分析每一个词语:领域相关度(domain rele-vance,DR)和领域均匀度(domain consensus,DC)。前者删除领域不相关的词语,后者删除尚未在领域中达成稳定使用的词语,剩余的词语作为候选领域术语。候选术语的领域隶属度等于其DR、DC的加权和与竞争因子(competitor factor,CF)的乘积。在同义词合并子模块中,遵循《原则及方法》的概念定名的单义性原则,合并候选领域术语集合中的同义词,输出候选领域概念集合。这一子模块基于意义组合原理,自动查找领域术语集合中的同义词,将一组同义词中的领域隶属度最高者确定为概念的正名,其他词语作为异名。领域概念学习模块将候选领域概念以领域隶属度降序排列提交给各领域专家。

(5)在专家修正模块中,领域专家参照上一模块输出的定量化的结果,结合经验,选择决定候选概念中可以收录的术语。如果有必要,领域专家再手工添加遗漏的术语。手工添加术语是为了避免发生由语料不充分所导致的计算机收词不完备的情况。该模块的输出结果即为最终的收词范围。

(三)工作总结

1.方法效果

为了说明课题组提出的人机结合收词方法在确定收词范围中的应用效果,本文介绍了该方法在课题组所负责的七个子领域中的实施情况。表1是计算机在无监督的情况下,以一些项目建议书为语料库,进行自动收词的结果。

对表1的说明:

(1)每一列说明一个子领域的情况,是在完全没有人工干预的情况下,计算机自动确定收词范围的结果。其中,SE指管理系统工程,MIS&DSS是管理信息系统与决策支持系统两个子领域合并起来的情况,IRM&EC是信息资源管理与电子商务两个子领域合并起来的情况,KM是知识管理,图书馆是图书馆、情报和档案管理。由于有些子领域的前景语料是合并的,所以将这些子领域的学习结果合并起来介绍。

(2)语料栏说明语料库的情况。Cf指的是前景语料(即领域语料),Cb指的是背景语料。nf说明前景语料中的文本个数,nb是背景语料中的文本个数。汉字数一行统计语料中所包含的汉字的个数。每个文本大约包含250个汉字。

(3)词语集合一行说明词语提取模块在前景语料中提取得到的词语的数目。这个集合也是用来进行领域隶属度分析的词语集合。

(4)候选领域概念一行说明经过领域概念学习模块自动学习所得到的候选收词范围所包含的术语个数。

(5)领域概念一行是术语审定工作最终确定的收词范围所包含的术语个数。

(6)学习性能栏内是计算机在自动收词工作中所表现出来的整体性能。误删个数是指,在词语集合中出现但是被机器学习算法错误删除或合并而没有列入到候选领域概念的词语个数。命中个数是候选概念中被专家确定收录的术语的个数。错误率是误删个数与被删个数(即词语集合中词语数与候选领域概念数之差)的比值。由表中数据可见,该方法在实现较高删除率的同时保证了极低的误删率。召回率是命中个数与领域概念的比值。由误删率低可知,学习结果的召回率低的原因是语料不充分,没有完全包含领域术语。

由表1可见,课题组提出的这种以人机结合的方式来确定收词范围的方法是可行的,而且还能够:(1)简化烦琐的人工选词过程;(2)降低由专家主观因素引起的争执以及对收词范围的影响。

2.问题与建议

本文建议,将人机结合(结合机器学习文本挖掘与领域专家人工经验)的方式和方法作为确定收词范围的基本工作方式和方法。一方面原因是:在诸多学科术语审定工作中都出现了如何把握收词范围的“度”的难题;另一方面,有些学科发展迅猛,新术语不断大量出现,每10~15年一个周期集中进行领域术语的审定无法满足学科发展和社会需求。而对新术语的定名应该越快越好,否则一个不恰当的定名用惯了,再改就难了。人机结合的方法既能保证工作结果的有效性,又能保证术语收集的快速及时。

《原则及方法》是在大量的领域术语审定工作的经验之上制定的,依据《原则及方法》所设计的确定收词范围的机器学习方法是科学严谨、经得起推敲的。依据本文作者的相关论文:领域相关度DR算法和竞争因子CF算法衡量词与领域的相关程度,自动删除领域不相关词,这满足了《原则及方法》的3.1要求;领域均匀度算法Dc衡量词在领域语料中分布的均匀程度,自动删除仅在个别的几个语料中出现的词,这满足了《原则及方法》的3.2要求;同义词合并模块与语料的选择则满足了《原则及方法》关于定名的要求。足见,课题组所设计的计算机自动收词方法不仅能够降低领域专家的工作量,缩短工作时间,而且完全符合《原则及方法》的相关要求。

需要强调的是,在利用计算机自动收词时,要使用合适的语料库,不仅要满足选词原则,还要满足《原则及方法》中制定的概念定名的原则:科学性、系统性、简明性、国际性、约定俗成和协调一致。术语的来源决定概念的定名是否符合这些定名原则。因此,本文建议:在进行计算机自动收词时,除了要求领域语料完全包含领域专有术语,还要求其具有时效性,即语料是时下较新的著作。

二 确定术语定义

(一)工作内容

确定收词范围之后,下一个阶段的工作是为收词范围内的每一个术语下定义。受人们的工作领域、知识量和阅历等因素的影响,个人主观认识中的术语符号与客观世界的概念之间往往会产生错误对应,主要有两类错误:(1)张冠李戴,即术语与概念之间的映射关系错误,如“可用性”往往被错解为“易用性”。(2)范围不明,即由于概念的内涵不明确所造成的主观放大或缩小这个概念的外延。术语审定的目的之一就是消除这种错误,达成人们对于领域概念模型的共识,即,促使客观世界与符号世界的映射在人们的主观世界中达成共识,实现三个世界的准确对应。因此,术语审定工作要求为每一个领域术语确定一个明确的定义项。

该部分工作的内容是对术语所对应的概念的内涵做出正确和简明的描述,建立术语与概念之间的一对一映射。

关于下定义的原则,《原则及方法》的规定如图3所示。除了图3中的原则,课题组还参阅并遵

照了《形式逻辑》中所制定的定义规则,包括:(1)定义项中不能直接地或间接地包括被定义项;(2)定义项,除非必要,不包括负概念;(3)定义项中不包括含混的概念或语词;(4)定义项的外延与被定义项的外延全同。

(二)工作方法

依据上述原则的指导,课题组为术语的下定义工作制定了三个步骤的工作流程:(1)对每一个术语,查找三个候选定义项;(2)根据候选定义项来确定术语的内涵;(3)确定术语的定义项。

在查找候选定义项时,主要的资源是最新完成和出版的大中专院校教材和辞书。除了广泛查阅大量的纸质书籍,课题组还借助因特网搜索了被广泛引用的定义项。参考的网站包括维基百科、CNKI(知网)知识元库等。

确定术语内涵时,主要依据有两点:(1)候选定义项的认可度。认可度代表大众对于定义项所描述的概念内涵的认可程度,定义项应描述概念最被广泛认可的屙l生或者外延。判断认可度高低的标准主要有:被引频次、候选定义项来源著作的知名度、出版社知名度、作者的知名度等。(2)候选定义项的时效性。要求定义项能够反映术语最新的特有属性和外延,即紧跟时代。由于人们对于自然世界的改造和对领域知识的认知是一个逐渐进化的过程,术语的内涵也随之改变。例如,对“信息系统开发”的定义,该术语早期的内涵是基于组织业务流程之上研发信息系统,而目前的内涵是基于已有信息系统之上更新系统。因此,原定义项失效。

在确定术语的定义项时,对于名词性术语,除了某些没有属的术语(如,“系统”“数据”等),一般采用真实定义,即属加种差的方式;对于动词性术语,一般采用发生定义的方式,即描述动作的施者、受者、动作目的及活动的定义方式。

(三)工作总结

1.方法效果

由于候选定义项来自领域内广泛认可的教材和学术专著,因此下定义的工作结果是正确的、权威的,并且能够体现信息管理与知识管理的核心思想。这样的定义项能够为读者提供对于领域知识的准确的认识。

但是,这种工作方法需要首先查找候选定义项。查找候选定义项是一项耗时耗力的劳动,且需要查找者对领域有较深入的理解,能够系统掌握领域知识。

2.问题与建议

基础性的领域术语不易说明和定义。如,管理信息系统子领域的“数据”“信息”“元数据”,管理系统工程的“系统分析”“系统评价”等术语。原因有二:(1)基础性术语大多没有属概念。(2)这些术语在其他多个领域都有引用共用的情况,下定义时需要注意通用性且可信服。本文建议的解决方法是:下定义时给出一个较为抽象的描述,使得不同领域可以按照本领域的核心思想去深化理解和诠释这个定义项。

另一个问题是,有些领域术语的定义项内涉及其他多个非领域专有的术语。本文建议的解决方法是:为避免定义不清,可以少许改动收词范围,添加几个领域相关性不够高的术语。如:“多维数据模型”的定义项是:“数据仓库中数据组织的一种模型。他由维和事实来定义。维是关于一个组织想要记录的视角或观点,每个维都有一个表与之相关联,称为维表,维表是对维的属性的描述。事实是一个数据度量,对所要考察的数据的一个数值度量,事实表包括事实的名称或度量以及每个相关维表的关键字。”为了更好地说明多维数据模型这一术语,在收词范围中添加了维、维表和事实表三个术语。

在下定义时,课题组还发现了两个信息管理与知识管理领域中所特有的问题:(1)有的术语既有广义内涵又有狭义内涵,如,信息资源管理子领域的“信息资源”“信息检索”等术语。出现这种情况时,本课题组一般倾向于将其定义为广义内涵,个别情况下采取分别列出其多个内涵的下定义方式。(2)有的术语引自其他领域,但与原领域的内涵已大相径庭,如,电子商务子领域中的“买方市场”“卖方市场”“交易风险”等。这些术语在经济和金融领域的内涵与信息管理与知识管理领域的内涵完全不同,在下定义时需要注意体现其在本领域的内涵。

三 确定英文名称

(一)工作内容

为术语确定英文名称是术语审定工作的重要和必要的组成部分。将中文术语与其英文术语准确无误地对应起来,利于国内科研界、工业界与国际各界的顺畅交流,能够促进中国在相关领域的科研和工业的发展。而错误的对应则会误导群众,在国内外进行交流时形成混乱,影响沟通的顺畅,甚至阻碍科研和工业的发展进程。因此,在进行术语审定时,必须为中文术语唯一确定其对应的英文术语。

需要说明的是,对于信息管理与知识管理领域中的大部分子领域,中国在科学研究和工业应用方面的起步都较国际晚。从国际上形成这些领域到目前为止的几十年里,国内在相关领域的理论研究的先进水平与实际应用的成熟程度一直低于美国和欧盟等国家。也造成了一个事实:这些领域中的理论性术语和应用性术语几乎都是从国外引入到国内的。也即,此次信息管理与知识管理领域的收词范围内所收录的术语大都是由国际上相应的英文术语翻译而来的。

因此,该部分的工作内容实际上是为收词范围中的术语确定其对应的英文术语。

依据这种情况,在查找英文术语时所遵循的工作原则是:(1)英文术语的内涵与原术语一致。(2)英文术语在领域内的认可度高。

(二)工作方法

根据工作原则,课题组在确定一个术语的英文术语时,依据下面的工作流程进行:

(1)利用CNKI翻译助手,查找术语在中文科技论文的关键词中最普遍的几种英文翻译。

(2)判断英文翻译的语词内涵是否与中文术语的内涵一致,删除不一致的翻译。

(3)借助权威性的英文原版材料,将国际上认可度最高的英文翻译确定为英文术语。借助的资源包括:维基百科词典与术语树、Google(谷歌)、英文原版书籍。

(4)确定该英文术语的大小写、单复数等书写形式,将其最广泛使用的形式作为原中文术语所对应的英文术语。

(三)工作总结

1.方法效果

采用3.2所描述的工作方法,为每个中文术语确定了其唯一对应的英文术语。其间,纠正了诸多经常出现的英文翻译的偏差,表2举例说明。

2.问题与建议

在中英文术语的对应过程中,需要解决的问题主要有两个:

(1)同一中文术语对应多个英文术语。产生这个问题的原因有二:英文术语引入到我国后,国内学者首先为其翻译并确定了一个中文名称并解释其内涵,但是,其他国内学者在后续的论文或报告中再将这一中文名称翻译回英文时,往往会发生表述上的偏差。这就导致了一个中文术语同时对应多个英语翻译的情况。有的英文术语在英文范围内也还没有达成一个统一的标准,如“电子商务模式”对应的英文术语有“e-commerce model”和“e-commerce mode”两个。

(2)同一个英文术语对应多个中文术语。产生这个问题的原因有二:同一英文术语的中文翻译尚未在领域内或领域间达成标准化。这也是在确定收词范围时确定正名与异名同义词时所解决过的问题,在此不再讨论。在不同的上下文中,同一英文词汇会表现不同的内涵,如英文的“sys-tem”会对应于中文的“系统”“体系”和“体制”。这属于英文的语言现象,不是本文的讨论范围。

这些问题阻碍了领域内国际间的学术交流的顺利进行,同时也体现了规范术语的英语名称的重要性和必要性。

此外,管理领域的术语有一个特点:部分术语既可以作为名词也可以作为动词。如,“组织”“数据存储”等。在确定这些词的英文术语时,本课题组一般将其作为名词处理。这样,就引发了另外一个问题:是采用动名词的形式还是名词形式的翻译?如“出版”(publishing vs publication),“数字化”(digtizing vs digitization)等。解决这种问题时,本课题组所采用的方法是:将在美国地区使用频率较高的形式确定为术语的英文名称。

四 结论

本文汇报了信息管理与知识管理领域的术语审定工作进展,介绍了工作方法,总结了其中的问题和解决经验。领域术语的审定工作分为三个主要的步骤:确定收词范围,确定术语定义,确定术语对应的英文术语。本文采用了人机结合人机交互的方式完成了这项工作。工作方法既贯彻和遵照了全国科技名词委公布的名词审定工作的流程和原则,又结合了信息管理与知识管理领域自身的特点和情况,是科学严谨的。

本文所介绍的计算机自动确定领域收词范围的方法是领域独立的,可以为任何领域的术语审定工作提供计算机辅助支持。在当前的知识爆炸时代,诸多领域的发展都较为迅猛,手工收词无法跟得上领域知识的发展。因此,建议采用人机结合的方式确定收词范围,尤其是新词的添加和收录。

在信息管理与知识管理的术语初步审定工作中,采用的审定方法是人机结合以人为主。对于该方法的研究还存在很大的发展空间,比如,研究如何选用和完善语料库,如何进一步提高机器学习文本挖掘方法与算法的性能,如何采用机器学习方法自动提取术语的定义项和英文名称等。在对这些方法进行改良和提高以后,可以进一步提高术语审定工作的自动化程度、速度和有效程度。