首页 > 范文大全 > 正文

中文分词算法在专利文献中的应用研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇中文分词算法在专利文献中的应用研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

[摘要]介绍了专利文献中中文分词的基本方法,主要分析了基于词类的错误驱动学习方法、条件随机场方法、期望最大值方法在分词方面的应用,并进行了对比实验。

[关键词]专利文献中文 分词

1引言

专利文献包含全世界科学技术信息内容的90%[1],其中不仅包含技术也包括法律和经济信息,除了某些需要保密的领域,如军工行业,专利文献涉及了绝大部分工程技术领域,如果能有效利用这些信息,就可以避免重复研发,减少开发时间,降低开发成本,也可以有效防止侵犯他人合法权益,降低企业风险。

怎样才能高效地利用海量专利文献信息,从这些信息中查找到需要的资料,解决这个问题的关键是对专利文献进行精确快速的检索,而进行检索的最重要一步是对海量专利文献进行索引,没有索引就无法快速精确地检索到需要的信息,索引的基础则是对文献进行分词,分词的质量决定了索引的质量,一种好的分词方法可以大幅提高文献的查准率。中文分词有两块难点,一个是分词的歧义,一个是未收录词的判断[2],专利文献的用词,有其自己的特点,存在着大量未收录的专业术语,而歧义词语仅占很小的一部分,在分词的时候必须重点考虑专业术语的切分,因为其对整体性能的影响是歧义影响的5倍[3]。下节将重点描述这方面的内容。

2专利文献的用词特点

我们首先需要研究专利文献的用词特点,通过了解掌握这些特点,可以利用这些规律,更好地进行分词处理,提升分词效率。专利文献用词有以下几个特点:

2.1具有专利文献特点的一些相对高频的词语,比如“本发明”、“特征”、“方法”、“一种”等,大部分的专利都会涉及这些词语。

2.2由于多数专利文献带有很强的专业性,有大量未登录在词典的词语,比如“二十二碳六烯酸”、“星地应答机”等技术词汇,很难进行正确的分词,这点很难解决。

2.3专利文献中为了表达一种复杂的功能或仪器,往往带有多个定语,比如“双测向多臂井径测量仪器”、“高精度非垂直截面可旋转测量仪器”等等,这给我们分词带来了一定的困难。

2.4专利文献中为了描述清楚功能,一些专利文献中会反复出现一些特定的词语,如“一种星载计算机软件的在轨更新方法”反复提到了“星务”这个词,这个词在分词词典里是没有的,而我们可以通过统计的方法将它作为分词标记。

3专利文献分词算法

3.1 分词算法综述

现有的关于中文分词的技术主要是有两大类,一种是利用海量词典进行分词,另一种则是利用统计进行分词。词典分词的原理是将N个连续汉字与词典里的词语进行适配,取其最长的适配词,拿“计算机的基本原理”来讲,“计算”是一个词,“计算机”也是一个词,分词的时候取长度较长的“计算机”,而不会取“计算”、“机”两个词;最基础的词典分词方法有正向匹配算法和逆向匹配算法,它们分别是从句子的头和尾进行匹配,其结果基本一致,略有不同,词典分词的准确率较高,分词的质量由词典收纳词的丰富程度决定,其不具备对未知词语的判断能力。统计分词可以对文献中反复出现的词语进行识别,特别是对于专利文献,其最核心的词必然比其他词出现的频率高,但是出现频率高的词却不一定是核心的词,比如“可以”、“用于”等等,这些词是常用的连接词,出现的频率很高,但却和文献的主体意思没有关系,如果这些词过于频繁出现会降低统计的效率。

实验证明,单纯的词典法或是统计法对专利文献分词并没有很好的效果,我们将对基于词类错误驱动学习方法(CTBL)、条件随机场方法(CRF)、期望最大值方法(EM)等3种分词方法在专利文献中的应用展开研究。

3.2 基于词类的错误驱动学习方法

* 基金项目:2010年福建省科技计划重点项目“基于SVM-INE的企业专利地图生成与辅助决策支持系统”(编号:2010H0014)。

错误驱动学习方法(TBL)是一种符号式的机器学习方法,在许多语言应用场景中都有很广泛的应用,例如词语的分类等,Palmer还将其应用到了汉语的分词中,实际效果也表明,TBL在分词应用中可以有很好的功效,也可以和其他的分词系统配合使用。

由于规则模板减少了TBL方法需要检索的转换规则的时间,所以,寻找适合的规则模板是十分关键的,通过对比,单纯运用词例化模板的TBL分词系统,其准确率一般不超过90%,而这个水平距离优秀的要求还有一定的距离,此外,由数据稀疏导致的过学习缺陷,也一直困扰着TBL方法,因此将语法以及词法信息融合到TBL方法中去,可以一定程度上提高分词的性能,CTBL方法(基于词类)就是如此诞生的,该方法可以使分词的学习规律更快更准确[4]。

首先,把词分为四大类:(1)已知收录词,包含所有已经收录在词典中的词;(2)特定名称词,比如地名、人名等;(3)数字名词,时间、数量等词;(4)派生词,重叠词(形形)等词。

所有的词都可以看成是一棵树,树的根是完整的词语,而叶节点是分拆后的词,除此之外的节点是结构上的信息,这些信息是依照规定的语言法则所组成的,所以也叫作词内结构。将符合规则定义的词叫作逻辑词,逻辑词利用树形结构来表达,分词结果会根据不同的规则产生变化。比如“2010年1月1日”,2010年1月1 日,它是隶属于词类的日期,当使用第一种分词方式, 结果是“2010年”、“1月”、“1日”, 一共分割成了三个部分; 当使用第二种分词方式,分词结果是“2010”、“年”、“1”、“月”、“1”、“日”, 一共分割成了六个部分。而CTBL中最核心的是如何更好地学习这些规则,可以对词进行更为有效的分割。

CTBL会依据有差异的模板得到不相同的规则,有两种变换的规则,一种是用来分析词语的构成信息,一种是变换词条的规则,主要是用来处理词例化的信息。

在CTBL中通常是经过以下几步来完成分词的:首先,先使用常规的方法对原有的句子进行预分词,比如正向匹配算法,得到一个初步的结果,这个结果里包含着逻辑词的列表,虽然结果并不精确,但是这为后面的工作打下一个良好的基础;第二步将句子中出现的词进行标引,然后使用CTBL方法学习相关的规则,其中就包括上述的两种规则,最后利用规则在实际句子上进行分词处理,得出分词的结果。对于专利文献这种较有规则的文字描述,CBTL可以有较好的效果。

3.3 条件随机场方法

专利文献分词中对专业术语的判断是一个难点,而根据上下文来判断一个词是否是专业名词是一种方法,条件随机场方法可以有效地应用于此。

条件随机场模型是一种从统计序列标注与分割的方法所衍生出来的方法,其本质是一种从已知节点及条件中,得到结果节点的条件概率的无向图的模型[5];它比隐马尔可夫模型(Hidden Markov Model) ( L.R.Rabiner.1989)方便的是,没有其严谨的独立条件,其也避免了最大熵马尔可夫模型(Maximum Entropy Markov Model, MEMM) (Andrew McCallum, 2000)所特有的“标记偏置”[6] (label-bias)(John Lafferty, 2001)的缺点。

CRF 是一种基于无向图的模型,链式CRF是最符合中文分词特点的模型, 其中的每个节点形成了链式的分布,所有的节点在无向图中形成了一个链,在此条件随机场中,包括当前标记yi、前一个标记yi-1和包含观察序列x 的任何子集的最大连通子图。

随机变量X = { X1 , …, Xn}表示需要观测的序列;随机变量Y = { Y1 , Y2 , …, Yn} 表示观测序列对应的状态序列,随机变量Y 的概率分布为: (1) Z(x) 是归一化函数。 (2) 对于X来说, 要做的就是搜索概率最大的Y* (3) CRF可以将当前词的前n个词以及后m个词作为相关的信息,如此可以更准确地分析当前词的词性,前后相关可以提高分词的成功率,我们在此假设当前词和其前2个词和后两个词相关,假设的特征模板如下: (1) Kn (n=-2,-1,0,1 ,2) (2) KnKn+1(n=-2,-1,0,1,2) (3) Pu(K0) (4) T(K-2)T(K-1)T(K0)T(K1)T(K2) Kn代表着词语序列,n是词在序列中的位置,例如“北京大学在中国的首都”,假设目前的处理字符“中”,则K0是“中”,而K1则表示的是“国”, K-1则代表的是“在”,同理,K2则表示的是“的”。Pu(C0)是代表标点符号(如逗号、感叹号等)的特征;T(Kn)是代表实体名称的特征,例如所有和数字有关的词语。 分词技术的实用度主要是由两个方面决定的,一个是词的歧义的处理,另外一个是未记录在词典中的词的分辨。 关于歧义问题,条件随机场方法主要是依靠当前词的相关信息来进行判断,比如前n个词以及后m个词,“福建省长”的切分,由于“福建”和“省长”都是已经登录的词,如果按照词典分割,就会分成“福建”和“省长”,而条件随机场模型就会在上下文中对这个词的出现频次进行统计,比如“福建省长”后面有反复出现了10次,而“福建省”并没有单独出现过,则说明应该切割为“福建省长”。 而未记录在词典中的词的分辨,则可以根据Cn-1 和Cn + 1 很好地进行捕获统计,比如“美国总统奥巴马”,可以根据上下文中“奥巴马”总是和“总统”一词一起出现,其不是在前就是在后,说明“奥巴马”和“总统”存在着一定的联系,“奥巴马”是一个不可分割的词。 3.4 期望最大值方法 期望最大值(EM,Expectation Maximization)是Dempster、Laind、Rubin 于1977 年提出的求参数极大似然估计的一种方法,是一种非常简单实用的学习算法,这种方法可以广泛地应用于处理缺损数据、截尾数据、带有讨厌数据等所谓的不完全数据(incomplete data),其在专利文献分词上也有应用。 EM算法在分词上的应用是以统计为基础的,它是根据词的出现频度来构建汉语分词的概率模型。有以下假设: (1)长度有限,句子是由有限个词所组成的; (2)所有的词都有一个出现几率; (3)所有的词都是独立的,多个词一起出现的几率只和自己的出现几率有关。 依据极大似然原则[7],把一条语句切割成词语K1, K2, …, Kn,必须使Πp (Ki)最大,使词Ki的出现概率是p (Ki )。比如,把句子J1 J2 J3 (其中Cj代表一个汉字,以下同) 切割为词K1 K2 …Km (Ki代表一个词),一共有四种切分的可能,其中切割2具备最高的可能性。根据极大似然原则,假如已知二元组集{ Ki,p (Ki ) },就能对文本进行处理。 EM理论通过以下四步算出词的出现概率p (Ki ): (1)先随机设置一个词的出现几率; (2)利用该几率对数据库中的语句进行分词; (3)得到初步结果,并根据结果再次计算词的出现几率; (4)反复执行这个过程,以几率值的收敛为结束标志。 在专利文献分词中,EM算法的具体步骤如下[8]: (1) 对所有未进行切割的句子做以下处理: 1)根据当前词的初始几率值计算每种切割的可能性的值; 2)将各种切割的可能性进行处理,使其所有的值相加结果为1; 3)将每种切割进行统计,统计词的总数,将第二步的结果加到词的总数上。 (2)根据词的数量来重新设置词的出现几率。 (3)反复这个运算,直到词的几率值收敛。 从上述可以得出,EM算法是应用了一种特别的关于词计算数量的方法:即对一个长度为n的语句进行切割,其切割结果可能有2n - 1种,依照词的出现几率的计算,可以得出每种切割的可能性;在一个可能性为Pi 的切分中,对每个词增加词数 ,这种词计数方法叫“软计数” (soft- counting) 。 本算法的复杂性的O( MLT) ,其中M 代表的是单词的最大长度,L 是迭代的次数(一般是3到10次) ,T 是数据库的大小。 4 实验与分析 由于专利文献的撰写人都具有一定的语言水平,且专利文献必须描述清楚才能使专利获得保护,所以专利文献的用语比较少出现歧义,本次试验将正确切分结果的词语放到词典中,假如各种方法对句子切割结果的词出现在词典中,则算成功适配,反之,算适配失败。 实验结果是采用通用的分词评比标准,即:准确率(P)、召回率(R)和F值。各指标定义如下:   切分准确率(Precision) = (正确切分的数量/总的切分数量)×100% 召回率(Recall) = (正确切分的数量/测试集中实有切分的数量)×100% F 值(Fscore) = (2×切分准确率×召回率)/(切分准确率+召回率) 通过在一个10M字节的专利信息库上进行测试,表2是三种算法的测试结果,表明三种算法都有不错的效果,但CTBL算法具有较高的适应性。 5 总结  本文重点介绍了CTBL、CRF、EM分词算法在专利文献分词中的运用,实际效果都不错,其中CTBL分词算法具有较高的适应性,未来的研究方向应该将各种分词算法的优点结合在一起,形成有更高精度的分词算法。 参考文献: [1] 陈燕,黄迎燕,方建国. 专利信息采集与分析[M]. 北京:清华大学出版社, 2006. [2] 赵铁军,吕雅娟,于浩,杨沐昀,刘芳. 提高汉语自动分词精度的多步处理策略[J],中文信息学报,2001,15(1):13-18. [3] 黄昌宁,赵海.中文分词十年回顾[J],中文信息学报,2007,21(3):8-20. [4] 夏新松,肖建国.一种新的错误驱动学习方法在中文分词中的应用[J]. 计算机科学,2006,33(3): 160-164. [5] 迟呈英,于长远,战学刚.基于条件随机场的中文分词方法[J],情报杂志,2008,(5):79-81. [6] John Lafferty , Andrew McCallum , Fernando Pereira. Conditional Random Fields : Probabilistic Models for Segmenting and Labeling SequenceData [M] ,2001 :282 289. [7] Xianping Ge ,Wanda Pratt ,Padhraic Smyth. Discovering Chinese words from unsegmented text. SIGIR’99 (Proceedings on the 22nd Annual International ACMSIGIR Conference on Research and Development in Information Retrieval ,August 15-19 1999 ,Berkeley CA USA) :217-272. [8] 李家福,张亚非.基于EM算法的汉语自动分词方法[J]. 情报学报,2002,21(3):269-272.

随机变量X = { X1 , …, Xn}表示需要观测的序列;随机变量Y = { Y1 , Y2 , …, Yn} 表示观测序列对应的状态序列。

CRF可以将当前词的前n个词以及后m个词作为相关的信息,如此可以更准确地分析当前词的词性,前后相关可以提高分词的成功率,我们在此假设当前词和其前2个词和后两个词相关,假设的特征模板如下:

(1) Kn (n=-2,-1,0,1 ,2)

(2) KnKn+1(n=-2,-1,0,1,2)

(3) Pu(K0)

(4) T(K-2)T(K-1)T(K0)T(K1)T(K2)

Kn代表着词语序列,n是词在序列中的位置,例如“北京大学在中国的首都”,假设目前的处理字符“中”,则K0是“中”,而K1则表示的是“国”, K-1则代表的是“在”,同理,K2则表示的是“的”。Pu(C0)是代表标点符号(如逗号、感叹号等)的特征;T(Kn)是代表实体名称的特征,例如所有和数字有关的词语。

分词技术的实用度主要是由两个方面决定的,一个是词的歧义的处理,另外一个是未记录在词典中的词的分辨。

关于歧义问题,条件随机场方法主要是依靠当前词的相关信息来进行判断,比如前n个词以及后m个词,“福建省长”的切分,由于“福建”和“省长”都是已经登录的词,如果按照词典分割,就会分成“福建”和“省长”,而条件随机场模型就会在上下文中对这个词的出现频次进行统计,比如“福建省长”后面有反复出现了10次,而“福建省”并没有单独出现过,则说明应该切割为“福建省长”。

而未记录在词典中的词的分辨,则可以根据Cn-1 和Cn + 1 很好地进行捕获统计,比如“美国总统奥巴马”,可以根据上下文中“奥巴马”总是和“总统”一词一起出现,其不是在前就是在后,说明“奥巴马”和“总统”存在着一定的联系,“奥巴马”是一个不可分割的词。

3.4 期望最大值方法

期望最大值(EM,Expectation Maximization)是Dempster、Laind、Rubin 于1977 年提出的求参数极大似然估计的一种方法,是一种非常简单实用的学习算法,这种方法可以广泛地应用于处理缺损数据、截尾数据、带有讨厌数据等所谓的不完全数据(incomplete data),其在专利文献分词上也有应用。

EM算法在分词上的应用是以统计为基础的,它是根据词的出现频度来构建汉语分词的概率模型。有以下假设:

(1)长度有限,句子是由有限个词所组成的;

(2)所有的词都有一个出现几率;

(3)所有的词都是独立的,多个词一起出现的几率只和自己的出现几率有关。

依据极大似然原则[7],把一条语句切割成词语K1, K2, …, Kn,必须使Πp (Ki)最大,使词Ki的出现概率是p (Ki )。比如,把句子J1 J2 J3 (其中Cj代表一个汉字,以下同) 切割为词K1 K2 …Km (Ki代表一个词),一共有四种切分的可能,其中切割2具备最高的可能性。根据极大似然原则,假如已知二元组集{ Ki,p (Ki ) },就能对文本进行处理。

EM理论通过以下四步算出词的出现概率p (Ki ):

(1)先随机设置一个词的出现几率;

(2)利用该几率对数据库中的语句进行分词;

(3)得到初步结果,并根据结果再次计算词的出现几率;

(4)反复执行这个过程,以几率值的收敛为结束标志。

在专利文献分词中,EM算法的具体步骤如下[8]:

(1) 对所有未进行切割的句子做以下处理:

1)根据当前词的初始几率值计算每种切割的可能性的值;

2)将各种切割的可能性进行处理,使其所有的值相加结果为1;

3)将每种切割进行统计,统计词的总数,将第二步的结果加到词的总数上。

(2)根据词的数量来重新设置词的出现几率。

(3)反复这个运算,直到词的几率值收敛。

从上述可以得出,EM算法是应用了一种特别的关于词计算数量的方法:即对一个长度为n的语句进行切割,其切割结果可能有2n - 1种,依照词的出现几率的计算,可以得出每种切割的可能性;在一个可能性为Pi 的切分中,对每个词增加词数 ,这种词计数方法叫“软计数” (soft- counting) 。

本算法的复杂性的O( MLT) ,其中M 代表的是单词的最大长度,L 是迭代的次数(一般是3到10次) ,T 是数据库的大小。

4实验与分析

由于专利文献的撰写人都具有一定的语言水平,且专利文献必须描述清楚才能使专利获得保护,所以专利文献的用语比较少出现歧义,本次试验将正确切分结果的词语放到词典中,假如各种方法对句子切割结果的词出现在词典中,则算成功适配,反之,算适配失败。

实验结果是采用通用的分词评比标准,即:准确率(P)、召回率(R)和F值。各指标定义如下:

切分准确率(Precision) = (正确切分的数量/总的切分数量)×100%

召回率(Recall) = (正确切分的数量/测试集中实有切分的数量)×100%

F 值(Fscore) = (2×切分准确率×召回率)/(切分准确率+召回率)

通过在一个10M字节的专利信息库上进行测试,表2是三种算法的测试结果,表明三种算法都有不错的效果,但CTBL算法具有较高的适应性。

5总结

本文重点介绍了CTBL、CRF、EM分词算法在专利文献分词中的运用,实际效果都不错,其中CTBL分词算法具有较高的适应性,未来的研究方向应该将各种分词算法的优点结合在一起,形成有更高精度的分词算法。

参考文献:

[1] 陈燕,黄迎燕,方建国. 专利信息采集与分析[M]. 北京:清华大学出版社, 2006.

[2] 赵铁军,吕雅娟,于浩,杨沐昀,刘芳. 提高汉语自动分词精度的多步处理策略[J],中文信息学报,2001,15(1):13-18.

[3] 黄昌宁,赵海.中文分词十年回顾[J],中文信息学报,2007,21(3):8-20.

[4] 夏新松,肖建国.一种新的错误驱动学习方法在中文分词中的应用[J]. 计算机科学,2006,33(3): 160-164.

[5] 迟呈英,于长远,战学刚.基于条件随机场的中文分词方法[J],情报杂志,2008,(5):79-81.

[6] John Lafferty , Andrew McCallum , Fernando Pereira. Conditional Random Fields : Probabilistic Models for Segmenting and Labeling SequenceData [M] ,2001 :282 289.

[7] Xianping Ge ,Wanda Pratt ,Padhraic Smyth. Discovering Chinese words from unsegmented text. SIGIR’99 (Proceedings on the 22nd Annual International ACMSIGIR Conference on Research and Development in Information Retrieval ,August 15-19 1999 ,Berkeley CA USA) :217-272.

[8] 李家福,张亚非.基于EM算法的汉语自动分词方法[J]. 情报学报,2002,21(3):269-272.