首页 > 范文大全 > 正文

基于关联特征词表的中文比较句识别

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于关联特征词表的中文比较句识别范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:中文比较句研究多集中于语言学领域,然而利用机器学习的方法识别比较句的研究才刚刚起步。根据关联规则挖掘算法的基本原理提出一种基于关联特征词表的比较句识别方法,该方法将词和词性作为一个基本元素,定义特征词表中核心词和依存词之间的关联方式,利用支持向量机(SVM)分类器进行比较句的识别。实验结果表明,该方法能够有效地识别出中文比较句,在准确率、召回率和F值上均取得不错的效果。

关键词:比较句识别;文本分类;中文比较模式库;类序列规则;关联特征词表

中图分类号:TP391

0引言

比较是我们在日常生活中经常用到的一种表达方式,通过对两个事物的比较,可以判断出同类产品间的异同和优劣。尤其是随着网络技术的不断发展,许多博客、微博、日志、社会网络、论坛等新型网络元素迅速兴起,网络信息更加个性化和专业化。这些信息中不乏对各种新事物、新理论、新技术、新产品、新观点、新艺术等进行评论和比较的主观性信息,对这些主观信息的比较关系进行研究,分析同类产品的异同和优劣,可以对观点挖掘、信息推荐等应用提供重要的依据。从海量的评论信息中准确地识别比较句是研究比较关系的前提工作。

在国内对中文比较句的研究最初主要集中在语言学领域,包括比较的范畴、典型的比较句式、比较的语义以及比较的共时和历时研究等。刘焱[1]在“除去特定语境影响的前提下,看一个句子在形式上是否具有比较句的结构特点、在功能上是否表达了比较意义”这一思想指导下,指出比较范畴应该是一种“语义—句法”范畴。车竞[2]从词汇短语角度研究了比较句的语义和句法的角度分析,讨论了比较句的分级和等级的度量。尚平[3]认为汉语比较句的研究不仅需要坚持语义同句法形式的结合,更要追求简洁明晰的分类结果。庞倩[4]从结构和功能上分析了等比句和差比句两种句式的基本特点。语言学领域的研究工作对比较关系的挖掘有着指导意义,但并不能直接运用到计算机的自动挖掘上来。

最早用计算机进行比较句识别的是伊利诺伊大学芝加哥分校的Jindal等[5],他们采用模式发现和监督学习的方法对英文比较句的识别进行了研究,达到了79%的准确率和81%的召回率。后来他们又用标签序列规则[6]作为特征对比较句中的比较关系进行了进一步的研究。北京大学黄小江等[7]使用支持向量机(SupportVectorMachine,SVM)分类器和类序列规则挖掘的方法对中文比较句进行识别。Yang等[8]从韩语文档中提取比较词汇作为关键词特征利用机器学习技术识别比较句。大连理工大学的宋锐等[9]通过构建中文比较模式库和条件随机域模型结合的方法进行比较句识别和比较关系抽取;黄高辉等[10]采用基于条件随机场(ConditionalRandomField,CRF)的算法进行比较句的识别和关系抽取;李建军[11]利用熵值平衡算法提取句中的统计特征和序列特征进行比较句识别。实验结果表明,这些方法都能有效地识别中文比较句,但是准确率还有待进一步提高。

本文通过分析比较句的结构特征,利用关联规则挖掘算法的原理建立关联特征词表,并结合规则征词的关联方向,建立了规则与特征词表之间的有向联系进行中文比较句的识别。实验结果表明,基于关联特征词表的方法可以更有效地识别中文比较句。

1比较句研究问题分析

比较句识别实际上就是判断一个句子是比较句还是非比较句的过程,从本质上讲属于一个文本分类问题。准确识别比较句的关键是找到一种能够区分比较句和非比较句特征的方法。从语言特征上看,比较句与非比较句之间在词汇和语序上存在一定的差异,这使得传统的文本分类计数和序列模式匹配方法用于比较句的识别成为可能。在英文比较句中,由于比较词特征比较明显,一般是形容词和副词的比较级或最高级形式,所以对英文比较句进行识别时,在语料预处理阶段,使用英文特有的词性标注工具,能够很好地分析出具有比较意义的形容词与副词等有效特征词。而中文比较句表达方式中不具有比较级或最高级的形态,往往普通的词语、成语以及谚语等信息就可以表达多个事物之间比较的含义,格式上也灵活多变,给准确地识别比较句带来了很大困难。

1.1中文比较句式分析

从语义上分析,中文比较句描述的是同一类事物的两个或两个以上实体在同一个属性上的比较。在语言学领域认为一句完整的比较句通常包含四个基本要素[2]:比较主体、比较客体、比较属性和比较结果。如例句:

1)诺基亚N8的屏幕不如iPhone的好。

2)相比我的森海MX160音质稍有不足。

在例句1)中“诺基亚N8”为比较主体,“iPhone”为比较客体,“屏幕”为比较属性,“好”为比较结果。但通常我们所遇到的比较句中并不一定包括完整的四要素,在例句2)中就缺少比较主体。由于比较元素不完整,使得在分析比较关系上增加了一定难度,然而比较句的识别只是判断该句是否为比较句,而比较关系的抽取则是对比较句四个基本要素的提取,所以在对比较句的识别中可以对四要素是否完整不作考虑。根据比较结果,又可以将比较句进一步划分为几个类别,夏群[12]总结了马建忠[13]对中文比较句的分类,包括三类:平比、差比和极比。目前这种分类方法在极比和差比的划分上还存在一定的争议,文献[9]根据语言学领域的分类分别构建了平比、差比、极比的比较模式,并将依靠模式无法判断类别的模式划分为“未定”类别。在本文中没有将语句进行复杂的划分,只是根据匹配结果将句子划分为比较句和非比较句两大类。