首页 > 范文大全 > 正文

基于Tri―training的评价单元识别

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于Tri―training的评价单元识别范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要:评价单元的识别是情感倾向性分析中重要的一步,但由于标注语料匮乏,大多数研究集中在用人工构建规则、模板来识别评价单元的方法上。为了减轻标注训练语料的工作,同时进一步挖掘未标记样本的信息,提出一种基于协同训练机制的评价单元识别算法,以利用少量的已标记样本和大量的未标记样本来提高识别性能。该算法利用tritraining的思想,将支持向量机(SVM)、最大熵(MaxEnt)以及条件随机场(CRF)三个不同分类器组合成一个分类体系,对生成的评价单元候选集进行分类。将Tritraining的算法思想应用于实验来对比采用单一分类器的方法,结果表明,该算法能够有效地识别主观句中的评价单元。

关键词:半监督学习;协同训练;Tritraining;评价单元;依存分析;评价对象

0 引言

随着网络和商业的飞速发展,主观评论充斥于各大电商平台、博客和论坛,这给人们带来大量信息,意见挖掘应运而生。意见挖掘是指以Web上用户发表的评论为研究对象,采用自然语言处理技术,获取用户对诸如产品、人物、服务等有价值的评论信息的一种技术,表达评论者的情感倾向。在评论的情感倾向性分析过程中,人们发现同一个评价词语在不同评价对象中可能表现出不同的情感倾向,即评价词有歧义性。为了解决上述问题,准确找到评价词后,确定其所对应的评价对象,以形成评价单元,再来分析这个评价单元的情感倾向,是国内外评论研究所面临的热点问题。

评价单元是指评价词语(又称观点词)及其所修饰的评价对象二者的单元,可以表示为二元组〈评论对象,评价词语〉。在马晓玲等[1]的研究报告中提到,国内外对评价单元的研究主要分为基于规则/模板的方法和基于统计的方法。这两类方法都是在监督意义下进行的,即要求训练数据集的训练样本必须全部是已标记样本。在实际操作中,虽然获取大量的主观评价文本数据集并不十分困难,但是为这些文本提供正确的标记却需要耗费大量的人力和时间,在第三届中文倾向性分析评测(The Third Chinese Opinion Analysis Evaluation, COAE2011)的评价单元抽取评测中,也是采用专家对最终测试结果的标注来判断各类模型的准确度,所以为这些主观句进行标注的成本较大。但若是在监督意义下如果只使用少量已标记样本训练,则得到的模型很难具有较强的泛化能力,只能在少部分数据集上使用。Zhu[2]和常瑜等[3]所述的半监督学习能够较好地解决上述问题,它可以综合利用少量的已标记样本和大量的未标记样本以提高泛化性能。

针对已标记样本少而未标记样本多的问题,本文提出了一种基于Tritraining的半监督协同算法,结合条件随机场(Conditional Random Field, CRF)、最大熵(Maximum Entropy, MaxEnt)和支持向量机(Support Vector Machine, SVM)三个分类器,通过判断三个分类器的预测一致性来隐式地对不同未标记的置信度进行比较,并且将置信度较高的加入到训练集中,进入下一轮迭代,以提高整体的抽取效果。

1 评价单元识别方法

1.1 评价单元识别的研究现状

评价单元识别主要方法有两种:一是基于模板/规则的方法,二是基于统计模型的方法。由于语料数量不足的问题,研究者们往往采用的是前者。

在基于模板/规则方法中,Liu等[4]提出先从评论预料中找到预期的评价对象,然后选择距离其最近的形容词作为评价词,以形成评价单元,这忽视了其他非形容词作为评价词的可能性,且经验性太强,并不实用。姚天等[5]结合汽车领域的本体来抽取每个观点语句的主题和属性,然后在句法分析的基础上识别主题和情感描述项之间的关系,最终决定语句中每个主题的极性,在该领域内取得了较好的结果;但该方法依赖于人工标注的本体,需要花费大量的时间和精力,覆盖率不高,且转换领域后并不通用。赵妍妍等[6]提出了一种基于句法路径的情感评价单元抽取方法,首先通过提出候选评价对象、候选评价词的概念,来为这些候选的评价单元生成大量句法路径;接下来统计出现频率很高的句法路径,认为其代表着评价单元的通用型句法路径;继而基于句法路径的精准匹配算法来自动抽取情感句中的评价单元。这种方法摆脱了人工设立规则、模板的局限,但是直接选用名词作为候选的评价对象,忽视了评价对象是词组、短语的情况;而且该文是针对英文环境进行研究的,英文方法移植到中文文本中并没有取得同样理想效果。

基于模板与规则的方法有一定的实践应用价值,但是对人力的消耗很大,近期赵妍妍等[6]提出的自动学习模板、规则的方法仍存在着相当大的局限性,一般而言只能处理句型简单、评价词和评价对象不复杂的句子。

基于统计模型,方明等[7]将抽取评价单元的问题转换为一个二分类问题,判断主观评论句中的候选评价对象和候选评价词是否具有搭配关系,并利用最大熵模型来进行分类,取得了较好的结果。但其是通过手工方式寻找一些有明确极性的评价词语作为候选,而未考虑到那些具有歧义的评价词,并且在选择可能的评价对象时,只考虑了名词作为评价对象,没有考虑评价对象是一个词组的可能性,对短语级别的评价对象识别能力较差。徐冰等[8]为了提高评价对象抽取的性能,提出在训练过程中引入浅层句法分析,将句中的结构相对简单的成分(如名词短语、动词短语等)抽取出来,再对句中每个短语成分进行标记,最终结合位置信息、短语词性等特征,用CRF模型进行训练,提升了抽取系统的性能。该方法虽然不依赖于领域词典,但是由于评价对象往往比较复杂,而标注语料相对较少,给统计模型带来很大的限制,故效果不佳。

1.2 Tritraining算法

传统的抽取评价单元算法通常为监督学习算法,而始于Shahshahani等[9]删除文献10,无引用的半监督学习(semisupervised learning)的研究已是机器学习的一个研究热点。本文所使用到的Tritraining算法是由协同训练算法改进而来的,也是一种半监督学习算法。自从标准协同训练算法被提出开始,很多研究者对其提出了很多学习方式不同、限制条件强弱各异的算法,对协同训练的理论分析和应用研究也取得了不少进展,其中包括周志华等[10]的研究,使得协同训练成为半监督学习中重要的方向之一。

初期的协同训练算法引入了很多的限制和约束条件。为了放松协同训练的约束条件,Goldman等[11]提出了一种不需要充分冗余视图的协同训练算法。Zhou等[12]在2005年提出一种新的协同训练方法,也就是Tritraining 算法。Tritraining 算法使用三个分类器进行训练,首先对有标记示例集进行可重复取样(bootstrap sampling)以获得三个有标记训练集,然后从每个训练集产生一个分类器。在协同训练过程中,各分类器所获得的新标记示例都由其余两个分类器协作提供。在对未见示例进行预测时,使用集成学习中经常用到的投票法来将三个分类器组成一个集成来实现对未见示例的预测。

与以往协同训练算法需要显式地对标记置信度进行估计不同,Tritraining 算法通过判断三个分类器的预测一致性来隐式地对不同未标记示例的标记置信度进行比较,这一做法使得该算法不需要频繁地使用耗时的统计测试技术。但与显式标记置信度相比,这一隐式处理往往不够准确,特别是如果初始分类器比较弱,未标记示例可能被错误标记,从而给第三个分类器的训练引入噪声。Zhou等[12]基于噪声学习理论推导出了能以较高概率确保这一做法有效的条件,直观地说,如果大多数未标记示例的标记是准确的,那么引入的噪声所带来的负面影响可以被使用大量未标记示例所带来的好处抵消。为了进一步降低噪声影响,还可以使用一些更可靠的误差估计技术。所以最终所得的Tritraining 算法对属性集和三个分类器所用监督学习算法都没有约束,而且不使用交叉验证,因此适用范围更广、效率更高。

2 评价单元分析

2.1 二分类问题转换

首先将评价单元抽取问题转换为一个二分类问题。对于评价句Lk,首先将其中所有可能的评价对象X和评价词Y抽取出来,表示为Lk={(xi,yj)|i=1,2,…,m,j=1,2,…,n},其中:X={x1,x2,…,xm}表示所有候选评价对象的集合,而Y={y1,y2,…,yn}表示所有候选评价词的集合,m、n分别是评价对象和评价词的总数目。接下来,对于该条评价句Lk,构建Uk={(xi,yj,Lk)|i=1,2,…,m,j=1,2,…,n}作为单一评价句Lk生成的样本集,对于每一个样本(xi,yj,Lk),给出一个标记S={true,false},表明在Lk中(xi,yj)是否是一个正确的评价单元。这样,对于一个有N条评价语句的集合L={Lk|k=1,2,…,N},可以生成对应的样本集合Uk={(xi,yj,Lk)|i=1,2,…,m,j=1,2,…,n,k=1,2,…,N},并对每一个样本进行S={true,false}的标记,这样一来就把评价单元抽取的问题转为一个可以构建常用统计模型分析的二分类问题。

2.2 候选评价词的生成

以往的研究往往采用通用的评价词典(如张伟等[13]所编的《学生褒贬义词典》等)作为候选评价词库。虽然基本可以覆盖评价句中大部分的评价词语,但其中仅包含带有情感极性的词汇,大量中性的、歧义的评价词不包含其中,如高、低、上、下等。此外,类似于“五星级”“霉味”这类领域性的评价词重复率比较高而且很重要,考虑到一个领域的评价词语相对于它的评价对象来说比较有限,所以这方面可以通过统计加人工的方式尽可能覆盖更多的评价词。

在此本文研究生成的候选评价词来自于四个方面(如表1所示):

其一是利用已有资源构建的评价词典,该词典以董强等[14]在HowNet的正负面中文评价词为基础构建,共有6748个评价词;

其二是使用了由徐琳宏等[15]整理和标注的中文情感词汇本体库,含有情感词共计27466个,部分词可能与HowNet的词有重叠;

然后笔者通过分词工具,对测试领域的语料(此处选择了酒店领域)进行切词、词性标注、抽取形容词,统计所抽取形容词的词频,对其中出现频率较高的进行判断,并加入到评价词集合中;

最后,通过人工识别,找出该领域比较典型的评价词,共32条,再通过哈尔滨工业大学提供的《同义词词林扩展版》进行扩展,以求尽可能覆盖所有可能出现的评价词语。

5 结语

本文提出了一种基于Tritraining的评论文本中评价单元自动识别的方法。针对COAE2011中给出的找出观点句中观点所针对的评价对象、评价短语的要求,首先通过句法分析,结合评价对象生成规则生成候选评价对象,同时将词本身以及上下文信息、评价对象和评价词语之间的距离、依存关系等作为原子特征,将其结合共同应用到最大熵模型、支持向量机和条件随机场模型中,从而获取评论文本中的评价单元。评价单元的自动识别,减轻了人工标注大量语料的工作,实验结果表明,利用未标注语料中所含信息的方法保证了分类的准确性,对于评论文本倾向性分析以及观点挖掘等研究具重大意义。当前方法中存在的不足主要是自然语言处理方法带来的问题,局限于句子分词和依存分析的误差。下一步工作准备在不同领域的评论文本中进行实验,同时研究不同自然语言处理工具对该方法的影响,设法提高基础工作的性能,以提高评价单元自动识别性能;对评论文本进行深入的语义分析,识别评价单元的语义倾向,进一步为倾向性分析提供帮助。

参考文献:

[1]MA X, JIN B, FAN B. An analysis of Chinese text emotional tendency [J]. Information and Documentation Services,2013(1):52-56. (马晓玲,金碧漪,范并思.中文文本情感倾向分析研究[J].情报资料工作, 2013(1): 52-56.)

[2]ZHU X. Semisupervised learning literature survey, Computer Science TR 1530 [R]. Madison: University of Wisconsin, 2008.

【http://pages.cs.wisc.edu/~jerryzhu/pub/ssl_survey.pdf】

[3]CHANG Y, LIANG J, GAO J, et al. A semisupervised clustering algorithm based on seeds and pairwise constraints [J]. Journal of Nanjing University: Natural Science Edition, 2012,48(4):405-411.(常瑜,梁吉业,高嘉伟,等.一种基于Seeds集和成对约束的半监督聚类算法[J].南京大学学报:自然科学版,2012,48(4):405-411.)

[4]LIU B, HU M, CHENG J. Opinion observer: analyzing and comparing opinions on the Web [C] // WWW 05: Proceedings of the 14th International Conference on World Wide Web. New York: ACM, 2005: 342-351.

[5]YAO T, LOU D. Research on semantic orientation analysis for topics in Chinese sentences [J]. Journal of Chinese Information Processing, 2007, 21(5): 73-79. (姚天,娄德成.汉语语句主题语义倾向分析方法的研究[J].中文信息学报,2007,21(5):73-79.)

[6]ZHAO Y, QIN B, CHE W, et al. Appraisal expression recognition based on syntactic path[J]. Journal of Software, 2011, 22(5): 887-898. (赵妍妍,秦兵,车万翔,等.基于句法路径的情感评价单元识别[J].软件学报, 2011, 22(5): 887-898.)

[7]FANG M, LIU P. Identification of evaluation collocation based on maximum entropy model [J]. Application Research of Computers, 2011, 28(10): 3714-3716. (方明,刘培玉.基于最大熵模型的评价搭配识别[J].计算机应用研究, 2011, 28(10): 3714-3716.)

[8]XU B,ZHAO T,WANG S,et al.Extraction of opinion targets based on shallow parsing features[J].Acta Automatica Sinica,2011,37(10):1241-1247.(徐冰,赵铁军,王山雨,等.基于浅层句法特征的评价对象抽取研究[J].自动化学报,2011,37(10): 1241-1247.)

[9]SHAHSHAHANI B M, LANDGREBE D A. The effect of unlabeled samples in reducing the small sample size problem and mitigating the Hughes phenomenon [J]. IEEE Transactions on Geoscience and Remote Sensing, 1994, 32(5): 1087-1095.

[10]【SWAIN P H, DAVIS S M. Remote sensing: the quantitative approach [M]. New York: McGrawHill International Book Co., 1978.

[10]ZHOU Z, WANG J. Machine learning and application [M]. Beijing: Tsinghua University Press, 2007: 259-275.(周志华,王珏.机器学习及其应用[M].北京:清华大学出版社, 2007: 259-275.)

[11]GOLDMAN S A, ZHOU Y. Enhancing supervised learning with unlabeled data [C]// ICML 00: Proceedings of the Seventeenth International Conference on Machine Learning. San Francisco: Morgan Kaufmann Publishers Inc., 2000: 327-334.

[12]ZHOU Z, LI M. Tritraining: exploiting unlabeled data using three classifiers [J]. IEEE Transactions on Knowledge and Data Engineering, 2005, 17(11): 1529-1541.

[13]ZHANG W, LIU J, GUO X. Xuesheng Baobianyi Cidian[M]. Beijing: Encyclopedia of China Publishing House, 2004. (张伟,刘缙,郭先珍.学生褒贬义词典[M].北京:中国大百科全书出版社,2004.)

[14]DONG Q, DONG Z. HowNet knowledge database [EB/OL]. [2013-03-18]. http:///. (董强,董振东.知网简介[EB/OL]. [2013-03-18]. http:///.)

[15]XU L, LIN H, PAN Y, et al. Constructing the affective lexicon ontology [J]. Journal of the China Society for Scientific and Technical Information, 2008, 27(2): 180-185. (徐琳宏,林鸿飞,潘宇,等.情感词汇本体的构造[J].情报学报,2008,27(2):180-185.)

[16]TAN S. Chinese sentiment corpus ― ChnSentiCorp [EB/OL]. [2012-11-20]. http://.cn/tansongbo/senti_corpus.jsp. (谭松波. 中文情感挖掘语料――ChnSentiCorp [EB/OL]. [2012-11-20].http://.cn/tansongbo/senti_corpus.jsp.)