首页 > 范文大全 > 正文

面向问答社区的中文问题分类

开篇:润墨网以专业的文秘视角,为您筛选了一篇面向问答社区的中文问题分类范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:传统的问题分类体系大都基于事实类问题,传统的问题分类方法也比较依赖于疑问词这一分类特征,但问答社区(CQA)中非事实类问题居多,且许多问题并不包含疑问词,为此,提出一种面向问答社区的粗粒度分类体系,并在此基础上提出一种基于疑问词的层次化结构问题分类方法。该方法首先自动识别问题中的疑问词,若疑问词存在,则用支持向量机(SVM)模型进行分类;而对没有疑问词的问题,则用所构造的基于焦点词的分类器进行分类。通过在从中文问答社区知乎中所爬取的问题数据集上进行实验,与传统的基于SVM模型的分类方法相比,该方法的分类准确率提高了4.7个百分点。实验结果表明,这种根据问题是否含有疑问词而选择不同分类器的方法,减轻了分类方法对疑问词的依赖,能有效提高问答社区中问题分类的准确率。

关键词:中文问题分类;问答社区;层次分类;支持向量机;焦点词

中图分类号: TP391.4 文献标志码:A

0引言

随着互联网的发展与普及,百度知道、腾讯搜搜问问、知乎等中文问答社区(Community Question Answering, CQA)发展迅速,逐渐成为广受用户喜爱的知识共享平台。其主要优势在于用户可以按照自己的语言习惯自由地提出任意类型的问题,同时也可以帮助其他用户解决任意类型的问题。随着问答社区影响力的不断扩大,问答社区中积累了大量的问题答案对资源。截止到2015年3月,中文CQA平台百度知道已经累计解决问题361833885个,腾讯搜搜问问已经累计解决问题258109735个,并且每天平均以超过10000个新问题的速度在不断增长。针对这些海量问答资源的数据挖掘是一个非常具有价值的研究热点。

问题分类的任务就是对于给定的问题,将它划分到相应的语义类别中。问题分类的结果有助于精确定位答案的位置、选择合适的答案搜索策略以及评价答案的质量等,比如文献[1]利用问题分类的结果去构建答案质量评价模型,从而从问题的众多候选答案中筛选出高质量的答案。与传统的问题分类相比,面向CQA的问题分类存在如下困难:1)现有的问题分类体系一般针对事实型问题,比如:“BBS的简称是什么?”“第一个进入太空的中国人是谁?”“光的传播速度是多少?”等,这类问题的答案通常比较简短。然而在CQA中,问题类型的分布十分广泛,其中事实型问题所占比例相对较少,现有分类体系不再适用,需要设计一个更加合理的问题分类体系。2)现有的问题分类方法大都针对包含疑问词的问句,比较依赖于问句中的疑问词这一分类特征。然而CQA中的问题是由真实的用户提出的,语言表达方式十分灵活,存在着许多不包含疑问词的问句,比如:“求问国内最好的悬疑或推理小说?”“旅游攻略?”“癌症形成的主要原因?”等,采用现有的方法对这类问题进行分类无法取得很好的效果。因此,面向CQA的问题分类需要新的解决思路。

针对以上问题,本文提出了一种面向问答社区的粗粒度分类体系,将问答社区中的问题分为七大类:定义、事实、观点、过程、原因、是非、描述,并提出一种基于疑问词的层次化结构问题分类方法,根据问题中是否含有疑问词而选择不同的分类器。该方法首先自动识别问题中的疑问词,若疑问词存在,则用支持向量机(Support Vector Machine,SVM)模型进行分类,而对没有疑问词的问题,则用所构造的基于焦点词的分类器进行分类。其中,基于焦点词的问题分类器是针对不含疑问词的问题专门设计,该分类器首先抽取出问题的焦点词,然后利用百度百科对焦点词进行语义扩展得到与焦点词语义相关的词语集合,最后根据语义相关词与问题类别词的语义相似度进行问题类型的判断。

1问题分类方法相关研究

目前关于问题分类方法的研究主要集中在两种:

一是基于规则的方法,该方法通过专家人工提取的针对特定问题类型的特征规则来判定问题的所属类型。假如一个问题符合某个问题类型的规则集,那么它就属于该问题类型。由于疑问词对问题类型的影响比较大,许多研究者根据疑问词来编写分类规则,有的甚至直接通过疑问词的类型来判断问题的类型,比如Biswas等[2]首先针对特定的问题类型抽取固定的语法模式,然后利用这些语法模式来对问题进行分类,而且这些语法模式是基于疑问词的;Liu等[3]首先抽取问题的疑问词和目标内容词作为该问题的核心元组(问题类型:疑问词,目标类型:目标内容词),然后通过匹配该核心元组来对问题进行分类;Ray等[4]提出了8种问题模式并结合WordNet与Wikipedia来将问题分为7大类。基于规则的方法对于含有疑问词的问题的分类准确率很高,但是对于没有疑问词的问题,则很难处理。因为仅仅根据问题中的非疑问词来编写分类规则并不容易,需要耗费更多的时间和人力资源。

另一种是基于统计的机器学习方法,具有很强的适用性,表现出了很好的性能。该方法通过对已标注的问句语料进行统计学习,提取能表达各种问题类型的特征,建立分类模型,从而实现问题类型的识别。由于问句中词语个数少,能确定问题类别的特征少,同时问题中还包含着其他对分类没有作用的噪声词,因此大多数研究的重点集中在如何对问题中的词语进行特征选择上。起初,Hacioglu等[5]将问题中的每一个词作为特征,使用SVM模型对英文问题进行分类,最后分类的准确率达到80.2%,但是该方法没有剔除掉对分类没有作用的噪声词。随后,Zhang等[6]提出了另一种采用SVM模型进行英文问题分类的方法,和Hacioglu方法不同的是,该方法利用tree kernel提取特征项,最终达到了大类(6个大类)90.0%的分类精度,但是其分类精度较大地依赖于句法分析的精度,而不够成熟的汉语句法分析技术,再加上问答社区中问题表达方式的不规范性,决定了仅仅依靠句法分析技术提取出问题的特征词来实现面向问答社区的问题分类将会引起较大的误差。文勖等[7]通过提取问句中的疑问词,并利用句法分析提取问句的主干和疑问词的附属成分作为分类特征进行中文问题分类;袁晓洁等[8]通过提取问句中的主要动词、中心词、中心词的最高上位词、疑问词以及与疑问词相关的依存关系作为分类特征进行中文问题分类。上述两种方法在分类特征中增加了疑问词及其附属成分,虽然在一定程度上减小了因句法分析精度不够带来的影响,但是也决定了此方法不适合用于对问答社区中不包含疑问词的问题进行分类。

由于基于规则的方法和机器学习的方法各有其优缺点,为了充分利用这两种方法的优点,规则分类和机器学习分类相结合的方法也经常被用到问题分类中来。Sherkat等[9]提出一种结合规则分类与SVM分类的分类方法,该方法预先针对每一类型问题,通过统计分析抽取分类准确率较高的问句模板作为规则库,对于待分类的问题,首先查询规则库中是否存在问句模板与该问题相匹配,匹配成功则直接返回问题类型;否则采用SVM模型进行分类,取得了较好的分类效果。Xie等[10]提出一种结合规则分类与贝叶斯分类的分类方法,该方法预先生成疑问词―问题类别的规则库,对于一个问句,首先根据疑问词去匹配规则库,匹配成功则直接返回问题类型;否则采用贝叶斯模型进行分类。上述两种方法对疑问词这一分类特征的依赖比较大,同样不适合用于对问答社区中不包含疑问词的问题进行分类。

2问题分类体系

目前关于问题分类的研究大多采用的是Li和Roth在文献[11]中提出的层次分类体系,它包含6个大类,50个小类,每个大类又包含一些不重复的小类。在此基础上,文献[12]根据汉语自身的特点定义了一种适合中文问题分类的分类体系,它包含7个大类,60个小类。这两种分类体系主要是针对事实类的问题,这类问题可用一个词或者短语作为答案进行回答,比如“地名、人名、机构名”等命名实体。而问答社区中的问题类型分布十分广泛,其中事实类问题所占比例相对较少,本文在文献[12]的基础上,提出一种面向问答社区的粗粒度分类体系。根据问答社区中问题类型分布的特点和问题的语义信息,将原来的7个大类和60个小类归纳为7种问题类型,如表1所示。

可以看出,它是一个更加适合对问答社区中的问题进行分类的分类体系,而并不仅仅局限于事实类问题。这样,面向问答社区的问题分类,就是将问答社区中的实例问题映射到这7个类别中去。在本文的研究中,假设每个问题只能属于一个问题类型,而不考虑一个问题同时属于多个问题类型的情况。

3基于疑问词的层次化结构问题分类算法

从相关研究中可以看到,现有的问题分类方法不适合直接用于对问答社区中的问题进行分类,主要原因在于这些方法对疑问词的依赖比较大,而问答社区中又存在着许多不包含疑问词的问句。本文在对问答社区中的问题进行分类时,利用层次分类的思想,先根据问题是否含有疑问词将问答社区中的问题分为两类:含有疑问词和不含疑问词,再对这两类问题分别采用合适的分类器进行分类。

对于含有疑问词的问题,采用SVM模型进行分类。许多采用机器学习方法进行问题分类的研究表明,同贝叶斯分类器、决策树分类器相比,SVM分类器具有更好的分类效果。比如文献[13]比较了各种通过监督学习方法训练出来的分类模型,发现采用线性核函数训练出来的SVM模型对问题进行分类的准确率更高。因此本文在训练SVM模型时,采用线性核函数,并选择问题中的所有不属于非停用词的词、问题的疑问词作为分类特征。

对于不含疑问词的问题,采用本文设计的基于焦点词的分类器(FocusBased Classifier, FBC)进行分类。所谓焦点词,是指问题中对表达答案类型具有重要意向信息的词。对于不包含疑问词的问题,焦点词可以说是问题类型判断的决定性因素。例如对于问题“面试被刷的原因?”,直接根据焦点词“原因”就可以判断此问题属于Reason类型问题。“学习吉他的过程?”,根据焦点词“过程”就可以判断此问题属于Procedure类型问题。因此,如果能够正确抽取出问题的焦点词,并能根据问题的焦点词设计良好的分类器,便可以有效地提高整个问题分类器的性能。具体的分类器设计见下一节。

这种层次化的分类方法,相对于单一地使用SVM等机器学习模型来进行问题分类的方法,无需对不含疑问词的问题训练分类模型,相对于多分类器的并行竞争或投票组合等方法,对一个测试问题其实只用一个分类器进行分类,因而能够在保证分类准确率的前提下,使问题分类在实际应用中有较好的时间效率。算法1描述了对问答社区中的问题进行分类的具体过程。

算法1基于疑问词的层次化结构问题分类算法。

有序号的程序――――――――――Shift+Alt+Y

程序前

输入问题Q。

输出问题类别QT(Question Type)。

1)

识别问题中的疑问词IW(Interrogative Word)

2)

if IW exists then

3)

采用SVM分类器对Q分类得到QT

4)

else

5)

采用FBC分类器对Q分类得到QT

6)

end if

7)

return QT

程序后

分区

表格(有表名)

表2依存句法规则关系

序号规则解释

1〈HW,COO,W〉=>W|noun如果名词W通过关系COO直接依赖核心词HW,则抽取W为焦点词

2〈HW,VOB,VOB,…,W〉=>W如果不存在词语满足规则1,但存在词语W通过关系VOB直接或间接依赖核心词HW,则抽取W为焦点词

3〈HW,SBV,W〉=>W|noun如果不存在词语满足规则1、2,但存在名词W通过关系SBV直接依赖核心词HW,则抽取W为焦点词

4〈HW,null,W〉=>HW如果不存在词语满足规则1、2、3,则直接抽取核心词HW为焦点词。

4基于焦点词的问题分类器的设计

基于焦点词的分类器的设计思想如下:首先对问题作依存句法分析,根据启发式规则抽取出问题的焦点词;接着利用百度百科对焦点词进行语义扩展,得到焦点词的语义相关词集合;然后逐一计算与类别词语的语义相似度,选择相似度最高的类别词所属的类别作为问题的类型。整个过程包含三个关键步骤:问题的焦点词抽取、焦点词的语义扩展、计算词语的语义相似度。

4.1基于依存句法规则的焦点词抽取

依存句法(Dependency Parsing, DP) 通过分析语言单位内成分之间的依存关系揭示其句法结构[14]。直观来讲,依存句法分析识别句子中的“主谓宾”“定状补”这些语法成分,并分析各成分之间的关系。图1为一个依存句法分析的例子。

设计基于焦点词的分类器的关键在于正确抽取问题的焦点词。通过对问题进行依存句法分析,发现对于不含疑问词的问题,句子的核心词,即核心关系(head,HED)所指向的词,在很大概率上是焦点词,因为它是整个句子的核心。以图1中的问题为例,核心词“原因”就是该问题的焦点词。此外核心词的依存词也有可能是焦点词。以问题“第一个进入太空的中国人是谁?”为例,其句法分析结果如图2所示。

从图2可看出,该问题的焦点词是与核心词“是”具有动宾关系(VerbOBject, VOB)的“谁”。本文根据问答社区中不含疑问词的问题的特点,通过统计的方法生成了若干启发式规则来抽取焦点词。具体步骤如下:

1)人工标注问题数据集中所有问题的焦点词。

2)利用哈尔滨工业大学社会计算与信息检索研究中心研制的语言技术平台――LTP(Language Technology Platform)云平台对问题数据集中的所有问题作句法分析,得到问题的核心词以及与核心词具有依存关系的词。LTP云平台包含分句、分词及词性标注、分词、词性标注、命名实体识别、词义消歧、依存分析器和语义角色标注等功能。

3)统计焦点词是核心词以及焦点词是与核心词有依存关系的词语的频率,选择频率大于1的词语在句法分析结果中所处的依存关系及其词性作为抽取问题焦点词的规则。

表2为通过上述步骤最终生成的启发式依存句法规则。

根据所定义的规则,设计了如下焦点词抽取算法。算法输入的是不含疑问词的问题,输出的是问题的焦点词。首先对问题预处理,去除掉多余的标点符号,接着进行依存句法分析,得到核心词(Hed Word, HW)以及与核心词存在并列(coordinate, COO)、VOB、主谓(subjectverb, SBV)依存关系的词语集合;然后遍历该集合找到满足上述4条规则的词语作为焦点词。

算法2基于依存句法规则的焦点词抽取算法。

有序号的程序――――――――――Shift+Alt+Y

程序前

输入待分类问题Q。

输出焦点词FW。

1)

preprocess(Q)

2)

dependencyparsing(Q)->HW,T;其中:HW为Q的核心词,T为Q中与核心词有COO、VOB、SBV依存关系的词语集合

3)

if T is null

4)

return HW as focus word

5)

else for each word W in T do

6)

if W directly depends on HW through "COO" structure and W is noun

return W as focus word

7)

else if W directly depends on HW through "VOB" structure and W is noun

return W as focus word

8)

else if W undirectly depends on HW through "VOB" structure and W is noun

return W as focus word

9)

else if W directly depends on HW through "SBV" structure and W is noun

return W as focus word

10)

end if

11)

end for

12)

end if

程序后

4.2基于百度百科的语义扩展

百度百科是一部内容开放、自由的网络百科全书,收录的内容包括具体事物、知名人物、抽象概念、文学著作、热点事件、汉语字词等,其所含内容的基础分割单位是词条。词条具有很好的半结构化信息,主要由以下若干部分组成:词条名称、百科名片、目录、词条正文、词条统计、词条标签。图3是一个词条样例。

本文利用百度百科对焦点词进行语义扩展,优势在于:一是百度百科中存在着大量的对词语或短语的解释,而且内容不断更新;二是这些对词语的解释是由用户编写的,有助于理解用户在使用这些词语时所期望的语义。词条信息中对词语具有解释意义的是3部分内容:百科名片、词条正文中的基本解释和引证解释,分别对应于图3中用红色边框标注的内容。本文正是利用这3部分信息对焦点词进行语义扩展,从而得到与焦点词语义相关的词语集合。算法3描述了对焦点词进行语义扩展的过程。

算法3基于百度百科的语义扩展算法。

程序前

输入焦点词FW。

输出焦点词的语义相关词集合R。

1) 将焦点词输入到搜索引擎进行查询,爬取焦点词在百度百科中的词条页面内容。

2) 去噪声,除去页面中的html、 js、css等信息,只保留百科名片、基本解释、详细解释、引证解释这4部分解释性文本信息。

3) 对上述解释性文本进行分句,组成句子集合S。

4) 遍历S中的句子,利用第3章的焦点词抽取算法抽取得到句子的焦点词加入到集合R中。

5) 返回焦点词的语义相关词集合R。

程序后

4.3词语的语义相似度计算

对焦点词进行语义扩展得到焦点词的语义相关词集合后,逐一计算与类别词语的相似度,然后选择相似度最高的类别词所属的类别作为问题的类型。

在计算相似度时,需要已知类别词语,由于不包含疑问词的问题不可能为Yes/No类型,所以不考虑此类型的类别词语。对于“定义”“原因”“过程”“观点”“描述”类型,利用同义词词林扩展版获取它们的同义词作为对应的类别词语;对于“事实”类型,选择文献[12]中分类体系中的人物、地点、数字、时间、实体5个大类下表示小类的词语作为类别词语,比如“团体”“机构”“城市”“国家”“距离”“价格”等。表3为各个问题类型的类别词语。

表格(有表名)

问题类型的判别方法可用公式表示为:

questioncategory=arg maxc{sim(wi,cj)}; wi∈W,cj∈C

其中:W={w1,w2,…}表示焦点词的语义相关词集合,C={c1,c2,…}表示问题的类别词语集合,sim(wi , cj)是计算语义相关词与类别词的相似度。计算词语的语义相似度使用了文献[15]提供的基于知网的词汇语义相似度计算方法,最后选择相似度最高的类别词所属的类别作为问题的类型。

5实验及结果分析

5.1实验数据

由于目前关于问题分类的公开问题集全部为含疑问词的问题,于是本文抽取了中文问答社区知乎中的4103个问题作为实验数据。其中训练集数目为3404,测试集数目为699。问题的类型全部手工标注完成,每个问题都由3个人标注,对于有歧义的最后统一解决,共有3人参与了标注工作,耗费时间为1个月。标注完成后,对问题类型的分布作了统计,如表4所示。

5.2评价指标

实验采用测试集在7个问题类别上的分类准确率对系统进行评价,定义如下:

分类准确率=测试集中正确分类的问题数测试集中的问题总数×100%

5.3实验结果

为了验证疑问词对分类效果的影响,本文设计了一组对比实验1。选择LIBSVM[16]工具,用全部的问题训练集训练SVM模型进行分类。训练和分类时,将问题表示成向量的形式:(x1,x2,…,xn),其中:第i维上的特征xi∈{0,1}表示该特征是否在问题中出现。分类时一组使用含有疑问词的测试集,另一组使用不含疑问词的测试集,得到的结果如表5所示。

实验1的结果表明:采用同一SVM模型对含有疑问词的问题和不含疑问词的问题进行分类时,前者的分类准确率明显高于后者,高出了16.8个百分点。可见,疑问词在问题分类中起到了至关重要的作用,不能采用传统的分类方法对不含疑问词的问题进行分类。

为了验证本文提出的面向问答社区的问题分类方法的有效性,本文设计了另一组对比实验2。选择了2种不同的分类方法对整个测试集中的699个问题(包括含有疑问词和不含疑问词的训练集)进行分类:方法1是采用SVM分类方法;方法2是采用本文提出的SVM和FBC相结合的层次分类方法,即对于含有疑问词的问题采用SVM模型进行分类,对于不含疑问词的问题采用本文设计的FBC分类器进行分类。得到的结果如表6所示。

从表6可看出,如果对整个测试集中所有的问题均采用SVM分类器进行分类,分类错误的问题数目为125,准确率只有82.1%;而对测试集中含有疑问词和不含疑问词的问题分别采用SVM和FBC分类器后,分类错误的问题数目降为92,准确率提高了4.7个百分点,达到86.8%。

5.4实验结果分析

由于疑问词对问题分类的效果影响很大,而问答社区中又存在着许多不含疑问词的问题,所以本文根据问题是否含有疑问词将问题集分为两类:含有疑问词和不含疑问词。对于前者,采用传统的SVM分类器;对于后者,则采用FBC分类器。通过将测试集中含有疑问词和不含疑问词的问题分开进行处理,有效地减轻了分类器对疑问词的依赖,使得面向问答社区的问题分类的准确率有明显的提高。

6结语

本文研究了问答社区中的问题分类问题。目前大多数研究工作采用的是基于事实类问题的分类体系,且处理的是含有疑问词的问题,而很少有对不含疑问词的问题进行分类的研究工作。因此本文首先提出了一个粗粒度的分类体系,该分类体系不仅仅局限于事实类问题,因而更适合处理面向问答社区的问题分类;同时借鉴层次分类的思想,对于不含疑问词和含有疑问词的问题分别处理,针对不含疑问词的问题设计了一个基于焦点词的分类器来对其进行分类,针对含有疑问词的问题采用SVM分类器进行分类。实验结果表明,本文提出的问题分类方法减轻了分类方法对疑问词的依赖,适用于对问答社区中的问题进行分类,能够显著提高问题分类的准确率。

下一步研究的重点在于完善基于焦点词的问题分类器的设计,目前只是简单地根据词性和一些简单的启发式规则来抽取焦点词,可考虑引入机器学习的方法来提高焦点词抽取的准确率;其次,优化对焦点词进行语义扩展的过程,以减少语义扩展过程中引入的噪声词语对分类准确率和速度的影响。当然,采用更好的句法分析工具和词语语义相似度计算方法,也是未来的研究工作。

参考文献:

[1]

TOBA H, MING Z Y, ADRIANI M, et al. Discovering high quality answers in community question answering archives using a hierarchy of classifiers [J]. Information Sciences, 2014, 261(5): 101-115.

[2]

BISWAS P, SHARAN A, KUMAR R. Question classification using syntactic and rule based approach [C]// ICACCI 2014: Proceedings of the 2014 International Conference on Advances in Computing, Communications and Informatics. Piscataway, NJ: IEEE, 2014: 1033-1038.

[3]

LIU X M, LIU L. Question classification based on focus [C]// Proceedings of the 2012 International Conference on Communication Systems and Network Technologies. Washington, DC: IEEE Computer Society, 2012: 512-516.

[4]

RAY S K, SINGH S, JOSHI B P. A semantic approach for question classification using WordNet and Wikipedia [J]. Pattern Recognition Letters, 2010, 31(13):1935-1943.

[5]

HACIOGLU K, WARD W. Question classification with support vector machines and error correcting codes [C]// Proceedings of the 2003 North American Chapter of the Association for Computational Linguistics on Human Language Technology. Stroudsburg, PA: Association for Computational Linguistics, 2003, 2:28-30.

[6]

ZHANG D, LEE W S. Question classification using support vector machines [C]// Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2003:26-32.

[7]

文勖,张宇,刘挺,等. 基于句法结构分析的中文问题分类[J]. 中文信息学报, 2006,20(2):33-39.(WEN X, ZHANG Y, LIU T, et al. Syntactic structure parsing based chinese question classification[J]. Journal of Chinese Information Processing, 2006, 20(2): 33-39.)

[8]

袁晓洁,师建兴,宁华,等.问题分类中基于句法和语义信息的特征选择[J].计算机工程与应用,2008,44(33):144-147.(YUAN X J, SHI J X, NING H, et al. Feature selection using syntactic and semantic information in question classification[J]. Computer Engineering and Applications, 2008, 44(33): 144-147.)

[9]

SHERKAT E, FARHOODI M. A hybrid approach for question classification in Persian automatic question answering systems [C]// ICCKE 2014: Proceedings of the 2014 4th International Conference on Computer and Knowledge Engineering. Piscataway, NJ: IEEE, 2014: 279-284.

[10]

XIE Z W, PAN S L. Chinese question classification based on multi strategy method [C]// TMEE 2011: Proceedings of the 2011 International Conference on Transportation, Mechanical, and Electrical Engineering. Piscataway, NJ: IEEE, 2011:1605-1609.

[11]

LI X, ROTH D. Learning question classifiers: the role of semantic information [J]. Natural Language Engineering, 2006,12(3):229-249.

[12]

孙景广,蔡东风,吕德新,等. 基于知网的中文问题自动分类[J].中文信息学报,2007,21(1):90-95.(SUN J G, CAI D F, LYU D X, et al. HowNet based Chinese question automatic classification [J]. Journal of Chinese Information Processing, 2007,21(1):90-95.)

[13]

LONI B. A survey of stateoftheart methods on question classification [J]. Electrical Engineering Mathematics and Computer Science, 2011.

LONI B. A survey of stateoftheart methods on question classification [EB/OL]. [20150214]. https:///publication/241886726_A_Survey_of_StateoftheArt_Methods_on_Question_Classification.

[14]

李正华.依存句法分析统计模型及树库转化研究[D].哈尔滨:哈尔滨工业大学,2008:1-5.(LI Z H. Research on statistical model and Treebank conversation for dependency parsing [D]. Harbin: Harbin Institute of Technology, 2008:1-5.)

[15]

朱征宇,孙俊华.改进的基于《知网》的词汇语义相似度计算[J].计算机应用,2013,33(8):2276-2279.(ZHU Z Y, SUN J H. Improved vocabulary semantic similarity calculation based on HowNet [J]. Journal of Computer Applications, 2013, 33(8): 2276-2279.)

[16]

CHANG C C, LIN C J. LIBSVM: a library for support vector machines [J]. ACM Transactions on Intelligent Systems and Technology, 2011,2(3):Article No. 27.

http://perun.pmf.uns.ac.rs/radovanovic/dmsem/cd/install/LIBSVM/libsvm.pdf

Background

This work is partially supported by the Scientific Research Fund of Zhejiang Provincial Education Department (20071008), the Open Funds for the Provincial and Ministerial Laboratory (B2014).

DONG Caizheng, born in 1989, M. S. candidate. His research interests include natural language processing, data mining.

LIU Baisong, born in 1971, Ph. D., research fellow. His research interests include network intelligent information processing, mobile Internet, big data analysis.