开篇:润墨网以专业的文秘视角,为您筛选了八篇百科问答范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!
这类UGC的内容在解答我们的日常问题上面很有作用,但是UGC的模式也使得这类网站对于一些专业级的问题可能回复无力。比方说我该怎么选择学校?为什么应该选择这所学校而不是另外一所,诸如此类特别专业的问题。
作为对用户需求的回应和对现有问答网站不足的改进,专业知识问答网站Quora类脱颖而出,和传统的UGC问答网站过分依赖UGC不同的是,Quora更依赖于专业人士对知识的贡献。
正在视频领域,UGC逐渐让位于专业视频内容一样,问答网站也在发现这样的改变。Quora和其他问答网站不同的地方在于他孕育了一批各个领域的专家,比如医生,经济学家和博士,以及其他行业内部人士。通过信用排级系统和可靠的群体智慧系统,Quora给出的针对问题的答案往往都比较深刻和洞察。这点上要远远优于维基百科和雅虎问答那里直接提供事实信息的问答网站。
Quora的流量增长非常迅猛,来自Media Metrix的数据显示在过去一年该网站的流量几乎增长了300%,在6月份达到150万的访客规模。说明市场对该网站提供的价值的认可。
但有趣的是Quora的流量并非来自人们对其品牌的认知,Quora这个名字也并非家喻户晓。通过分析Quora的搜索数据发现,使用该词汇进行搜索的用户几乎寥寥无几。显示出Quora这个品牌在互联网网民中认可度低。
那么Quora流量增长的背后是啥?没错,答案是搜索
关键词:中文问题分类;问答社区;层次分类;支持向量机;焦点词
中图分类号: TP391.4 文献标志码:A
0引言
随着互联网的发展与普及,百度知道、腾讯搜搜问问、知乎等中文问答社区(Community Question Answering, CQA)发展迅速,逐渐成为广受用户喜爱的知识共享平台。其主要优势在于用户可以按照自己的语言习惯自由地提出任意类型的问题,同时也可以帮助其他用户解决任意类型的问题。随着问答社区影响力的不断扩大,问答社区中积累了大量的问题答案对资源。截止到2015年3月,中文CQA平台百度知道已经累计解决问题361833885个,腾讯搜搜问问已经累计解决问题258109735个,并且每天平均以超过10000个新问题的速度在不断增长。针对这些海量问答资源的数据挖掘是一个非常具有价值的研究热点。
问题分类的任务就是对于给定的问题,将它划分到相应的语义类别中。问题分类的结果有助于精确定位答案的位置、选择合适的答案搜索策略以及评价答案的质量等,比如文献[1]利用问题分类的结果去构建答案质量评价模型,从而从问题的众多候选答案中筛选出高质量的答案。与传统的问题分类相比,面向CQA的问题分类存在如下困难:1)现有的问题分类体系一般针对事实型问题,比如:“BBS的简称是什么?”“第一个进入太空的中国人是谁?”“光的传播速度是多少?”等,这类问题的答案通常比较简短。然而在CQA中,问题类型的分布十分广泛,其中事实型问题所占比例相对较少,现有分类体系不再适用,需要设计一个更加合理的问题分类体系。2)现有的问题分类方法大都针对包含疑问词的问句,比较依赖于问句中的疑问词这一分类特征。然而CQA中的问题是由真实的用户提出的,语言表达方式十分灵活,存在着许多不包含疑问词的问句,比如:“求问国内最好的悬疑或推理小说?”“旅游攻略?”“癌症形成的主要原因?”等,采用现有的方法对这类问题进行分类无法取得很好的效果。因此,面向CQA的问题分类需要新的解决思路。
针对以上问题,本文提出了一种面向问答社区的粗粒度分类体系,将问答社区中的问题分为七大类:定义、事实、观点、过程、原因、是非、描述,并提出一种基于疑问词的层次化结构问题分类方法,根据问题中是否含有疑问词而选择不同的分类器。该方法首先自动识别问题中的疑问词,若疑问词存在,则用支持向量机(Support Vector Machine,SVM)模型进行分类,而对没有疑问词的问题,则用所构造的基于焦点词的分类器进行分类。其中,基于焦点词的问题分类器是针对不含疑问词的问题专门设计,该分类器首先抽取出问题的焦点词,然后利用百度百科对焦点词进行语义扩展得到与焦点词语义相关的词语集合,最后根据语义相关词与问题类别词的语义相似度进行问题类型的判断。
1问题分类方法相关研究
目前关于问题分类方法的研究主要集中在两种:
一是基于规则的方法,该方法通过专家人工提取的针对特定问题类型的特征规则来判定问题的所属类型。假如一个问题符合某个问题类型的规则集,那么它就属于该问题类型。由于疑问词对问题类型的影响比较大,许多研究者根据疑问词来编写分类规则,有的甚至直接通过疑问词的类型来判断问题的类型,比如Biswas等[2]首先针对特定的问题类型抽取固定的语法模式,然后利用这些语法模式来对问题进行分类,而且这些语法模式是基于疑问词的;Liu等[3]首先抽取问题的疑问词和目标内容词作为该问题的核心元组(问题类型:疑问词,目标类型:目标内容词),然后通过匹配该核心元组来对问题进行分类;Ray等[4]提出了8种问题模式并结合WordNet与Wikipedia来将问题分为7大类。基于规则的方法对于含有疑问词的问题的分类准确率很高,但是对于没有疑问词的问题,则很难处理。因为仅仅根据问题中的非疑问词来编写分类规则并不容易,需要耗费更多的时间和人力资源。
另一种是基于统计的机器学习方法,具有很强的适用性,表现出了很好的性能。该方法通过对已标注的问句语料进行统计学习,提取能表达各种问题类型的特征,建立分类模型,从而实现问题类型的识别。由于问句中词语个数少,能确定问题类别的特征少,同时问题中还包含着其他对分类没有作用的噪声词,因此大多数研究的重点集中在如何对问题中的词语进行特征选择上。起初,Hacioglu等[5]将问题中的每一个词作为特征,使用SVM模型对英文问题进行分类,最后分类的准确率达到80.2%,但是该方法没有剔除掉对分类没有作用的噪声词。随后,Zhang等[6]提出了另一种采用SVM模型进行英文问题分类的方法,和Hacioglu方法不同的是,该方法利用tree kernel提取特征项,最终达到了大类(6个大类)90.0%的分类精度,但是其分类精度较大地依赖于句法分析的精度,而不够成熟的汉语句法分析技术,再加上问答社区中问题表达方式的不规范性,决定了仅仅依靠句法分析技术提取出问题的特征词来实现面向问答社区的问题分类将会引起较大的误差。文勖等[7]通过提取问句中的疑问词,并利用句法分析提取问句的主干和疑问词的附属成分作为分类特征进行中文问题分类;袁晓洁等[8]通过提取问句中的主要动词、中心词、中心词的最高上位词、疑问词以及与疑问词相关的依存关系作为分类特征进行中文问题分类。上述两种方法在分类特征中增加了疑问词及其附属成分,虽然在一定程度上减小了因句法分析精度不够带来的影响,但是也决定了此方法不适合用于对问答社区中不包含疑问词的问题进行分类。
由于基于规则的方法和机器学习的方法各有其优缺点,为了充分利用这两种方法的优点,规则分类和机器学习分类相结合的方法也经常被用到问题分类中来。Sherkat等[9]提出一种结合规则分类与SVM分类的分类方法,该方法预先针对每一类型问题,通过统计分析抽取分类准确率较高的问句模板作为规则库,对于待分类的问题,首先查询规则库中是否存在问句模板与该问题相匹配,匹配成功则直接返回问题类型;否则采用SVM模型进行分类,取得了较好的分类效果。Xie等[10]提出一种结合规则分类与贝叶斯分类的分类方法,该方法预先生成疑问词―问题类别的规则库,对于一个问句,首先根据疑问词去匹配规则库,匹配成功则直接返回问题类型;否则采用贝叶斯模型进行分类。上述两种方法对疑问词这一分类特征的依赖比较大,同样不适合用于对问答社区中不包含疑问词的问题进行分类。
2问题分类体系
目前关于问题分类的研究大多采用的是Li和Roth在文献[11]中提出的层次分类体系,它包含6个大类,50个小类,每个大类又包含一些不重复的小类。在此基础上,文献[12]根据汉语自身的特点定义了一种适合中文问题分类的分类体系,它包含7个大类,60个小类。这两种分类体系主要是针对事实类的问题,这类问题可用一个词或者短语作为答案进行回答,比如“地名、人名、机构名”等命名实体。而问答社区中的问题类型分布十分广泛,其中事实类问题所占比例相对较少,本文在文献[12]的基础上,提出一种面向问答社区的粗粒度分类体系。根据问答社区中问题类型分布的特点和问题的语义信息,将原来的7个大类和60个小类归纳为7种问题类型,如表1所示。
可以看出,它是一个更加适合对问答社区中的问题进行分类的分类体系,而并不仅仅局限于事实类问题。这样,面向问答社区的问题分类,就是将问答社区中的实例问题映射到这7个类别中去。在本文的研究中,假设每个问题只能属于一个问题类型,而不考虑一个问题同时属于多个问题类型的情况。
3基于疑问词的层次化结构问题分类算法
从相关研究中可以看到,现有的问题分类方法不适合直接用于对问答社区中的问题进行分类,主要原因在于这些方法对疑问词的依赖比较大,而问答社区中又存在着许多不包含疑问词的问句。本文在对问答社区中的问题进行分类时,利用层次分类的思想,先根据问题是否含有疑问词将问答社区中的问题分为两类:含有疑问词和不含疑问词,再对这两类问题分别采用合适的分类器进行分类。
对于含有疑问词的问题,采用SVM模型进行分类。许多采用机器学习方法进行问题分类的研究表明,同贝叶斯分类器、决策树分类器相比,SVM分类器具有更好的分类效果。比如文献[13]比较了各种通过监督学习方法训练出来的分类模型,发现采用线性核函数训练出来的SVM模型对问题进行分类的准确率更高。因此本文在训练SVM模型时,采用线性核函数,并选择问题中的所有不属于非停用词的词、问题的疑问词作为分类特征。
对于不含疑问词的问题,采用本文设计的基于焦点词的分类器(FocusBased Classifier, FBC)进行分类。所谓焦点词,是指问题中对表达答案类型具有重要意向信息的词。对于不包含疑问词的问题,焦点词可以说是问题类型判断的决定性因素。例如对于问题“面试被刷的原因?”,直接根据焦点词“原因”就可以判断此问题属于Reason类型问题。“学习吉他的过程?”,根据焦点词“过程”就可以判断此问题属于Procedure类型问题。因此,如果能够正确抽取出问题的焦点词,并能根据问题的焦点词设计良好的分类器,便可以有效地提高整个问题分类器的性能。具体的分类器设计见下一节。
这种层次化的分类方法,相对于单一地使用SVM等机器学习模型来进行问题分类的方法,无需对不含疑问词的问题训练分类模型,相对于多分类器的并行竞争或投票组合等方法,对一个测试问题其实只用一个分类器进行分类,因而能够在保证分类准确率的前提下,使问题分类在实际应用中有较好的时间效率。算法1描述了对问答社区中的问题进行分类的具体过程。
算法1基于疑问词的层次化结构问题分类算法。
有序号的程序――――――――――Shift+Alt+Y
程序前
输入问题Q。
输出问题类别QT(Question Type)。
1)
识别问题中的疑问词IW(Interrogative Word)
2)
if IW exists then
3)
采用SVM分类器对Q分类得到QT
4)
else
5)
采用FBC分类器对Q分类得到QT
6)
end if
7)
return QT
程序后
分区
表格(有表名)
表2依存句法规则关系
序号规则解释
1〈HW,COO,W〉=>W|noun如果名词W通过关系COO直接依赖核心词HW,则抽取W为焦点词
2〈HW,VOB,VOB,…,W〉=>W如果不存在词语满足规则1,但存在词语W通过关系VOB直接或间接依赖核心词HW,则抽取W为焦点词
3〈HW,SBV,W〉=>W|noun如果不存在词语满足规则1、2,但存在名词W通过关系SBV直接依赖核心词HW,则抽取W为焦点词
4〈HW,null,W〉=>HW如果不存在词语满足规则1、2、3,则直接抽取核心词HW为焦点词。
4基于焦点词的问题分类器的设计
基于焦点词的分类器的设计思想如下:首先对问题作依存句法分析,根据启发式规则抽取出问题的焦点词;接着利用百度百科对焦点词进行语义扩展,得到焦点词的语义相关词集合;然后逐一计算与类别词语的语义相似度,选择相似度最高的类别词所属的类别作为问题的类型。整个过程包含三个关键步骤:问题的焦点词抽取、焦点词的语义扩展、计算词语的语义相似度。
4.1基于依存句法规则的焦点词抽取
依存句法(Dependency Parsing, DP) 通过分析语言单位内成分之间的依存关系揭示其句法结构[14]。直观来讲,依存句法分析识别句子中的“主谓宾”“定状补”这些语法成分,并分析各成分之间的关系。图1为一个依存句法分析的例子。
设计基于焦点词的分类器的关键在于正确抽取问题的焦点词。通过对问题进行依存句法分析,发现对于不含疑问词的问题,句子的核心词,即核心关系(head,HED)所指向的词,在很大概率上是焦点词,因为它是整个句子的核心。以图1中的问题为例,核心词“原因”就是该问题的焦点词。此外核心词的依存词也有可能是焦点词。以问题“第一个进入太空的中国人是谁?”为例,其句法分析结果如图2所示。
从图2可看出,该问题的焦点词是与核心词“是”具有动宾关系(VerbOBject, VOB)的“谁”。本文根据问答社区中不含疑问词的问题的特点,通过统计的方法生成了若干启发式规则来抽取焦点词。具体步骤如下:
1)人工标注问题数据集中所有问题的焦点词。
2)利用哈尔滨工业大学社会计算与信息检索研究中心研制的语言技术平台――LTP(Language Technology Platform)云平台对问题数据集中的所有问题作句法分析,得到问题的核心词以及与核心词具有依存关系的词。LTP云平台包含分句、分词及词性标注、分词、词性标注、命名实体识别、词义消歧、依存分析器和语义角色标注等功能。
3)统计焦点词是核心词以及焦点词是与核心词有依存关系的词语的频率,选择频率大于1的词语在句法分析结果中所处的依存关系及其词性作为抽取问题焦点词的规则。
表2为通过上述步骤最终生成的启发式依存句法规则。
根据所定义的规则,设计了如下焦点词抽取算法。算法输入的是不含疑问词的问题,输出的是问题的焦点词。首先对问题预处理,去除掉多余的标点符号,接着进行依存句法分析,得到核心词(Hed Word, HW)以及与核心词存在并列(coordinate, COO)、VOB、主谓(subjectverb, SBV)依存关系的词语集合;然后遍历该集合找到满足上述4条规则的词语作为焦点词。
算法2基于依存句法规则的焦点词抽取算法。
有序号的程序――――――――――Shift+Alt+Y
程序前
输入待分类问题Q。
输出焦点词FW。
1)
preprocess(Q)
2)
dependencyparsing(Q)->HW,T;其中:HW为Q的核心词,T为Q中与核心词有COO、VOB、SBV依存关系的词语集合
3)
if T is null
4)
return HW as focus word
5)
else for each word W in T do
6)
if W directly depends on HW through "COO" structure and W is noun
return W as focus word
7)
else if W directly depends on HW through "VOB" structure and W is noun
return W as focus word
8)
else if W undirectly depends on HW through "VOB" structure and W is noun
return W as focus word
9)
else if W directly depends on HW through "SBV" structure and W is noun
return W as focus word
10)
end if
11)
end for
12)
end if
程序后
4.2基于百度百科的语义扩展
百度百科是一部内容开放、自由的网络百科全书,收录的内容包括具体事物、知名人物、抽象概念、文学著作、热点事件、汉语字词等,其所含内容的基础分割单位是词条。词条具有很好的半结构化信息,主要由以下若干部分组成:词条名称、百科名片、目录、词条正文、词条统计、词条标签。图3是一个词条样例。
本文利用百度百科对焦点词进行语义扩展,优势在于:一是百度百科中存在着大量的对词语或短语的解释,而且内容不断更新;二是这些对词语的解释是由用户编写的,有助于理解用户在使用这些词语时所期望的语义。词条信息中对词语具有解释意义的是3部分内容:百科名片、词条正文中的基本解释和引证解释,分别对应于图3中用红色边框标注的内容。本文正是利用这3部分信息对焦点词进行语义扩展,从而得到与焦点词语义相关的词语集合。算法3描述了对焦点词进行语义扩展的过程。
算法3基于百度百科的语义扩展算法。
程序前
输入焦点词FW。
输出焦点词的语义相关词集合R。
1) 将焦点词输入到搜索引擎进行查询,爬取焦点词在百度百科中的词条页面内容。
2) 去噪声,除去页面中的html、 js、css等信息,只保留百科名片、基本解释、详细解释、引证解释这4部分解释性文本信息。
3) 对上述解释性文本进行分句,组成句子集合S。
4) 遍历S中的句子,利用第3章的焦点词抽取算法抽取得到句子的焦点词加入到集合R中。
5) 返回焦点词的语义相关词集合R。
程序后
4.3词语的语义相似度计算
对焦点词进行语义扩展得到焦点词的语义相关词集合后,逐一计算与类别词语的相似度,然后选择相似度最高的类别词所属的类别作为问题的类型。
在计算相似度时,需要已知类别词语,由于不包含疑问词的问题不可能为Yes/No类型,所以不考虑此类型的类别词语。对于“定义”“原因”“过程”“观点”“描述”类型,利用同义词词林扩展版获取它们的同义词作为对应的类别词语;对于“事实”类型,选择文献[12]中分类体系中的人物、地点、数字、时间、实体5个大类下表示小类的词语作为类别词语,比如“团体”“机构”“城市”“国家”“距离”“价格”等。表3为各个问题类型的类别词语。
表格(有表名)
问题类型的判别方法可用公式表示为:
questioncategory=arg maxc{sim(wi,cj)}; wi∈W,cj∈C
其中:W={w1,w2,…}表示焦点词的语义相关词集合,C={c1,c2,…}表示问题的类别词语集合,sim(wi , cj)是计算语义相关词与类别词的相似度。计算词语的语义相似度使用了文献[15]提供的基于知网的词汇语义相似度计算方法,最后选择相似度最高的类别词所属的类别作为问题的类型。
5实验及结果分析
5.1实验数据
由于目前关于问题分类的公开问题集全部为含疑问词的问题,于是本文抽取了中文问答社区知乎中的4103个问题作为实验数据。其中训练集数目为3404,测试集数目为699。问题的类型全部手工标注完成,每个问题都由3个人标注,对于有歧义的最后统一解决,共有3人参与了标注工作,耗费时间为1个月。标注完成后,对问题类型的分布作了统计,如表4所示。
5.2评价指标
实验采用测试集在7个问题类别上的分类准确率对系统进行评价,定义如下:
分类准确率=测试集中正确分类的问题数测试集中的问题总数×100%
5.3实验结果
为了验证疑问词对分类效果的影响,本文设计了一组对比实验1。选择LIBSVM[16]工具,用全部的问题训练集训练SVM模型进行分类。训练和分类时,将问题表示成向量的形式:(x1,x2,…,xn),其中:第i维上的特征xi∈{0,1}表示该特征是否在问题中出现。分类时一组使用含有疑问词的测试集,另一组使用不含疑问词的测试集,得到的结果如表5所示。
实验1的结果表明:采用同一SVM模型对含有疑问词的问题和不含疑问词的问题进行分类时,前者的分类准确率明显高于后者,高出了16.8个百分点。可见,疑问词在问题分类中起到了至关重要的作用,不能采用传统的分类方法对不含疑问词的问题进行分类。
为了验证本文提出的面向问答社区的问题分类方法的有效性,本文设计了另一组对比实验2。选择了2种不同的分类方法对整个测试集中的699个问题(包括含有疑问词和不含疑问词的训练集)进行分类:方法1是采用SVM分类方法;方法2是采用本文提出的SVM和FBC相结合的层次分类方法,即对于含有疑问词的问题采用SVM模型进行分类,对于不含疑问词的问题采用本文设计的FBC分类器进行分类。得到的结果如表6所示。
从表6可看出,如果对整个测试集中所有的问题均采用SVM分类器进行分类,分类错误的问题数目为125,准确率只有82.1%;而对测试集中含有疑问词和不含疑问词的问题分别采用SVM和FBC分类器后,分类错误的问题数目降为92,准确率提高了4.7个百分点,达到86.8%。
5.4实验结果分析
由于疑问词对问题分类的效果影响很大,而问答社区中又存在着许多不含疑问词的问题,所以本文根据问题是否含有疑问词将问题集分为两类:含有疑问词和不含疑问词。对于前者,采用传统的SVM分类器;对于后者,则采用FBC分类器。通过将测试集中含有疑问词和不含疑问词的问题分开进行处理,有效地减轻了分类器对疑问词的依赖,使得面向问答社区的问题分类的准确率有明显的提高。
6结语
本文研究了问答社区中的问题分类问题。目前大多数研究工作采用的是基于事实类问题的分类体系,且处理的是含有疑问词的问题,而很少有对不含疑问词的问题进行分类的研究工作。因此本文首先提出了一个粗粒度的分类体系,该分类体系不仅仅局限于事实类问题,因而更适合处理面向问答社区的问题分类;同时借鉴层次分类的思想,对于不含疑问词和含有疑问词的问题分别处理,针对不含疑问词的问题设计了一个基于焦点词的分类器来对其进行分类,针对含有疑问词的问题采用SVM分类器进行分类。实验结果表明,本文提出的问题分类方法减轻了分类方法对疑问词的依赖,适用于对问答社区中的问题进行分类,能够显著提高问题分类的准确率。
下一步研究的重点在于完善基于焦点词的问题分类器的设计,目前只是简单地根据词性和一些简单的启发式规则来抽取焦点词,可考虑引入机器学习的方法来提高焦点词抽取的准确率;其次,优化对焦点词进行语义扩展的过程,以减少语义扩展过程中引入的噪声词语对分类准确率和速度的影响。当然,采用更好的句法分析工具和词语语义相似度计算方法,也是未来的研究工作。
参考文献:
[1]
TOBA H, MING Z Y, ADRIANI M, et al. Discovering high quality answers in community question answering archives using a hierarchy of classifiers [J]. Information Sciences, 2014, 261(5): 101-115.
[2]
BISWAS P, SHARAN A, KUMAR R. Question classification using syntactic and rule based approach [C]// ICACCI 2014: Proceedings of the 2014 International Conference on Advances in Computing, Communications and Informatics. Piscataway, NJ: IEEE, 2014: 1033-1038.
[3]
LIU X M, LIU L. Question classification based on focus [C]// Proceedings of the 2012 International Conference on Communication Systems and Network Technologies. Washington, DC: IEEE Computer Society, 2012: 512-516.
[4]
RAY S K, SINGH S, JOSHI B P. A semantic approach for question classification using WordNet and Wikipedia [J]. Pattern Recognition Letters, 2010, 31(13):1935-1943.
[5]
HACIOGLU K, WARD W. Question classification with support vector machines and error correcting codes [C]// Proceedings of the 2003 North American Chapter of the Association for Computational Linguistics on Human Language Technology. Stroudsburg, PA: Association for Computational Linguistics, 2003, 2:28-30.
[6]
ZHANG D, LEE W S. Question classification using support vector machines [C]// Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2003:26-32.
[7]
文勖,张宇,刘挺,等. 基于句法结构分析的中文问题分类[J]. 中文信息学报, 2006,20(2):33-39.(WEN X, ZHANG Y, LIU T, et al. Syntactic structure parsing based chinese question classification[J]. Journal of Chinese Information Processing, 2006, 20(2): 33-39.)
[8]
袁晓洁,师建兴,宁华,等.问题分类中基于句法和语义信息的特征选择[J].计算机工程与应用,2008,44(33):144-147.(YUAN X J, SHI J X, NING H, et al. Feature selection using syntactic and semantic information in question classification[J]. Computer Engineering and Applications, 2008, 44(33): 144-147.)
[9]
SHERKAT E, FARHOODI M. A hybrid approach for question classification in Persian automatic question answering systems [C]// ICCKE 2014: Proceedings of the 2014 4th International Conference on Computer and Knowledge Engineering. Piscataway, NJ: IEEE, 2014: 279-284.
[10]
XIE Z W, PAN S L. Chinese question classification based on multi strategy method [C]// TMEE 2011: Proceedings of the 2011 International Conference on Transportation, Mechanical, and Electrical Engineering. Piscataway, NJ: IEEE, 2011:1605-1609.
[11]
LI X, ROTH D. Learning question classifiers: the role of semantic information [J]. Natural Language Engineering, 2006,12(3):229-249.
[12]
孙景广,蔡东风,吕德新,等. 基于知网的中文问题自动分类[J].中文信息学报,2007,21(1):90-95.(SUN J G, CAI D F, LYU D X, et al. HowNet based Chinese question automatic classification [J]. Journal of Chinese Information Processing, 2007,21(1):90-95.)
[13]
LONI B. A survey of stateoftheart methods on question classification [J]. Electrical Engineering Mathematics and Computer Science, 2011.
LONI B. A survey of stateoftheart methods on question classification [EB/OL]. [20150214]. https:///publication/241886726_A_Survey_of_StateoftheArt_Methods_on_Question_Classification.
[14]
李正华.依存句法分析统计模型及树库转化研究[D].哈尔滨:哈尔滨工业大学,2008:1-5.(LI Z H. Research on statistical model and Treebank conversation for dependency parsing [D]. Harbin: Harbin Institute of Technology, 2008:1-5.)
[15]
朱征宇,孙俊华.改进的基于《知网》的词汇语义相似度计算[J].计算机应用,2013,33(8):2276-2279.(ZHU Z Y, SUN J H. Improved vocabulary semantic similarity calculation based on HowNet [J]. Journal of Computer Applications, 2013, 33(8): 2276-2279.)
[16]
CHANG C C, LIN C J. LIBSVM: a library for support vector machines [J]. ACM Transactions on Intelligent Systems and Technology, 2011,2(3):Article No. 27.
http://perun.pmf.uns.ac.rs/radovanovic/dmsem/cd/install/LIBSVM/libsvm.pdf
Background
This work is partially supported by the Scientific Research Fund of Zhejiang Provincial Education Department (20071008), the Open Funds for the Provincial and Ministerial Laboratory (B2014).
成都菇凉微博勇敢寻爱
成都菇凉@抹茶汤汤11月19日在香格里拉银同便民小吃偶遇他。他们背对而坐,相互介绍当地的美食美景。临走时两人却没留任何联系方式,除了大连这座城,其他一无所知。菇凉请@成都同城会网友帮忙扩散转告:“成都小姑娘在找你!”
微言大义
@TiNa--PrinCeSS:哈哈哈,年轻就是要疯狂。
点评:重点是要遇到让你疯狂的那个人。
@Lee_布:找到男生后,她浪漫深情地表白了自己的心,男生十分感动,然后拒绝了她。
点评:敢不敢假想一个美好的结局?
@傲气雄鹰elf:忽如一夜春风来,千树万树梨花开。
点评:难道这是见证了你俩爱情的定情诗?
@大豆DICK:恨嫁哇,男的有意思的话早就找起来了,不跟你要电话就没得想法。
点评:大概那汉子也腼腆。
@毛裕-Magee:又是这种,哪天我也邂逅一个妹子,通过微博找。
点评:好的,就这么办!
@PP-东东-:妹儿,找到了还是要继续给我们牙尖哈。
点评:人家要是找到了就肯定是去拉小手了,哪有时间再牙尖?
女报CLUB
微互动
#女报百科问答#
《成都女报》于每周一到周四在微博上推出女报百科问答,针对当周《成都女报》新刊的文章内容设计选项,以评论并转发的形式回答问题,就有机会获得礼品。本周礼物:价值298元的背背佳。如何获得这份奖品?
关注《成都女报》新浪官方微博,参与周一到周四任意一天的#女报百科问答#活动。
聚乐部
快来关注《成都女报》官方微信吧!
想第一时间获得《成都女报》新刊的精彩内容吗?想更快获知成都女报“聚乐部”有什么好玩有趣的活动吗?邮件、短信神马的都OUT了!别老顾着摇一摇了,快加《成都女报》为微信好友吧!
关注方法:①在微信中搜索“成都女报+”:②根据微信号搜索,微信号:chengdunvbao;③使用微信扫描下图的二维码。
感恩说出来
每年的11月都被称为“感恩月”。在刚刚过去的感恩月中,《成都女报》官方微博发起了“感恩说出来”的活动,网友们纷纷加入到活动中,向自己的亲人、朋友表达感激之情。看看粉丝们怎么说:
@御尛妖:感谢快乐让你如此快乐,感谢健康让你如此健康,感谢幸福让你如此幸福,感谢如意让你如此如意,感谢你是如此美好的你。这样的你,陪伴我走过失落的日子:在我无聊的时候听我说废话:在我无助的时候帮助我;感谢你,我的好朋友@叨叨幺幺爱吃醋!
@LLL—LEE:感谢那时遇见了你,感谢困境中给我力量和希望,感谢给我的温暖,感谢生命中有你@在路上的仔仔。
@-泡面天然卷:感谢我住过的胡同那间不大的平房,褪色的墙壁还有木制的房梁,老旧家具怀抱中我不停地成长,现在已经拥有了结实的臂膀,感谢我和发小曾经战斗过的球场,生锈的篮筐以及残缺的篮网,水泥地上奔跑一起笑对着夕阳,这份友谊它一直在我的身旁。@WO怀念滴一感恩。
@周某某H:@周禮文Adrian我们的爱虽然被大多数人所不耻。但这动摇不了我对你那颗坚贞的心!逃避不是办法,让我们一起勇敢面对。
@因素---:是的嘛,在这样的社会背景下,哥没车没房没存款,但是我却有美丽的你,有你一直陪伴在我身边,你常说我不是一个人,没错,我还有你一直在,只要有爱,我们永远都不孤单,谢谢有你,请相信我,我会为你的无名指命名,也会为你命名,一切都是肯定的。@刘小婷婷de
生趣指南
宫崎骏的经典动画《龙猫》实在太强劲了,里面憨厚笨笨的龙猫不知道萌翻了多少人。《成都女报》官方微博本周推荐——龙猫床!相信是女生都抗拒不了这张龙猫床,哪个女生没有想过有个龙猫陪伴?软绵绵的腹部,有木有想按很久了?睡吧睡吧不是罪!看看粉丝们怎么说:
@大瑶Love范范:造床好乖!!!有木有!!
讯:最近,一连串的百度公关事件把百度拖入了舆论的泥潭,而百度内部也做了一系列措施自“解”,这给整个行业和市场带来了许多影响,现笔者就市场观察得到的几点变化与大家分享:
1,百度系产品搭建更严格。百度百科早在百度将之产品化之后就不能做了,在14年之前,我们搭建了至少2000条百科词条,但15年后这块业务基本上停了,因为现在百科门槛太高太严,以至于达到了几乎不能做的地步。百度问答现在也产品化了,但由于还没充分达到市场化的地步,所以目前这一块业务还有一点空间,但对于百度已经保护了的客户关键词,想做成功还是非常有技巧与难度的。文库、图片、经验类百度系产品目前还可以做,但审核时间、门槛也有提升。
2,百度竞价成本水涨船高,SEO需求有所上升。百度自“解”之后,企业的百度竞价成本不降反升,这给做SEO的公关公司了一些市场机会,但由于百度算法的不断更新,SEO的时间成本、人力成本也更高。综合下来,这对于企业的成本控制反而不利,但对公关公司来说利好。
3,危机公关方面,处理时间更长,成本也相应增加,而处理效果也相对以前更难保证。比如,原来的二级编辑审核,现在变成了三级,甚至四级、五级审核,一条信息的处理(删除、屏敝等)要经历更多道程序,这也相应增加了不确定性。
4,百度竞争类广告效果分流趋显。由于成本的考虑,许多企业开始选择更优质的流量广告渠道,这将给百度竞争对手更多的机会,也给企业更多元化的投放思考。(来源:新浪博客 文/殷锋昊;编选:中国电子商务研究中心)
下载智友邦,然后打开APP,点击注册,填机号、姓名、密码、昵称即可。
智友邦app就是最近被整改的智友论坛新站手机版客户端,新的UI、新的功能、新的体验,不变的是优质的内容和丰富的软件游戏盗源,以及那些智友老朋友们资源大神汉化专家搞机联盟ROM大师。
智友邦继承了2010年创立的智友社区,立足于应用资源、百科问答、服务用户的理念,由原运营团队继续为大家服务。
(来源:文章屋网 )
目前国内三大搜索引擎发展局势:
一、全球最大的中文搜索引擎——百度
百度的频道发展特点是:百度放弃搜索引擎算法与google比拼,从用户体验角度出发。为增加用户的忠诚度,发展百度产品流量有较多贡献,不单纯依赖一条产品线,从百度知道、百度视频、百度贴吧、百度新闻、百度百科、百度图片、百度地图是百度的七大支柱型产品,稳稳地推动百度发展。
百度优点:1、搜索内容资料比较多。2、百度知道、文库、经验、百科也是用户最为信赖的产品。
百度缺点:搜索中垃圾信息居多,有较多的虚假信息存在。
二、全球用户使用量最大的引擎——google
谷歌的搜索引擎算法非常成熟,但局限在一条产品线,好评最多的也是搜索资料内容比较多,其次是谷歌地图、外文搜索好评率很高,而且搜索结果当中垃圾信息少。最主要集中在谷歌没有问答频道和谷歌慢、经常宕机上。
三、异军突起的腾讯搜索引擎——搜搜
腾讯搜搜除了常规的搜索资料比较多外,用户对搜搜较为认可的是搜新闻较好、速度快。用户对搜搜不太满意的评价是知名度较低、广告多等。优点腾讯产品多,用户粘度高,产品用户年轻化,只要稍加引导,相信腾讯也会在中国搜索引擎市场一杯粥。
搜索引擎往往不单独提供搜索引擎服务,而是由一揽子网站或服务应用组成,这些服务应用有助于增加导入用户流量和增加用户黏性。、百度除了主要的网页搜索服务外,七大支柱产品共同撑起
百度的巨大流量。这七大支柱产品分别是:百度知道、视频搜索、百度贴吧、百度新闻、百度百科、百度图片、百度地图。但百度较为不足的地方是,其他外部流量辅助工具较为单薄,目前能够占据一定份量的只有hao123。所以百度放弃了搜索算法的延伸,极力的搞好自己产品研发,力求把用户粘度做到最大化。
1.问答推广。百度知道、搜索问问、新浪爱问推广,安排人员每天回答与本站各栏目相关问题10个左右,争取留下网站的链接,或留下详见站名。分别以站名和域名注册用户名,还有其他用户名,用于自问自答,自问自答要换IP。也可以尝试百度百科和百度经验也是不错的选择。
2.微博推广。开通网站新浪官方认证微博。所有推广人员每人注册一个新浪或腾讯微博,网站最新文章,并相互转载,也可转载当日热门微博。每个微博每天至少新关注同城网友和与栏目相关人员200粉丝,一周后对未相互关注的粉丝予以取消。
3.论坛推广。安排人员到当地知名论坛灌水,个人签名或头像换成网站及网址。有空多到中国站长站和站长网学习有关seo经验。
4.Qq群推广。尽可以加入同城的QQ群,昵称统一换成网站名称。正常聊天即可,方便时推介下网站。包括一些人人网,朋友网等社交网站推广。也可尝试QQ邮件群发和漂流瓶。
5.友情链接。到各大站长网交换友情链接贴子,也可主动通过自动提交、发邮件、留言、QQ聊天等渠道与同类型高PR值的网站交换链接,同时向大小网址导航提交收录。
什么是数字科技馆?它是由科普单位建设运维,以科普为天职,以网络为主要传播载体,向民众普及科技知识的网站,多数有财政资金支持。
我认为数字科技馆不应是将实体场馆展品数字化克隆,也不应是科普游戏或视频堆砌成的仓库,数字科技馆与相似网站的区别见表1。
地方数字科技馆应该是什么样?
地方数字科技馆在我国目前尚处于起步阶段,形式和内容都没有规定的要求和范本,早期建成的有山东数字科技馆和中国数字科技馆等,投资巨大。
地方数字科技馆总体内容定位和规划
大百科全书时代已经成为过去时
假如查找一个生词或不熟悉的内容,相信多数中国人会首先想到上网“百度”一下,这个网站是以搜索为手段,由网民自由选择搜得内容为解答方式的网站。国外最受欢迎的“网络百事通”同样也不是大英百科全书网络版,而是“谷歌”(google)和“睑书”(facebook)。
不做大百科全书的果壳网,目前仅16个重点主题,加上小组和问题,看上去非常零碎,远不如某些大型科普网站系统和权威,可“果壳”短小有趣的内容却深受网友喜欢,这是为什么呢?
web2.0时代数字科技馆的核心内容:关注人与科技的关系,从网友关注的角度去做内容
百度为什么受欢迎?能找到有用的东西是关键;果壳网为什么受欢迎?提供有益有趣的科学知识是关键。
果壳网的成功是网站定位于关注人与科技的关系,并以此为核心去梳理组织内容。仔细研究“果壳”主题、小组、专题和问答,所有栏目、系列和内容都无不是从各个角度关注人和科技之间的那些事。
数字科技馆应该向“果壳”学习这种思路,依托实体科技馆的展览和活动,提供网民真正关心和需要的内容,而不是为了科普而科普——硬塞一堆生硬呆板、无用无趣的数理化知识给大家,把科普网做成知识摆设网。脱离时代背景和人文关怀的枯燥理论是很难吸引人的。
web2.0时代要求我们了解和掌握网友的个性需求,要求数字科技馆符合如下定位:以浏览者个人为数字科技馆网站服务的中心,内容更精致、联系性更强、工具性更强。不能延续以前大而全、以自身为中心的定位,百科全书式的网站已经过时。
地方数字科技馆的目标用户分析和聚集人气的方法
实体馆与数字馆共同的主要目标受众:青少年
网民是个充满活力和好奇心的群体,青少年居多。他们渴望通过便捷的方式快速获得新知识,对新鲜事物勇于探索、易于接受,理应成为网络科普的主要受众。而青少年也正是地方各实体科技馆的主要目标受众,两者目标受众是一样的。
通过实体场馆“粉丝”聚集网站人气,加强网络科普黏性
每座科技馆都有自己的忠实“粉丝”,他们热爱科学,有与科技馆及其他爱好者交流的内在需求。建议地方数字科技馆仿照“果壳”聚集“果粉”的方式来聚集自己的“科粉”。会员制是有效聚集“粉丝”的好办法,假如场馆一年有50万游客参观,经过宣传通过场馆渠道了解和参与数字科技馆活动的游客一般不会低于5%,也即25000人次。把这么多“科粉”聚集起来,保持紧密交流和沟通,对于实体科技馆的意义就不言而喻了——开展任何科普活动都不用愁人气不够。
在实际操作中,可以通过线上、线下以及与实体馆活动结合,利用地方数字科技馆网站积分换票、换纪念品,不同等级“科粉”享受不同级别折扣、优先获得实体馆各类线下活动优先参与权等形式,不断吸引“科粉”,增强他们对实体科技馆的忠诚度,加强黏性。
通过网络科普提升实体场馆形象,吸引网民参观场馆
地方数字科技馆各种形象生动的多媒体科普知识会对青少年网民产生强大的吸引力,加之网站内容与科技馆的内容相契合,必定会把这部分网民吸引到实体馆参观。如同淘宝网站里网店与实体店的相互依存关系,数字科技馆通过网络科普,提升了实体场馆的形象,与场馆和展品形成互动呼应,特别是新闻热点时事和科普有关联的,地方数字科技馆可以及时结合实体场馆内展品进行网络科普,如春晚的魔术节目就有科技馆里常有的“隐身人”展品,对于没有参观过科技馆的网民,这就是吸引他们的兴趣点。
数字科技馆的优势
从时间和功能上延伸地方场馆科普教育的时间和形式
地方数字科技馆延伸了实体科普场馆的科普时间,可24小时举办科普画展、调查投票、竞赛游戏等线上活动,随时解答观众对实体场馆常展、临展、讲座、培训等关心问题的咨询。
地方数字科技馆还可从功能上拓展科普的效果,科普知识上可以做到比实际场馆里更广的涵盖,内容更充实、更有趣;表现形式上采用文字、图案、flash、视频、增强现实等多种表现形式演绎科普知识;互动方式上运用文章、游戏、问答、社交等多种形式与游客沟通交流。
热点科普内容的及时制作和,做快速而专业
的地方科普传播者
数字科技馆要做网民最关注的科普内容,内容控制十分关键。“它对操盘者、编辑有着更高的要求,必须拥有良好的学科积淀,并且擅长挖掘学科领域的写作者,做到这一点并不容易。”“姬十三”同样也认为,内容是果壳网的核心竞争力。
随着政府加强效能建设,对科普工作的要求也不断提速,而地方实体科技馆常设展区改造更新最快也需要一年的时间,临展最快也需要一个月的准备时间,那么快速有效低成本的科普传播媒介是什么?是地方数字科技馆。网络是最快速的媒介,在当前传统的纸媒、广电等已逐步被网媒所替代的大环境下,数字科技馆的免费、及时、交互、全面、方便、最接近真实等优点是上述媒体无法企及的。
果壳网在这方面也有比较成功的经验,他们根据新闻热点引出科普话题,制作专题互动,这些正是地方数字科技馆需要学习和掌握的。通过线上科普解答网友疑问,可以很好地补充馆内科普展品与社会时事脱节的短板。
政府要求科技馆把科普工作做到快速有效,而地方数字科技馆尤其适合帮助政府解决化工、食品、环保等方面的科普难题,对地方老百姓的困惑和忧虑通过科普的方式加以缓解,减少和避免出现社会矛盾,促进社会稳定和谐。
如何宣传推介地方数字科技馆
如果留意,你会发现果壳网宣传的主要渠道是:活动、媒体和微博。
线下活动与网友面对面,有利于扩大数字科技馆的影响,如专家报告会、科技研讨会、科普看片会等,现场宣传的优点是真实,但限于人员场地限制,一般每个月最多只能安排一到两次。
传统媒体的传播力量目前还不可小觑,除了普通新闻外,与地方报纸、电视台合作推出科普知识解答专栏或科普报告会视频等也是非常好的传播方式。
除了活动和广告,微博等社交媒体的传播功能已经日益强大,“果壳达人”们经常在新浪、腾迅和转发“果壳”信息,在优酷等视频网站上也不时能看到他们的身影。
总之,酒香也怕巷子深。
@地方数字科技馆的人力安排
专职专心专业的运营团队
网络科普不是锦上添花,而是追赶时代的攻坚战。从“果壳”、山东数字科技馆、中国数字科技馆的成功经验来看,专职团队的效率高、工作延续性好、责任心强。
地方数字科技馆的运营团队最低不宜少于3人,可以勉强维持日常内容维护更新;lO人团队是较为理想的;1名程序员、1名美工、2名摄录采编、2名内容编辑、2名活动策划、1名外宣、1名主管。只有分工明确,各司其职,数字科技馆的运作才会规范有效,
平等和谐沟通的工作环境
地方数字科技馆鼓励平等、开放、活泼的氛围,避免官僚、等级、身份的恶疾,这将有利于团队的成长,有利于充分发挥人的主观能动性和潜力,这是所有事业不断前进的源动力。
@果壳网的启示
除了上述,果壳网还有如下优点。
·“果壳”的界面不够纷繁复杂,但一定是干净整洁的;
·“果壳”的内容不够包罗万象,但帖子一定是精妙独到且新鲜时尚的;
·“果壳”很少使用严谨学术词语,但词语绝对够辛辣、够新潮、够通俗;
·“果壳”注册用户不求数量,但用户必定是高忠诚度并积极交流的;
·“果壳”从不追求访问和投票量,但网友口碑胜过任何竞价和排名;
·“果壳”运营资金相比官方少得可怜,但资金使用一定是高效务实的。
综上,建议地方数字科技馆建设运营关注以下6点。
①初建时结构合理、页面清楚明了即可,过分花哨和面面俱到难以突出重点;
②促进社交和互动,因为这是web2.0时代;
③内容可不追求“大而全”,“小而精”更有地方特色;
④需注意时效性高和与百姓生活密切相关的内容;
⑤让专职人员组成运营团队来做数字科技馆,因为这不是一个人的战斗;
⑥地方数字科技馆要用多种渠道宣传自身。
果壳网的建站理念走的是“明星”专家带动“小白”群众了解和热爱科学的社交科普道路,它的成功,得益于“简约的网站风格”+“科学的内容定位”+“时尚的话题营销”+“专业的运营团队”。