首页 > 范文大全 > 正文

几种基于机器学习的生物命名实体识别模型比较

开篇:润墨网以专业的文秘视角,为您筛选了一篇几种基于机器学习的生物命名实体识别模型比较范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:已有的大量生物医学文本为人们提供了充足的资料,但却没有足够好的工具来帮助人们从中获取信息和知识。而命名实体识别则在信息检索、信息抽取及知识发现等这样的应用中起着很重要的作用。本文基于JNLPBA生物命名实体识别任务,简要介绍了目前几种在生物医学文本中常用的基于机器学习的命名实体识别模型,并进行比较及常规讨论,同时也提供了一些相关的背景信息。

关键词:自然语言处理;命名实体识别;模型;比较

中图分类号:TP391 文献标识码:A文章编号:1009-3044(2007)05-11385-03

1 引言

目前正处于信息爆炸的时代,各个领域都以不同方式为人们提供了大量的信息,其中,文献资料是最常见的方式之一,而且信息仍在剧速增长。以著名的生物医学研究数据库MEDLINE为例,最近包含的摘要为1千4百万篇以上,并以每月6万篇新摘要的速度在不断增长。如何快速、准确、有效地获取需要的信息,促进本领域研究的发展,给研究人员提出了难题。于是,命名实体识别(NER,namedentity recognition)技术在信息提取、信息检索、主题分类、知识发现等方面的应用变得尤为重要,成为人们获得信息的关键一步,因此也成为自然语言处理(NLP,natural language processing)研究的一个主要方向。

NER出现较早,经过多年的研究,在一些领域的应用已经比较成熟,例如新闻领域。但是,随着生物医学近年来的蓬勃发展,出现时间还不长的生物命名实体识别技术却还显得不够成熟,尚处于基础理论研究阶段。国外的研究人员已经注意到了这一点,开始着手进行生物命名实体识别技术的研究,并取得了一定的成绩。目前国内在这方面的研究仍较少,刚起步,对NER研究者而言,这是极大的机遇,也是极大的挑战。

1.1 Bio-NER简介

NER被认为是自然语言处理应用中的核心组成技术。它要求对名称的识别与浅层词意类型相匹配,旨在帮助用户从无结构文本数据中发现真正有意义的信息。在生物医学领域进行的命名实体识别称为生物命名实体识别(Bio-NER),其目的是对那些分子生物学家感兴趣的专业实例和术语进行自动识别和分类,这样的实例主要包括蛋白质名、基因名及他们的活动位置,如细胞名、有机体名等。

NER在新闻领域获得了很好的效果,其f评测高达90s以上,已达到“近乎人类”的等级。而在生物医学领域却几乎差了30点左右的f值[1]。由于生物命名实体命名的不规则性和不断更新,影响着识别效果的提高,这就给研究者提出了难题,也因此出现了一些Bio-NER国际公开竞赛,以促进Bio-NER技术的发展,如JNLPBA,BioCreAtlvE等。

1.2 JNLPBA简介

JNLPBA(the Joint workshop on Natural Language Processing in Biomedicine and its Applications)是一个国际性的生物命名实体识别任务。于2004年举办的JNLPBA2004要求参赛系统在生物医学英文文献中识别五类实体:“protein”、“DNA”、“RNA”、“cell line”、“cell type”。允许参赛者使用任何方法和知识源来完成他们的Bio-NER系统并最终进行统一测试和评价。大赛提供GENIA V3.02作为训练数据,以从MEDLINE中随机新选的404篇摘要为评测数据,采用F评测对系统进行评价。F评测值虽不能绝对判断出某个系统的优劣,但至少给出了一个可以统一评价参赛系统的近似指标。

1.3 GENIA语料库

对于机器学习模型来说,能得到一个好的学习语料库是提高系统性能的一大重要因素。GENIA和GENETAG是被Bio-NER研究者广泛使用的两个已标注语料库,其中GENIA V3.02是由在MEDLINE数据库中以术语“human”、“blood cells”、“transcription factors”为关键字搜索出的2000篇摘要组成,并由专家根据36个术语分类进行了手工注解。它为Bio-NER研究提供了最大的单个已注解训练数据源,是迄今为止分类广度最大的类别集。

2 基本模型

现在的命名实体识别方法大致可分为三种:基于字典的,基于规则的和基于机器学习的。由于绝大多数生物命名实体没有固定统一的命名方法,使得任何依赖于有限字典和规则的命名实体识别系统似乎都难以获得令人满意的性能。从而,基于学习的系统逐渐成为NER的主流,其又可进一步分为两类:基于分类器的系统和基于马尔可夫模型的系统。前者包括决策树、Bayes方法、支持向量机等;后者包括HMM、MEMM、CRF等,在解决诸如语音识别和词性标注之类的序列标注问题时,优势尤为突出。

在JNLPBA2004生物命名实体识别任务中,参赛的系统有8个[1],都是基于学习的系统,主要使用了四种基本模型,即HMM,MEMM,CRF,SVM。有的系统建立在一种模型基础上,而有的系统则是基于两种模型的联合。由于命名实体识别可以被视为序列标注问题,所以较多使用了基于马尔可夫模型的系统。

2.1 隐马尔可夫模型(HMM, Hidden Markov Model)

HMM是一种被应用得较早的模型,在语音识别中用得很广泛,在Bio-NER研究中也广为使用。它包括两个随机过程,一个产生随机状态序列的过程,另一个是由隐藏的状态序列发射出观测序列的过程,可简单表示为(S,O,Π,A,B),其中S={si}为状态集,O={oi}为发射字符集,Π={πi}为初始状态概率,A={aij}为状态从si转移到sj的状态转移概率矩阵,B={bijk}为从状态si转移到状态sj发射出符号ok的符号发射概率矩阵。HMM要解决三个问题:给定初始状态,找到最佳模型;给定模型,找到能最好解释观测序列值的状态序列,即找到马尔可夫链中的最可能路径,也就是序列标注的过程;训练模型,调整模型参数。应用HMM,最终是要解决第二个问题,具体可将问题描述为:给定观测序列O =o1o2…on,要求找到最可能的状态序列(标记序列)S =s1s2…sn,使得P(S |O )最大[2]:

该计算式的第一部分可通过链式规则来计算,n元语法模型中的每个标记的出现被假设是依赖于前N-1个标记的。第二部分是所有独立标记的概率对数和。第三部分则与观测序列有关。为了解决浮点数下溢问题,避免零概率的出现,公式采用了对数运算,同时也加快了计算速度。可用Viterbi算法(Viterbi,1967)来找到最可能的状态序列,对观测序列进行标记,从而在文本中分辨出要求识别的生物命名实体。

2.2 最大熵马尔可夫模型(MEMM,Maximum Entropy Markov Model)

MEMM是一种较早就被应用并对NER系统有较大促进的指数线性模型:

它在CoNLL2003任务种是被应用得最成功的模型。参与JNLPBA-2004任务的MEMM系统使用了一个逻辑回归模型来为每个词在分类集(状态集)S={s1,s2,…,sn}上建立概率分布,即:确定某一确切位置的词oj是某类型si的概率,也获得了不错的成绩。对类型概率的定义如下[3][4]:

其中,λi是特征fi的权重因子,指fi确定oj是类型si的概率,通过它可使上式成为一个概率函数,其值可通过在训练库中统计得到。fi是二元特征向量函数,由1和0分别指出某词是否匹配特征fi:若o和s被fi描述为相关,则fi(o,s)=1;在其他情况下,则fi(o,s)=0。由此可以很简单地把特征fi的权重λi加入。为了提高系统性能,设计者在设计过程中引入了上下文特征s_,是该系统的一大特点。同时,为了方便计算,计算式中采用了指数函数对累加结果进行放大。同样可用Viterbi算法来找出最好的分类标记序列,以完成生物命名实体识别。

2.3 条件随机域模型(CRF,Conditional Random Field)

CRF实际上是一个连续优化最大熵模型,常被视为MEMM的一种高级版本模型,很适合做序列分析,在词性标注、浅层句法分析及新闻数据的NER中表现特别优秀,近来也被用来识别基因和蛋白质。

一般情况下,Bio-NER可视为一个序列分析问题,即每个词语作为序列中的一个词次而被打上标签。在CRF系统中,对于给定的观测序列O =o1o2…on,线性链CRF把与其对应的状态序列S =s1s2…sn存在的条件概率定义为[5][6]:

其中,Z0是所有状态序列的标准化因子,fi是特征向量函数,λi是特征权重。当训练状态序列被完全明确地标记后,可为该模型找到最优的λ值。一旦这些值被找到,一个新的、未标记序列的标记工作就可以用Viterbi算法来完成。其工作过程和MEMM一样,都可直接源自HMM的工作过程。

2.4 支持向量机模型(SVM,Support Vector Machine)

SVM是一种很著名的机器学习算法,由Vapnik于1995年最早使用,在一些分类问题中表现出了很好的性能。其主要思想是构造一个超平面,以超平面间的距离作为最大边缘来把训练实例分割为两类,并基于支持向量来决定选择哪一类作为训练集中唯一有效的实例。假设有N个训练实例(xi,yi),其中1≤i≤N,xi为特征向量,yi是在给定xi情况下的相应类型标记,取值{-1,+1}。SVM要找到一个超平面wx+b=0,能恰当地分开训练实例,并应用公式f(x)得到最大边缘[2][7]:

f(x)=+1指x属于该类,f(x)=-1指x不属于该类,k(xi,x)是核心函数,根据前人(Takeuchi和Collier)的工作证明,NER系统中较好的核心是二次多项式函数,如k(x)=(1+x)2。

由SVM得到的是非概率值,可通过以下模型把SVM输出值映射为概率(Platt,1999):

3 讨论

3.1 关于HMM

在应用HMM时,仍存在一些问题,其中最关键的就是在计算∑P(Si|O )时的数据稀疏问题。最理想的是,对那些想要计算其条件概率的事件,能够有充分的训练数据。但不幸的是,在新数据上译码时,通常没有足够的训练数据来准确计算概率,特别是在考虑到复杂词语特征时,此问题更为突出。为解决数据稀疏问题,通常是采用一些平滑算法来对稀疏数据进行平滑处理,如期望似然估计、留存估计、线性插值、Katz回退算法等,另一种办法是用两级回退模型来近似P(Si|O)[8],也可通过与SVM的联合来解决[2]。

另外,由于趋于在相同上下文中出现的词,都趋有相近的含义,所以根据序列中某一位置的词具有的上下文特征向量进行相似性比较,可以判断在该位置的不同词是否相似,这种基于词语相似性的平滑方法,可以自动从庞大的未标注语料库中获得词的各种信息,进行词类特征的自动获取而不再采用艰苦的手工编码,也可帮助解决数据稀疏问题,并提高整个系统的性能[9]。

3.2 关于MEMM

MEMM被成功用于NER任务,并以其合并大量重叠特征而著名,广泛使用了内部特征和句法特征,以及包括Web和gazetteers在内的外部特征。它的特征模板选择由人类专家知识形成的规则确定,特征权值在语料库中进行统计获得,故是一种典型的统计与规则相结合的模型。现在的任务中,许多实体没有好的内部暗示来辨别实体类型,如:不同的系统歧义和首字母缩略词意的广泛使用就是内部暗示所缺乏的,这就需要较好地使用上下文特征[3] [4],MEMM就在这方面表现不凡。

3.3 关于CRF

HMM是被训练来学习联合概率P(o,l)而生成的模型,是一种产生式模型,它定义了一个标记和观测序列之间的联合概率,其中l的数据可能是稀疏的,要用Bayes规则来预测其最好的标记,而词性标注和NER感兴趣的是条件概率P(o|l)。CRF则不是生成的,是被训练来对P(o,l)直接最大化的辨别模型,它的每个状态概率都与整个序列的最大似然一致,可避免数据稀疏之扰[5]。

与MEMM的全局特征权重不同,CRF特征的权重是随状态不同而变化的。因此,CRF在序列标注方面具有多重非独立特征和整体优化的优点,而没有标注偏见的问题。

另外,CRF作为一种标记和分割序列数据的概率框架,其速度比SVM快。它的标记序列条件概率可以取决于观测序列任意非独立的特征,而不用强制模型说明那些属性的分布。

3.4 关于SVM

对SVM而言,NE词是由一些NE要素组成的复合词,所有其它无关词都被视为外部词,于是训练数据的不平均分布就会导致分类涉及范围逐渐减少。所以,SVM虽具有很强的分类能力,并能有效处理巨量参数,但一直都为低速和非平均分布数据所扰[9]。

为解决这两个问题,可通过两个步骤过滤掉训练数据中可能的外部词[10]:第一,去除不是一个基本名词短语组成要素的词,假定每个NE词都应在一个基本名词短语边界内;第二,按照词性标记排除一些词。

也可以通过与CRF联合来解决上述的两个问题[10]。SVM预测NE是基于在一个预定义好的框架中收集到的词的特征信息,而CRF是基于整个句子的信息来预测它们,所以,CRF可以处理那些被SVM标记为“O”(外部词)的NE。

SVM从根本上来说是一个二元分类器,在应用时,要完成的多是多类分类任务,需要把SVM扩展为多类分类器,此时就要考虑n个二元分类器的结合策略。比如,用一对一(one-against-one)策略取代一对多(one-against-the rest)策略[11]。

4 评测

F评测是在信息检索中常用的评价方法,在统计自然语言处理模型的评价工作中也取得了很好的效果,所以,F评测目前已成为该领域内大家所公认的统一评价方法。

在选择P和R相同权重的情况下,F评测简化公式为F=(2PR)/(P+R),其中P为精确率,是指系统选择正确项在全部选择项目中所占的比例;R为召回率,是指系统选择的目标项在全部目标项中所占的比例。

有8个系统参与了JNLPBA-2004 Bio-NER任务,分别使用了不同的方法和模型,最终的评测结果如表1所示[1]:

表1 JNLPBA-2004 Bio-NER任务参赛系统评测结果

模型缩写:S(SVM);H(HMM);M(MEMM);C(CRF)

F值不同,一方面是由于不同的系统采用了不同的模型和算法,另一方面也同各个系统采用的特征集不尽相同有关,如:大部分系统都广泛使用了词汇特征,缀词信息特征,词性特征等,而Finkel的MEMM系统采用的句法标记特征和全球文本信息特征,在其他的系统中就没有使用。HMM则不同,由于其模型本身的统计特性,只使用了词汇特征和前实体标记特征。由此我们应该看到,为了提高系统的性能,除了模型的改进之外,特征,特别是Web特征的应用也会对系统性能造成不小影响。

从评测的F值来看,结果虽然不错,但距“近乎人类”的识别要求还相差甚远,说明在生物命名实体识别方面还有很多工作要做,这也要求研究者继续不懈地努力。

5 结束语

本文以JNLPBA2004生物命名实体识别任务为背景,通过对四种常用的Bio-NER机器学习模型进行简要介绍,初浅探讨了这些模型的本质及其应用中的问题。当然,随着研究的发展和深入,新的语言模型和数学方法也在不断的出现。以后我们将密切关注该领域的新动态,在提高Bio-NER模型性能方面进行更深入的研究。

参考文献:

[1]Jin-Dong Kim, Tomoko Ohta, Yoshimasa Tsuruoka, et. Introduction to the Bio-Entity Recognition Task at JNLPBA[R]. In Proceedings of JNLPBA-2004, Geneva, Switzerland, 2004.

[2]GuoDong Zhou and Jian Su. Exploring Deep Knowledge Resources in Biomedical Name Recognition[R]. In Proceedings of JNLPBA-2004, Geneva, Switzerland, 2004.

[3]Jenny Finkel, Shipra Dingare, Huy Nguyen, et. Exploiting Context for Biomedical Entity Recognition: From Syntax to the Web[R]. In Proceedings of JNLPBA-2004, Geneva, Switzerland, 2004.

[4]Jenny Finkel, Shipra Dingare, Christopher D Manning, et. Exploiting the Boundaries: Gene and Protein Identification in Biomedical text[J]. In BMC Bioinformatics 2005, 6:55.

[5]Burr Settles. Biomedical Named Entity Recognition Using Conditional Random Fields and Rich Feature Sets[R]. In Proceedings of JNLPBA-2004, Geneva, Switzerland, 2004.

[6]Tzong-han Tsai, Wen-Chi Chou, Shih-Hung Wu, et. Integrating Linguistic Knowledge into a Conditional Random Field Framework to Identify Biomedical Named Entities[J]. In Expert Systems with Applications 2006, 30, 117C128.

[7]Marc R?ssler. Adapting an NER-System for German to the Biomedical Domain[R]. In Proceedings of JNLPBA-2004, Geneva, Switzerland, 2004.

[8]GuoDong Zhou and Jian Su. Named Entity Recognition using an HMM-based Chunk Tagger[J]. In Proc. of the 40th Annual meeting of the Association for Computational Linguistics(ACL),2002, 473-480

[9]Shaojun Zhao. Named Entity Recognition in Biomedical Texts using a HMM model[R]. In Proceedings of JNLPBA-2004, Geneva, Switzerland, 2004.

[10]Yu Song, Eunju Kim, Gary Geunbae Lee, et. POSBIOTM-NER in the shared task of BioNLP/NLPBA 2004[R]. In Proceedings of JNLPBA-2004, Geneva, Switzerland, 2004.

[11]Tuangthong Wattarujeekrit. Exploring Semantic Roles for Named Entity Recognition in the Molecular Biology Domain[D]. In the dissertation for the degree of Doctor of Philosophy, submitted to the Department of Informatics,School of Multidisciplinary Sciences, The Graduate University for Advanced Studies (SOKENDAI), September 2005.

[12]Manning, C. D.等著,苑春法等译. 统计自然语言处理基础[M]. 北京:电子工业出版社, 2005.

本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。