首页 > 范文大全 > 正文

汉语基本块描述体系

开篇:润墨网以专业的文秘视角,为您筛选了一篇汉语基本块描述体系范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:块分析是自然语言处理研究中的重要技术,其处理基础是设计一套合理有效的块描述体系。本文在吸收和总结前人研究成果和经验的基础上,提出了一套基于拓扑结构的汉语基本块描述体系。它通过引入词汇关联信息确定基本拓扑结构,形成了很好的基本块内聚性判定准则,建立了句法形式与语义内容的有机联系桥梁。这套描述体系大大简化了从现有的句法树库TCT中自动提取基本块标注语料库和相关词汇关联知识库的处理过程,为进一步进行汉语基本块自动分析和词汇关联知识获取互动进化研究打下了很好的基础。

关键词:计算机应用;中文信息处理;基本块;部分分析;语料库标注;词汇知识获取

中图分类号:TP391

文献标识码:A

1 引言

块(Chunk)分析是自然语言处理研究中的一个重要技术,它通过对完整分析问题的合理任务分解,大大降低了自动分析的处理难度,在信息抽取、问答系统、文本挖掘等NLP应用系统研究中发挥了重要作用。在英语方面,Abney(1991)把块定义为句子中一组相邻的属于同一个s-投射的词语的集合,建立了块与管辖约束理论的X-bar系统的内在联系,从而奠定了这个块描述体系比较坚实的理论基础[1]。在此基础上,CoNLL国际会议在2000到2005年间连续推出了几项块分析相关的共享任务,包括块分析[2]、子句识别[3]、语义角色标注[4]等,通过建立统一的训练测试数据,大大促进了各种机器学习技术在块分析相关问题上的应用研究。但这些研究更注重对块作为一个整体在句子中表现出的不同句法语义功能的分析识别,并不关心不同块的内部描述特点。

近年来,多词表达(Multiword Expression,MWE)问题逐渐受到理论语言学家和计算语言学家的重视。它主要研究不同层次的语言分析中可以形成一个完整描述单位的若干词语组合,包括固定或半固定搭配、复合词、成语、短语动词等。目前关注的焦点是MWE的词汇语义组合性(Composi-tionality)评估问题。Sag等则对目前MWE的分析难点和可用技术进行了全面的综述,提出了对不同的MWE需要使用不同资源和不同方法进行分析的基本设想[5]。这些研究通过引入块内部词汇语义分析和描述技术,为块分析问题探索注入了新的活力。

我们认为,目前的块分析和MWE研究具有很强的互补性,它们分别从不同角度对块的句法分布和语义内容进行深入研究。如果能设计一种新的块描述形式,将块的外部句法分布和内部词汇关系描述结合起来成为一个有机整体,就可以把目前还相对独立的块分析和MWE研究很好地联系起来,达到互动提高的处理效果。这种内外结合的块描述形式,针对类似汉语这种缺乏形态变化的语言,可能更为有效。在这些方面,前人已进行了大量研究。徐通锵深入分析了汉字编码“比类取象”和“援物比类”的两点论思维特点,提出了一套以“向心”、“离心”结构为基础的汉语语义构词法,初步建立了汉语“字一词”的语义描述基础[6]。董振东对汉语6000多个常用汉字的不同义项进行了深入分析,从中提取了约1500个概念义原。并以此为基础,对汉语中最常用的约5万多词语进行了语义概念描述,形成了一个比较完整的汉语语义知识库――知网(How-Net),初步建立了汉语“字词”的语义计算基础[7]。在此基础上进行的中文信息结构库研究[8],又对汉语“字词基本块”的语义内容聚合方法进行了初步的探索,取得了许多有价值的研究成果。

吸收这些前贤的研究成果,我们对前几年提出的汉语基本短语描述体系[9]和相应的自动分析方法探索[10]叩进行了反思,提出了一套新的基于拓扑结构的汉语多词块描述体系,希望通过引入新的词汇关联分析和相关描述资源,使目前完全基于句法分布信息的基本短语分析技术向形式和意义相结合的方向更往前推进一步。在下面的几节中,第2节介绍了多词块描述体系的主要设计思想。第3节分析了从中引申出的基本块的具体标注体系。第4节介绍了基本块标注语料库的构建思路。第5节给出了一些初步的实验结果,并对目前描述体系下基本块的主要分析难点进行了初步分析。最后的第6节对相关研究进行了简要评述,并对全文内容和今后发展进行了简单小结和展望。

2 多词块描述体系

简单地说,多词块(Muhiword Chunk,MWC)是由2个或2个以上的词语按照一定的关联关系组合形成的信息描述单位。这里的处理关键是寻找一种合适的MWC内聚性判断标准,以此确定句子中哪些词语组合可以形成一个多词块,哪些不能。这种判定标准应具有以下特点:

・可操作性:可以帮助标注人员快速准确地确定句子中的各个合理的MWC;

・可计算性:使自动分析器能充分利用各种有效资源完成MWC的边界识别和关系分析;

・完备性:能覆盖各种MWC的信息描述。

Abney体系的过人之处,就在于他从形式上找到了适合英语描述特点的MWC内聚性判断标准,建立了MWC与管辖约束理论的X-bar系统的内在联系。由于其具有很好的可操作性、可计算性和信息完备性,因此在英语自然语言处理的不同领域都得到了广泛应用。

与英语相比,汉语描述的形式标记较少,各个成分单元之间的意合性很强。这些描述差异现象使我们不能把Abney的体系完全照搬到汉语中,需要针对汉语的描述特点,另辟蹊径,寻找符合汉语特点的MWC内聚性判断标准。在这些方面,理论语言学家进行的以向心、离心结构为基础的汉语语义构词法研究[6]和依存关系描述体系在汉语句子结构分析中的成功应用给了我们许多有益的启示。经过反复研究和探索,我们逐步形成了一套基于拓扑结构的汉语MWC描述体系,其描述核心是以下三种基本拓扑结构:

1)左角中心结构(LCC):块中的所有词语直接依存到左角中心词,形成一个左向中心依存结构;基本模式为:H C[1]…C[n],依存关系为:C[1]H,…,C[0]H。H为整个MWC的句法语义中心词,C[1],…,C[n]为限制词。

2)右角中心结构(RCC):块中的所有词语直接依存到右角中心词,形成一个右向中心依存结构。基本模式为:A[1]…A[n]H,依存关系为:A[1]H,…,A[n]H。H为整个MWC的句法语义中心词, A[1],…,A[n]为修饰词。

3)链式关联结构(CHC):块中的各个词语依次依存到其直接右相邻的词语,形成一个自左向右排列的多中心依存关系链。基本模式为:H。H[1]…H[n],依存关系为:H[0]H[1],…,H[n-1]H[n],H[i]成为不同层次的语义聚合中心,H[n]为整个MWC的句法语义中心词。

图1显示了这三种拓扑结构的基本形状。我们通过在MWC描述中引入词汇关联信息,可以形成了以下针对汉语的MWC内聚性判断准则:

・每个MWC只能形成上面三种拓扑结构中的一种结构组合,如果发生结构关系冲突现象,一般优先选择左角中心结构,从而保证了该体系的可操作性;

・通过词汇关联关系建立真实文本的MWC描述实例与词汇关联知识库之间的内在联系,利用词汇关联知识描述确定待分析组合是否为一个合理的结构组合,从而保证了该体系的可计算性;

・由于可以选择汉语字、词、块等不同层面的处理单元作为拓扑结构描述体,因此可以方便地适应汉语“字词块”连续变化的描述特点,很好地保证了该体系的信息完备性。

至此,我们可以形成下面的MWC形式定义:

定义:句子中两个或多个词语能形成一个多词块的充要条件是它们的内部词汇关联能形成以上三种拓扑结构中的一种结构组合形式。

在此基础上,通过对一个MWC给出下面不同的句法形式和语义内容描述,我们可以形成针对一个MWC的完整信息描述,即:MWC=基本拓扑结构+句法形式描述+语义内容描述。

1)句法形式:主要描述该MWC的句法成分标记(如:名词块、动词块等)和内部关系标记、组成该MWC的词类标记序列和句法中心词等信息;

2)语义内容:主要描述该MWC作为一个整体体现出的语义类信息,以及内部语义聚合关系,即通过不同语义关系将MWC中的各个词语聚合在一起,形成一个完整的语义内容表现。

图2显示了我们目前设计的MWC描述体系的总体框架。它以词汇关联信息作为基础支撑,一方面可以确定不同的基本拓扑结构,形成了很好的MWC内聚性判定准则;另一方面也方便地建立起MWC的句法形式与语义内容的有机联系桥梁。

3 基本块标注体系

我们目前定义的基本块主要描述句子中直接相邻的、以名词、动词、形容词等实词为中心聚合形成具有特定语义内容的词语序列,其中一般不包括各种功能词,包括连词、叹词、语气词、助词、标点符号等。它们一般由1―3个词语组成,通过不同的外部句法表现和内部词汇关系形成各自特殊的概念内容描述体,成为汉语的字、词进入组块成句过程的基础和出发点。

按照基本块包含的词语数目的不同,我们把它们分成两大类:1)多词语基本块,包含两个和两个以上的词语;2)单词语基本块,只包含一个词语。从上节定义的多词块出发,通过增加内部词语的必要限制条件,如只能包含实词和部分特殊功能词等,我们可以方便地确定各个合理的基本块,从而建立起完整的基本块内聚性描述体系。增加这些内容限制的目的是使我们目前能集中精力进行汉语真实文本中一些组合紧密的概念描述单元的自动识别处理,为进一步进行汉语MWE分析研究打下基础。

下面我们按照基本块的不同内容表现,把它们分成两大类:体词性基本块和谓词性基本块,分别加以说明:

1)体词性基本块  其下又可进一步细分为名词块、时间块、空间块和数量块等四小类,它们一般以句子中的名词、时间词、处所词和量词为中心,分别描述“实体”、“时间”、“空间”和“数量”等基本信息单元。其中最复杂的是名词块。我们按照四个世界的语义内容划分原则,对此进行了进一步细分,包括物质世界的‘自然物’和‘人工物’,精神世界的‘精神’和‘意识’,人际社会的‘人’、‘机构’和‘事件’,符号世界的‘信息’、‘信息载体’和‘属性’等,形成对客观世界基本内容的完整描述体系。

体词块的优势拓扑结构是右角中心结构和链式关联结构,具体实例有:“大红灯笼”,“高跟鞋”,“电视机生产厂”等。主要覆盖了定中和并列两种句法关联关系。

2)谓词性基本块  主要包括动词块和形容词块两小类,它们一般以句子中的动词、形容词和状态词为中心,分别描述“动作”、“状态”、“关系”和“属性”等基本信息单元。其优势拓扑结构为左角中心结构和右角中心结构。其中主要覆盖了述宾、述补和状中三种句法关联关系。

在左角中心结构中,各右部限制词主要描述该中心的直接支配成分,包括:(1)紧密联系的宾语成分,主要有:“v v”、“v n”、“v a”等组合形式;(2)时制(Aspect)信息,包括助词:了、着、过;(3)紧密联系的补语成分,主要形式为:“v|a  v|a|p”。

在右角中心结构中,各左部修饰成分主要包括:(1)动词的被动形式:主要包括‘被’、‘给’等;(2)否定和程度限制:对形容词中心,主要是程度限制,如:“很”,“非常”等;对动词中心,主要是否定限制,如:“不”、“没”等;(3)情态描述:主要包括情态动词(vM);(4)方式和工具限制:主要包括形容词(大喊)、名词(电话联系)和紧密联系的副词(逐步推进)等,一般情况下,前面只能包含一个修饰词。

这些前后聚合词语从不同角度,包括时间、空间、实现结果、动作方式、使用工具、否定、情态、程度等,对中心词所描述的具有连续性内涵的动作和性状进行离散化处理[4],使之能方便地与句子中的其他成分相结合形成更大的句法单位。

对每个基本块,我们使用两个标记的组合:句法标记和关系标记,对它们的外部句法表现和内部词汇关系进行完整描述。表1列出我们目前所用的主要句法标记和关系标记。

4 基本块标注语料库

构建大规模的基本块标注语料库是一项庞大的语言工程项目,需要投入大量的人力和物力。但是,通过充分发挥目前积累的各种语言资源的描述潜力,我们可以寻找到一个简单有效的处理方法,快速构建出一个大规模的基本块标注语料库。基本处理策略是:从拓扑结构定义出发,利用汉语句法树库TCT[11]中提供的丰富的句法成分和语法关系标注信息,分析不同词语组合的拓扑结构聚合方式,发现并确定句子中各个基本块的准确边界,提取相应的成分标记和关系标记,形成完整的基本块标注语料库。具体的提取过程如下:

・提取一个TCT标注句子;

・通过自顶向下的分析树遍历,发现句子中所 有处于中心位置的实词(动词、名词、形容词等),它们可能形成各个基本块的聚合中心;

・从这些可能的基本块聚合中心出发,自底向上遍历分析树,发现最大的拓扑结构组合,提取TCT中相应的句法成分标注信息,形成一个完整的多词语基本块;

・将句子中没有被这些多词语基本块覆盖的实词直接上升为单词语基本块;

・将所有基本块信息输出形成一个完整的基本块标注序列。

下面给出一个具体的处理实例:

输入:TCT标注句子;

[zj-XX[fj-ZZ[tp-FW长期/t以来/f],/,[fj-LG[dj-ZW他/rN[vp-ZZ[pp-JB为/p[np-DZ[vp-PO维护/v[np-DZ世界/n和平/n]]的/u[np-DZ崇高/a事业/n]]][vp-PO倾注/v心血/n]]],/,[vp-ZZ四处/d奔走/v],/,[vp-PO[vp-AD作出/v了/u][np-DZ卓越/a的/u贡献/vN]]]]。/。]

输出:基本块标注句子;

[tp-ZX长期/t以来/f],/,[np―SG他/rN]为/p[vp-SG维护/v][np―ZX世界/n和平/n]的/u[np-ZX崇高/a事业/n][vp-PO倾注/v心血/n],/, [vp―ZX四处/d奔走/v],/,[vp-AD作出/v了/u][ap-SG卓越/a]的/u[np-SG贡献/vN]。/。

目前,从TCT中选择所有的新闻类文本,利用上面介绍的方法自动生成了一个汉语基本块标注语料库,其基本统计数据是:文件数185,汉字总数325 806,词语项总数207 372,句子总数8 137,平均长度为25.49词/句。

为了检查目前的自动提取_丁具的处理效果,我们从自动生成的185个文件中随机挑选了4个文件,基本数据为:句子数269,词语总数6561,约占库词语总数的3%。对它们进行人工检查和校对,发现并改正所有错误情况,得到4个正确的基本块信息标注库。然后,将自动提取结果与正确结果进行自动比较,我们发现两者的信息一致率达到99%以上。其中绝大部分差异情况是原来TCT中遗留的一些标注错误,主要是vp和np的并列结构关系标注错误。这表明目前的基于拓扑结构分析的基本块提取算法可以准确反映树库中不同基本块的客观分布情况,因此达到了很好的自动提取效果。同时,也反映出从基本块内聚性角度进行分析,可以使许多TCT标注错误突显出来,从而对我们进一步提高TCT的标注质量是有帮助的。

5 基本块分布分析

为了能准确地把握对我们目前定义的基本块进行自动分析的处理难点和从句法描述向语义内容过渡的知识需求瓶颈,我们从不同角度对上面自动抽取的20万词规模的新闻类基本块标注库进行了统计分析。

表2和表3列出了一些基本的长度分布数据,从中可以看出,真实文本句子中描述实体内容的名词基本块(np)和描述动作状态的动词基本块(vp)占了大多数,它们分别占单词语块总数的9l%和多词语块总数77%的,是我们研究的重点。相对而言,动词块的平均长度较短。在多词语块中,只包含2个词语的块占了93%以上;而在np多词语块中,包含2个词语的块只占了71%左右,约30%的名词块长度超过了3个。因此,基本名词块的内部描述复杂度更高,进行自动准确分析的难度也更大。

表4和表5列出了具有不同长度的基本名词块和动词块的内部结构关系分布数据。从中可以看出,基本名词块的优势结构为右角中心结构(ZX)和链式关联结构(LN)(包括并列结构),它们占了总频度的96%以上,其他结构包括标号对结构(BH)(如:[np-BH“五四”]运动)和无中心的构词结构(NH)(如:[np-NH孩子们])。由于2词块占了大多数,使右角中心结构显示出一种突显分布错觉。事实上,在3词以上基本块中,两种结构的分布差异并不太明显,比例大体上是3:2,表明在真实文本的复杂名词块描述串中,各种结构组合都有可能出现,依据不同词汇关联知识确定其准确的内部结构关系是对这些组合进行语义内容分析的基础和关键技术。

在基本动词块中,优势结构为左角中心和右角中心结构,它们占了总频度的94%以上,其他结构包括:链式关联结构(如:[vp-LN不能去],[vp-LH改革开放])、重叠结构(CD)和标号对结构。在两类优势结构中,左角中心结构(又可细分为述宾、述补和附加关系)又占了大多数,约为77%左右,显示出汉语中具有连续性内涵的动作和性状动词通过紧密相连的后接成分达到离散化的描述特点。其中最重要的是对述宾结构(PO)关系的准确分析,因为它们包含了汉语句子所描述的事件内容的主体信息。而在真实文本中,它们又会与其他结构组合形成许多更复杂的歧义结构,如:“v n n”,“v n的n”等,成为基本动词块分析中的最大处理难点。

表6列出了目前基本块标注库中出现频度最高的5种实词结构组合(不包括数量组合和vp附加结构)。从中可以看出,汉语的典型实词组合一般都会形成几种不同的内部聚合关系,这对我们希望进行的基本块语义分析和内容解释研究提出了很大的挑战。对此,我们的初步设想是:以词汇关联信息作为研究切入点,通过基本块分析器与词汇关联知识库互动提高的双向进化过程自动从大规模真实文本中获取大量有效的词汇关联对信息,作为对这些基本块内部词汇语义关系进行准确分析的支撑知识库。其中需要特别注意的是由多个名词组成的复杂结构“n*n”,虽然它们在真实文本中出现的绝对数量不是特别大,但由于其中涉及的名词语义分类和语义关系描述是目前研究的最薄弱环节,因此可能会成为后续处理最大的处理难点。下面是一些具体的描述实例:

・np-ZX北京/nS人民/n艺术/n剧院/n

・np-LN前线/nO话剧团/n团长/n张泽易/nP

・np-LH郭述申/nP陈先瑞/nP王诚汉/nP张池明/nP

6 相关研究分析与展望

近几年来,随着汉语切词和词性标注技术的逐步成熟,在此基础上进行的块分析技术研究越来越受到重视。许多研究人员从不同研究目的出发,提出了各自不同的块描述体系。其中比较典型的有清华[9]和哈工大[12]基本短语描述体系、微软的块描述体系[13]和北大的实语块描述体系[14]等。这些体系的共同点在于它们都是从句法层面上来定义和描述块信息,主要侧重块边界确定和句法成分标注问题,不太关心各个块的内部关系分析。

其中前三个体系的处理对象与本文定义的基本块层次相当,其处理难点在于解决一些复杂名词和 动词块的边界确定和内容取舍问题,即哪些块组合应纳人体系描述中,哪些应排除在外。对此,不同体系设计者提出了自己的解决方案,包括清华的“扩展的粘合式定中结构”确定策略、哈工大的允许内部嵌套策略等。但在具体操作时还是存在许多不确定性,需要在各自的规范中给出详细定义和说明。另外,考虑到汉语述宾结构组合的描述复杂性,这些体系都没有把它纳入现有的块描述体系中。

相对而言,实语块的定义则比较明确,其处理目标是确定句子中任意一个实词序列中不同层次的合法短语。但由于引进了不同类型短语之间复杂的层次关系,大大提高了相应的自动分析任务的处理难度。

与以上研究工作相比,本文提出的基于拓扑结构的基本块描述体系具有以下特点:

1)通过引入词汇关联信息确定基本拓扑结构,形成了很好的基本块内聚性判定准则,建立了句法形式与语义内容的有机联系桥梁;

2)以拓扑结构为基础确定不同基本块的内部关系标记,建立了大规模真实文本中的基本块描述实例与词汇关联知识库之间的天然内在联系;

3)将紧密结合的述宾结构关系纳入基本块描述体系中,使之基本覆盖了汉语中所有实词之间的重要词汇关联关系,包括:名―名、动―名、形―名、副―动、副―形、动―动、动―形等,而链式关联结构的明确定义,又扩大了这些关系互相组合的可能性,为在基本块层面上进行汉语词汇关系的自动获取研究打下了很好的基础。

在以后的研究中,我们希望通过以下几方面的深入探索,进一步改进和完善目前的基本块描述体系:(1)在现有基本块标注语料库和词汇关联知识库支持下,开发高质量的汉语基本块分析器,通过对大规模的不同体裁、不同形式的汉语真实文本的自动分析,发现一些新的语言现象,补充现有块体系描述的不足;(2)启动基本块分析器与词汇关联知识库互动提高的双向进化过程,加强对基本块中不同层次的语义描述内容的深入探索,实现“句法形式吾义内容”的平稳过渡。

收稿日期:2006-10-27定稿日期:2007-01-29

基金项目:国家自然科学基金资助项目(60573185,60520130299)

作者简介:(1967―),男,博士,副研究员,主要研究方向为计算语言学、词汇语义学、机器学习。

参考文献:

[1]Steven Abney.Parsing by Chunks[A].In:Robert Berwick.Steven Abney and Carol Tenny(eds.)Prin―ciple-Based Parsing[C].Kluwer Academic Publish ers,1991.

[2] Erik F.rrjong Kim Sang and Sabine Buchholz.Intro duction to CoNLL-2000 Shared Task:Chunking[A].In:Proceedings of CoNLL-2000 and LLL-2000[C].Lisbon,Portugal,127-132.

[3]Sang T K and D jean H.Introduction to the CoNLL-2001 Shared Task:Clause Identification[A].In:Proc.of CoNLL-2001 [C].Toulouse,France,53-57.

[4]Carreras X.and Marquez,L.Introduction to the con-ll-2005 shared tasks:Semantic role labeling[A].In:Proc.of CoNLL-2005[C].

[5]Ivan A.Sag,Timothy Baldwin,Francis Bond,Ann Copestake,and Dan Flickinger.Muhiword Expres sions:A Pain in the Neck for NLP[A].In:Proc.Third International Conference of Computational Lin guistcs and Intelligent Text Processing(CICLing 2002)[C].Mexico City,Mexico,February 2002.17-23.

[6]徐通锵.语言论[M],东北师范大学出版社,1997.

[7]董振东.语义关系的表达和知识系统的建造[J],语言文字应用,1998,(3):76―82.

[8]董振东,董强.关于知网一中文信息结构库[A],http://www./,2000.

[9]汉语基本短语标注规范[R].清华大学计算机系智能技术与系统国家重点实验室,技术资料,2002年2月.

[10]张昱琪,.汉语基本短语的自动识别[J].中文信息学报,2002,16(6):1-8.

[11].汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8.

[12]Tiejun Zhao,Muyun Yang et al.Statistics Based Hy-brid Approach to Chinese Base Phrase Identification[A].In:Proc.of the Second Chinese Language Processing[C].ACI2000,Hong Kong.

[13]Li,H.,C.N.Huang,J.Gao,and X.Fan.Chinese Chunking with Another Type of Spec[A].In:Proceedings of the 3rd ACL SIGHAN Workshop[C].Barcelona。Spain,2004.41-48.

[14]孙宏林.现代汉语非受限文本的实语块分析[D].北京大学计算机系博士学位论文,2001.5.