首页 > 范文大全 > 正文

篇章分析中的逗号分类与识别研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇篇章分析中的逗号分类与识别研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要:标点符号分析对于篇章分析以及自然语言处理技术的发展有着重要作用。汉语中最常用的标点符号是逗号,研究其在句子中的作用、使用方法及自动分类等问题,可以有助于汉语篇章分析,促进中文信息处理的基础研究和应用研究的发展。

关键词:标点符号识别;逗号分类;篇章分析

中图分类号:H515;TP391.1 文献标识码:A 文章编号:1673-2596(2016)03-0225-02

一、逗号分类与识别的意义

随着信息化的发展,机器翻译、抽取式自动文摘等自然语言处理技术迎来了技术革命。针对自然语言处理系统的研究通常以句子为单位,分析其中的词法、句法和语义。然而,汉语中丰富的标点符号及其使用方法使得汉语句子较长并且句意复杂,降低了句法分析的正确率。

例如:在这条通往家乡的路上,翻山,越岭,渡江,离那里越近,我的心情越复杂,我越发觉得,生命在不同的地方和不同人的眼中真的是不同。

上面这个复杂的长句包含7个逗号,用途各有不同。第一个逗号是状语与中心语之间的停顿;第二、三个逗号是并列动宾短语之间的停顿;第七个逗号是谓语与宾语之间的停顿。在“渡江”和“复杂”之后的两个逗号相当于句子边界,这两个逗号前后的主语不同,在中译英时等同于3个句子。使用Google翻译器的翻译如下:“In this journey home on the road, crosses, uphill, cross the river, from where the closer, the more complicated my feelings, I feel more and more, life in the eyes of different places and different people really are different.”

以上翻译明显存在语法和语义上的错误。Google翻译只是将这7个逗号分隔成的子句独立进行翻译,没有考虑彼此之间的关系,并将各自的译文简单的堆砌,在句法结构与表达的连贯性方面都不符合英文的规范。由此可见,对文本中逗号的使用方法进行正确的分类、识别可以直接影响机器翻译对句意的正确判断,从而影响到译文的质量。

二、标点符号的研究现状

标点符号是篇章单位分割的重要标志,在自然语言处理系统中已有很多针对标点符号的研究。研究通过理论及实验证实,通过句内切分标点对长句子进行切分有助于辅助句法分析、机器翻译和篇章消歧等。

Mayer[1]最早从语言学的角度对英文中的标点符号进行了分类,并描述了其功能。Nunberg[2]提出了词汇语法和文本语法两个概念,将标点符号视为语言学中独立的系统,奠定了从句法分析的角度研究标点符号的理论基础。Jones[3]制定了新的标点符号分类方法,将标点分为并列标点和依附标点两种,并将它们视为依附于临近句法成分的依附标点,而非句法上的独立个体。

在汉语方面,Jin等[4]提出了利用逗号划分汉语长句。文章通过汉语句子的上下文识别逗号左右子句的关系,并通过并列和从属这两种关系对逗号进行分类,从而分割句子,对其进行有效的句法分析。黄河燕等[5]利用标点符号将复杂长句进行切分,简化为多个独立的简单句进行翻译,提高了机器翻译的准确率。Li等[6]用标点符号对长句子进行切分处理,形成完整的句法分析树,展示了基于标点符号进行层次化汉语长句结构分析的优越性。

三、逗号和子句识别的关系

标点符号是子句的重要形式标志,可分为点号和标号两大类。汉语中和子句边界有关的是点号,其中句号、问号、叹号和分号一定表示子句边界;而顿号所分隔的语言片段则不可能为子句;另外一些标点(如逗号和冒号)所分隔的语言片段则有可能是子句。

表1基于汉语宾州树库(CTB6.0)的统计数据,给出了汉语中可以作为子句边界的标点符号的使用频率。从图中可见,肯定是子句边界的句末点号(句号、问号、感叹号)和句内点号(分号)占31.14%;有可能是子句边界的逗号占67.17%。因此子句识别的关键在于判断逗号是否为子句边界,可以结合逗号的具体用法和分类研究其作为子句边界的情况。

(一)逗号的分类标准及使用方法

根据Yang and Xue)[7]的逗号分类标准,首先逗号的使用方法可以大体上分为两类。第一类逗号所连接的两子句之间存在关系;第二类逗号所连接的两子句之间不存在关系。第一类又可以分为并列和从属关系。并列关系包括3种类型(SB、IP_COORD、VP_COORD),从属关系也包括3种类型(ADJ、COMP与SBJ)。

1.SB(sentence Boundary):用于分割句子边界的逗号。这类逗号能够在句子中起到句子边界的作用。逗号作为句子边界有两点要求:逗号前后子句有完整的句法结构;具有独立的句意且逗号前后子句间没有紧密的句法关系,如例1中的c1和c2。

例1:我省重点合作项目签约仪式目前举行,c1其中外商投资项目9个,c2协议利用外资31亿美元,引进城外资金660亿元。

此句是很常见的流水句,句中的逗号是流水句中的停顿,句中的3个子句相互独立,逗号c1和c2相当于句号,可视为句子边界。

2.IP_COORD(IP Coordination):逗号的左右子句有完整的IP结构但句法上却不独立。分割父节点为非根节点的并列IP结构的逗号,如c3和c4

例2:改革二十多年来,我们党在实践中形成了一整套基本政策,c3实践证明这些政策符合农村实际,c4必须保持稳定性和连续性。

3.VP_COORD(VP Coordination):分割并列动宾短语的逗号。与IP_COORD类逗号相似,此类逗号也是分割嵌套结构中的并列结构。

例3:养成好习惯是良好生活的体现,c5也是一个人素养的表现。

4.ADJ(Adjunction):用于分隔附属从句与主句的逗号。附属从句指在从属复合句中担当句子成分的主谓结构。虽然从句自身的句子结构完整,但它并不能脱离主句部分独立完整地表达意思。

例4:为了依法推进行政审批制度改革,c6国务院于2013年7月对有关行政法进行了清理,并对25项行政法规的部分条款予以修改。

P(Complementation):用于分隔动词与长宾语的逗号。通常出现在“认为”“提出”“表示”等提示性动词之后。

例5:所有28位接受调查的专家都认为,c7澳洲联储至少眼下不会急于进行年内第三度降息。

6.SBJ(Sentential Subject):分割句子主语和谓语的逗号。

例6:食品工业迅速增长,c8已成为国民经济支柱产业。

7.Other:其他类型。上述6种逗号类型之外的逗号都划分为其他类型,往往不能标记语篇单元。

根据子句的定义,我们发现只有第一种情况中的逗号是子句边界标点,而后几种情况中的逗号都是子句内部的标点。综上可知,逗号对于子句分隔十分重要。判断逗号能否作为子句边界,实际就是判断逗号是否表示复句内部各分句之间的停顿。

(二)逗号的自动分类方法

目前的逗号自动分类方法较多是基于句法分析。如在加入逗号分类信息的情况下,使用句法分析器对句子进行句法分析得到逗号分类结果;或在句法分析器进行句法分析的基础上对句法分析过的句子提取特征建立最大熵逗号分类器。此外,仅利用句子的词语词性信息对逗号进行自动分类也取得了较好的效果。具体方法是在分词与词性标注的语料中提取上下文特征,包括子句主干特征、当前逗号序号及序号前的逗号分类类别特征、词汇特征,并采用分类器实现逗号的自动分类。

目前针对自动识别句子边界的逗号的研究较少。Jin等[8]提出了一种基于逗号的汉语长句分割方法,利用标准句法树,根据分割原理抽取训练和测试样例,采用谓词和其他相关特征判断逗号是否可以进行句子分割。Xue等[9]提出了判断逗号是否为句子边界的自动识别方法,利用CTB6.0语料,采用启发式规则,自动标注语料中不同功能的逗号类型并抽取特征进行试验,结果证实了这种方法的有效性。

目前,标点符号的分类与识别已经引起了众多研究者的关注。然而,虽然在汉语篇章分析中已有很多研究取得了较大的进展,利用标点符号辅助句子分析的研究仍比较缺乏,从自然语言处理角度对汉语逗号的自动分类研究开展的也很少,现有的大多数自动句法分析系统也都忽略了标点符号的特殊作用。本文从自然语言处理角度研究了逗号在句子中的作用、使用方法,总结了逗号的分类问题,希望可以有助于汉语篇章自动分析,丰富和发展语言学理论,促进中文信息处理基础研究和应用研究的发展。

参考文献:

〔1〕Charles Meyer. A Linguistic Study of American Punctuation[M]. Peter Lang: New York.1987.

〔2〕Geoffrey Nunberg. The Linguistics of Punctuation[M].CSLI Lecture Notes, No. 18, StanfordCA,1990.

〔3〕Jones Bernard. What’s the Point? A (Computational) Theory of Punctuations[D]. PhD thesis, Centre for Cognitive Science, Universito of Edinburgh, Edinburgh, UK, 1997.

〔4〕〔8〕Meixun Jin, Mi-Young Kim, Dong-Il Kim, and Jong-Hyeok Lee. Segmentation of Chinese Long Sentences Using Commas. [C]//In Proceedings of the SIGHANN Workshop on Chinese Language Processing.2004:56-64.

〔5〕黄河燕,陈肇雄.基于多策略分析的复杂长句翻译处理算法[C].中文信息学报,2002,16(3):1-6.

〔6〕Xing Li, Chengqing Zong. A Hierarchical Parsing Approach with Punctuation Processing for Long Complex Chinese Sentences[A]. In Companion Volume to the Proceedings of Conference including Posters/Demos and Tutorial Abstracts, IJCNLP2005, Jeju Island, Korea, October11-13,2005:9-14.

〔7〕〔9〕Yaqin Yang, Nianwen Xue. Chinese Comma Disambiguation for Discourse Analysis. [C]//Proceedings of Annual.