首页 > 范文大全 > 正文

汉语篇章修辞结构的标注研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇汉语篇章修辞结构的标注研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:汉语篇章修辞结构标注项目CJPL采用大陆主要媒体的财经评论文章为语料,依据修辞结构理论(Rhetor-iCal StruCtureTheory,RST),定义了以标点符号为边界的篇章修辞分析基本单元和47种区分核心性单元的汉语修辞关系集,并草拟了近60页的篇章结构标注工作守则。这一工作目前完成了对97篇财经评论文章的修辞结构标注,在较大规模数据的基础上检验了修辞结构理论及其形式化方法在汉语篇章分析中的可移用性。树库所带有的修辞关系信息以及三类篇章提示标记的篇章用法特征,可以为篇章层级的中文信息处理提供一些浅层语言形式标记的数据。

关键词:计算机应用;中文信息处理;汉语语料库;篇章标注;修辞结构理论

中图分类号:TP391 文献标识码:A

1 研究背景

篇章标注是国际语言工程和资源建设的一个前沿内容。以修辞结构理论(RhetoriCal StruCtureTheory,RST)为指导的篇章修辞层级标注在最近几年取得了显著的成绩。英语RST篇章树库选用宾州树库的文章,由专业人员以小句为基本篇章单元(Elementary DisCourse Unit,EDU)构建二叉修辞结构树,最后完成了385篇文章的标注,于2003年公布后供学术团体使用。正在建设中的德语PCC语料库也完成了170多篇新闻评论的修辞结构标注。

利用篇章修辞结构树库以及语料上所附注的其他语言学信息,研究人员在自动文摘、机器翻译、自动阅卷等方面取得了突破性的进展。

目前尚未知有与英语RST树库可比的汉语篇章修辞结构树库建成。事实上应用RST理论进行汉语篇章分析的成果也不多见。由于没有一定规模的高质量的RST标注语料库作基础,一些应用RST的中文文本自动处理模型无法进行进一步的统计学习和规则改进。因此,建设汉语篇章修辞结构树库对发展基于RST的中文篇章处理技术具有实践意义。

2 具体建库工作

2.1 语料的选择和构成

CJPL项目选用的语料为2005年4月12日在人民网①《主要媒体财经评论》栏目上转载的全部400篇文章中排版质量较好的395篇,共计785 045字。文章的出版时间跨度为2003年中到2005年初两年;题材包括社会问题、财经政策、证券、汇率、国际贸易、会议导报、上市公司年报分析等;体裁包括财经消息、内外刊文章编译、杂文、社评、学术论文摘要、访谈综述、述评等;共涉及69家大陆媒体和数百名作者和编译者。

我们认为,这些长短不一、由众多专业人员为汉语读者撰写的财经评论文章能代表汉语新闻评论语篇的一般情况,并与英语RST篇章树库所用的《华尔街日报》文章及德语PCC语料库所用的财经评论文章具有较好的可比性。

2.2 语料的处理

在大量先导研究的基础上,我们为树库建设工作制定了60页的标注手册,具体内容包括:基本分析单元的定义和切分、标记集的内容和定义、标记问优先选用协议、特殊现象处理守则、标注人员的培训和标注工作守则、质量控制方法等。下面是标注手册的主要内容。

2.2.1 基本篇章分析单元的定义、切分和合并

切分在修辞结构树库项目中就是要获取有篇章修辞结构意义、连续但又互不重叠的文字串作为标注的基本篇章单元(EDU)。由于C3PL语料的句子很长(平均句长为51.8字),而小句在汉语语法研究中还没有总结出较好的形式标记,因此在对语料进行探索性分析后(详见文献),我们把汉语篇章的EDU定义为由句号、问号、叹号、分号、冒号、破折号、省略号以及段落结束标记所分隔的文字串。由程序完成自动切分。切分完成后,CJPL语料EDU文字串的平均长度为40.0字。对自动切分获得的一小部分篇章功能不完整的文字串,我们在标注阶段使用同一单元(SAME-UNIT)伪关系来进行合并(见图1财经评论篇章子树标注实例)。同一单元伪关系使用的比例占所有修辞关系的0.5%。

我们把段落结束标记也算作EDU的右边界符号的原因,是因为新闻语篇中有不少标题和小标题,其结尾处没有一般所谓的标点符号。而我们没有把逗号选作EDU的右边界符号的原因,是因为统计分析发现,占CJPL全部标点符号比例近40%的逗号中有27.5%分割了小句的主谓结构。在这种情况下,如果把逗号也作为EDU的右边界,将会产生大量篇章功能不完整的文字串,在标注阶段就需要频繁使用同一单元(SAME-UNIT)伪关系,不利于修辞标注工作的展开。

2.2.2 现代汉语RST关系标记集

汉语修辞关系集以RSTTool V3.41软件上的Extended-MT版本为基础,同时参考了汉语复句、句群和文章学研究的一些分类体系。该关系集也是我们在大量的先导研究、语料预标注及一项专门的心理语言学测试之后确定的,最后按照RST的经典格式,为每个汉语修辞关系作了详细的定义,并举语料库中实际出现的语料为例(见图1)。

目前汉语修辞关系集有12组47种关系(见表1),每个汉语RST关系都有后缀用来区分该关系的特征性单元在篇章单元(DiSCourse Unit,DU,包含基本篇章单元EDU和非基本篇章单元non-EDU两种)组合中的核心性地位。例如“解答-S”表示解答关系中的特征性单元在组合中起卫星的作用;“解答-N”表示解答关系中的特征性单元在组合中起核心作用;“解答-M”表示解答关系中的每个组成单元都是该组合的核心成分。

汉语修辞关系集在定义和数量上与英语RST树库、德语PCC语料库所采用的关系集具有较好的一致性。

在标注修辞结构树的同时,CJPL语料库项目也标注了新闻语篇的结构信息。CJPL中使用的汉语新闻语篇结构元素集包括:出版信息、标题、电头、体裁、摘要、专栏信息、刊物免责声明、作者、作者声明、作者信息、译者、正文、正文出处、插图说明、摄影记者、责编、来源、相关链接等标记。篇章结构信息可能在开发自动文摘系统时有用。

2.3 其他相关标注

修辞关系的定义是以功能为基础的,不以浅层形式标记为依据。比如例1中的关系,并不以是否出现关联词语或者出现什么关联词语为依据来确定。但浅层的形式标记确实能帮助系统确定篇章单元间的关系,在篇章理解、自动文摘等有重要作用。因此,在完成第一批较短的97篇语料之后,我们又在机器的辅助下探索性地标注了以下三类可能具有提示修辞结构作用的字符串:1)通常所指的关联词语、独立成分和序数词;2)指示词和代词;3)作为EDU边界的标点符号。对每一个篇章提示标记实例,由人工标注其复杂特征,包括:提示标记类别、提示标记在DU中的相对位置、提示标记所在EDU序号、提示标记所标示的修辞关系、提示标记 所在单元的核心性地位、提示标记辖域的起止范围、备注等项。

同时,为了对比分析一些常见关联词语的句内句外用法,我们也初步标注了每个EDU内部最上层的连词用法信息,包括:连词、连词的句内位置、连词所在EDU在上下文中的修辞关系、连词所在EDU的核心性地位、备注等项。

2.4 现代汉语篇章修辞结构标注工作守则

建设篇章修辞结构树库的目的是构建语篇抽象的树结构,并将两个语篇单元之间的关系限制在某个修辞关系上。为保证标注质量,由经过培训的语言学或新闻传播学的专业学生在理解语篇的基础上,独立对语料进行修辞结构标注。我们为树库建设工作制定了较为详尽的修辞关系间优先选用协议、新闻语篇的结构性元素集定义、标记集的组合使用规则、标注一致性控制原则等,供标注者参考。主要内容有:

1)使用RSTTool(V3.41)软件,自底向上构建篇章树图。

2)标注修辞结构一般先假定两个单元间的修辞关系为某种单核心关系,然后应用删除测试和替换测试来区分这两个单元间的核心性地位。

3)如果一个关系的两个单元在上下文中难以确定到底谁是核心,或一个关系涉及三个或三个以上的单元且这三个单元在语篇中的重要性相等,就选用该关系的多核型结构。

4)只标注一种最有可能的修辞关系。如果单元间可能有多个候选关系,就根据修辞关系间优先选用协议选择处于优选地位的那种关系。

5)对所有单核型关系采用二叉结构,多核型关系则保持多叉结构。

6)对于多父节点的情况,如过渡句(段),只标注相对关联性较强的一个父节点。

7)对于交叉枝的情况,如框式结构,则按特殊转换规则转换为非交叉的树形结构。

8)在标注篇章关系的同时,标注新闻语篇的结构性元素,比如标题、作者或者正文等。在题目和正文之间标注修辞关系。

9)每完成一批语篇的标注,进行标注者内、标注者间的一致性测试。

2.5 标注流程

CJPL语料库的语料处理流程如图2。

2.6 标注质量控制

目前有两位标注者完成了第一批从较短的197篇语料中随机抽取的97篇文章的标注工作。为检验两次独立标注之间的一致性程度,我们用SPSS对已标注的相同10篇语料EDU间修辞关系的Kappa系数进行了测算,得到的结果是K=0.638。

Kappa系数显示我们的标注一致性尚不理想。但由于RST关系集内容丰富、核心性的确定也多少有解释性,当前的人工标注篇章修辞结构仍是相当主观的工作。随着语篇篇幅加长,今后各个版本间的标注一致性可能还会降低。

3 初步成果

3.1 CJPL篇章结构特点

标注结果显示,在遵循协议的条件下,现代汉语财经评论都能在RST框架下用树来表示其篇章修辞结构。这说明树是汉语篇章较好的形式化表达方式。

CJPL文章的修辞结构树型从正文的根节点位置来看,核心单元在语篇开头出现的占40.2%。从正文根节点的关系看,最多的是证明(27.8%)关系,其次是详述(16.5%)和评价(15.5%)关系。

3.2 CJPL修辞结构关系分布特点

从各种修辞关系的出现频率看,CIIPL中最常见的关系是并加-M关系(22.1%)。其次是证明-S关系(8.8%)和详述-S关系(7.9%)。如果对多核心单元的每一个单元都计数,那么汉语单核型关系与多核型关系的比例为64.6%:35.4%;如果对每种多核型关系以单次计,这一比例为62.3%:38.7%。这显示汉语评论文中的并列结构比较多,但单核关系仍占主导。

从各个修辞关系的核心与卫星单元位置看,CJPL语篇中卫星核心结构与核心一卫星结构的比例为46.2%:53.8%。这显示前偏后正的结构在分号句及以上层次中并不明显。

在CJPL已标注语料中,我们添加的一些“新”关系(Cause-Result-M、ConCession-M、EvaluationM、Solution-M、Addition-N、ConCession-N、Evalua-tion-N、Explanation-N、Justify-N、Addition-S和So-lution-S),加上“???”关系,只占所有修辞关系数量的7.2%。而且由于我们所添加的新关系,与对应名称的经典RST关系都只是在特征性单位的核心性地位不同,并没有发现什么新的修辞谓词。这一数据说明目前RST网站上公布的关系集在分析汉语篇章时已经趋近某种实用意义上的完整性。

3.3 汉语篇章结构与表层形式标记间的关系

CJPL中有28.5%的正文DU之间使用句间关联词语。这些关联词语较多地用于并加-M关系(157次)、罗列-M关系(68次)和让步-S关系(51次)的特征性单元。附加-S和条件-S关系每次出现都有关联词语提示;而引述-S关系、评价-M关系、方式-S关系和准备-S关系则从来没有出现过关联词提示语。而且,有关联词语标记的各种关系大多是篇章中较低层次的、局部的关系。

有15.0%的EDU带某种形式的代词或指示词回指,其中近一半带回指词的EDU,是其所在关系的核心单元(49.8%)。

标点符号的用法与修辞关系虽然没有一一对应关系,但存在一些显著的关联。比如,分号多和并加-M相关,问号常与并加-M的单元、解答-S的卫星单元和让步一S的核心相关。同时,具有篇章结构提示作用的标点符号,81.5%都唯一地与某种关系的特征性单元相联系。鉴于核心性地位在确定修辞结构树的作用,这一数据也表明汉语标点具有重要的篇章功能。

4 小结和将来的工作

我们参照英语WSJ-RST修辞树库和德语PCC语料库的选料和标注方法,建立了汉语CJPL语料库。在修辞结构理论(RST)的指导下,我们定义了汉语篇章修辞分析的基本单元和修辞关系集,完成了第一批97篇章语料的修辞结构树构建,验证了修辞结构理论及其形式化方法在汉语篇章分析中的可移用性。虽然目前已完成标注的篇章结构树数目有限,获得的数据会与全库总体的情况略有差异,但树库所带有的修辞关系信息以及关联词语、回指代词及标点符号等形式标记的复杂特征,可以为篇章层级的中文信息处理提供一些浅层语言形式标记的数据,应用于各种汉语篇章自动处理技术。

限于时间、人员和技术条件,汉语CJPL篇章修辞结构树库项目目前只取得了阶段性的成绩。我们计划按照国际语言资源建设的一般要求,降低标注分析的颗粒度,完成剩余语篇的修辞结构树构造工作,并努力提高标注一致性。我们欢迎国内外同行与我们合作,在分词的基础上系统地展开其他层次的语言学信息标注,包括篇章提示标记的复杂特征标注、引述结构标注和情感标注等,提高语料处理的自动化程度和语料库可提取信息的利用率,提取有关数据用于各种汉语篇章处理技术。