首页 > 范文大全 > 正文

关于建立中国国家科学技术语料库的思考

开篇:润墨网以专业的文秘视角,为您筛选了一篇关于建立中国国家科学技术语料库的思考范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

[摘要] 论述当前语料库建设的最新发展趋势以及建立我国大规模、国家级科学技术语料库对应用于科技信息领域的自然语言处理技术、知识技术等智能信息技术研究发展的意义和重要性,探讨国家科技语料库的建设目标、设计原则、加工功能、组成结构及其他一些相关问题,目的是推动我国科技语料库的建设,并得到国家有关部门的关注与支持。

[关键词] 自然语言处理 科学技术语料库 句法树库 语料标注

[分类号] H087 TP391

1 引 言

自然语言处理技术已经成为数字图书馆进一步发展的重要技术基础。当前,自然语言处理技术的发展和应用越来越依赖大规模、深加工的语料库作为基础,包括通用的和专业领域的语料库。为了使自然语言文本分析和挖掘、机器翻译、单语言或多语言基于知识的问答式信息检索等自然语言处理技术早日在数字化文献信息服务中得以应用,我们认为,有必要建立中国国家科学技术语料库。这一国家级语料库不仅有利于自然语言处理技术的发展应用,也会促进知识工程技术(如各类知识库的自动构建)的发展,促进基于语料库的科技语言研究的发展。而科技语言研究在国内几乎还是空白,用科技语料库来促进以汉语为主的国内科技语言研究,这对提高我国在国内和国际的科技交流与传播水平具有重大基础意义。

建立国家级公用性的大规模语料库在国外早已开始。例如:20世纪90年代初,英国就开始建立英国国家语料库(BNC),迄今已达4亿词的规模;2004年,美国也在原有一些重要语料库的基础上,组建美国国家语料库(ANC)。这些国家级语料库都是通用的语料库,但都包含有一定数量比例的科技语言文本。我国国内虽也有一些著名的大型语料库,如北京大学计算语言学研究所以《人民日报》为内容的汉语语料库,但尚未达到BNC语料库那样的规模和级别。我们认为,或许可以通过中国国家科技语料库的建设来进一步带动我国国家级通用语料库以及整个语言数据工程的建设工作。

本文依托我们承担的国家科技支撑计划项目课题“多语言信息服务环境关键技术研究与应用”的研究工作,对建立中国国家科学技术语料库提出一些初步的考虑。

2 语料库发展历史和当前趋势

2.1 发展历史

我们现在所说的语料库,是指基于计算机的语料库,也叫电子语料库或数字语料库(Digital corpus),其研究和构建始于20世纪60年代初。开始,语料库的建设主要是为了语言学家的语言研究工作,如语法研究和编纂。进入20世纪80年代后,西方一些大型出版社开始通过建设语料库来支持编纂出版语言词典。英国在20世纪70年代初和20世纪80年代中期,由著名学者R,Quirk主持编纂的两个版本的大型英语语法专著以及在20世纪80年代中期英国柯林斯出版社出版的Cobuild系列英语词典,都是在大型语料库基础上完成的,都被视为现达国家在民族语言和文化建设上的划时代的里程碑事件。

20世纪90年代后,随着统计自然语言处理,特别是统计机器翻译技术的研究发展对语料库的需要,语料库建设得到了迅速发展。美国宾州大学的各类语料库就是面向自然语言处理技术的重要代表。目前,语料库开发建设日益成为一项典型的数据工程技术,而且日益结合人工智能中的机器学习等多项技术,大大促进了自然语言处理技术(包括机器翻译技术)的发展,也促进了知识工程技术(如知识库构建、本体学习等)的发展。

语料库工程同自然语言处理技术之间的关系,可以说是一种相互促进、螺旋上升的关系,即:语料库加工需要一系列自然语言处理工具,如词性标注、句法分析等,同时语料库又是发展一系列自然语言处理技术的数据基础,通过机器学习方式加工语料库,可以为各种统计自然语言处理提供大规模训练语料和测试语料。没有语料库的数据作基础,统计式词性标注器、句法分析器就不可能产生。由此可见,语料库建设在自然语言处理技术和知识技术研究发展中,已经是不可或缺、基础性而且大规模的独立数据工程。

2.2 当前趋势

当前,语料库工程技术呈现如下一些重要发展趋势,应该引起国内有关研究和技术领域的关注,即:

・语料库已按综合或领域、大中小型不同规模、不同使用目的(语言研究、语言技术和知识技术开发、语言学习和教育等)、单语语料库或双语及多语并行语料库、可比语料库等多种类型或方式发展,如美国语言数据联盟LDC的各类语料。

・语料库的加工或标注则按照现代语言学对语言结构描写的层次,从词法、句法、深层逻辑句法到话语进行不同层次的加工或标注,形成了不同语言结构层次的语料库,如宾州大学的树库(Treebanks)、命题库(Propbanks)、话语库(Discourse banks)等。

・对语料库加工需要有相应的加工规范,即对不同语言结构、不同层次的标注所用的范畴的集合,这些规范及其所涉及的范畴体现了语言学的理论认知。由于现代语言学理论具有不同派别,提供了多种模型和框架,因此,语料库的加工往往在理论上采取折衷办法,这虽然对自然语言处理技术研究开发具有一定的实用效果,但实践证明折衷有时意味着简化模糊或标准依据混乱,不能够支持开发出高质量语言技术。所以近年来已出现一些完全按某一特定语言学理论进行标注,如词汇功能语法(LFG)树库,头驱动短语结构语法(HPSG)树库等。

・由于多媒体技术的发展,语料库开始朝多媒体、多模式方向发展,出现了以文本、影视资料为基础的多媒体语料库。虽然这些多媒体语料库建设目前还主要是针对多媒体语言教学的需要,但多媒体语料库技术完全可以用于包含文本、视频、语音音频内容的多媒体科技信息处理,如科技影视信息处理与服务,这种多媒体科技信息技术是未来科技信息服务走向知识服务必然需要的。

・语料库建设作为一项基于计算机的现代数据工程,是一项新的数据工程类型,这种数据工程对一个国家或民族的语言信息处理所需要的语言信息技术的发展应用至关重要,而且在当前全球信息化过程中对一个国家的语言研究、语言教育、文化和信息传播都具有长远的战略意义。因此,语料库建设得到了政府的支持,而且注重语料库面向公共使用的性质,英国和美国国家语料库的建设,美国LDC的语料提供模式,都是语料库建设应用的代表性事例。

从上述语料库的发展和趋势我们不难看出语料库建设的意义,特别是国家级大型语料库系统的特殊重要性。

3 国家科技语料库的建设目标和设计原则

3.1 国家科技语料库的建设目标

国家科技语料库建设既是一项大规模的数据工程,也是一项在建成之后需要不断维护、更新和扩充,不断支持新的加工层次和加工类型的长远工程。因此,中国国家科技语料库的建设必须制定明确的近期和长期目标,必须有明确的应用目的。

总的来讲,建立中国国家科技语料库,首要目标是

支持应用于科技信息服务领域的各类自然语言处理技术和知识技术的研究、开发、测试和应用验证。在近期特别要针对机器翻译技术、计算机辅助翻译技术、科技术语库的自动构建、各类面向信息组织和检索的词语工具资源(如主题词表)的自动构建、文本挖掘和知识发现技术的研究开发的需要,并为未来更深层次的知识技术(如语义或意义技术)的发展奠定基础。

其次,促进并支持我国的科技汉语和科技外语与汉语对比和翻译的研究,促进我国的科技汉语和科技外语的教育。语料库已经在传统外语教学与交流研究中显示出了强大的应用潜力,而在科技外语与交流中的应用则寥寥无几。科技语言与科技交流传播密不可分。为了确保我国长期科技规划的实施,使我国成为一个科技创新型国家,我们的科技首先要全方位赶超国际水平。为此,加大加深我国的国际科技交流规模程度是十分必要的,在科技交流传播中提升科技语言的作用也是十分必要的。科技语料库建设应考虑科技语言研究、科技翻译研究、科技语言教育的需要。

第三,充分发挥科技信息服务业联系我国计算机科技行业和人文社会科学研究领域的桥梁作用。中国国家科技语料库的建设应在我国科技行业领域来实施,具体地说应在我国科技信息服务行业领域来实施。我们认为,从语料库建设的信息技术支持(包括以数据库为基础的传统信息技术和以机器学习为基础的智能信息技术的支持),到各类相关标准规范的研究制定,到语言数据的传播共享机制,都是单一的学科行业所不能够完成的,都有赖于科技信息服务行业这一桥梁的统筹协调与规划。从长远来看,中国国家科技语料库的建设,还要达到促进我国更大规模的以汉语为主的语言数据工程发展的目的,特别是促进我国国家综合语料库的启动与建设。

3.2 国家科技语料库的设计原则

关于国家语料库的设计原则,首先须明确的是语料库同一般文本数据库的区别在于其选样和加工。当然,一般文本数据库也作为语料库来支持某些语言技术的开发,如各类基于词的统计研究以及基于词的N元文法的开发,因为这些研究与开发需要未经选样处理的真实文本数据库的规模。但语料库的真正意义在于其经过选样处理,既保持一定数量的规模,也保持语言内容的质量和语言语体、文体类别的均衡,即保持所建语料库对全语言域的代表性。这样的语料库作为数据基础来支持语言技术研究和语言技术模型开发才具有更大的价值。因此,国家科技语料库的设计原则应从学科领域、文本的文体、语种、规模等多方面加以考虑。

在学科领域方面,中国国家科技语料库虽然应是全方位的科学技术领域,但考虑科技领域语言的庞大,应该在初期有所限定,如限定在较全方位的工程技术领域,甚至在初期依据国家重大工程技术范围选择10-20个重点领域进行建设,以利于相关的语言技术更好地应用于科技信息的交流与服务。在文本文体方面,也可以限定在单一文体,如科技文摘(包括科技文章标题),因为科技文摘在科技信息传播中具有非同一般的作用,例如如果能够实现高质量的外文与中文科技文摘自动翻译,将会有利于中外文科技信息的交流服务。

在语种方面,国家科技语料库应该是以汉语为中心的多语种的语料库。这不仅是因为像机器翻译这样一种对科技信息交流和服务来说最重要的自然语言处理技术需要多语语料库,包括多语并行语料库,而且更为重要的是,多语语料库对支持深层语言技术和知识技术的开发具有极为重要的作用,只有在多语对比的情况下,才能够在概念或语义层面上开发出更先进的智能信息技术。从近期以及世界上科技领域语言运用的实际情况来考虑,汉语和英语是国家科技语料库必须涉及的语种,此外日语、德语、法语也应考虑在内。

至于国家科技语料库的数量规模,在学科领域加以限制的情况下,比如在工程技术范围选择20个重点领域,总量如以词计算,一个语种不应少于2亿词,两个语种就应该是4亿词。这些数量估计都是有一定根据的,因为一个语种2亿词,才能够形成这一语种的有效的统计语言模型;2亿词无论是在哪一个语种,对于书面语的科技语言文体来说,大约是1000万个句子,在机器翻译中构建翻译模型大体上可以满足。不过1000万个句对的两种语言的对齐并行语料的获取在科技语料范围内仍然是一个巨大的问题。这也是当前统计机器翻译技术所面临的技术和条件瓶颈。

4 国家科技语料库系统平台的功能与结构

国家科技语料库是一个基于计算机的语料库,其中语料库加工所使用的各类加工工具基本上是典型的自然语言处理程序,如中文切分、西文词法分析、句法分析,各类标注及深层语言分析工具等,除了这些加工模块之外,平台其他功能基本上是一个数据库技术的应用系统,但还要加上各类统计功能及数据显示界面以及可视化工具。这其中高质量的KWIC界面以及句法树形图的可视化工具对提升语料库的使用效果十分重要。

总的来讲,国家科技语料库系统平台应具备如下大的功能模块,即:

・KWIC查询显示功能模块。这是语料库最基本的功能模块。其所操作的对象是未经加工处理的初始文本语料,但可以包括经过对齐处理后的并行文本语料。这是对语料的词语放在文本语境或双语对齐文本语境下进行观察、统计研究的功能支持。作为具有更为先进功能的KWIC,应能够支持篇章级的语境显示,并能够与后面的显示各层面加工结果数据的可视化工具相联接。

・语料预处理模块。可以包括对语料进行必要清洗的工具。对语料进行切分包括中文切分,以便形成基本的处理单元(Tokens)。从功能先进角度看,这部分处理应能够包括识别语言各类固定结构,包括连续型和离散型单元,这非常符合当前认知语言学认为语言基本单位应是各类构式(Constructions)的最新理论思想。

・语言结构各层面加工模块。这些模块包括词性标注、词法处理、句法处理、逻辑句法处理(命题标注)、话语或语篇处理。这些不同的模块都是典型的自然语言处理工具,这些工具既是语料处理的工具,又要依赖经过加工的语料作为开发数据,通过机器学习的手段而得到。当然,这些工具也可以用规则的方式开发,或规则加机器学习的方式得到。

・各层面加工结果数据可视化工具。这主要是指语言结构各层面形式化表示的可视化工具,如句法树的显示,以多层矩阵形式表示的自然语言的复杂特征集的显示,特别是这两者相结合的显示。从功能先进的角度来说,这部分功能如能够提供基于可视化图形的对数据修改操作的功能,将是十分有益的。因为语料各个层面加工的结果总会有错误率,有一个直观的修改操作功能会有助于人工修改的速度,从而提高加工语料的质量。

综上所述,国家科技语料库的整体结构可以大致用图1表示。

这其中机器学习的功能并不包括在平台系统中,而是属于各相关工具的开发平台,但各类工具的测试评价要能够与各层面语料关联。

5 其他有关问题

国家科技语料库建设是一个意义重大同时又必须逐步推进的长期数据工程。为此,语料库建设必须要有很好的理论指导。作为数据工程,其要遵循大型数据工程的开发规范。语料库工程又是面向自然语言处理技术开发以及语言研究,因此,其本身建设必须有工程技术理论的指导,也必须有语言学理论的指导。而后一指导在当前的语料库建设中尚未得到充分的认同。从图1可以看出,语料库加工所需要的各类标记集的规范,实际上受到语言学理论或各种理论所提供的语言模型制约。随着统计自然语言处理越来越需要语言学理论所提供的语言知识的支持,语言学理论对语料库建设的指导作用越来越明显。

另外,我们还必须注意到,语料库在实际设计中,往往还受到其他相关因素的影响,如语料数据的可获性、语料分析工具的发展水平、语料的知识产权等问题,限于篇幅,在此不再一一赘述。

6 结语

作为本文的结束部分,我们认为建立中国国家科学技术语料库具有重要科研意义和实用价值,有利于我国以汉语为中心的自然语言处理技术的发展,也有利于我国以科技汉语为中心的科技语言的研究与教育。后一点更应该引起我国的重视,用现代科技手段支持人文社会科学和教育的发展,对加强我国科技知识创新与交流有着重要的基础作用。