首页 > 范文大全 > 正文

国内汉语语料库概况

开篇:润墨网以专业的文秘视角,为您筛选了一篇国内汉语语料库概况范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

【摘 要】本文概述了语料库的起源和发展的历史,着重从中国语料库的建设与发展出发,列举近二十年常用的大型语料库,并对中国语料库语言学研究存在的问题和发展趋势等方面进行了分析,为语料库的建设和语言学研究提供参考建议。

【关键词】汉语;语料库;语言学

0 引言

自20世纪60年代计算机问世,计算机技术就迅速应用到了以语料库为基础的语言学研究中,随着计算机技术的迅速发展,世界各国在语料库的建设上成绩显著。不同语言、不同类型、不同规模的语料库越来越多。语料库的广度越来越大,开发加工的深也日益加深。语料库在语言学研究和自然语言处理中发挥的作用越来越大。

自第一代大型电子语料库BROWN建立至今,语料库语言学的研究已经有50多年的历史。而国内的语料库研究也有30多年的历史,并在上世纪90年代得到飞速发展,语言学与计算机技术加速融合,不同的学者和专家秉着不同的出发点,在各种角度和各种层次上进行了大量实证研究,这使得我国的语料库语言学迅速发展繁荣。

1 语料库和语料库语言学

1.1 语料库和语料库语言学的定义

语料库(corpus 或corpora,corpuses[复]) :是指按照一定的语言学原则,运用随机抽样方,收集自然出现的连续语言运用文本或话语片段而建成的具有一定容量的大型电子文本库。

语料库语言学:在文本语料的基础上进行语言研究的一门学科。语料库语言学通过语言现象出现的概率对语言材料进行研究。这里的语言材料是真实的、可观存在的,因此,通过概率统计手段在语料库语言学研究中得到的语言使用情况是真实客观的,排除掉了语言学家的主观性,研究结果更加真实可靠。

1.2 语料库在语言学研究领域的应用

语料库应用对语言学研究的主要改进有:

(1)保证了语料的客观真实性,排除了语言学家的主观性;(2)借助计算机的储存能力,提高了研究的广度和深度;(3)提高了工作效率,减少了人工误差;(4)使语料资源具有共享性。

语料库在语言学研究中主要的应用领域有:

(1)词典编纂;(2)语言统计;(3)语言监控,包括新词、新用法的发现;(4)语言教学;(5)语言信息处理;(6)语法、语义、词汇、语音等各种语言问题的研究;(7)方言研究等等。

2 汉语语料库

我国汉语语料库的建设开始于20世纪80年代,取得了不少成果。这里简单介绍北京大学建设的三个语料库极其特点。

2.1 北京大学中国语言学研究中心ccl语料库

该语料库包含三个子语料库:现代汉语语料库、古代汉语语料库和汉英双语语料库。

其中现代汉语语料库和古代汉语语料库主要是面向汉语研究和教学使用的大规模语料库及其在线检索系统。目前该语料库收集了大约4.77亿字语料,现代汉语和古代汉语大体上各占一半。现代汉语语料库,主要收录1696部作品,9711字的查询。古代汉语语料库,涉及从周代到民国时期,22580字的查询。语料未经分词处理。该语料库的检索系统可以提供比较方便的例句查询功能,主要特色包括:A)可以查询不连续的词语,可以指定词语之间的距离(比如“帮……忙”);B)可以查询标点符号(比如查询“《》” 可以把书名都查出来);C)可以查询汉语特有的重叠模式;D)支持对标点符号的查询(比如查询“?”可以检索语料库中所有疑问句)等等。

汉英双语语料库目前规模已经超过100万句对。汉英双语语料库对于汉英语言对比研究有直接的帮助。该语料库还可以用于汉英机器翻译。目前北京大学在该语料库的基础上开发一个双语词典编纂平台。这个平台集成例句查找功能,词语搭配分析功能,多词翻译等价单位的自动识别功能,等等。该语料库只对北大校内用户开放。

2.2 人民日报切分和标注语料库

北大计算语言所对1998年和2000年两个全年的人民日报语料进行了切分和词性标注的加工。该语料库可以用来训练统计模型帮助计算机自动分词和词性标注处理。对于制订汉语高频词表,定量研究词语的语法功能(比如兼类词、多义词各种用法的分布情况),有直接的支持作用。

2.3 现代汉语树库

树库(Treebank)是对句子结构进行分析和标注的深加工语料库。北京大学中文系自2003年开始逐步建设现代汉语句法树库,目前已经达到百万汉字级的规模,同时也形成了一系列的相关工具软件,包括分词和词性标注、自动句法分析、辅助校对工具、树库查询与知识抽取工具等等。此外还开发了一个基于Web的树库查询系统。建成的树库一方面可以用来训练统计参数,帮助计算机进行自动句法分析,另一方面也可以用于汉语研究和教学,既可以方便地查找例子,也可以做定量分析。

3 国内语料库建设现状及发展方向

3.1 语料库建设现状

3.1.1 研究汉语的语料库比例小

由于受国外语料库语言学研究和发展的影响,加上近年来我国对英语教学的重视程度越来越高,多数国内语料库的建设仍以英语为主。参考查找到的国内建设的语料库,其中有大部分是与英语相关的,只有少数语料库是完全用来研究汉语的。

3.1.2 语料库建设小型化专业化

随着计算机及网络技术快速的发展,越来越多的语言学者跻身于语料库建设中,因其研究方向各异,相比大型综合型的语料库,小型的、专业化的语料库的建设更受青睐。

3.1.3 生语料库居多

因为缺少建立标准和统一管理,现在国内的语料库建设杂乱,大多是自建自用,缺乏共享,语料库中的内容得到标注和重新加工的寥寥无几,这使得语料库的使用效率不高,同时也存在着重复性建设。

3.2 国内汉语语料库的发展方向

发展到现在,语料库己经成为现代语言学研究的重要基础。语料库语言学是指以语料库为基础的语言学研究方法。关于语料库语言学的研究有很多文章和专著,而把汉语语料库建设本身作为一个研究对象来专门进行研究的课题却不是很多,导致了汉语语料库建设的规范性不强、缺少系统的理论指导、缺少评测标准等现象,使得当前汉语语料库建设的质量良莠不齐、重复开发。语料库的建设牵涉到语言学、计算机科学、概率统计学、文献学、版权学、管理学等多个学科,建设一个高质量的大型语料库,是一个人力、物力、时间、金钱开销都很庞大的工程。因此语料库建设周期长,难以满足语料库语言学发展的需要,难以为语言学研究提供全面、丰富、及时、权威的语料素材。因此,未来进行汉语语料库建设理论规范性研究、制定统一评判标准,为研究者提供功能丰富、使用方便灵活、效率高的语料库分析工具,是汉语语料库未来的发展方向。

【参考文献】

[1]段海鹏.近十年语料库语言学在中国的发展综述[J].海外英语,2011(11):304-305.

[2]侯敏.计算语言学与汉语自动分析[M].北京:北京广播学院出版社,1999:155-159.

[3]穆晓丽,尹转云.语料库在语言研究方面的应用综述[J].西安外国语学院报,2001(09):21-26.

[4]甄凤超,张霞.语料库语言学发展趋势瞻望:2003语料库语言学国际会议综述[J].外语界,2004(04).

[5]杨惠中.语料库语言学导论[M].上海:上海外语教育出版社,2002.

[6]张艳伟.语料库语言学的多维角度:2011年中国语料库语言学大会综述[J].当代外语研究,2012(09):87-88.