首页 > 范文大全 > 正文

基于中介语料库的汉字偏误标记研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于中介语料库的汉字偏误标记研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要:本文就汉字偏误在中介语料库中标记的问题进行探讨,通过对几大区留学生主要产生的偏误进行分类总结、分列出现有的一些对汉字偏误的标记、结合留学生大致的偏误类型结合各类标记的优缺点提出意见。

关键词:中介语料库;汉字偏误;汉字偏误标记

1.以欧洲、日本和东南亚华裔留学生为代表的汉字偏误类型

根据四川外语学院留学生部的扫描资料进行归纳、总结,列举以下三大板块留学生的偏误类型,以便根据其偏误类型做出具体的标记模式。

1.1欧美学生的汉字偏误类型

欧美学生偏误类型主要体现在由于汉字的表意文字和欧美的拼音文字的巨大差异造成的欧美学生在学习汉字时常常将横、竖写成弧状,化曲为直。

通过对欧美留学生产生的偏误类型进行归纳总结,大致有如下几种:一是用本国的字母字形来代替汉字的某些汉字的笔画和部件以及部件异位的情况;二是书写汉字时结构残缺不全。欧美留学生常常分不清楚具体的结构,把左右结构的字拆分成了两个字,上中下结构的字拆成了两到三个字。例如:“标”,他们写成了“木”和“示”等等;三是误加笔画或者遗漏笔画,尤其是笔画稍微复杂点的字,欧美留学生在书写的时候经常容易出现错误。例如“真”字中间的三横写成两横;四是形似字书写的偏误,即部件变形。例如:“矛”和“予”;五是同音字或近似音字间的替换。例如:“间”和“见”、“管”和“关”;六是笔顺问题。英语的书写没有笔顺的要求,他们受到母语的影响,往往通过“画”的方式进行书写。

1.2日本留学生的汉字偏误类型

造成日本留学生汉字偏误的原因大致是:繁简的差异,同一个文字在日语和中文中表达意思不同,相似的字之间有很细微的笔画差异。

根据语料库的统计,“为、时、个、亲、现、说、长、后、认、题”等在日语书写符号中都以繁体形式出现,导致其学习汉字错误率排在前20位。中日的汉字有一部分是来源于相同的汉字转化,但是转化的方式却不同,这也就导致了日本学生在书写的时候易出现偏误。比如:这样的“样”写成了“印保“讲话”写成了“v”,“因椋ㄎ)我迟到了,所以被老(师)骂”。

汉字中形似字迹很多,这也导致日本留学生在书写汉字时往往忽略细小的差异造成偏误。如:“只有两天,家里人有事儿不敢(左边的横折少写一横或者一折)去”。

中文与日文有很多字和书写形式都很像。所以在书写时当中日双方某个常用汉字形状相近但字形差异不止一处时,往往容易造成偏误。如:把“及时”写成“急时”;把“场合”写成了“合”

1.3东南亚华裔留学生的汉字偏误类型

东南亚留学生他们的偏误类型更加复杂多样且各类偏误的数量分布极不均衡。具体的偏误类型大致分为以下一系列情况:部件错写或错用;笔画增减;音形皆近偏误;笔形错误和笔画组合关系错误;字形相近;声韵母均同;汉字所无笔画;不规范字;部件增减;部件镜像位置改变;韵母相同;声同;受到上下文或者方言的影响。

各个地区的留学生产生的偏误都有所差异,如何能利用这些差异,并总结出一定的规律用于实践教学也是中介语料库的意义所在。我们希望通过语料库中记录的相关资料,能顺利、便捷的找出某一类型的偏误,并有与之对应的实例及出现偏误的学者的相关背景资料。如果能通过计算机直接检索到欧美或者日韩学生的汉字偏误类型也将会对汉字教学起到重要的作用。所以统一而且规范的标记能将中介语料库里面收录的真实材料迅速的检索出来并用于教学。

2.以北京语言大学中介语语料库为例,讨论其标记汉字偏误的方法

北语的中介语语料库相对较为完善,并已经创制出一套系统的偏误标记方法。该语料库语料均记录有作者姓名、性别、年龄、国别、是否华裔、第一语言、文化程度、所学主要教材、语料类别、写作时间、提供者等23项属性。“汉语中介语料库系统”对抽样语料按照字、词、句、篇等不同层次进行了加工和标注,对语料样本的非规范形式做出索引标记,并登录其相应的规范形式。用这种方式建立起来的语料库可以直接用电脑进行索引,并且信息的涵盖量比较大。XML与语言错误标注是其具体的标注错误方式。

利用XML提供的标记功能可以对中介语语料库中的错误进行标注。语料库资料录入的都是来自真实的留学生资料,在制定程序前就必须对留学生的汉字偏误类型进行分类,比如是属于笔画缺失、增添还是结构错误等。在处理好之后就可以运用电脑软件对其进行标记了。如:“我字习汉语一年了”,常用的XML标注方法:“我/r字/n习/vg汉语/nz一/m年/q了/y。/w。”里面是错误所属的大类,并且要成对标记,内容为“错误修正/错误小类”。这种XML标注在理论上有很强的实用性,但是标注过程极为复杂并且有时不一定能够准确找到偏误类型。这种标注法使用起来也有一定的困难,可能会出现看不懂的情况。要熟练的运用这种标注法必须准确的记住相应字母代表的意义,比如nz、y、vg具体代表什么意思,这样就在无形中减少了利用其相关标记符号和知识的便捷性。但是这种标注方式却无法准确的标出是错字还是别字。

3.作者对汉字标注的看法

汉字标注首先要遵循简洁、规范的标注,标记的符号要采用整齐的格式,要让检阅者容易读懂,且一类偏误类型就用一种符号标记。像truetype的方式标记,直接用偏误类型的首字母进行标记,简洁易懂。如:笔画遗漏-bhyl,部件误代-bjwd。XML标记则对留学生的国籍、文化程度、第一语言等进行了记录,这样便于准确的抓住某一类留学生的偏误特点并且得到的结果比较科学,有利于把这些经验用于实践教学。

我们要建立一套完整科学的标记方法就必须吸取各类方法的优点,避免其缺点。首先在符号的选取上面,应该尽可能选取简单易懂的符号。避免让检索者花过多时间去背、去查阅标记符号。笔者认为可以将错字和别字分开的标记方法与中山大学的直接用偏误类型拼音的首字母描述方法结合起来。如:Cbhbx-错字、笔画变形;Cbjth-错字、部件替换;Byj-别字、音近。还有一部分偏误像上下文的影响这一类就可以统一用C*代替,表示不是由于母语迁移或者字本身学习不牢靠造成的偏误。其次关于录入的信息应该尽量完善。中介语料库里面的信息和内容应该做到相对完善,如若只录入几篇文章或者一些错别字就不会对语言文字的研究有太大帮助。当我们了解到学习某一类母语的留学生会产生哪几类偏误时才能使在对外汉语教学中更要针对性,从而避免花费过多的时间到出错率小的地方。所以在录入错字或者文章的时候可以将留学生的年龄、性别、学习等级、国籍、第一语言、使用的教材一同录入进去。信息全面了才更有利于进行分析。

语料库的资料众多,肯定不可能全部采用人工录入的方式,也不可能让人工一个个的找错别字然后进行标记。这就需要利用计算机采用半自动的方式来标记偏误,所以一套成熟完备的应有程序就至关重要。现目前比较成熟的软件有北京语言大学新近开发的汉字字形分析软件。这个系统能使用输入笔或鼠标输入汉字,包括正字、错字和变体字,无须训练就能识别输入的汉字。这样一来识别别字、错字就能像识别正字一样准确。(作者单位:吉首大学文学与新闻传播学院)

参考文献:

[1] 张宝林.汉语中介语料库建设的现状和对策[J].语言文字与应用.2010,8,(3).

[2] 吕必松.对外汉语教学研究[N].北京语言学院出版社.1992.

[3] 孟永丽.汉语中介语语料库建设研究[J].新西部.2010,(20).