首页 > 范文大全 > 正文

基于语料库的新闻语体中语气词使用状况的统计分析

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于语料库的新闻语体中语气词使用状况的统计分析范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要: 基于语料库的词类统计研究越来越受到现代语言学的重视,本文在新闻语料库的基础上对语气词的使用状况进行了统计分析,包括语气词在整个语料库及虚词中的分布情况、语气词的词频统计及分类、语气词的音节数目分布和语气词的语法功能分布等,对语气词教学和解释语气词的使用规律有很大帮助。

关键词: 语气词 语料库 统计分析 新闻语体

一、引言

基于语料库的词类统计研究越来越受到现代语言学的重视,尤其是对单一词类使用情况的统计分析,更是非常有必要,这对于人们了解词类在现实语料中具体的使用情况有很大帮助,但是这方面的研究却不多,所以本文拟从统计学角度对新闻语料中语气词的使用情况进行研究。

语气词常用在句尾表示陈述、疑问、祈使、感叹等语气,永远黏着、后附、轻声。但是由于新闻语体的特殊性,在语言上有着独特的特点。新闻语体的主要特点表现为传播对象的大众性,报道的客观性、真实性、公正味性以及节俭性。这些特点决定了其传播语言多使用意义具体的词汇、通用书面语词汇和通俗常用词汇,那么在虚词及其语气词使用上有什么特殊表现呢?本文将对语气词在新闻语料中的使用情况进行详细定量统计分析,以为语气词的研究提供比较可靠的数据。

二、语料库的选择及研究对象

大型语料库的产生对语言学的研究起了巨大的促进作用,保证了语言研究的科学性。本文以1998年1月北大标注的新闻语料库作为语料基础,以保证语料的充足性和科学性。为了保证不使研究方向发生偏误,本文只考察语气词在新闻语料文体中的使用情况。

本文在计算机基础上,借助于语料检索软件,采用穷尽式作业,对在北大标注的1998年1月新闻语料库中的语气词进行检索,共检索出29个语气词及包含这29个语气词的所有句子,下文将对这29个语气词的使用情况进行定量分析,并进行简略解释。另外还将部分结果与刑红兵《现代汉语词类使用情况统计》(1999)的部分结果进行比较,看一下采用不同语料库结果是否有差异。

三、语气词在语料库词汇整体及虚词中的分布统计

据前贤的研究,介词、连词、助词和语气词四类构成虚词一类,属于封闭类,数量有限,但使用频繁,那么四类词具体的使用情况如何,语气词在词汇总体和虚词中是如何分布的呢?根据新闻语料库统计出的数据具体如下:

表1 介词与词汇总体、虚词和各类虚词的分布统计表

从表1可知:

1.虚词总体数量所占总词数的比例仅为0.58%,但是虚词总词次所占的比例却达到了11.54%,相比于词数所占的比例增加了近20倍左右;平均每个词的词次出现了439.80次,也是总平均词次的20倍左右。从这儿可以看出虚词的数量有限,但是使用频次很高。

2.在数量上,虚词内的连词、助词、语气词和介词四类中,语气词数量最少,共29个,占虚词总数的9.09%,词汇总体的0.05%,连词的词数最多,占了虚词总数的一半以上。而在词次方面,语气词数量也最少,每个语气词在语料库中平均出现了64.97次,占词汇总词次的0.15%;而助词使用最频繁,词次达到了73163,平均每个助词在语料库中出现了2151.85次。因此无论是从数量上还是从词次上,语气词都是最低的。

刑红兵《现代汉语词类使用情况统计》(1999)也曾统计过类似数据,但是由于采用数据库不同,数据也不同,为了比较两者的结果是否有差异,本文对其统计数据进行了重新运算整理如下:

表2 刑红兵《现代汉语词类使用情况统计》(1999)中的有关数据(整理后)

1.从量上来说,相比于表1中的数据,虚词的量得到显著地增加,从319增加到756个,比重从0.58%增加到1.51%,在虚词总数变化的同时,四类虚词的数量都有很大增长,尤其是语气词和连词的数量有比较大的变化,语气词比重显著增加,从29增加到了93个,比重从9.06%增加到12.30%,而连词比重减少了,从164增加到302,但比重从51.41%减少到39.95%。

2.从词次上说,除了语气词有较大幅度的增加外,其他词都有显著下降,语气词平均词次的增加明显,超过了介词和连词,而跃居第二位,而连词平均词次却降到最少,这说明在新闻语体中,语气词的使用显著少于其他文体,连词的使用频度要高于其它文体。

从上面这些数据都可以看出语气词在新闻语体中使用具有特殊性特点,这可能就是新闻语料库中的虚词分布与综合语料库的差别之一,探索其深层原因,应该主要是由新闻文体的特点决定的:一是新闻具有传播对象的大众性,报道的客观性、真实性的特点,这就要求新闻语言多使用通用书面语词汇,而且句子多以简单的短句为主,而综合语料库语言中各种文体的语料都有,语言在词汇和句子使用上具有多样性特点,所以在虚词数量上表2比表1要多得多。二是新闻语体主要是客观报道新近发生的事实、人物事迹等,因此以采用陈述句为主,而综合语料库中文体多样,因此在句类的使用上也是多种多样的。所以新闻语体中语气词在数量和使用频率上都是最低的。三是由于新闻语体多使用简单的短句为主,而且具有模式性,所以新闻语料库中介词、连词和助词的词次显著高于综合语料库。

四、语气词的分类统计

本文在98年1月人民日报新闻语料库的基础上检索出29个语气词,由于语料库为经过规范标注的新闻语料文本,规模在200万字以上,所以非常具有代表性,因而从中检索出的语气词基本可以代表新闻语料中常用的语气词,针对出现了1884次的29个语气词,本文又采用罗万设计的信息处理软件进行词频统计,统计结果中各个词的出现次数从1243到1次不等,而且每个词的使用频次差距很大,具体的统计结果如下:

1.介词的频级分布

根据词频统计结果,按照频率分布,将介词词次划分为八个等级,一级:1000次以上;二级:500次以上;三级:100次以上;四级:50次以上;五级:10次及以上;六级:小于10次。具体统计结果如下表所示:

表3 语气词频级分布表

从表三看出,前四级语气词数量少,总语气词总数的17.25%,但使用词次非常频繁,占了语气词使用总频次的89.71%,而后两级语气词数量多,占了语气词总数的82.76%,但使用频次非常低,只占语气词使用总频次的10.3%,所以前四级的5个单词在新闻语体中使用最频繁,是最具有代表性的语气词。

前四级的5个高频语气词的数量少,但使用频次异常频繁,这就为语气词教学提供了一种科学数据,只要让学生掌握这5个最常使用的高频语气词,新闻语料中语气词的运用与理解就基本掌握89.71%,所以掌握这些最常使用的介词对于介词学习非常有帮助。所以这给我们的教育启示是:语气词的教学一定要以这前五个语气词为主,在这五个语气词上进行集中重点教学,有利于学生能更加有效快速掌握语气词的用法,尤其是对外汉语教学。

为了给教学提供更多启示,本文具体对前四级高频语气词分别进行详细统计,统计结果如下:

表4 高频语气词统计表

从表中我们可以看出上面每个语气词使用都非常频繁,所占语气词使用比例都很大,尤其是语气词“了”是新闻语体中使用频率最高的一个词,所以“了”的用法在新闻语体中非常重要。因此掌握这些高频语气词对语气词教学十分重要。后两级语气词的使用情况请参照附录。

语气词是虚词的一种,是由动词演化而来的,另外据前人的研究,虚词以单音节为主,但是现代汉语有双音化趋势,虚词作为封闭类的一种,从音节数量来看如何分布呢?根据语料库的统计显示,语气词主要有三种:单音节,双音节两种,其具体分布的统计结果如下:

表5 单音节、双音节语气词的比例分布

表6 单音节、双音节语气词的频级分布

从表5中可知,语气词主要有单音节和双音节两种,无论是在数量上还是在使用频次上,语气词都是以单音节为主,双音节使用很少,从而再次验证了虚词的使用以单音节为主,单音节词数量少,但使用频繁的结论。

从表6中可知,前四级的5个高频语气词全是单音节,没有双音节,而在后两级低频词中,双音节词的使用才出现,从而再次说明语气词的使用以单音节为主。

五、语气词的位置分布及其语气类型的统计

黄伯荣认为,语气词通常用在句末,表示陈述、疑问、祈使和感叹等语气,又可以用在句中表示停顿。孙汝建根据所处位置把语气词分为了句中语气词和句末语气词。根据这些观点,本文对前四级高频语气词在句中的分布及其所表示的语气类型进行了详细统计,来发现其中的一些规律。

但据实际语料统计,情况并不如此简单,语气词在语料库中分布灵活,一是同一个语气词经常多次用在一个小句中,本文一律按出现次数进行统计。二是由于标注原因,语气词独立位于句首成为独立成分,黄伯荣认为语气词附着性强,只能附着在句子或别的词语后面,起一定的语法作用,不能独立使用,所以这些句首语气词其实都是叹词,只是由于标注错误而成,在本研究中为了保持与统计数据的一致性,把这一类统一归入感叹语气一类。三,在句中位于其他词之后的语气词,一律按黄伯荣的观点,把他们归入表停顿一类中。

本研究利用语料库检索软件将包含每个语气词的小句给提取出来,然后人工对所有例句进行统计分析,由于前四级语气词极具典型性,所以本文只对前四级语气词进行了详细统计,统计内容包括:1,语气词分布的具置:句中还是句末,2,语气词在句中表停顿,在句末表示陈述,疑问、祈使和感叹的具体情况。3,和其他语气词连用的情况。由于语气词在语料中的实际分布很复杂,所以对检索出的介词的语法功能及位置在语料库中的实际分布,本文在此只做一了粗略统计。统计的具体结果如下:

表7 语气词位置分布及语气类型表

从表7可以看出,

(1)从整体看,新闻语体中高频语气词主要分布于句末,也可以分布于句中表示停顿,但总体来说以陈述语气为主。

(2)从局部看,语气词以“了”为主要语气词,而“了”又以表示陈述语气为主,这也反映了新闻语体的句类以陈述句为主。另外“了”、“吗”和“呢”用法比较集中,而“吧”和“啊”用法相对比较分散,可以分别表示陈述、疑问、祈使和感叹语气。这些数据也可以为对外汉语教学和学习提供帮助,在介词教学中可以对“了”、“吗”和“呢”的关键用法进行重点教学,而对“吧”和“啊”的用法要进行详细的归纳总结,然后进行教学。

六、结语

语气词的研究很多,但统计学上的研究却很缺乏,而大型语料库和计算机检索软件的出现,为语言统计提供了基础。基于语料库的语言统计研究大大加强了语言研究的科学性,不仅为汉语教学与汉语学习提供帮助,而且还可以促进语言研究的深入,揭示汉语规律,促进人们对汉语的了解。本文虽然在语料库的基础上进行了上面的统计工作,但是由于某些原因统计数据仍然过于粗略,需要进一步研究,而且上面提出的数据也需要进一步研究,如本文的统计数据与刑红兵《现代汉语词类使用情况统计》中出现不同的原因是什么,由上面的统计数据是否可以看出语气词使用有着独有的语言机制等,这些都需要进一步研究。

附录:后两级语气词词频表

参考文献:

[1]刑红兵.现代汉语词类使用情况统计[J].浙江师大学报,1999,(3).

[2]聂鸿雁.现代汉语语气词研究述评[J].语文学刊,2009,(7).

[3]孙苹.现代汉语语气词研究综述[J].和田师范专科学校学报,2007,27,(5).

[4]魏红.汉语常用动词的带宾能力考察[J].汉语学习,2009,(2).

[5]王启龙.带宾形容词的统计分析[J].语言教学与研究,1995,(2).

[6]黄伯荣,廖序东.现代汉语[M].北京:高等教育出版社,2002.

[7]朱立迎.新闻语体与文艺语体言语功能之差异性[J].昆明学院学报,2010,32,(1).

[8]陈金中.试论新闻报道的语体特点[J].成都教育学院学报,2006.20,(6).

指导教师:顾文涛