首页 > 文章中心 > 词语分类

词语分类

开篇:润墨网以专业的文秘视角,为您筛选了八篇词语分类范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

词语分类范文第1篇

【关键词】分类摘抄;朗读背诵;听;说;积累

本人长期在壮族农村地区从事初中语文教学工作,深知壮族学生学习语文比汉族学生难,因为壮语则与汉语相差甚远,不管是从语法上,还是语音上都少有相通之处。而这些壮族学生大多都是住在偏远的山区,从小操的是壮话,很少用普通话交流,到了上小学的时候,也就是五六岁时,才开始真正接触汉语,而这个时候,已过了学语言的最佳时机。没有很好的交流环境,所以往往学了数年都无法用普通话交流,即使交流了,也往往带有浓重的方言色彩,即俗话所说的“夹壮”。壮族学生不光是说不好普通话,据我校做的调查报告,他们在词语积累方面也比较薄弱。为此,为了提高壮族学生词语的积累,我尝试了以下一些教学方法,收到了较为理想的效果。

1.分类摘抄中积累

壮族学生受母语的影响,汉语词语量贮存较少,再加上汉语的音、形、义比较复杂。而汉语词汇量多,壮族学生学起来比较困难,所以这就需要我们教师将词语分类,以便同学们进行分类积累。分类积累是学生知识的概括过程,既可提高脑库的容量,又便于学生记忆运用。这就要求学生每人准备一本小册子,分门类别,收集资料,进行摘抄,随时随地都可以拿出来学习。

1.1 汉语读音和壮语读音的区别积累。壮族学生说不好普通话,只要是壮话没有送气音、平舌音和翘舌音等,我们可以制作表格,列出汉语拼音与壮语读音的区别表格,让学生从语文教材中分类出壮语没有的读音,如送气和不送气的区别;平舌音和翘舌音等。让学生分类积累,分类区别,摘抄成册。

1.2 同格式的词语积累。汉语词语同格式比较多,我们可以按不同的格式给分类,如:

【AABB】类型的词语:例如:忙忙碌碌、朝朝暮暮

【AABC】例如:喋喋不休、鼎鼎大名 滔滔不绝

【ABAC】例如:挨门挨户、碍手碍脚 慌里慌张

1.3 细节描写的词语积累。例如:描写人物外貌的词、描写人物心情的词(表示喜爱、高兴、悲愁、惊恐的词)、描写人物动作的词、描写人物神态的词。

1.4 环境方面的词语积累。例如:描写春夏秋冬的词、描写风霜雨雪的词。

1.5 成语积累。积累有关学习的成语、有关人容貌体态的成语、寓言故事类的成语。

壮族学生在对词语的分类摘抄积累过程中,在大脑里就无形的积累了词语。我们可以分时间段进行,把它作为课后作业布置给学生完成,老师跟随检查。只要抓住语文的特点与规律,方法得当,坚持积累,持之以恒,一段时间下来,相信无论是对于教还是学,都会有一定效果的。

2.在朗读和背诵进行词语积累

壮族学生由于说不好普通话,经常被别人嘲笑,所以有些学生就懒得朗读或者干脆不朗读,他们越是不朗读就越说不好普通话,所以教师必修要求学生放声的朗读,培养他们的胆量。在朗读教学过程中,教师要对学生进行指导,要求学生用普通话读,发音清楚响亮,做到读准字音,不添字,不丢字,不读破词句。就是要读得连贯,节奏自然,不拖长音。在熟读的基础上,进一步要求学生有感情地读,就是读出不同的语调,读出词语之间、句子之间、段落之间的停顿,并注意轻重缓急。

针对壮族学生说不好普通话的特点,我们教师要特别重视范读,初中阶段,学生的模仿能力比较强,教师范读时语气语态,学生都很容易模仿,而且还可以纠正他们平时错误的读音。朗读分为多种形式,有领读、默读、齐读、分角色读、分组读、个人读等等。在各种形式的朗读中,牢固掌握字的读音,强化识记字形,从而有效地识字、识词,提高了壮族学生的语文基础知识的积累。

在课堂教学中,要重视背诵的指导,对规定要背诵的课文和片段,都应不折不扣地进行训练。背诵是促使学生大量积累语言材料的有效的方法。在基础教育阶段,重要任务是识记大量语言材料,这才能和词语的运用紧密结合起来。对于教材范文中的精美文章,光有反复朗读是不够的,教师要指导学生加强背诵,典范文章、精美段落,如《春》、《济南的冬天》、《岳阳楼记》等精美的文章大量烂熟于心,做到“腹中贮书一万卷”,就会自然知道话怎样说,词怎样用,文章怎样写。

3.在听说中进行词语积累

学生的语言有相当一部分是在听中积累起来的,听的水平高低对语言积累有很大影响,怎样通过听来积累语言呢?

3.1 广泛地听,在多渠道的听中积累语言。要求学生不但要在课堂上听,学校里听,还要在社会上听;不但要面对面听人讲话,还要听广播、电影、电视的语言;不但要利用条件听,还要创造条件听。变有声的语言的世界为学生积累语言的广阔天地。

3.2 正确地听,在高质量的听中积累语言。①要认真听,这样才能听得清、记得牢;②要边听边记,不能听到后面的就忘了前面的;③要边听边想,将听到的内容内化为自己的语言。如:播放一段朗读录音,要求学生在听完了之后,能说出其中的几个词语。或者是播放电视解说画面,要求学生一边看,一边留意解说中使用了哪些词语和成语,在听完了之后,能说出其使用到的词语,并说说词语的使用是否得当。

4.在说中积累词语

一个人说话时,必须借助词句等语言材料和语法规则,将自己的思维成果快速转变成外部有声语言,从而达到传递信息,积累语言的目的。

壮族学生由于说不好普通话,在公共场合一般都不喜欢发言,上课也是沉默寡言的多,课堂气氛比较沉闷,与人交流也多是词不达意,针对这样的情况,教师要多创造机会给学生多说话,锻炼他们的胆量。教学中可以采用多种灵活新颖的方法,开展多彩的活动。如课前3分钟说话训练,我们可以降低学生说话的难度 ,采用他们比较感兴趣能完成得了在练习。如成语接龙、抢答词语、填词造句、 睹物说词等这些词语游戏的教学方法。以达到在说话中积累词语的目的。

比如:成语接龙文字游戏,不但能够丰富学生的积累,也可以训练学生的反应,还可以活跃课堂气氛,学生也更乐于接受。如老师说出“常胜将军”,学生就往下接:军令如山--山穷水尽--尽善尽美--美中不足--足智多谋…… ,老师说出“一马当先”,学生就接出“一”字开头的成语:一干二净、一筹莫展、一箭双雕”。每堂课前3分钟的成语接龙,促使学生主动课下就聚在一起锻炼,这时我们可以引导他们多看成语词典,做到有备而来,战无不胜。看着同学们手中常备成语词典四处游走,心中感到莫大的高兴。

词语分类范文第2篇

ス丶词:情感分析;情感极性;中文文本;评测;语料库

ブ型挤掷嗪: TP391.1 文献标志码:A

Abstract: The sentiment analysis has aroused the interest of many researchers in recent years,since the subjective texts are useful for many applications. Sentiment analysis is to mine and analyze the subjective text, aiming to acquire valuable knowledge and information. This paper surveyed the status of the art of Chinese sentiment analysis. Firstly, the technique was introduced in detail, according to different granularity levels, namely word, sentence, and document; and the research of product review and news review were presented respectively. Then evaluation and corpus for Chinese text sentiment analysis were introduced. The difficulty and trend of Chinese text sentiment analysis were concluded finally. This paper focuses on the major methods and key technologies in this field, making detailed analysis and comparison.

Key words: sentiment analysis; sentiment polarity; Chinese text; evaluation; corpus

0 引言

随着互联网的飞速发展,尤其是Web 2.0技术出现后,越来越多的互联网用户从单纯地获取互联网信息向创造互联网信息转变。互联网中的博客、论坛、讨论组出现了大量的由用户的主观性文本。这些主观性文本可以是用户对某个产品或服务的评论,或者是公众对某个新闻事件或国家政策的观点等。潜在的消费者在购买某个产品或服务时获取相关的评论可以提供决策参考,政府部门也可以浏览公众对新闻事件或国家政策的看法来了解舆情。这些主观性文本每天以指数级的速度增长,仅靠人工进行分析需要消耗大量的人力和时间。因此采用计算机来自动地分析这些主观性文本表达的情感,成为目前学术界研究的一个热点,这个热点的研究方向就是文本情感分析或称为意见挖掘。

文本情感分析是指对包含用户表示的观点、喜好、情感等的主观性文本进行检测、分析以及挖掘。文本情感倾向分析作为一个多学科交叉的研究领域,涉及包括自然语言处理、计算语言学、信息检索、机器学习、人工智能等多个领域。文献[1-3]对文本情感分析的目的、主要任务以及主流技术做了简要的介绍,但主要是介绍针对英文的文本情感分析,对中文文本情感分析并没有重点介绍。本文主要介绍针对中文文本情感分析的主流方法与研究进展。

1 不同粒度的中文文本情感分析

1.1 词语的情感极性判别

判别词语的情感极性是文本情感分析的基础。为了定量地判别词语的情感极性,通常用位于区间[-1,1]的某个实数作为情感权重表示词语的褒贬程度。通常如果情感权重大于0,则词语为褒义词;情感权重小于0,则词语为贬义词。情感权重的绝对值越大则意味着词语的褒贬程度越大。词语的情感极性判别主要有基于语料库和基于词典两种方法。

基于语料库的方法主要是利用词语之间的连词以及统计特征来判别词语的情感极性。由连词连接的词语的情感极性存在某种关联,比如由连词“和”连接的词语的情感极性相同,由连词“但是”连接的词语的情感极性相反。Yuen等人[4]利用Turney的点互信息,用小规模的语料库来判别词语的情感极性。具体算法是将情感极性已确定且情感色彩强烈的词语作为种子词,通过计算需要判断情感极性的词语与这些种子词的互信息。张靖等人[5]建立基于二元语法依赖关系的情感倾向互信息特征模型,利用特征集合描述情感极性,通过机器学习方法训练分类器,自动判别词语的情感极性。

基于词典的方法是利用中文词典HowNet提供的语义相似度或者层次结构来判别词语的情感极性。朱嫣岚等人[6]提出了基于HowNet 的两种词语情感极性判别方法:分别是基于语义相似度和语义相关场的方法。实验表明,基于HowNet 语义相似度的方法比基于语义相关场的方法准确率更高,词频加权后的判别准确率可达80%以上。李纯等人[7]利用HowNet中的对词语的定义与描述,建立褒贬倾向比较强烈的词语组成种子词,并结合上下文的影响,采用一种计算方法来计算普通词与种子词之间的语义相似度来判别普通词的褒贬极性。杜伟夫等人[8]提出了一个可扩展的词语语义情感极性计算框架,将词语语义情感极性计算问题转化为优化问题。通过基于HowNet提供的语义相似度和基于共现率的语义相似度构建词语的无向网,利用以最小切分为目标的目标函数对无向图进行划分,使用模拟退火算法求解目标函数。实验表明该方法有较高的准确率和较好的扩展性。柳位平等人[9]挑选常用的情感词构成一个基础情感词语集,并采用词语相似度方法计算出每个词的情感倾向权值,提出的情感词权值计算方法不要求种子词数量相等。

1.2 语句的情感分析

语句的情感分析主要任务包括对语句的主客观性的区分,对主观句的褒贬性的判别,以及对语句中情感倾向的细粒度提取,包括对与情感倾向表达有关的评论持有者、评论对象、评论的倾向性及强度等。例如,句子“我认为索尼笔记本电脑质量不错而且外观漂亮”。该句中评论持有者是“我”;评价对象是“索尼笔记本电脑”,“质量”,“外观”,其中“索尼笔记本电脑”是间接评论对象,“质量”和“外观”是直接评论对象;“不错”和“漂亮”显示评论倾向褒义,其中“漂亮”的褒义强度要大于“不错”。

叶强等人[10]在NPOS语言模型的基础上利用卡方(CHIsquare)统计方法提取中文主观文本词类组合模式,建立中文双词主观情感词类组合模式2POS模型来自动地判断中文语句的主观性程度。实验表明采用2POS模型的分类器对主观句的查准率和查全率接近目前英文同类研究的结果。姚天P等人[11]利用领域本体来抽取主观句的主题以及它的属性,然后在句法分析的基础上,识别主题和情感描述项之间的关系,从而最终决定语句中每个主题的情感极性。实验结果显示,与手工标注的语料进行比较,用于识别主题和主题极性的改进后的主谓结构极性传递算法的 F 度量的性能有所提高。オ

熊德兰等人[12]提出了基于知网的语义距离和语法距离相结合的句子褒贬倾向性计算方法利用夹角余弦法对语义倾向进行了改进。党蕾等人[13]提出采用否定模式匹配与依存句法分析相结合的方法。该方法分析了修饰词极性以及否定共享模式,确定修饰词以及扩展极性的定量和否定共享范围,提出依存语法距离的影响因素来计算中文语句的情感倾向,并且在否定模式匹配后改进语句极性算法。实验结果表明该方法取得了良好的效果。

李实等人[14]根据中文语言的特点,借鉴关联规则对英文评论产品挖掘的方法,通过构建中文短语提取模式,定义中文评论中的邻近规则和独立概念,提出了面向中文网络评论的产品特征挖掘方法,数据实验证明了该方法的有效性。刘鸿宇等人[15]使用句法分析结果获取主观局中候选评价对象,同时结合基于网络挖掘的点互信息(Pointwise Mutual Information,PMI)算法和名词剪枝算法对候选评价对象进行筛选,再通过分析主观句句型归纳相应的分析规则,使用无指导的方法完成评价对象在主观句中的情感倾向性判断。

1.3 篇章的情感分析

篇章级的情感分析是指将文本从整体上区分为褒义、贬义或中性。谭松波等人[16]使用中文分词及词性标注工具ICTCLAS解析并标注中文文本,分别采用文本频率、CHI统计量、互信息、信息增益四种特征选择方法,以中心向量法、 K近邻、 Winnow、 朴素贝叶斯和支持向量机作为不同的文本分类方法,在不同的特征数量和不同规模的训练集情况下进行了实验,并对实验结果进行了比较。对比结果表明:采用文档频率特征表示方法优于其他特征选择方法和支持向量机分类方法优于其他分类方法。在足够大训练集和选择适当数量特征的情况下,文本的情感倾向分类能取得较好的效果。但是文本的主题不同对分类的结果有影响。孟凡博等人[17]设计并实现了一个基于关键词模板的文本褒贬倾向判定系统。该系统定义了关键词类别、 建立了关键词库、 关键词模板库,并设计了模板匹配算法和文本褒贬倾向值算法, 对测试文本进行关键词及模板匹配进而判断测试文本的褒贬倾向。李寿山等人[18]具体研究四种不同的分类方法在中文情感分类上的应用,并且采用一种基于 Stacking 的组合分类方法,用以组合不同的分类方法。实验结果表明该组合方法在所有领域都能够获得比最好基分类方法更好的分类效果。

2 不同类型的中文文本情感分析

2.1 产品评论的情感分析

文本情感分析的一个重要应用领域是对互联网上出现的大量产品评论进行挖掘与分析,主要目的是能够比较精确地发现产品的优缺点。产品评论的挖掘的主要任务包括:识别并获取产品的特征或属性,定位用户的主观性评论,抽取评论搭配,判别用户评论的褒贬。产品评论的挖掘基本上是基于语句的情感分析。但是由于产品评论的主题就是产品名称,评论的持有者就是默认的使用产品的用户,所以产品评论的挖掘的重点是提取产品的特征及对应的情感词。产品特征分为显示特征和隐式特征:显示特征是指直接在评论中出现描述产品某个特征的名词;隐式特征没有明确出现在评论中但隐含表达了。

黄永文等人[19]首先对产品的规格文档进行挖掘获得产品的特征及其关系,再采用基于BootStrapping 的弱监督机器学习方法对用户评论抽取产品的描述特征和规格特征的层次关系,先提供少量的产品特征作为种子集合,自动进行文本模式的抽取,再用抽取得到的模式抽取新的产品特征。这种方法可以看成是半自动方法,开始阶段需要人工提供少量的产品特征作为种子。宋晓雷等人[20]提出了一种不依赖外部资源的无指导评价对象自动识别方法。该方法首先综合使用词形模板和词性模板,采用模糊匹配方法和剪枝法抽取候选评价对象;然后从候选对象集中采用双向Bootstrapping 方法识别出产品评价对象;最后通过采用K均值聚类方法对产品评价对象进行聚类,实现从评价对象中自动抽取产品名称和产品属性。那日萨等人[21]对产品评论评价和情感进行模糊建模,建立了消费者评价和情感模糊语料库,并结合消费者对产品属性的偏好,提出一种新的产品综合评价和情感计算方法。

2.2 新闻评论的情感分析

新闻评论大部分是对新闻人物或新闻事件的看法。通过对新闻评论的情感分析可以了解民众对新闻人物和新闻事件的总体评价,掌握当前的舆情信息,特别是热点事件的舆情信息。

Tsou等人[22]在 Yuan 等人研究工作基础上对汉语报刊上有关四位政治人物褒贬性的汉语新闻报道进行了分类研究。在研究中,首先通过标记语料库获得文本中的极性元素 ( Polar Elements),然后主要采用了三个度量指标,即极性元素的分布(Spread)、极性元素的密度(Density)和极性元素的语义强度(Intensity)来对每个文本进行统计,得出文本褒贬分类和强度大小的结果。徐军等人[23]用朴素贝叶斯和最大熵模型分别对新闻及评论语料进行了情感分类研究,发现选择具有语义倾向的词汇(特别是形容词和名词)对情感分类效果具有决定性作用,采用二值作为特征项权重相比采用词频作为权重的方法更能提高分类的准确率。并且最大熵模型比朴素贝叶斯的分类效果明显好。周杰等人[24]选取不同的特征集、特征维度、权重计算方法和词性等因素对网络新闻评论进行分类测试,并对实验结果进行分析比较。陶富民等人[25]构建了一个面向话题的新闻评论的情感特征提取框架,通过对那些热门话题构造对应的情感特征表来达到改善情感分析的效果。

3 中文文本情感分析评测及资源

随着中文文本的情感分析得到了越来越多的学者和研究机构的关注,为了推动中文情感分析技术的发展,国内第一个情感分析方面的评测(Chinese Opinion Analysis Evaluation,COAE)[26]于2008年举办第一届。COAE目的在于推动中文情感分析理论和技术的研究和应用,同时建立相关的分析语料库。COAE 共设置6个任务,可分为 3个方面:一是中文评价词语的识别和分析,属于词语级的情感分析评测;二是中文文本倾向性相关要素的抽取,主要是抽取句子中的评价对象,以及对于其观点的倾向性判别,属于语句级的情感分析评测;三是中文文本主客观性及倾向性的判别,属于篇章级的情感分析评测。

除了COAE提供了产品类的评价语料库,中国科学院计算技术研究所的谭松波博士提供的较大规模的中文酒店评论语料,约有 10B000 篇,并标注了褒贬类别,可以为中文的篇章级的情感分类提供一定的平台。

中文的评价词词典资源有NTU 评价词词典(繁体中文)和HowNet 评价词词典。NTU 评价词词典由台湾大学收集,含有2B812 个褒义词与8B276个贬义词。HowNet 评价词词典包含 9B193 个中文评价词语/短语,9B142 个英文评价词语或短语,并被分为褒贬两类。而且该词典提供了评价短语,为情感分析提供了更丰富的情感资源。

词语分类范文第3篇

关键词:中文问题分类;问答社区;层次分类;支持向量机;焦点词

中图分类号: TP391.4 文献标志码:A

0引言

随着互联网的发展与普及,百度知道、腾讯搜搜问问、知乎等中文问答社区(Community Question Answering, CQA)发展迅速,逐渐成为广受用户喜爱的知识共享平台。其主要优势在于用户可以按照自己的语言习惯自由地提出任意类型的问题,同时也可以帮助其他用户解决任意类型的问题。随着问答社区影响力的不断扩大,问答社区中积累了大量的问题答案对资源。截止到2015年3月,中文CQA平台百度知道已经累计解决问题361833885个,腾讯搜搜问问已经累计解决问题258109735个,并且每天平均以超过10000个新问题的速度在不断增长。针对这些海量问答资源的数据挖掘是一个非常具有价值的研究热点。

问题分类的任务就是对于给定的问题,将它划分到相应的语义类别中。问题分类的结果有助于精确定位答案的位置、选择合适的答案搜索策略以及评价答案的质量等,比如文献[1]利用问题分类的结果去构建答案质量评价模型,从而从问题的众多候选答案中筛选出高质量的答案。与传统的问题分类相比,面向CQA的问题分类存在如下困难:1)现有的问题分类体系一般针对事实型问题,比如:“BBS的简称是什么?”“第一个进入太空的中国人是谁?”“光的传播速度是多少?”等,这类问题的答案通常比较简短。然而在CQA中,问题类型的分布十分广泛,其中事实型问题所占比例相对较少,现有分类体系不再适用,需要设计一个更加合理的问题分类体系。2)现有的问题分类方法大都针对包含疑问词的问句,比较依赖于问句中的疑问词这一分类特征。然而CQA中的问题是由真实的用户提出的,语言表达方式十分灵活,存在着许多不包含疑问词的问句,比如:“求问国内最好的悬疑或推理小说?”“旅游攻略?”“癌症形成的主要原因?”等,采用现有的方法对这类问题进行分类无法取得很好的效果。因此,面向CQA的问题分类需要新的解决思路。

针对以上问题,本文提出了一种面向问答社区的粗粒度分类体系,将问答社区中的问题分为七大类:定义、事实、观点、过程、原因、是非、描述,并提出一种基于疑问词的层次化结构问题分类方法,根据问题中是否含有疑问词而选择不同的分类器。该方法首先自动识别问题中的疑问词,若疑问词存在,则用支持向量机(Support Vector Machine,SVM)模型进行分类,而对没有疑问词的问题,则用所构造的基于焦点词的分类器进行分类。其中,基于焦点词的问题分类器是针对不含疑问词的问题专门设计,该分类器首先抽取出问题的焦点词,然后利用百度百科对焦点词进行语义扩展得到与焦点词语义相关的词语集合,最后根据语义相关词与问题类别词的语义相似度进行问题类型的判断。

1问题分类方法相关研究

目前关于问题分类方法的研究主要集中在两种:

一是基于规则的方法,该方法通过专家人工提取的针对特定问题类型的特征规则来判定问题的所属类型。假如一个问题符合某个问题类型的规则集,那么它就属于该问题类型。由于疑问词对问题类型的影响比较大,许多研究者根据疑问词来编写分类规则,有的甚至直接通过疑问词的类型来判断问题的类型,比如Biswas等[2]首先针对特定的问题类型抽取固定的语法模式,然后利用这些语法模式来对问题进行分类,而且这些语法模式是基于疑问词的;Liu等[3]首先抽取问题的疑问词和目标内容词作为该问题的核心元组(问题类型:疑问词,目标类型:目标内容词),然后通过匹配该核心元组来对问题进行分类;Ray等[4]提出了8种问题模式并结合WordNet与Wikipedia来将问题分为7大类。基于规则的方法对于含有疑问词的问题的分类准确率很高,但是对于没有疑问词的问题,则很难处理。因为仅仅根据问题中的非疑问词来编写分类规则并不容易,需要耗费更多的时间和人力资源。

另一种是基于统计的机器学习方法,具有很强的适用性,表现出了很好的性能。该方法通过对已标注的问句语料进行统计学习,提取能表达各种问题类型的特征,建立分类模型,从而实现问题类型的识别。由于问句中词语个数少,能确定问题类别的特征少,同时问题中还包含着其他对分类没有作用的噪声词,因此大多数研究的重点集中在如何对问题中的词语进行特征选择上。起初,Hacioglu等[5]将问题中的每一个词作为特征,使用SVM模型对英文问题进行分类,最后分类的准确率达到80.2%,但是该方法没有剔除掉对分类没有作用的噪声词。随后,Zhang等[6]提出了另一种采用SVM模型进行英文问题分类的方法,和Hacioglu方法不同的是,该方法利用tree kernel提取特征项,最终达到了大类(6个大类)90.0%的分类精度,但是其分类精度较大地依赖于句法分析的精度,而不够成熟的汉语句法分析技术,再加上问答社区中问题表达方式的不规范性,决定了仅仅依靠句法分析技术提取出问题的特征词来实现面向问答社区的问题分类将会引起较大的误差。文勖等[7]通过提取问句中的疑问词,并利用句法分析提取问句的主干和疑问词的附属成分作为分类特征进行中文问题分类;袁晓洁等[8]通过提取问句中的主要动词、中心词、中心词的最高上位词、疑问词以及与疑问词相关的依存关系作为分类特征进行中文问题分类。上述两种方法在分类特征中增加了疑问词及其附属成分,虽然在一定程度上减小了因句法分析精度不够带来的影响,但是也决定了此方法不适合用于对问答社区中不包含疑问词的问题进行分类。

由于基于规则的方法和机器学习的方法各有其优缺点,为了充分利用这两种方法的优点,规则分类和机器学习分类相结合的方法也经常被用到问题分类中来。Sherkat等[9]提出一种结合规则分类与SVM分类的分类方法,该方法预先针对每一类型问题,通过统计分析抽取分类准确率较高的问句模板作为规则库,对于待分类的问题,首先查询规则库中是否存在问句模板与该问题相匹配,匹配成功则直接返回问题类型;否则采用SVM模型进行分类,取得了较好的分类效果。Xie等[10]提出一种结合规则分类与贝叶斯分类的分类方法,该方法预先生成疑问词―问题类别的规则库,对于一个问句,首先根据疑问词去匹配规则库,匹配成功则直接返回问题类型;否则采用贝叶斯模型进行分类。上述两种方法对疑问词这一分类特征的依赖比较大,同样不适合用于对问答社区中不包含疑问词的问题进行分类。

2问题分类体系

目前关于问题分类的研究大多采用的是Li和Roth在文献[11]中提出的层次分类体系,它包含6个大类,50个小类,每个大类又包含一些不重复的小类。在此基础上,文献[12]根据汉语自身的特点定义了一种适合中文问题分类的分类体系,它包含7个大类,60个小类。这两种分类体系主要是针对事实类的问题,这类问题可用一个词或者短语作为答案进行回答,比如“地名、人名、机构名”等命名实体。而问答社区中的问题类型分布十分广泛,其中事实类问题所占比例相对较少,本文在文献[12]的基础上,提出一种面向问答社区的粗粒度分类体系。根据问答社区中问题类型分布的特点和问题的语义信息,将原来的7个大类和60个小类归纳为7种问题类型,如表1所示。

可以看出,它是一个更加适合对问答社区中的问题进行分类的分类体系,而并不仅仅局限于事实类问题。这样,面向问答社区的问题分类,就是将问答社区中的实例问题映射到这7个类别中去。在本文的研究中,假设每个问题只能属于一个问题类型,而不考虑一个问题同时属于多个问题类型的情况。

3基于疑问词的层次化结构问题分类算法

从相关研究中可以看到,现有的问题分类方法不适合直接用于对问答社区中的问题进行分类,主要原因在于这些方法对疑问词的依赖比较大,而问答社区中又存在着许多不包含疑问词的问句。本文在对问答社区中的问题进行分类时,利用层次分类的思想,先根据问题是否含有疑问词将问答社区中的问题分为两类:含有疑问词和不含疑问词,再对这两类问题分别采用合适的分类器进行分类。

对于含有疑问词的问题,采用SVM模型进行分类。许多采用机器学习方法进行问题分类的研究表明,同贝叶斯分类器、决策树分类器相比,SVM分类器具有更好的分类效果。比如文献[13]比较了各种通过监督学习方法训练出来的分类模型,发现采用线性核函数训练出来的SVM模型对问题进行分类的准确率更高。因此本文在训练SVM模型时,采用线性核函数,并选择问题中的所有不属于非停用词的词、问题的疑问词作为分类特征。

对于不含疑问词的问题,采用本文设计的基于焦点词的分类器(FocusBased Classifier, FBC)进行分类。所谓焦点词,是指问题中对表达答案类型具有重要意向信息的词。对于不包含疑问词的问题,焦点词可以说是问题类型判断的决定性因素。例如对于问题“面试被刷的原因?”,直接根据焦点词“原因”就可以判断此问题属于Reason类型问题。“学习吉他的过程?”,根据焦点词“过程”就可以判断此问题属于Procedure类型问题。因此,如果能够正确抽取出问题的焦点词,并能根据问题的焦点词设计良好的分类器,便可以有效地提高整个问题分类器的性能。具体的分类器设计见下一节。

这种层次化的分类方法,相对于单一地使用SVM等机器学习模型来进行问题分类的方法,无需对不含疑问词的问题训练分类模型,相对于多分类器的并行竞争或投票组合等方法,对一个测试问题其实只用一个分类器进行分类,因而能够在保证分类准确率的前提下,使问题分类在实际应用中有较好的时间效率。算法1描述了对问答社区中的问题进行分类的具体过程。

算法1基于疑问词的层次化结构问题分类算法。

有序号的程序――――――――――Shift+Alt+Y

程序前

输入问题Q。

输出问题类别QT(Question Type)。

1)

识别问题中的疑问词IW(Interrogative Word)

2)

if IW exists then

3)

采用SVM分类器对Q分类得到QT

4)

else

5)

采用FBC分类器对Q分类得到QT

6)

end if

7)

return QT

程序后

分区

表格(有表名)

表2依存句法规则关系

序号规则解释

1〈HW,COO,W〉=>W|noun如果名词W通过关系COO直接依赖核心词HW,则抽取W为焦点词

2〈HW,VOB,VOB,…,W〉=>W如果不存在词语满足规则1,但存在词语W通过关系VOB直接或间接依赖核心词HW,则抽取W为焦点词

3〈HW,SBV,W〉=>W|noun如果不存在词语满足规则1、2,但存在名词W通过关系SBV直接依赖核心词HW,则抽取W为焦点词

4〈HW,null,W〉=>HW如果不存在词语满足规则1、2、3,则直接抽取核心词HW为焦点词。

4基于焦点词的问题分类器的设计

基于焦点词的分类器的设计思想如下:首先对问题作依存句法分析,根据启发式规则抽取出问题的焦点词;接着利用百度百科对焦点词进行语义扩展,得到焦点词的语义相关词集合;然后逐一计算与类别词语的语义相似度,选择相似度最高的类别词所属的类别作为问题的类型。整个过程包含三个关键步骤:问题的焦点词抽取、焦点词的语义扩展、计算词语的语义相似度。

4.1基于依存句法规则的焦点词抽取

依存句法(Dependency Parsing, DP) 通过分析语言单位内成分之间的依存关系揭示其句法结构[14]。直观来讲,依存句法分析识别句子中的“主谓宾”“定状补”这些语法成分,并分析各成分之间的关系。图1为一个依存句法分析的例子。

设计基于焦点词的分类器的关键在于正确抽取问题的焦点词。通过对问题进行依存句法分析,发现对于不含疑问词的问题,句子的核心词,即核心关系(head,HED)所指向的词,在很大概率上是焦点词,因为它是整个句子的核心。以图1中的问题为例,核心词“原因”就是该问题的焦点词。此外核心词的依存词也有可能是焦点词。以问题“第一个进入太空的中国人是谁?”为例,其句法分析结果如图2所示。

从图2可看出,该问题的焦点词是与核心词“是”具有动宾关系(VerbOBject, VOB)的“谁”。本文根据问答社区中不含疑问词的问题的特点,通过统计的方法生成了若干启发式规则来抽取焦点词。具体步骤如下:

1)人工标注问题数据集中所有问题的焦点词。

2)利用哈尔滨工业大学社会计算与信息检索研究中心研制的语言技术平台――LTP(Language Technology Platform)云平台对问题数据集中的所有问题作句法分析,得到问题的核心词以及与核心词具有依存关系的词。LTP云平台包含分句、分词及词性标注、分词、词性标注、命名实体识别、词义消歧、依存分析器和语义角色标注等功能。

3)统计焦点词是核心词以及焦点词是与核心词有依存关系的词语的频率,选择频率大于1的词语在句法分析结果中所处的依存关系及其词性作为抽取问题焦点词的规则。

表2为通过上述步骤最终生成的启发式依存句法规则。

根据所定义的规则,设计了如下焦点词抽取算法。算法输入的是不含疑问词的问题,输出的是问题的焦点词。首先对问题预处理,去除掉多余的标点符号,接着进行依存句法分析,得到核心词(Hed Word, HW)以及与核心词存在并列(coordinate, COO)、VOB、主谓(subjectverb, SBV)依存关系的词语集合;然后遍历该集合找到满足上述4条规则的词语作为焦点词。

算法2基于依存句法规则的焦点词抽取算法。

有序号的程序――――――――――Shift+Alt+Y

程序前

输入待分类问题Q。

输出焦点词FW。

1)

preprocess(Q)

2)

dependencyparsing(Q)->HW,T;其中:HW为Q的核心词,T为Q中与核心词有COO、VOB、SBV依存关系的词语集合

3)

if T is null

4)

return HW as focus word

5)

else for each word W in T do

6)

if W directly depends on HW through "COO" structure and W is noun

return W as focus word

7)

else if W directly depends on HW through "VOB" structure and W is noun

return W as focus word

8)

else if W undirectly depends on HW through "VOB" structure and W is noun

return W as focus word

9)

else if W directly depends on HW through "SBV" structure and W is noun

return W as focus word

10)

end if

11)

end for

12)

end if

程序后

4.2基于百度百科的语义扩展

百度百科是一部内容开放、自由的网络百科全书,收录的内容包括具体事物、知名人物、抽象概念、文学著作、热点事件、汉语字词等,其所含内容的基础分割单位是词条。词条具有很好的半结构化信息,主要由以下若干部分组成:词条名称、百科名片、目录、词条正文、词条统计、词条标签。图3是一个词条样例。

本文利用百度百科对焦点词进行语义扩展,优势在于:一是百度百科中存在着大量的对词语或短语的解释,而且内容不断更新;二是这些对词语的解释是由用户编写的,有助于理解用户在使用这些词语时所期望的语义。词条信息中对词语具有解释意义的是3部分内容:百科名片、词条正文中的基本解释和引证解释,分别对应于图3中用红色边框标注的内容。本文正是利用这3部分信息对焦点词进行语义扩展,从而得到与焦点词语义相关的词语集合。算法3描述了对焦点词进行语义扩展的过程。

算法3基于百度百科的语义扩展算法。

程序前

输入焦点词FW。

输出焦点词的语义相关词集合R。

1) 将焦点词输入到搜索引擎进行查询,爬取焦点词在百度百科中的词条页面内容。

2) 去噪声,除去页面中的html、 js、css等信息,只保留百科名片、基本解释、详细解释、引证解释这4部分解释性文本信息。

3) 对上述解释性文本进行分句,组成句子集合S。

4) 遍历S中的句子,利用第3章的焦点词抽取算法抽取得到句子的焦点词加入到集合R中。

5) 返回焦点词的语义相关词集合R。

程序后

4.3词语的语义相似度计算

对焦点词进行语义扩展得到焦点词的语义相关词集合后,逐一计算与类别词语的相似度,然后选择相似度最高的类别词所属的类别作为问题的类型。

在计算相似度时,需要已知类别词语,由于不包含疑问词的问题不可能为Yes/No类型,所以不考虑此类型的类别词语。对于“定义”“原因”“过程”“观点”“描述”类型,利用同义词词林扩展版获取它们的同义词作为对应的类别词语;对于“事实”类型,选择文献[12]中分类体系中的人物、地点、数字、时间、实体5个大类下表示小类的词语作为类别词语,比如“团体”“机构”“城市”“国家”“距离”“价格”等。表3为各个问题类型的类别词语。

表格(有表名)

问题类型的判别方法可用公式表示为:

questioncategory=arg maxc{sim(wi,cj)}; wi∈W,cj∈C

其中:W={w1,w2,…}表示焦点词的语义相关词集合,C={c1,c2,…}表示问题的类别词语集合,sim(wi , cj)是计算语义相关词与类别词的相似度。计算词语的语义相似度使用了文献[15]提供的基于知网的词汇语义相似度计算方法,最后选择相似度最高的类别词所属的类别作为问题的类型。

5实验及结果分析

5.1实验数据

由于目前关于问题分类的公开问题集全部为含疑问词的问题,于是本文抽取了中文问答社区知乎中的4103个问题作为实验数据。其中训练集数目为3404,测试集数目为699。问题的类型全部手工标注完成,每个问题都由3个人标注,对于有歧义的最后统一解决,共有3人参与了标注工作,耗费时间为1个月。标注完成后,对问题类型的分布作了统计,如表4所示。

5.2评价指标

实验采用测试集在7个问题类别上的分类准确率对系统进行评价,定义如下:

分类准确率=测试集中正确分类的问题数测试集中的问题总数×100%

5.3实验结果

为了验证疑问词对分类效果的影响,本文设计了一组对比实验1。选择LIBSVM[16]工具,用全部的问题训练集训练SVM模型进行分类。训练和分类时,将问题表示成向量的形式:(x1,x2,…,xn),其中:第i维上的特征xi∈{0,1}表示该特征是否在问题中出现。分类时一组使用含有疑问词的测试集,另一组使用不含疑问词的测试集,得到的结果如表5所示。

实验1的结果表明:采用同一SVM模型对含有疑问词的问题和不含疑问词的问题进行分类时,前者的分类准确率明显高于后者,高出了16.8个百分点。可见,疑问词在问题分类中起到了至关重要的作用,不能采用传统的分类方法对不含疑问词的问题进行分类。

为了验证本文提出的面向问答社区的问题分类方法的有效性,本文设计了另一组对比实验2。选择了2种不同的分类方法对整个测试集中的699个问题(包括含有疑问词和不含疑问词的训练集)进行分类:方法1是采用SVM分类方法;方法2是采用本文提出的SVM和FBC相结合的层次分类方法,即对于含有疑问词的问题采用SVM模型进行分类,对于不含疑问词的问题采用本文设计的FBC分类器进行分类。得到的结果如表6所示。

从表6可看出,如果对整个测试集中所有的问题均采用SVM分类器进行分类,分类错误的问题数目为125,准确率只有82.1%;而对测试集中含有疑问词和不含疑问词的问题分别采用SVM和FBC分类器后,分类错误的问题数目降为92,准确率提高了4.7个百分点,达到86.8%。

5.4实验结果分析

由于疑问词对问题分类的效果影响很大,而问答社区中又存在着许多不含疑问词的问题,所以本文根据问题是否含有疑问词将问题集分为两类:含有疑问词和不含疑问词。对于前者,采用传统的SVM分类器;对于后者,则采用FBC分类器。通过将测试集中含有疑问词和不含疑问词的问题分开进行处理,有效地减轻了分类器对疑问词的依赖,使得面向问答社区的问题分类的准确率有明显的提高。

6结语

本文研究了问答社区中的问题分类问题。目前大多数研究工作采用的是基于事实类问题的分类体系,且处理的是含有疑问词的问题,而很少有对不含疑问词的问题进行分类的研究工作。因此本文首先提出了一个粗粒度的分类体系,该分类体系不仅仅局限于事实类问题,因而更适合处理面向问答社区的问题分类;同时借鉴层次分类的思想,对于不含疑问词和含有疑问词的问题分别处理,针对不含疑问词的问题设计了一个基于焦点词的分类器来对其进行分类,针对含有疑问词的问题采用SVM分类器进行分类。实验结果表明,本文提出的问题分类方法减轻了分类方法对疑问词的依赖,适用于对问答社区中的问题进行分类,能够显著提高问题分类的准确率。

下一步研究的重点在于完善基于焦点词的问题分类器的设计,目前只是简单地根据词性和一些简单的启发式规则来抽取焦点词,可考虑引入机器学习的方法来提高焦点词抽取的准确率;其次,优化对焦点词进行语义扩展的过程,以减少语义扩展过程中引入的噪声词语对分类准确率和速度的影响。当然,采用更好的句法分析工具和词语语义相似度计算方法,也是未来的研究工作。

参考文献:

[1]

TOBA H, MING Z Y, ADRIANI M, et al. Discovering high quality answers in community question answering archives using a hierarchy of classifiers [J]. Information Sciences, 2014, 261(5): 101-115.

[2]

BISWAS P, SHARAN A, KUMAR R. Question classification using syntactic and rule based approach [C]// ICACCI 2014: Proceedings of the 2014 International Conference on Advances in Computing, Communications and Informatics. Piscataway, NJ: IEEE, 2014: 1033-1038.

[3]

LIU X M, LIU L. Question classification based on focus [C]// Proceedings of the 2012 International Conference on Communication Systems and Network Technologies. Washington, DC: IEEE Computer Society, 2012: 512-516.

[4]

RAY S K, SINGH S, JOSHI B P. A semantic approach for question classification using WordNet and Wikipedia [J]. Pattern Recognition Letters, 2010, 31(13):1935-1943.

[5]

HACIOGLU K, WARD W. Question classification with support vector machines and error correcting codes [C]// Proceedings of the 2003 North American Chapter of the Association for Computational Linguistics on Human Language Technology. Stroudsburg, PA: Association for Computational Linguistics, 2003, 2:28-30.

[6]

ZHANG D, LEE W S. Question classification using support vector machines [C]// Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2003:26-32.

[7]

文勖,张宇,刘挺,等. 基于句法结构分析的中文问题分类[J]. 中文信息学报, 2006,20(2):33-39.(WEN X, ZHANG Y, LIU T, et al. Syntactic structure parsing based chinese question classification[J]. Journal of Chinese Information Processing, 2006, 20(2): 33-39.)

[8]

袁晓洁,师建兴,宁华,等.问题分类中基于句法和语义信息的特征选择[J].计算机工程与应用,2008,44(33):144-147.(YUAN X J, SHI J X, NING H, et al. Feature selection using syntactic and semantic information in question classification[J]. Computer Engineering and Applications, 2008, 44(33): 144-147.)

[9]

SHERKAT E, FARHOODI M. A hybrid approach for question classification in Persian automatic question answering systems [C]// ICCKE 2014: Proceedings of the 2014 4th International Conference on Computer and Knowledge Engineering. Piscataway, NJ: IEEE, 2014: 279-284.

[10]

XIE Z W, PAN S L. Chinese question classification based on multi strategy method [C]// TMEE 2011: Proceedings of the 2011 International Conference on Transportation, Mechanical, and Electrical Engineering. Piscataway, NJ: IEEE, 2011:1605-1609.

[11]

LI X, ROTH D. Learning question classifiers: the role of semantic information [J]. Natural Language Engineering, 2006,12(3):229-249.

[12]

孙景广,蔡东风,吕德新,等. 基于知网的中文问题自动分类[J].中文信息学报,2007,21(1):90-95.(SUN J G, CAI D F, LYU D X, et al. HowNet based Chinese question automatic classification [J]. Journal of Chinese Information Processing, 2007,21(1):90-95.)

[13]

LONI B. A survey of stateoftheart methods on question classification [J]. Electrical Engineering Mathematics and Computer Science, 2011.

LONI B. A survey of stateoftheart methods on question classification [EB/OL]. [20150214]. https:///publication/241886726_A_Survey_of_StateoftheArt_Methods_on_Question_Classification.

[14]

李正华.依存句法分析统计模型及树库转化研究[D].哈尔滨:哈尔滨工业大学,2008:1-5.(LI Z H. Research on statistical model and Treebank conversation for dependency parsing [D]. Harbin: Harbin Institute of Technology, 2008:1-5.)

[15]

朱征宇,孙俊华.改进的基于《知网》的词汇语义相似度计算[J].计算机应用,2013,33(8):2276-2279.(ZHU Z Y, SUN J H. Improved vocabulary semantic similarity calculation based on HowNet [J]. Journal of Computer Applications, 2013, 33(8): 2276-2279.)

[16]

CHANG C C, LIN C J. LIBSVM: a library for support vector machines [J]. ACM Transactions on Intelligent Systems and Technology, 2011,2(3):Article No. 27.

http://perun.pmf.uns.ac.rs/radovanovic/dmsem/cd/install/LIBSVM/libsvm.pdf

Background

This work is partially supported by the Scientific Research Fund of Zhejiang Provincial Education Department (20071008), the Open Funds for the Provincial and Ministerial Laboratory (B2014).

词语分类范文第4篇

关键词:网络谐音词语 分类 特征 规范化

一 引言

随着网络语言不断兴起,丰富多彩的网络词语如雨后春笋般不断涌现,已渐渐成为汉语词汇系统中最活跃的组成部分之一。在纷繁多样的网络词汇中,不少网民也运用了谐音修辞手法来构造网络新词,文章针对网络世界中的网络谐音词语进行研究,并对规范网络谐音词语提出自己的看法。

二 网络谐音词语的分类

网络谐音词语是指网民为了委婉幽默地传情达意运用谐音修辞手法来构建的一种崭新形态词语。从归类的角度来研究网络谐音词语,基本上可以分为以下几类:

1. 通过汉语中同音或近音的字、词之间的动态相谐,这一类比较常见,例如:

“鸡冻”与“激动”谐音; “童鞋”与“同学”谐音; “斑竹”与“版主"谐音; “霉女”与“美女”谐音;“菌男”与“俊男”谐音; “桑心”与“伤心”谐音等等。

2. 从英文字母和单词的读音相同或相近的角度谐音,例如:

"GG",英文字母“G"的读音,与汉语“哥哥”音近,谐音指汉语“哥哥”;“烘培机”,是英文单词“homepage”的谐音,指“个人主页”等等。

3.以阿拉伯数字的汉语读音为基础,在语音基本相似,人们能够猜出意义为前提下进行谐音,例如:

"5201314”是“我爱你一生一世”的谐音;

"1234567”是“你是我的未婚妻”的谐音;

"7417419741”是“气死你、气死你、就气死你!”的谐音等等。

4. 汉字读音的汉语拼音通过缩写而成谐音(一般保留汉语拼音的第一个字母),例如:

MMD(MaMaDe),谐音指“妈妈的”;

MM(meimei),谐音指“美眉”等等。

5. 先释义,再谐音,释义与谐音相结合。例如: 阿拉伯数字“2",释义是英文中的“two",再由“two"谐音出“to",因而网络词语中阿拉伯数字‘2既有英文“to"的意义,又有英文“two”的意义。如2,,是“two”的意思,在“face 2 face”中,"2”是“to”的意思,谐音指“面对面”.

三 网络谐音词语的特点

网络谐音词语作为一种新兴的词语形态,在形式上,它具备数字化、字母化等特点,内容上,新词新意层出不穷,语法上也表现出超常态的特征,具体而言,

在形式上,

1、 数字化

运用数字及其谐音可以婉曲地传情达意,增强语言的渲染力。例如88(拜拜,英语单词Bye-bye的谐音)、55(呜呜的谐音,表示哭的声音)等等。

2、字母化

类似于数字的运用,字母也有表情达意的功效。如:BT(变态拼音的缩写), PPMM(漂亮妹妹), BF(boy firend的缩写,即男朋友)等等。

在内容上 ,

1、新词新意层出不穷 ,五彩纷呈

酱紫--- 这样子

表 ------ 不要

杯具-----悲剧

网络谐音新词通过同音替代或合音替代,使旧词换新衣,使新词新意层出不穷,五彩纷呈。

2、超越常规的语法

网络谐音词语不再拘泥于传统的词语构成语法,各种汉字、数字、英语或简写混杂在一起,怎么方便怎么用,不遵循固定的词汇构成方式,例如“sg===帅哥”、“3q===thank you”。

3、 口语化的表达

网络谐音词语在表达上更偏向通俗化、口语化、事件化。例如:SB--傻B ,PMP---拍马屁

三 网络谐音词语的规范化

首先,要正视网络谐音词语创造者的特点。在网络语言的世界里,年青知识分子群体扮演着主要的角色,是网络谐音词语的创造者。年青知识分子(尤其是青少年)往往从自己的内心诉求出发,造出符合自己口味的网络谐音词语。我们在对网络谐音词语进行规范时,应当充分考虑青少年的特点,制定有针对性的青少年容易接受的规范。

其次,要顾及网络谐音词语的语体特征。网络语言交际是在高速运转的状态下以简捷、明快的方式进行的,谐音网络词语以简捷、经济为特色,常常借助简单的符号、数字等,如“拜拜”谐音为“88",等等,因此,对网络谐音词语的进行规范化工作时要充分顾及其语体特征。

词语分类范文第5篇

关键词: 过渡衔接词语 篇章连贯性 英语写作

一、引言

要想过一条河,方法很多,可以游过去,可以乘船过去,还可以架桥过去,至于选择哪种方法最合适,要根据河面的宽度、河水的深度而定。同样,文章的句与句、段与段之间也有大大小小的“河”,其过渡方式也多种多样,若能恰到好处地选择,文章就能前后一贯、逻辑严密、结构紧凑。过渡一般有三种方式:过渡段、过渡句和过渡词。三种过渡的形式虽有不同,但所起的作用和所表示的逻辑关系却是一样的。中国学生在英语写作中往往不会或不太注意使用过渡连接词语。他们写出的英语文章往往会因行文的不连贯而给人以行文不顺的感觉,或是因为条理不清而使读者感到费解。本文就对过渡连接词语这种能使上下文连接自然、紧凑的途径作一浅析。

二、过渡连接词语的定义和范畴

既然英语过渡连接词语对文章的结构表达如此重要,我们就有必要先明确一下到底什么是英语中的过渡连接词语。“From Sentence to Paragraph”一书的编者说Transitions are words that join one idea to another idea. Transitions add coherence to writing by joining ideas together.(过渡连接词语是把一个意思和另一个意思连接起来的词语,它连接文章的意思以增加文章的连贯性。)我国知名语言学家章振邦教授在他的《新编英语语法》中给出这样的定义:当句子进入语段、语段进入语篇时,往往要用一些连接手段把句子和句子、语段与语段,有时甚至是段落与段落连接起来,使它们之间建立起各种各样的语义关系,并使整个语篇在意义上具有连贯性(coherence)。这些连句成篇的手段我们称之为过渡连接词语(章振邦1989:1530)。

过渡连接词语的英语是transitional word or transition,对此国内著述中有多种译法:(1) 转换词语;(2)过渡词语;(3)连接词语;(4)过渡词。从写作角度看,笔者认为译成“过渡连接词语”会更有利于准确理解该词的内涵。

另外,在国外著述中,由于不同的研究出发点和侧重面,许多语言学家和研究者们给下列这些词或短语but,and,consequently,in a word等赋予了不同的名称,如小品词(particles)(Stubbs,1983)、话语联系语(discourse markers)(Schiffrin,1987)、话语连接语(discourse connectives)(Blackmore,1992)、语用连接词(pragmatic connectives) (Van. Dijk,1979)等等。不过大家基本上达到一些共识,认为过渡连接词语不仅对语篇的局部连贯有作用,而且对整体连贯也产生影响。如:

Life in a new country can be confusing. For example,one day I wanted to go to the consulate to renew my student visa. So my aunt gave me the consulate’s address. But when I arrived at downtown,I got lost. First,I went to a bank. A lady there told me to walk three blocks south. I walked three blocks north,instead,however. Then I asked a policeman for help. As a result,he drove me right to the door of the consulate. From my story,you can see that I had a hard time doing one errand.

(Robert G. Brand:From Sentence to Paragraphs)

这段文章中的斜体字部分都是过渡性词语,它们的运用是使文章前后连贯,意思层层深入。使段落内部各句环环相扣。其中for example连接第一个句子和后面整个一段文章的意思。别的过渡词语都分别连接前后两句的意思。

过渡词语不仅是一个过渡信号,而且读者能通过它的预示来识别其后的信息。过渡词语还能帮助读者预料下一段或下一句会如何影响他们刚刚读过的内容的意义。因此,过渡词语对文章的连贯性起着重要作用。如:

On Georgia 155,I crossed Troublesome Creek,then went through groves of pecan trees aligned one with the next like fenceposts. The pastures grew a green almostblue,and syrupy water the color of a dusty sunset filled the ponds.Around the farmhouses,From wires strung high above the ground,swayed gourds hollowed out for purple martins.

The land rose again on the other side of the Chattahoochee River,and Highway 34 went to the ridgetops where long views over the hills opened.

In alldirections. Here was the tail of the Appalachian backbone,its gradual descent to the Gulf. Near the Alabama stateline stood a couple of LAST.

CHANCE ! bars... .

(Willian Least Heat Moon,Blue Highways)

上段引文斜体字过渡性词语“again on the other side”标示了上下两端的连贯和衔接。

由于过渡词连接段落内部句子之间的意思或者段落之间的意思,而且英语注重“形合”,不像汉语注重“意合”,所以英语中的过渡性词语要比汉语的多。而且,英语有多种形式的词和词组都能充当过渡性词语。主要有:

形容词:first, second等。

副词:certainly, clearly, similarly, finally, instead, indeed, still, also, then等。

介词短语:in a word,in spite of, in fact, for example, in addition, after all, at first, at last, above all等。

不定式短语:to begin with,to be honest, to begin with, to be more exact等。

代词:next, this, that, it, he, she, they等。

介词:like, unlike等。

名词短语:one, thing, one, more thing等。

此外,同义词语,英语词的重复等都可以起到过渡词语的作用。总之,较好地掌握这些过渡连接词语的用法,把它们恰当而灵活地运用在英语的写作中,无疑会使思维表达清楚,文章通顺而有条理。

三、过渡连接词语的功能和总结

英语过渡连接词语较多,分类的方式也不少,如章振邦(1989:1531)将英语连接词语分为3大类:逻辑纽带(logical connector)、语法纽带(grammatical connector)和词汇纽带(lexical connector)。夸克(R・Quirk)等人则将其分为13大类:(1) 列举类;(2) 强势类;(3) 对等类;(4) 转折类;(5) 总结类;(6) 同位类;(7) 结果类;(8) 推论类;(9) 重述类;(10) 替换类;(11) 对立类;(12) 让步类;(13) 时间转换类。笔者主要按过渡连接词语在连接句子、段落的功能上对此进行分类,以便我们在写作中掌握过渡连接词语,从而使文章启、转、承、合,融会贯通,成为一体。

1. 时间、顺序的过渡词语

later,meanwhile,afterwards,at first,after that,since then,for the first time,as soon as,at the same time,from then on,the next moment,at that time,after a while,so far,first of all,in the first place,to begin with,finally,in the end,at last等。

如:1)She hates him. But at the same time,she pities him.

2)In the first place,he is a man of character.

2. 方位过渡词

on the right/left,on the right/left side of,at the foot/top/end of,in the middle/center of,at the side of等。

1)She is standing under the tree,on the right side of her is Lucy.

3. 因果过渡词

so,thus,therefore,because,because of,thanks to,due to,owing to,for this reason,so that,in this way,as a result of等。

1) Thus,the tape recorder should be put to good use.

2) As a result,the girl took their advice.

4. 转折过渡词

but,otherwise,however,instead,though,nevertheless,after all,even though,on the contrary,or else,except for,in that case,in spite of等。

1) It may rain,nevertheless,I will go.

2) Except for his hot temper,he is a good man.

5. 列举、举例的过渡词

like,such as,and so on,for example,for instance,take...for example,for one thing...,for another ...,as follows等。

1)Though she is five years old,she knows five languages,such as Chinese,English,French, Japanese,and German.

2)Some words are differently pronounced between British English and American English. For example,English people say not[n?蘅t],Americans say [na:t].

6. 递进过渡词

besides,as well,in addition,what’s more,worse still,what’s worse,above all,not only...but also...等。

1)I don’t care for it,besides,it’s too expensive.

2)The rent is reasonable,and moreover,the location is perfect.

7. 总结、归纳的过渡词

in brief,in a word,in short,to sum up,on the whole,in conclusion,generally speaking等。

1)He is always ready to help others,and he is getting on well with his studies.In short,he is a good student.

2)To conclude,all great men achieve success through diligence,devotion,and perseverance.

8. 解释过渡词

in fact,as a matter of fact,to tell the truth,that is,that is to say,in other words等。

1)China is a developing country,that is,she is behind the developed countries in some fields.

9. 表示让步、对比、比较的过渡连接词语

此类词语多出现在段落的开头或句子之间,表示段落和句子间的各种关系。

1)表示让步的过渡词语though,although,in spite of,despite (of),nevertheless,nonetheless等。如:

It may rain,nevertheless,I will go.

2)表示对比的过渡词语:in contrast,on the contrary,unlike,on the other hand,whereas,instead,still,as a matter of fact,in fact 等。如:

She thought he was a criminal,on the contrary,he was a policeman.

3)表示比较的过渡词语similarly,rather than,on(the) one hand...on the other (hand),in the same way 等。如:

In the same way,she put her signature there.

10. 表示强调、条件过渡词

Above all,indeed,really,especially,particularly,specially....

if,unless,on this condition,so/as long as 如:

He is a good student. Above all,he is good at English .

You will succeed if you work hard.

四、结束语

虽然过渡连接词语的使用并不是使文章连贯的惟一手段,但确实是一种十分重要的手段。在实际写作中,书面表达应根据立意需要,把段落与整篇文章的意思有机地联系起来,明确各段落意思之间的相互关系,使文章按照主题的立意和作者的思路发展下去。这就更需要我们去求助于过渡词把它们的相互关系表达清楚。掌握这种连接手段的用法,英语写作水平无疑会在原有基础上提高一步,段落的主题思想也会因此更加清晰明了。

参考文献:

[1]Van Dijk,T. A. Pragmatic Connectives[J]. Journal of Pragmatics,1979,3:447-56.

[2]Celia Millward,Handbook f or Writers,CBS COLL EGE PUB2.L ISING and The Dryden Press Saunders College Publishing,Second Edition,1993.

[3]章振邦.新编英语语法[M].上海外语教育出版社,1989.

[4]民.湖州师专学报(哲学社会科学),1999,第21卷第2期.

词语分类范文第6篇

一、明目标――从模糊到清晰

简单说来,语文园地“日积月累”的词语教学,目标要具体明确,切忌模糊,注意教学的几个梯度:认读、书写、理解、运用。例如,一年下册“语文园地三”“我会读”的词语,课前,老师可以先进行盘点,做到心中有数:

对于原本无序安排的词语,教师作这样的教学安排,就是为了加强词语教学的针对性,求得教学目标具体明确,教学过程胸有成竹。

二、找规律――从“举一”到“反三”

1.分类探究。

人教版教材采用专题编排的形式,每一组课文往往反映同一个主题或内容,具体到重点词语,往往也能体现同一主题。针对这一特点,笔者在尊重学生的兴趣和爱好的基础上,指导学生进行分类、归纳、整理,并相机授之以法,让其自行盘点、举一反三。仍以上面所举的一年下册“语文园地三”的词语为例,笔者是这样设计:

(1)出示第一组词语(指课文所排的):

指名朗读。自己挑选一个词语,用上这个词,说说怎么样的什么,比如:(奇怪)的问题,(聪明)的头脑……看谁说得多。

(2)出示第二组词语:

选其中的一个词语,用上句式说句话,例如:

(小猫)准备(去钓鱼)。

(谁)赶快(去干什么)。

(什么地方)堆积(什么东西)。

……

(3)出示第三组词语:

指名读词,引导发现规律,板书AABB

弄清干干净净和干净的区别;

延伸拓展:像这样AABB形式的词语你还能照样子说几个吗?

在教学中,教师根据每组词语的不同特点帮助学生分类整理,使原有的零散的词语系统化,提高了复习巩固的效率;随后的拓展练习,又使这些词语“立体”起来,促进学生掌握更多的词汇。

2.延伸拓展。

必须根据教学内容、学校条件、教师特点,更重要的是根据学情来合理选择、使用灵活多变、富有个性、充满灵性且又适合学生学习的方法。例如:二年上册“语文园地四”的“读读记记”带数字的成语:

一本正经 二话不说 三心二意 四面八方

五颜六色 六神无主 七嘴八舌 八仙过海

九牛一毛 十全十美

教师指导学生积累数字成语,不能仅仅局限于书本上的。对于这些数字成语的教学,教师不妨这样安排、设计:

(1)自己读读这些成语。

(2)你发现什么特点?(都带有数字)是啊,所以我们称这样的成语为数字成语。

(3)老师报数字,小朋友念出相应的成语。

(4)同桌相互玩玩报数字成语游戏。

(5)像这样的数字成语还有很多很多,课外,请小朋友通过查成语词典、课外书、网络等方式查找,看看谁能说得多、说得全。

(6)交流自己收集的数字成语,活动方式:办一期数字成语小报、讲数字成语故事班队活动、数字成语填空赛。

这样丰富多样的活动能延续学生对数字成语的探索、积累的热情,真正使学生的学习积极、主动而有效。

三、添佐料――从乏味到可口

低年级小学生对于教学“味道”,要求更高。味道不好,他们就会偏食、挑食。所以,教师做好添佐料工作,使菜肴从乏味到可口,色香味俱全,显得至关重要。

例如,一年级下册“语文园地一”“日积月累”中的“我会读”,有6个成语:

春暖花开?摇?摇?摇春风拂面?摇?摇?摇万里无云?摇?摇?摇五颜六色?摇?摇?摇百花盛开?摇?摇?摇欢歌笑语

对于这些成语,我是这样教学的:

(1)根据以上词语,想象画面,说说你仿佛看到了什么?

(2)和口语交际《春天在哪里》相结合,请小朋友依据以上词语,画画自己眼中的春天。

(3)选择以上词语,说说自己的画。

在词语教学中,教师要重视让孩子们通过想象画面来“复活”词语的本来面目,进而点染词语的亮度。这样,依托词语展开想象,再从想象走入画面,最后,根据画面输出词语。这样的教学,学生不仅感兴趣,而且效果不错。

四、巧结合――从死记到活用

离开运用的词语,学生读得再多、抄得再好,也只是消极词汇。这样的积累就是无水之鱼、无根之花。因此,一定要树立积累是基础、运用是关键的教学理念。让孩子们通过运用,使词语成为其表情达意的左右手,成为言语表现的鲜活元素。

例如,教学二年级下册“语文园地二”的“日积月累”,可以创设语境,让学生从“读读记记”中选择词语填空:

(1)夏天的午后,(阳光灿烂),突然,乌云密布,(雷声大作),下起了(倾盆大雨)。

(2)春天,百花齐放,(芬芳扑鼻),花儿(随风舞动),跳起了优美的舞蹈。一只(黑白相间)的蝴蝶飞来,立在枝头休息。

词语分类范文第7篇

描写乡村生活的词语有鸡犬桑麻、水渠纵横、深耕细作、美丽宁静、层层梯田、阡陌交错等。乡村是指乡村地区人类各种形式的居住场所,乡村一般风景宜人,空气清新,较适合人群居住,民风淳朴。

词语是词和语的合称,包括单词、词组及整个词汇,文字组成语句文章的最小组词结构形式。新词典词语丰富,信息量大。词是由语素组成的最小的造句单位。词语有2字、3字及4字的分类,但请注意,词语不属于成语一类。

(来源:文章屋网 )

词语分类范文第8篇

词语是词和语的合称,包括单词、词组及整个词汇,文字组成语句文章的最小组词结构形式。

新词典词语丰富,信息量大。词是由语素组成的最小的造句单位。词语有2字、3字及4字的分类,但请注意,词语不属于成语一类。

(来源:文章屋网 )