首页 > 范文大全 > 正文

《计算语言学》简评

开篇:润墨网以专业的文秘视角,为您筛选了一篇《计算语言学》简评范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

[摘要]计算语言学是一门横跨语言学、数学和计算机科学的边缘叉学科。《计算语言学》是清华大学中国语言文学系刘颖教授的新作,该书系统介绍了计算语言学的相关理论及计算方法。从方法论视角看,该书对推动语言学或计算语言学学科建设及发展具有重要意义。

[关键词]计算语言学;计算机科学;交叉学科

[中图分类号]G642

[文献标识码]A

[文章编号]1671-5918(2015)13-0122-03

计算语言学(Computational Linguistics)是当代语言学中的一个新兴学科。《计算语言学》是清华大学中国语言文学系刘颖教授的一部新作,由清华大学出版社于2014年9月出版。刘颖教授研究计算语言学、自然语言处理和机器翻译多年,已出版著作四部,发表相关专业论文近六十篇。本书是2002年10月出版的《计算语言学》的修订版本,全书系统介绍了计算语言学的相关理论与计算方法,以及统计语言学与机器翻译的相关理论。近十几年来,国内对于计算语言学的相关著作尤其是系统性介绍的书籍还是为数不多的,许多对计算语言学感兴趣的研究者们迫切需要这样的一本较为全面性的书籍问世。相信本书应该会受到计算语言学界学者及研究者的极大关注。本文首先探讨计算语言学的背景,之后简要介绍该书各章节的主要内容,最后在此基础之上对该书作出简要评价。

一、背景介绍

二十世纪四十年代到五十年代末这段时期可谓是计算语言学的萌芽期。虽然“计算语言学”这个术语概念还未被提出,但是有很多具备先见之明的研究者及学者们就开始从计算的角度来探讨语言现象,揭示语言所具有的数学性。

二十世纪六十年代的中期到八十年代末可以算作是计算语言学的主要发展期。在此期间,许多的相关学科在相互借鉴,互为补充的基础上取得了不少鼓舞人心的成果。

在二十世纪九十年代的最后五年,计算语言学的研究变化显著,出现了空前繁荣的局面。这主要表现在以下三个方面:首先,概率与数据驱动方法成了计算语言学的标准方法。其次,由于计算机速度与其存储量的增加,使得在计算语言学的某些领域,特别是语音合成、语音识别、文字识别、拼写检查、语法检查这些应用领域,有可能进行商品化的开发。第三,随着网络技术的发展,互联网逐渐变成一个多语言的网络世界,互联网上的机器翻译、信息检索和信息抽取的需要变得更加紧迫。

正是在这样的背景下,国内计算语言学研究也展现出了新的生机活力,刘颖教授的这本《计算语言学》便是很好的说明。

二、内容概述

全书共分为十章,第一章为“计算语言学简介”。本章主要介绍了计算语言学的概念及其与计算机科学、语言学、数理语言学及自然语言的关系。此外,对计算语言学的主要研究内容作了详细的阐述,并说明了计算语言学理论的主要用途,包括机器翻译、语音自动识别和自动生成、自然语言理解及信息自动检索等。本章的第四部分介绍了计算语言学研究的基本方法,涉及理性主义与经验主义。最后,详细的梳理了计算语言学的发展历程,全面阐述了计算语言学以及在应用领域中已经取得的研究成果。

第二章“机器词典”部分主要介绍自然语言处理领域中常用的机器词典,包括《现代汉语语法信息词典》、《同义词词林》、Wordnet、Framenet及《知网》。其中,详细介绍了每部词典中所包含的内容、词与词形成的关系、词典之间的相互联系与区别以及各种词典的独特应用。由此,通过不同词典的相互对照,也可以清晰分辨出不同内容的词典及其在自然语言中的不同应用。

第三章“词法分析”对以汉语为代表的分析型语言,以英语为代表的曲折型语言以及以日语为代表的粘着型语言进行了词汇层面处理的相关介绍。其中,在汉语自动分词部分,本章对汉语中词与自动分词、自动分词的重要性、自动分词方法、汉语切分歧义及其处理等内容作了详细介绍。英语词法分析部分对词法分析方法、词法分析算法、为何要进行词法分析以及词法分析的程度问题作了具体说明。最后,对日语词语特征、日语分词的常用方法及切词与词性标注等进行了总结。尤其是在日语切词与词性标注中,运用了邻接表分析法与配价分析法对日语词法进行了详细对比,总结分析。

第四章为“词性标注”。本部分首先对词性标注的定义与研究进展进行了概述,并举例说明。之后,对词性标注集从规范、确定原则、适用范围及词类划分与标记代码四个角度作了系统阐述。重点介绍了词性标注的三种方法:规则方法,统计方法及基于转换的错误驱动学习方法。其中,对统计方法作了重点表述,其是基于HMM的词性标注、基于条件随机场的词性标注与基于最大熵模型的词性标注。

第五章为“形式语言理论与自动机”。主要介绍了形势语言理论,涉及形式语法及其组成、形式语法的定义及特点以及进行形式语法研究的必要性。在自动机理论部分,分析了进行抽象分析处理的四种演算及机器:图灵机(turning machine)、下推自动机(pushdown automaton)、线性有界自动机与有限自动机(finite automaton)。最后,分析了乔姆斯基层级和自然语言的有关内容。

第六章“现代句法理论”主要介绍了二十世纪五十年代以后发展起来的计算语言学语法理论,包括乔姆斯基的转换生成语法、广义的短语结构语法、树粘接语法、中心词驱动的短语结构语法、词汇功能文法、范畴语法、依存语法以及链语法。在转换生成语法部分,论述了经典理论所包含的短语结构、转换结构及形态音位。之后,也对标准理论及扩充标准理论进行了举例详述。依存语法部分指出,依存语法又称从属关系语法,其便于计算机对自然语言的有效处理,在信息处理时代特别受到欢迎。同时,也指出了依存语法的缺点、从属树与短语结构树之间的差异及配价语法在中国汉语语言学中发展的四个方面。

第七章“句法分析”主要介绍了自然语言的句法分析算法,包括厄尔利分析算法、富田胜分析算法、线图分析算法以及CYK算法。通过对比分析指出,厄尔利分析算法与CYK算法是一种并行的方法,但是前者要比后者更难以理解。线图分析算法可以利用线图保留所有的分析结果,但是效率没有富田胜分析算法高,相比较而言,富田胜分析算法试着四种算法中最为快捷的算法。另外,该书也指出CYK算法由于较易实现,易于被人们所理解,因此被广泛应用在基于短语的机器翻译和基于句法的统计器翻译中。所有的算法本书都给出了详细的举例说明,并列出了计算机处理自然语言的详细过程。

第八章为“语义理论与语义分析”。该章节主要阐述了有关格语法、语义网络文法、义素分析、优选语义学及蒙塔格语法五个部分。其中,每个部分都给出了其定义及产生的简要说明,同时列举了具体实例进行了分析。尤其是在蒙塔格语法部分,对句法、翻译及语义三个部分进行了系统全面的介绍,内容涉及到了树立逻辑,因此部分内容稍显抽象,较难理解。最后的讨论部分作者也指出,五个理论独立存在,且这种独立也是合理可行的,但是就具体自然语言处理的工程而言,只要有利于计算分析可以解决实际问题的理论都可以拿来使用,而且一定要尽量吸收各种理论的合理成分,进行有机结合。

第九章“统计语言学”主要介绍了统计语言学所需要的基本统计知识和语料库。指出,大规模的单语或多语语料库是统计的基础,没有它就无法对语言进行处理。同时,该部分也介绍了n元模型、HMM模型以及HMM模型在语音识别和组块识别中的应用,介绍了随机上下文无关语法及其应用,用于句法和语义消岐的句法评分和语义评分,双语语料库的句子对齐技术,重点介绍了基于长度的句子对齐和基于词汇的句子对齐原理。另外,也介绍了支持向量机SVM的原理、实现过程以及如何利用SVM进行人声识别,最大熵模型的原理、最大熵模型参数的训练算法及其应用。最后,针对统计中出现的数据稀疏问题,介绍了常见的数据稀疏处理方法。

第十章“机器翻译”主要介绍了机器翻译的概念,并指出了五种主要的方法:直接翻译法、基于转换的方法、基于统计的方法、基于中间语言的方法以及基于实例的方法,指出了机器翻译的难点及应对策略。详尽地介绍了统计方法的各种模型,包括基于词的统计翻译、基于短语的统计翻译和基于句法的统计翻译。最后,该书介绍了有关机器翻译的难点、应用及其评价方法。

三、简要评价

本书是一本全面系统介绍计算语言学的著作,既有语言理论的全面梳理也有语言计算实践的深入探讨,尤其是对于计算语言学涉及的算法均给出了举例并进行了详细说明,也给出了语言处理的详细过程。本书的主要特点在于:

首先,正如前文所提到的,这本书为国内致力于计算语言学研究的学者及研究者们提供了很好的参考,拓展了思路,开阔了视野。

其次,本书章节的编排条理清晰,颇具匠心。本书没有流于对计算语言学的一般性介绍,而是把计算语言学相关理论与真实的语言实例相结合,逐层逐类,按照从小到大,由简到繁的顺序展开,比如,书中按照词法到句法再到语义的逻辑排列,使读者可以循序渐进系统掌握核心内容及其内在关系。

第三,本书中所用实例涉及汉语、英语及日语三种语言,语言范围更加广泛,具备更强的说服力与信服力。

第四,这是一本不仅仅侧重介绍而且详尽阐述计算方法及运算过程的著作,大多数章节的内容与语言均较为浅显易懂,语言理论与计算相关的实践紧密结合。使用了较多的语言实例及相关数据,使学习者在阅读学习过程中可以置身于计算语言学的真实语境中,从而可以更快,更有效的吸收本书的精华。

尽管如此,本书也有些许不足之处。首先,书中的许多语言实例多针对英语语料,稍显单一,语言具有差异性,具体理论应用时也会存在较大差异,如果能有更多的汉语实例佐证或许会有更好的效果。其次,由于本书是一本有关计算的语言学书籍,特别像第九章的统计语言学部分,涉及到的统计概率等数学知识较多,较为抽象,让缺乏数学及计算机系统知识的读者读起来稍显棘手,因此本书在这样的环节设计上可以再进一步斟酌完善。第三,个别地方有很小的排版问题,如95页图5-4句子“old man and woman”的分析树形图中的and写为了“And”。