首页 > 文章中心 > 统计学语言论文

统计学语言论文范文精选

开篇:润墨网以专业的文秘视角,为您筛选了十篇范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

学术论文复制检测的研究进展及新方法

[摘要]综述国内外学术论文复制检测的研究现状,针对存在的问题提出以后研究的新思路:构建某一学科领域学术论文语料库;以信息论为工具,针对某学科领域建立基于学术论文语料库的统计语言模型;结合学术论文抄袭剽窃的特点,通过赋予描述资源对象语义信息的不同元数据项以不同的权函数,设计相似度算法;使用Lemur工具箱,在标准的TREC文档集上对模型和算法进行检验;与Turnitin侦探剽窃系统进行实验对比,评价该模型和算法的有效率和效果。

[关键词]学术论文 复制检测 抄袭剽窃检测 统计语言模型 文本相似度算法

[分类号]TP391.1

自从方舟子的“新语丝”使原本长期存在于学术界的学术不端暴露出来之后,学术论文抄袭剽窃引起社会的广泛关注。抄袭剽窃的表现形式多种多样:有些只是在语言文字的表达形式上做手脚,换成同义词或颠倒语句的表达顺序,在文章框架、主要观点和主要论据上却没有大的变化;有些直接大段地“引用”别人的内容;有些综合运用多种手段,将多篇别人的文章拼凑而成自己的;有些“学术高手”直接拿国外的论文翻译成中文发表,等等。抄袭和剽窃“手段”的越来越“高明”,给抄袭剽窃检测带来很大困难。抄袭检测又叫复制检测、剽窃检测或副本检测,根据检测对象性质不同可分为图像、声音和文本复制检测。学术论文抄袭检测是文本复制检测的一种,归根到底是判断两篇学术论文的相似程度。“召回率”和“精准率”是判断检测算法好坏的两个重要指标。为了进一步提高学术论文复制检测判断的准确率,针对学术论文的文档相似度算法的改进和创新研究变得尤为重要。

1 国内外研究现状及存在的问题

1.1 国外研究现状

国外具有代表性的文档相似度算法主要有以下几种:①Manber提出一个sif工具,其“近似指纹”是用基于字符串匹配的方法来度量文件之间的相似性;②Brin等在“数字图书馆”工程中首次提出文本复制检测机制COPS(copy protection system)系统与相应算法,奠定了论文抄袭检测系统的基础;③Garcia-Molin提出SCAM(Stanford copy analysis method)原型,改进了COPS系统,用于发现知识产权冲突。他使用基于词频统计的方法来度量文本相似性,后来把检测范围从单个注册数据库扩展到分布式数据库上以及在Web上探测文本复制的方法;④贝尔实验室的Heintze开发了KOALA系统用于剽窃检测,采用与sif基本相同的算法;⑤si和Leong等人建立的CHEC系统首次把文档结构信息引入到文本相似性度量中;⑥Stein提出一种方法,这种方法能产生一种“指纹”,在某种程度上能有效防止修改;⑦MeyerzuEissen等提出通过根据写作风格上的变化来分析单篇文档,从而决定是否有潜在抄袭;⑧美国学校首先引入Tumitin侦探剽窃数据库,用于防止论文抄袭,此外还有其他类似软件系统用于进行文档相似度分析。当然不同的检测系统其相似度算法的精度也不尽相同。

1.2 国内研究现状

全文阅读

传统文化景观空间的图式语言研究进展与展望

摘要:在现代化、工业化和城市化浪潮下,传统文化景观空间呈现出的高度破碎化、孤岛化、边缘化的特点,成为困扰传统文化景观空间整体保护的重要因素。传统文化景观空间的图式语言正是解决文化景观保护与开展生态设计的重要途径。本文在全面研究总结国内外传统文化景观空间图式语言发展历程的基础上,立足存在的问题与突破点,构建起了传统文化景观空间图式语言研究的理论体系与框架。

关键词:传统文化景观;景观空间;图式语言;生态设计;进展与展望

一、问题提出与研究背景

传统文化景观是人与环境相互作用的历史记忆,是人类文化景观的共同遗产。在当今现代化、城市化和工业化的浪潮下,传统文化景观空间呈现出高度破碎化、孤岛化和边缘化的特点。传统与现代的冲突威胁到传统文化景观的保护与传承。传统文化景观空间的图式语言研究就是立足于地方性的人文生态系统和文化景观空间的特征与模式,充分发挥传统文化的适应性和语言的逻辑性,探索传统文化景观空间保护与传承的全新途径。

1.环境景观的人文化与生态化:文化是人类适应、保护和营造环境的工具

作为人居环境的重要组成部分,文化、艺术和生态已经成为景观建设与发展中不可分割的三个基本特征。风景园林师作为土地的守望者、资源的守护者和景观环境的营造者,是有效协调人地作用机理与从事生态规划设计的主体之一。面对机遇与挑战,罗德岛设计学院教授玛格丽特-麦克埃文(Mar—garet McAvin,1990)认为生态与环境破坏是工业化时代的突出问题,生态文明是工业化和后工业化社会文化的标志。生态文明建设是在我国快速工业化、城市化过程中提出的国家发展战略。文化文明与生态文明是风景园林适应国家发展战略的时代性目标与途径。

2.景观空间的破碎化与孤岛化:传统文化景观空间的困境

伴随着大开发与建设,资源保护与利用、土地开发与建设、生态保护与恢复、文化保护与传承等成为发展过程中需要大量面对的实际问题。原本是传统文化突出的很多地区又是今天我国现代化和城市化发展最快的地区,“传统”与“现代”矛盾极为突出,传统文化景观空间呈现出高度“破碎化”、“孤岛化”和“边缘化”特质。在此过程中风景园林承担起了国家发展所赋予的时代责任,开展了大量开创性的关于城乡发展与生态建设、保护、恢复等科学研究和社会实践,做出了应有的贡献。因此,探索“传统文化景观空间的图式语言及形成机理”成为解决传统地域文化景观保护与传承的重要基础。

全文阅读

如何利用语料库语言学方法研究学习者错误

内容摘要:本文主要介绍了语料库语言学这一新兴学科以及如何在传统的语言学研究中将这两者结合起来。语料库语言学的特点是实证性研究,它基于真实的语料,用统计的方法对研究对象进行量化的概率计算。因此如果在传统的理论研究中结合这一方法,就可以得到定性定量的更科学的结论。

关键词:语料库 语料库语言学 错误分析 错误

一.语料库

语料库是按照一定的采样标准采集而来的、能够代表一种语言或者某语言的一种变体或文类的电子文本集。可以说,一个语料库由若干个电子文本构成,而这些电子文本作为一个整体可以代表某语言或者某语言的某种变体或文类。因此,以一个语料库为数据源进行的研究可以看作是对该语料库所代表语言、语言变体或文类的研究,研究所得到的结论可以推广到整个语言、语言变体或文类。

对于一个语料库来说,最高的目标是它的代表性。为了能够达到有代表性这个标准,在建设语料库的时候,要对需要研究的对象有个全局性的认识,只有当研究中所使用的语料库有代表性,得到的研究结果才具有代表性,才能够作为科学的结论被推广到整个语言、语言变体或文类。在语料库语言学中,抽样和总体之间的比例关系是非常复杂的,需要利用多种抽样检测的方法来确定语料库的代表性。因为假如我们通过对一个语料库进行研究得到的结果具有代表性的话,那么它一定适用于其他的抽样和其他的语料库。

由此,我们可以看到,并非任何随意收集的数据都可以称为语料库,要想通过语料库研究这种方法得到科学的结论,必须考虑到语料的收集标准以及语料库的代表性。如果在建设语料库的时候本身考虑偏颇,那么通过对该语料库所代表语言、语言变体或文类的研究,就无法推广到整个语言、语言变体或文类,那么这个研究就违背了语料库语言中的初衷,也就成为了失败的研究。

二.语料库语言学

在近现代语言学发展史中,哲学领域的理性主义与经验主义之争渗透到语言学研究的绝大部分领域,几乎贯穿于语言学发展史的全过程。理性主义认为,由于表象可能使人受到蒙蔽,所以通过感觉的观察而得来的经验常常是不可靠的,所以他们认为研究语言行为并不能揭示语言的本质,更能反映语言特征的应该是语言能力。由此可以看出,理性主义在研究中是不主张使用真实语料,与语料库语言学持对立的观点。而经验主义因为主张通过观察来了解外部世界,认为任何知识的获取必须通过观察得到,因此他们与语料库语言学持相同的观点,认为研究应该使用真实的语料。

全文阅读

《牛津计算语言学手册》评介

一、引言

我从事计算语言学教学和研究已经50多年,在这半个多世纪的漫长岁月中,针对计算语言学的跨学科性质,我在北京大学学习过语言学,在中国科学技术大学研究生院学习过信息科学,在法国格勒诺布尔理科医科大学学习过数学,前后花了将近20年的时间更新自己的知识,成为跨学科背景的计算语言学家。现在我们已经进入了信息网络时代,以自然语言信息处理作为研究目标的计算语言学正越来越受到语言学家的关注。然而,由于大多数语言学家仅具有文科背景,他们对于计算语言学中涉及的数学知识和计算机知识了解不多,尽管他们怀着关注计算语言学的强烈愿望,可是一旦看到计算语言学的专业文献、接触到其中的数学和计算机方面的问题,往往望而生畏,敬而远之。他们精研通达的语言学知识,难以与数学知识和计算机知识融会贯通起来,这是十分可惜的!

我常常想,如果有计算语言学家能够用一般语言学家可以理解的方式,深入浅出地阐述计算语言学的原理和方法,一定会吸引更多的语言学家参加到计算语言学的队伍中,更好地推动我国计算语言学的教学和研究。

2004年我在英国伯明翰大学访问时,在伯明翰市中心的一个书店里偶然发现了Ruslan Mitkov主编的《牛津计算语言学手册》,很快就被它简洁明了、深入浅出的写作风格吸引住了。我觉得这本书就是我多年来梦寐以求的深入浅出的计算语言学著作,非常适合文科背景的语言学家阅读,决心把这本书引进到国内来。

2005年回国之后,我马上找到外语教学与研究出版社的朋友,向他们介绍这本书的价值。他们被我的诚意感动,很快就决定引进这本书,并且与牛津大学出版社商量,双方一致同意合作在国内出版。2009年9月,《牛津计算语言学手册》正式在国内发行。这是一件大快人心的好事!

本书由Ruslan Mitkov教授主编,收录了包括语言学家、计算机专家和语言工程人员在内的49位学者撰写的38篇针对计算语言学主要领域的综述性文章,各章的写作风格力求一致,使得全书前后关联、浑然一体、可读性强。《牛津计算语言学手册》内容丰富、深入浅出,全面地反映了国外计算语言学的最新成果,是我们了解国外计算语言学发展动向的一个窗口,正好满足了我国语言学界学习和了解国外计算语言学的研究成果和最新动态的要求。

本书主编Ruslan Mitkov是计算语言学家及语言工程专家,毕业于德国德累斯顿大学(Dresden University),现为英国伍尔弗汉普顿大学(University of Wolverhampton)教授。他的研究兴趣是回指消解、机器翻译和自动索引,曾于2002年出版过名为《回指消解》(Anaphora Resolution)的专著。著名计算语言学家Martin Kay(马丁?凯伊)为本书作序。Martin Kay是美国斯坦福大学语言学教授,曾任计算语言学会主席、国际计算语言学委员会主席,是国际计算语言学界的领军人物。

二、内容简介

全文阅读

《计算语言学》简评

[摘要]计算语言学是一门横跨语言学、数学和计算机科学的边缘叉学科。《计算语言学》是清华大学中国语言文学系刘颖教授的新作,该书系统介绍了计算语言学的相关理论及计算方法。从方法论视角看,该书对推动语言学或计算语言学学科建设及发展具有重要意义。

[关键词]计算语言学;计算机科学;交叉学科

[中图分类号]G642

[文献标识码]A

[文章编号]1671-5918(2015)13-0122-03

计算语言学(Computational Linguistics)是当代语言学中的一个新兴学科。《计算语言学》是清华大学中国语言文学系刘颖教授的一部新作,由清华大学出版社于2014年9月出版。刘颖教授研究计算语言学、自然语言处理和机器翻译多年,已出版著作四部,发表相关专业论文近六十篇。本书是2002年10月出版的《计算语言学》的修订版本,全书系统介绍了计算语言学的相关理论与计算方法,以及统计语言学与机器翻译的相关理论。近十几年来,国内对于计算语言学的相关著作尤其是系统性介绍的书籍还是为数不多的,许多对计算语言学感兴趣的研究者们迫切需要这样的一本较为全面性的书籍问世。相信本书应该会受到计算语言学界学者及研究者的极大关注。本文首先探讨计算语言学的背景,之后简要介绍该书各章节的主要内容,最后在此基础之上对该书作出简要评价。

一、背景介绍

二十世纪四十年代到五十年代末这段时期可谓是计算语言学的萌芽期。虽然“计算语言学”这个术语概念还未被提出,但是有很多具备先见之明的研究者及学者们就开始从计算的角度来探讨语言现象,揭示语言所具有的数学性。

全文阅读

《系统功能语言学研究群言集(第3辑)》综述、浅析与简评

【摘要】本文是对《系统功能语言学研究群言集(第3辑)》进行的综述、简评和浅析,旨在为系统功能语言学初学者做出本领域较新发展动态的勾勒。

【关键词】系统功能语言学 群言集 综述 简评 浅析

【中图分类号】G644 【文献标识码】A 【文章编号】2095-3089(2014)8 -0036-01

《系统功能语言学研究群言集》是高等教育出版社出版的系统功能语言学研究系列丛书之一, 2013年7月出版第3辑,丛书由黄国文、常晨光等主编。在三辑从书中,共有70多位学者谈了他们对于系统功能语言学的认知、理解、应用、学术方向及研究领域的最新发展,本文着重评价第3辑。

一、总论和代前言

代前言由黄国文教授所著,说明了丛书的主题 “从实践到理论,从教学到科研”。理论与实践的关系在所有学科都会有所涉及,而本辑主要讨论系统功能语言学中理论与实践的关系。理论与实践密不可分,我们是语言的实践者,也是语言理论的运用和凝练者,由实践上升到理论,通过实践证明理论,都是我们在社会活动中必不可少的过程。对于教学与科研的关系,黄教授为从事外语教师职业的群体提出了意见和建议,他认为教学当中遇到了问题就需要科研来做辅助,通过科研解决教学中的问题,一旦有了深入的理 论作指导,就能有理有据、深入浅出的把道理说明。教学与科研相辅相成、相互影响与促进。

二、运用系统功能语言学理论进行翻译实践

文辑中陈博士,把前辈们翻译的《论语》译本逐个进行研究,主要分为适用性、可操作性研究框架的验证和考察不同语言选择背后的原因以及不同译本所传递的不同意义和译本是否完成对中华文化的传承与传播几个主题。《论语》的翻译是学术界、翻译界、国学界的盛事,她的研究对于中国文化向世界的传播与传承都具有重大意义。而王鹏则以出版《与其汉语翻译》而在学术界著名。他认为,系统功能语言学研究注重语言形式之后的意义,这一点与翻译研究的目的不谋而合,从而为翻译研究提供了一个强有力的工具。

全文阅读

中国系统功能语言学三十五年回顾与展望

[摘要]本文主要讨论系统功能语言学在中国三十五年来的、专著出版和论文集情况,以此简要分析和总结中国系统功能语言学所取得的成绩、研究热点和存在的问题,旨在揭示中国系统功能语言学三十五年发展的总体概貌和趋势。

[关键词]系统;功能;数据统计

[中图分类号]G420 [文献标识码]A [文章编号]1671-5918(2015)12-0112-02

一、引言

作为一种普通语言学理论,韩礼德的系统功能语言理论乃20世纪后半叶以来最有影响力的语言理论2;--,其理论的主要构成包括由阶和范畴理论框架发展而成的系统语法和以《作为社会符号的语言》和《功能语法导论》为标志的功能语法。本文主要借助数据统计的手段,讨论系统功能语言学在中国三十五年来的发展历程和现状,以此简要分析和总结中国系统功能语言学所取得的成绩、研究热点和存在的问题,旨在揭示中国系统功能语言学的总体概貌和趋势。

二、1980-2009中国系统功能语言学研究综述

在归纳总结系统功能语言学在中国三十五年发展的历程中,国内学者常将其分为四个主要阶段:(1)70年代后期至80年代末,为介绍引进时期。一些重要的概念和理论被引进国内,如纯理功能、系统、功能、语境、信息结构、衔接与连贯、主位结构和语域等等;(2)80年代末到90年代中期,为应用和评价时期。应用和评价主要集中在对不同类型的语篇进行的主位分析,以及对功能句法的研究上,其中引进的一个重要内容是关于语法隐喻,;(3)90年代中期至二十世纪初,为引进、应用、评价和修正时期。引进的内容主要包括评价分析框架、多模态研究、加的夫语法模式等等;(4)从二十世纪初至今,侧重于理论的应用,尤其多见有关语法隐喻的高质量论文。本文为统计的方便,并未完全遵守这四个阶段的分类,而将其分为四个时期:1980-1989,1990-1999,2000-2009和2010-2014。另外期刊论文数据的来源主要来自CNKI中国知网,而学术专著和论文集则主要引自王红阳的研究成果与读秀中文学术搜索。

(一)期刊情况

全文阅读

再议计量分析法在方言研究中的应用

摘 要: 运用计量分析法研究方言关系已经取得了一定的成果,计量分析结果可以和传统的特征比较法相结合,使得研究更具精密性和科学性。

关键词:计量分析 方言 定性分析

中图分类号:H07 文献标识码:A 文章编号:1003-9082(2016)08-0374-01

方言关系计量分析结合计算机信息处理功能和统计学方法,可用于共时方言亲疏关系、历时方言亲缘关系、方言分区和方言沟通度等研究。其历史可以追溯到上个世纪五六十年代流行的历史语言学分支――语言年代学,创始人是斯瓦迪士。而后,施莱赫尔受达尔文生物进化论的启示,在语言学中最早使用谱系树图来表示语言的分化情况。

20世纪70年代起,方言学界就有学者运用计量分析法研究汉语方言分类问题,比如:郑锦全(1973)利用阴调和阳调的不同调高计算汉语方言差异,陆致极(1986)对闽方言内部差异程度及分区进行了计算机聚类分析。此后,汉语方言关系计量研究先后出现了一些颇有影响的文章和专著:《汉语方言间亲疏关系的计量描写》(陆致极1987),《汉语方言亲疏关系的计量研究》(郑锦全1988),《比较方言学中的计量方法》(马希文1989),《方言关系的计量研究》(王士元、沈钟伟1992),《谈汉语方言的定量研究》(沈榕秋1994),《聚类分析在汉语方言研究中的运用》(项梦冰2015)。郑陆二人通过各方言词汇的对比排列和古音在现代各方音里分化状况的排列,使用“皮尔逊相关”(Pearson)和“非加权平均系联法”(Non-weighted)来计算出词汇、声母、韵母、声调等变量之间的相关系数,并用树形图显示出它们的亲疏关系。郑锦全(1988)采用了平均系联法(Group-average clustering),马希文(1989)介绍了最短系连法(Minimun spanning tree)和主分量分析法(Principal components analysis),并用这些方法对郑锦全的相关系数作了分析。王士元、沈钟伟(1992)提出了分词目计算的方法和计算方言间相关系数的Jaccard计算法公式。总的来说,过去的研究成果首先确立了计量分析法在汉语方言关系研究中的地位和作用,也明确了计量分析在汉语方言关系比较研究中所需要的材料、计量单位以及步骤和方法,同时也讨论了相关系数的计算问题和尝试了不同计量方法的实践研究。

可以看出,用计量分析法研究汉语方言关系可以在一定程度上弥补以往“方言特征比较法”的主观局限性,可以从数据上直观地看出方言之间的相关系数。李如龙(2001):“共时的分类有时应该以一定的数量为界线的,量是区分不同质的依据;历时的演变则往往是量变的积累引起质变的飞跃。这便是现代系统十分重视计量研究的原因。研究语言时重视计量研究这是现代的汉语研究工作的一大进步,但是这种方法还没有得到应有的推广。”

但是不是说定量分析就能解决所有问题,计量分析的结果可以和描写比较的定性分析相结合,使得研究更具精密性和科学性。正如马希文(1989)提到:“数理统计方法所做出的分析总是带有随机性的,不能把它和理论的、逻辑的分析同样看待。在理论研究的预备阶段,统计方法可以用来整理数据,以求发现规律性的东西。在理论研究暂时做不到定量化的阶段,统计方法可以用来作为理论研究的补充。好的、合理的统计方法应该根据理论研究的成果来设计,在反复尝试中逐步确立下来。”项梦冰(2015)也指出:“聚类分析虽然可以给汉语方言研究中的分类工作提供重要的参考,但倘若奉之为圭臬则未免失于偏颇。恰当的分类常常需要在综合考虑各种因素之后在定性和定量之间取得平衡。”

目前,用计量方法研究方言的关系已被广泛应用,见于不少单篇论文和学位论文中,如:《闽方言分区的计量研究》(杨鼎夫1994),《苗瑶语方言亲疏关系的计量分析》(黄行1999),《吴语五地词汇相关度的计量研究》(杨蓓2003),《湖南方言语音相关度计算与亲疏关系聚类分析》(肖双荣2004),《廉江市粤客词汇相似度的计量分析》(邵慧君,秦绿叶2008),《梧州粤语和周边勾漏粤语词汇相似度的计量分析(粟春兵,王文胜,2011),《兴安县城话与周边汉语方言语音亲疏关系计量分析》(邓盼2015),《广州地区粤语的声韵计量分析》(秦绿叶,2015)。学位论文有:《粤西三地粤语客话方言词汇分析计量研究》(秦绿叶,华南师范大学硕士论文,2007),《廉州话与周边粤语客话语音分析计量研究》(梁小玲,广西民族大学硕士论文,2008),《梧州广府粤语方言岛与周边方言词汇相似度的计量研究》(粟春兵,杭州师范大学硕士论文,2012)。

全文阅读

ACL2007会议观感

每年一度的计算语言学学会年会(Annual Meeting ofACL)是计算语言学界的盛会,也是计算语言学和自然语言处理领域最有影响的学术会议,ACL每年发表的论文都反映了这一领域的最新研究进展和学术动向,受到研究工作者的广泛重视。今年的ACL2007是ACL的第45届年会,在美丽而又浪漫的东欧古城――捷克首都布拉格召开,同时召开的有EMNLP-CoNLL 2007和IWPT 2007等2个学术会议(Conference)、15个学术研讨会(Workshop)以及5个专题讲座(Tutorial)。会期从6月23日开始一直持续到6月30日结束,根据ACL2007网站公布的名单,参加会议的人数达到了创纪录的1095人,可谓盛况空前。ACL主会议于25~27日召开,其他各个会议、研讨会和专题讲座都是安排在ACL主会议之外的时间段并行进行的。其中,EMNLP于28~30日召开,持续时间最长。其他研讨会或者专题讲座持续时间半天到两天不等。

今年的ACL会议上共收到论文588篇,录用131篇,录用率为22.3%。各领域论文分布如下:

以上的领域划分比较粗,实际上,会议的Session划分更细一些,包括:机器翻译、词义消歧、句法分析、语言资源、语法、机器学习方法、语音与形态、语义角色标记、生成、多语言、多模态、情感、复述与文本推理、篇章与对话、语言模型、同指、文摘、语义关系、问答、序列处理、词典和词汇语义、文本挖掘与检索。每个Session通常有4篇论文。我们可以看到,其中机器翻译是目前最大的研究热点,安排的Session达4.5个(其中一个Session是和Mukilingualty合并举行的)。而在机器翻译中,统计机器翻译研究又占据了主导地位,纯粹基于规则或者基于实例方法的论文几乎没有。统计机器翻译的文章全面开花,一些传统的基于语言知识的规则方法也开始融入到统计机器翻译研究中,很多论文都试图利用句法结构、句法标记、功能词、词义排歧来改善统计机器翻译的效果。另外,统计机器翻译的一些经典问题,如词语对齐、自动评价、词序调整,依然受到重视。其他一些统计机器翻译研究论文涉及的话题包括解码算法、音译、翻译预处理、系统融合、多语言等。不过,总体上看,这次会议上统计机器翻译论文并没有出现突破性的研究成果。另外,深层次的句法语义分析,也仍然是ACL关心的主要话题,论文数量占了相当的比例,而且,今年的EMNLP-CoNLL重点讨论了依存分析技术,ACL主会议上有专门的Session讨论语义角色标注,另外有一个SemEval Workshop开展了语义分析方面的评测。除此之外,其他几个比较热门的研究领域包括语音与形态、篇章与对话、多语言、多模态、语言模型、机器学习方法、情感等,这些领域分别有两个或两个以上的Session。

这次会议收到的论文来自45个国家,其中亚洲太平洋地区和欧洲各占35%,北美洲27%,中东2%,南美和非洲都不到1%。从被录用论文所占比例来看,北美最高,为46.6%,欧洲是31.3%,亚洲和太平洋地区为16.8%。一些主要的国家和地区论文录用情况如下:

从中我们可以看到,研究实力最强的国家仍然是美国。不仅投稿数量最多,而且录用率也相当高。纯粹从录用率看,新加坡达到80%,是最高的,欧美国家的录用率普遍较高。中国大陆和日本投稿论文数量都很多,但录用率偏低。以中国大陆学者为第一作者的论文一共有6篇,作者单位分别是:微软亚洲研究院(与哈尔滨工业大学合作)、东芝(中国)研究开发中心、北京大学、哈尔滨工业大学(与清华大学、微软亚洲研究院、新加坡国立大学合作)、中国科学院计算技术研究所、重庆大学(与微软亚洲研究院合作)。虽然来自中国大陆本土的论文并不多,不过,会上的中国学者并不少,很多来自世界各地的中国学者以海外研究者的身份发表了论文。从会议录用的论文列表上也可以看到,其中中文姓名的作者占据了相当的比例。在参会的人员中,根据我们自己的统计,来自中国大陆的学者有20多位,而根据会议Newsletter公布的资料,来自中国大陆的学者有31位。海外华人学者人数更多,我们在会上就见到很多来自世界各大著名高校的中国学者。根据大会Newsletter公布的资料,所有参会人员中中文姓名的人数大约在110人左右。记得黄昌宁教授在1998年参加COLING-ACL会议回国后写的一篇介绍文章中还感慨会上很难见到中国学者的身影,如今这种状况已经完全改变。特别可喜的是,一些年轻的中国学者脱颖而出,相信假以时日,中国学者在这一领域的影响必将越来越大。

按照惯例,每次ACL会议都要颁发一个终身成就奖和一个最佳论文奖。本次会议的终身成就奖颁发给了来自Palo Alto Research Center(PARC)的学者Lauri Karttunen,而最佳论文奖颁发给了来自美国德克萨斯大学的一篇论文Learning Synchronous Grammars for Semantic Parsing withLambda Calculus,其第一作者Yuk Wah Wong也是一个华人学者。另外,会议还举办了丰富多彩的各种活动,包括一次招待餐会、一次正式宴会、一次音乐会和多次参观旅游,这些活动都是大家自愿参加,有些是收费的。布拉格是个非常美丽的历史名城,在古罗马时期曾经是欧洲第二大城市,位于波西米亚平原上,盛产水晶。会议召开的时候正值布拉格在举行音乐节活动,各种专场音乐会应接不暇,各种公开场合也有很多露天音乐会,以及一些中小学生的公开表演,让人感觉到浓浓的音乐氛围,体会到音乐已经深深扎根在这个民族的文化传统之中。

另外,除主会议外,同样值得关注的还有同期举行的卫星会议,其中比较重要的是EMNLP-CoNLL 2007。EMNLP(Conference on Empirical Methods in Natural Language Processing)每年召开一次,由ACL关于语言学数据和基于语料库方法的自然语言处理特别兴趣小组SIGDAT资助并主办。本次会议与CoNLL(Conference on Computational NaturalLanguage Learning)联合召开,程序委员会主席是约翰霍普金斯大学的Jason Eisner。EMNLP-CoNLL 2007今年共收到论文398篇,录用109篇(录用率为27%,其中66篇为大会报告论文,43篇为张贴论文),覆盖了机器翻译、问答、文本生成、文本摘要、语义、文档分析等多个研究领域。其中第一作者来自中国大陆学者的论文一共有9篇,作者单位分别是:东北大学(与微软亚洲研究院合作),东北大学(与美国南加州大学合作)、东芝(中国研究开发中心、南开大学(与微软亚洲研究院合作)、中国科学计算技术研究所、中国科学院自动化研究所、微软亚洲研究院、苏州大学(与新加坡12R研究所合作)、清华大学。

总体上,这次会议非常成功。本届ACL执行委员会主席Mark Steedman在会议组织的宴会上做了一个精彩报告,对计算语言学近年来的进展和发展趋势做了一个很好的总结。他说,在2006/2007年间。计算语言学团体变大变强了,最有力的证明就是我们已经有了高可读性、具有实际用途的基于统计方法的阿拉伯语到英语的机器翻译系统,其他一些语言的翻译和其他方面的应用也取得了很大的进展。计算语言学一个好的趋势是和语音研究团体的联系更加紧密了。但也有一个令人担心的现象,就是我们和语言学家变得疏远了。他表示,希望计算语言学能够像物理学一样赢得人们的尊敬。

全文阅读

汉语词汇可懂度计量研究综述

作者简介:王锡B(1990-),女,汉族,贵州遵义市人,文学硕士,单位:伊犁师范学院中国语言学院语言学及应用语言学专业,研究方向:社会语言学。

摘要:本文通过文献的收集、比较对汉语词汇可懂度的计量研究进行了分阶段的述评,揭示了汉语计量研究的发展历程,为用数学解决汉语问题以及计算汉语可懂度的问题提供了依据和理论基础。

关键词:汉语词汇;可懂度;计量研究;综述

一、计量研究简介

功能语言学即社会语言学的出现拓展了语言学的视野,把语言学研究的对象延伸到了句子以外的领域。可以说,功能语言学对语言学的发展在某种程度上是方法论的发展。在这样的前提下,计量方法在语言学中的应用应运而生。计量方法即定量方法,本质上可以说是数学。现代科学如力学、天文学、化学等在发展自己是理论时广泛地运用了数学这个工具,以一些公式来表示自己的定律;在社会科学和人文科学领域里,也引入了数学的方法,比如经济计量学、历史计量学等等;在语言学研究中也已经使用了计量的方法,比如语料库语言学就是计量语言学的一个分支,其他诸如自然语言处理、语言教学、信息检索等方面,人们对计量方法的兴趣也越来越高,数学的方法已经成为语言研究中不可缺少的部分。

计量研究通过量化,即利用数量、频率、比例的统计等来说明各种事实,它以逻辑实证主义为研究基础;以操纵和控制为研究手段;以演绎法为研究方法,是一个分析的过程,具有推断性特点。与我们传统的定性方法相对,但是两者在语言学研究中也互为补充。对其在研究汉语关系方面的应用,特别是在汉语方言间可懂度的研究,笔者主要对上世纪80年代到现今的研究成果作一个综述,以10年为一个阶段,对之进行述评。

二、汉语词汇可懂度计量研究第一阶段(1980年―1990年)

(一)实证研究类

全文阅读