首页 > 范文大全 > 正文

世界最大的自然语言处理和语音技术实验室

开篇:润墨网以专业的文秘视角,为您筛选了一篇世界最大的自然语言处理和语音技术实验室范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

哈尔滨工业大学语言语音教育部-微软重点实验室,以哈工大计算机学院语言技术研究中心为主要依托,由机器智能与翻译实验室、智能技术与自然语言处理实验室、信息检索实验室和语音处理实验室联合组成,由教育部和微软亚洲研究院联合支持并资助。到目前为止,先后有200多名教师和学生加入实验室进行研究工作,是目前世界上规模最大的自然语言处理语音技术实验室

1发展历程

在微软亚洲研究院的成立之初,微软就与哈尔滨工业大学计算机学院开展了密切的合作,为如今深入广泛的合作打下了深厚的基础。

首先,早在2000年6月,哈工大80周年校庆之际,时任微软亚洲研究院院长的李开复博士和任哈工大党委书记的李生教授就对具体合作事宜达成了一致意见。“哈工大-微软机器翻译技术联合实验室”在哈工大校庆期间揭牌,开辟了双方合作之路。合作之初,哈工大方面的合作主体是机器智能翻译研究室,当时约有师生40人。这是微软在中国设立的唯一的机器翻译联合实验室,随后的4年中,双方探讨并尝试了多种合作方式,并将其中成功的合作经验,延续至今。例如:双方首先共同确定培养计划,然后哈工大派遣研究生到微软亚洲研究院实习,由微软亚洲研究院帮助培养;双方互相派遣学者访问,增进了解,互通有无;共同邀请国内外专家学者,举办研讨会,决定研究规划和研究策略;研究院将部分基础性研究,委托联合实验室进行;研究院资助联合实验室一定的相关软硬件等。在这一阶段的探讨中,不仅积累了宝贵的合作经验,而且获得了丰硕的研究成果,具体包括双语(英汉)语料库词汇对齐工具研究、双语(英汉)语料库加工、双语(英汉)语料库自动对齐算法研究、翻译知识自动获取技术研究、便携式实例翻译系统、中英文统计句法分析器等研究课题和项目。而且还培养了一批优秀的研究人员,这是双方合作的第一个高潮。

在2004年6月,基于“哈工大-微软机器翻译技术联合实验室”所做出的成绩以及哈工大在语言语音处理研究方面的研究成果,将已有实验室进一步扩大成为必然。2004年6月4日至6日,时值“哈工大-微软机器翻译联合实验室”成立4周年之际,微软亚洲研究院院长沈向洋博士等一行7人访问哈工大。鉴于过去四年联合实验室取得的成绩,双方一致同意把合作范围从原来单纯的机器翻译进一步扩展到自然语言和语音技术的研究,“哈工大-微软机器翻译联合实验室”的名称也相应地改为“哈工大-微软自然语言处理及语音技术联合实验室”。这是双方合作进一步深入和广泛的明显标志。哈工大的合作主体,也由原来单独的机器智能与翻译研究室扩展到了智能技术与自然语言处理研究室、信息检索研究室和语音处理研究室,这不但丰富了双方合作所涉及的范围,而且也加强了联合实验室整体研究的能力,这种合作框架一直保留至今。同年11月份,经教育部批准,联合实验室被批准为教育部重点实验室,这是我们与微软亚洲研究院合作历史上的里程碑,也是对我们之前合作的极大肯定,联合实验室的合作被提到了新的高度,从此双方合作更加正式规范,重点实验室正式诞生,双方的合作进入了第二个高潮。

在2006年7月,“教育部-微软语言语音重点实验室”深圳分部成立,双方开始共同探讨深入研究的新策略,这是双方合作过程中的一个重大尝试和突破,双方合作日益成熟。

2人员构成与组织结构

“哈工大语言语音教育部-微软重点实验室”现由李生教授(哈工大)、周明博士(微软)总体上负责和规划,并分别担任各方的主任;由王晓龙教授、赵铁军教授、韩纪庆教授和刘挺教授分别主持负责相关研究室的具体工作,担任副主任。为了加强重点实验室的学术研究实力和研究氛围,我们还为此成立了学术委员会,包括微软亚洲研究院洪小文副院长在内的海内外多名知名专家担任委员,极大加强了重点实验室的整体研究实力。

重点实验室现有教师21人(其中教授7人,博导6人),在校博士研究生51人,本部硕士研究生95人,深圳分部40余人以及部分本科生,构成了一个完善的立体的研究体系,重点实验室下设四个研究室和一个分部,分别是:机器智能与翻译研究室、智能技术与自然语言处理研究室、信息检索研究室、语音处理研究室和深圳分部(哈工大深圳研究生院)。其中前四个研究室位于哈工大本部,主要致力于相关方向的科学研究,注重培养研究型人才;而深圳分部,主要侧重于将研究室的研究成果转化为实际应用,偏重培养工程型人才。

3研究内容

重点实验室研究领域广泛,主要集中在语言和语音两个重点上。语言处理方向上的具体研究集中在智能中文信息处理平台设计与搭建,语句级中文输入法模型研究,机器翻译技术、资源、评价的研究,面向互联网的信息检索,问答系统、信息抽取与文本挖掘,自动文摘,词法、句法和语义分析,自然语言生成等,基本上涵盖了自然语言处理研究的各个方面;语音处理的具体研究围绕在顽健语音识别与声控技术,基于语音的信息安全技术和音频信息检索技术等方面。在这些研究领域,重点实验室都投入了大量人力和物力进行相关研究。

其中“短语翻译对评价”由已经毕业的一位博士负责,在其攻读博士学位期间,曾在微软亚洲研究院实习。短语翻译对是指互为翻译的源语言与目标语短语对,通常是从双语句对中获取的。在抽取过程中,仅对源语言句子进行句法分析,以词对齐结果为依据获取源语言短语的译文。由于在抽取过程要受到词对齐工具和汉语句法分析器精度的影响,因而在获取的等价对中会存在着大量的噪声。必须对其进行评价以消除其中的噪声。在抽出的等价对中,其左部是一个包含句法信息的汉语短语,右部是一个英语短语。在过滤中,仅考虑源语言与目标语短语。例如,在判断‘VO[靠/vg 窗户/ng]->near the window’是否为一个正确的短语翻译对时,仅考虑‘靠窗户->near the window’。在对短语翻译对进行评分时,使用了短语译文直译率L(Phc,Phe)、短语对齐概率P(Phc|Phe)和短语长度差异L1,L2,L3,L4为消歧特征对短语翻译对进行评价。同时以这六种消歧特征为基础,使用多种机器学习方法以提高评价的性能,最后通过深入研究,我们取得了比较好的实验结果,完全达到了任务确立之初的要求。

4相关成果

在双方的紧密合作下,重点实验室的研究能力得到了飞速发展,自2000年以来,重点实验室先后承担国家及部委科研项目近40项,其中国家863计划5项,国家自然科学基金重点项目1项,国家自然科学基金面上项目16项,部委项目15项,并且获得省部级科技进步二等奖6项,三等奖5项。特别是在2005年,重点实验室承担的微软基金项目“复述技术研究”,经过加工提炼,获得国家自然科学基金的资助。重点实验室和微软联合申请的基金“语音检索”的国家自然科学基金项目,也得到了微软的资助。近2年内,重点实验室160余篇,其中在IEEE Transactions on Systems, Man and Cybernetics,Bioinformatics等国际期刊上发表5篇论文;在国际人工智能大会IJCAI’2007上发表2篇论文,在国际计算语言学大会Coling/ACL’2006上发表3篇论文,在国际计算语言学大会ACL’2007上发表1篇论文;在国内重要期刊《中国科学》上发表1篇论文。在这些发表的论文中,英文论文达到总量的40%。重点实验室与研究院合作,在SIGIR、IJCAI和ACL等高水平国际会议上联合发表论10余篇。在TREC 问答系统评测中,通过与全球30家参评单位,71个参评系统的角逐,取得了factoid问题评测中排名第五(国内参评单位中排名第一),list问题评测中排名第七(国内参评单位中排名第一)的好成绩。在历年的国家863评测中都取得了骄人的成果,具体包括:2003年文本分类系统获第1名和自动文摘评测第1名;2004年,文本分类系统再次获第1名;2005年,信息检索评测综合指标领先和词对齐第1名。在2005国际SIGHAN汉语分词评测中,由重点实验室提供的ICSU词法分析系统获得微软语料开放测试第一名。2006年9月,重点实验室开始向学术界免费开发共享语言技术平台LTP(Language Technology Platform),该平台是基于XML的文本机内表示LTML(Language Technology Markup Language),目前已经提供了9项自然语言处理关键技术模块,包括分词、词性标注、命名实体识别、词义消歧、句法分析、语义角色标注、指代消解、自动文摘、自动分类等,已有国内外70余家学术机构签署协议,共享了这个平台。这些成绩的获得是我们研究能力不断提高的证明,也是双方成功合作的体现。