首页 > 范文大全 > 正文

语言识别技术的现状及应用

开篇:润墨网以专业的文秘视角,为您筛选了一篇语言识别技术的现状及应用范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要

如同人与人之间的相互对话那样,用语音对设备、机械等发出控制命令和信息,这不仅对于从事计算机的工作者,而且对于普通的人们,也曾是一个令人神往的梦想。近些年来,由于集成电路技术、数字信号处理技术和图形识别等技术的不断取得进展,语音识别技术也在长足地向前发展。如今,以声音为输入信号的自动控制系统已在不少场合开始得到应用。

【关键词】特点 方法 现状 应用

1 语音识别的优点和方法

直接用语音作为输入控制信号方法具有许多优点:对人来说,作为最自然的输入控制信号的手段,不必进行特殊的训练;信息的产生速度较快,一般为键盘输入方法的2~4倍;操作者在用眼和手共同进行其它作业的同时能输入信息;操作者能边走动边输入信息;能远距离用电话输入;可以省略键盘、发光字母读出器等中间输入设备;即使在某些紧急的场合,也能在转瞬之间投入使用。

说明语音识别的方法,应首先从语音的分析谈起。语音大体上包含着两种信息:即具有一定含义的信息和发音者固有的信息。前者的识别处理称为:“狭义声音识别”,而后者的识别处理则叫作“发言人辨认”。

在声音频谱中,能量集中的频带称为共振峰。共振峰频率随着发音者性别及其他条件的不同而变化。分析输入的语音,找出其特征是语音识别的第一步。

识别输入的语言是语音识别的下一步。对此在“单词识别”和“单音识别”两种方式。前者是在识别装置内设有以单词为单位的模拟型词汇标准,进而选出与输入语音最类似模式的方式。后者的方式是在识别装置内设有以此单词低次的单音、音节为单位的模拟型标准,将输入的语音按单音的不同进行变换,再进行单词的识别。

单词(单间)与单词(单音)之间是否有间隔,这是语音识别技术要考虑的一个重要问题。“离散话音”指的是在单词间有200毫秒左右时间间隔的输入方法。还有所谓“连续会话”方式,其作为识别对象的是多个单词连续一气讲出的语句,相应的识别处理将较复杂一些。

另外,讲话人是否受到限制的问题,对语音识别装置来说,在技术上和造价方面都是必须考虑的。所谓“特别指定说话人”识别,就是将识别对象的全部单词,经数次练习预先进行话音输入,使之在装置中存储发音人个人所特有的单词模式,使用时将输入的语音与比单词模式进行比较而加以识别的方式。这种方式以比较简单的识别处理就能得到较高的识别率。还有“可更换发音人”的识别方式,它是预先用多人的语音信号瞬时值作成标准模式,这样在更换了发音人、口音有所差异的情况下,识别装置也能进行正确的识别。

语音识别的最高发展阶段是识别人们以普通速度讲的会话语言。众所周知,一般人的会话中包含着无意义用语(口头语),因此要一字一句地准确识别人的普通会话语言是极难的。作为解决方法,产生了被称之为“语音理解”的新概念:就是将输入的语音中所包含的冗余信息(方言、单调等)进行引用,作为理解输入信息内容的近似方法,而不要求一定将输入语音逐一正确地加以识别,这是与其它的语音识别方式根本不同的。采用此种识别方式的语音识别装置作文章理解系统,它在声音打字机和口语自动翻译等方面可得广泛的应用。

2 语音识别技术的现状

按功能分类,语音识别装置有数据输入型、自然口语输入型和发音人辨认三种。

2.1 数据输入型

语音识别装置首先在美国开始实用并最早出现商用产品的,现在实用的语音识别主要采用的还是对专人的并基于以单词为单位的离散信息的识别方式,识别率达99%以上,适用于识别语句较少而且在较肃静的室内场合使用。作为一般用户为对象的(例如:旅客问询)系统,则要求使用“可更换发音人”方式的语音识别装置。

2.2 自然口语输入型

对于自然口语输入型的语音识别,美国国防部作为ARPA计划,进行了大量的研究工作。在日本也以电子技术综合研究所为中心,作为图形识别研究大型计划的一环进行了研究。目前已有声音打字机那样的应用。

2.3 发音人辨认

“发音人辨认”是语音识别最完善的方式。由于不同的发音人在发同一语音时,可以产生有显著差别的声学图案,这种差别便体现了个人的特征。人的听觉区别个人特征的能力是很强的。目前用电子设备辨认发音人常用的简便方法是:检出语音基频随时间变化的图形作为辨认的依据。它的应用前景是相当广泛的,比如用存储某人的语音代替签字(有人称之为“声纹”)进而利用电话等实现远距离的身分确认将成可能。

3 语音识别在铁路系统的应用

语音识别装置按应用分类:有控制、指令型,利用电话(包括无线电话)型,OA(事务自动化)应用型和“发音人辨认”型等。

3.1 有控制、指令型

在控制、指令型的应用方面,采用“专人”语音识别装置可以进行选排调车进路、调车机车的无人驾驶、行包自动分拣等;采用“可更换发音人”的语音识别装置可以实现自动售票、行包受理和列车紧急停车等。

3.2 利用电话(包括无线电话)型

在利用电话型的应用方面,采用“专人”语音识别装置可以进行在危险处所工作的机械操作(高空作业等)、火车司机的模拟训练和列车到发时刻通知等;采用“可更换发音人”的语音识别装置可应用于指定票(指定乘车日期和车次的车票)发售情况的问询和预约及列车运行情况问询。

3.3 OA(事务自动化)应用型和“发音人辨认”型

在OA型应用方面,适用于编制口述程序、语音打字机、图书及文献的检索等。

例如在车站上的调车作业中,以往是按照作为高度作业指挥者的调车员的指示,由扳道员(电气集中车站是由信号楼的信号员)扳道岔来办理进路的。若将站内联络用的无线通信设备附加选路用的语音装置,则可由调车员在站内任意地点直接指挥进行调车作业。

再比如利用主意控制的电磁客票预售自动化系统,在国外也已使用。这样在一些预定将来也不设置“绿色窗口”(售票窗口)的沿线小站上,可通过联机的形式向旅客发售指定票。站务员按旅客的要求,只要用电话以语音输入的方式向售票中心站申请发售指定票,当得到由中心站发出的确有该指定票座席的话音应答之后,站务员即可向旅客发售指定票。

语音识别技术作为一门成熟的技术,已进入实用化阶段,应用范围也越来越来广泛,随着电子技术的飞速发展,它的技术将越来越成熟,应用领域也将不断地扩大,从而更好的服务于各行各业。

参考文献

[1]高新涛.语音识别技术的发展现状及应用前景[J].甘肃科技纵横,2007.

[2]马志欣.语音识别技术综述[J].昌吉学院学报,2006.

作者单位

湖南化工职业技术学院 湖南省株洲市 412011