开篇:润墨网以专业的文秘视角,为您筛选了八篇语音识别范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!
【关键词】语音识别 模式识别 过程 统功能
1、语音识别技术原理简介
1.1语音识别技术的概念
语音识别技术(Auto Speech Recognize,简称ASR)所要解决的问题是让计算机能够“听懂”人类的语音,将语音中包含的文字信息“提取”出来。ASR技术在“能听会说”的智能计算机系统中扮演着重要角色,相当于给计算机系统安装上“耳朵”,使其具备“能听”的功能,进而实现信息时代利用“语音”这一最自然、最便捷的手段进行人机通信和交互。
1.2语音识别的系统组成
语音识别系统构建过程整体上包括两大部分:训练和识别。
1.2.1训练
训练通常是离线完成的,对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘,获取语音识别系统所需要的“声学模型”和“语言模型”。
1.2.2识别
识别过程通常是在线完成的,对用户实时的语音进行自动识别,可以分为“前端”和“后端”两大模块:“前端”模块主要的作用是进行端点检测(去除多余的静音和非说话声)、降噪、特征提取等;“后端”模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别(又称“解码”),得到其包含的文字信息,此外,后端模块还存在一个“自适应”的反馈模块,可以对用户的语音进行自学习,从而对“声学模型”和“语音模型”进行必要的“校正”,进一步提高识别的准确率。
语音识别技术所面临的问题是非常艰巨和困难的。尽管早在二十世纪五十年代,世界各国就开始了对这项技术孜孜不倦的研究,特别是最近二十年,国内外非常多的研究机构和企业都加入到语音识别技术的研究领域,投入了极大的努力,也取得了丰硕的成果,但是直到今天,距离该技术得到完美解决还存在着巨大的差距,不过这并不妨碍不断进步的语音识别系统在许多相对受限的场合下获得成功的应用。
如今,语音识别技术已经发展成为涉及声学、语言学、数字信号处理、统计模式识别等多学科技术的一项综合性技术。基于语音识别技术研发的现代语音识别系统在很多场景下获得了成功的应用,不同任务条件下所采用的技术又会有所不同。
2、语音识别系统技术实现
语音识别系统选择识别基元的要求是:有准确的定义,能得到足够数据进行训练,具有一般性。系统所需的训练数据大小与模型复杂度有关,模型设计得过于复杂以至于超出了所提供的训练数据的能力,会造成系统性能的急剧下降。
2.1听写机
2.1.1概念
大词汇量、非特定人、连续语音识别系统通常称为听写机。
2.1.2基本架构
听写机是建立在前述声学模型和语言模型基础上的HMM拓扑结构,训练时对每个基元用前向后向算法获得模型参数,识别时将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,用Viterbi算法进行解码。针对汉语易于分割的特点,先进行分割再对每一段进行解码,是用以提高效率的一个简化方法。
2.1.3对话系统
用于实现人机口语对话的系统称为对话系统。目前,受技术所限,对话系统往往是面向一个狭窄领域、词汇量有限的系统,其题材有旅游查询、订票、数据库检索等等。它的前端是一个语音识别器,识别产生的N-best候选或词候选网格,由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器输出。基于目前的系统往往词汇量有限的情况,也可以用提取关键词的方法来获取语义信息。
3、语音识别系统特性
语音识别系统的性能受许多因素的影响,包括不同的说话人、说话方式、环境噪音、传输信道等等。具有自适应性与鲁棒性。解决办法可大致分为两类:针对语音特征的方法(以下称特征方法)和模型调整的方法(以下称模型方法)。前者需要寻找更好的、高鲁棒性的特征参数,或是在现有的特征参数基础上,加入一些特定的处理方法。后者是利用少量的自适应语料来修正或变换原有的说话人无关(SI)模型,从而使其成为说话人自适应(SA)模型。
4、语音识别的应用
语音识别专用芯片的应用领域,主要包括以下几个方面:
4.1电话通信的语音拨号。特别是在中、高档移动电话上,现已普遍的具有语音拨号的功能。随着语音识别芯片的价格降低,普通电话上也将具备语音拨号的功能。
4.2汽车的语音控制。由于在汽车的行驶过程中,驾驶员的手必须放在方向盘上,因此在汽车上拨打电话,需要使用具有语音拨号功能的免提电话通信方式。此外,对汽车的卫星导航定位系统(GPS)的操作,汽车空调、照明以及音响等设备的操作,同样也可以由语音来方便的控制。
4.3工业控制及医疗领域。当操作人员的眼或手已经被占用的情况下,在增加控制操作时,最好的办法就是增加人与机器的语音交互界面。由语音对机器发出命令,机器用语音做出应答。
4.4个人数字助理(Personal Digital Assistant,PDA)的语音交互界面。PDA的体积很小,人机界面一直是其应用和技术的瓶颈之一。由于在PDA上使用键盘非常不便,因此,现多采用手写体识别的方法输入和查询信息。但是,这种方法仍然让用户感到很不方便。现在业界一致认为,PDA的最佳人机交互界面是以语音作为传输介质的交互方法,并且已有少量应用。随着语音识别技术的提高,可以预见,在不久的将来,语音将成为PDA主要的人机交互界面。
4.5智能玩具。通过语音识别技术,我们可以与智能娃娃对话,可以用语音对玩具发出命令,让其完成一些简单的任务,甚至可以制造具有语音锁功能的电子看门狗。智能玩具有很大的市场潜力,而其关键在于降低语音芯片的价格。
4.6家电遥控。用语音可以控制电视机、VCD、空调、电扇、窗帘的操作,而且一个遥控器就可以把家中的电器皆用语音控起来,这样,可以让令人头疼的各种电器的操作变得简单易行。
参考文献:
【关键词】语音识别技术;发展趋势
语音识别是一门交叉学科。语音识别研究经历了50多年的研究历程,经过50多年的积累研究,获得了巨大的进展。特别是近20年来,语音识别技术取得了显着的进步,并逐步的走向市场。在未来的日子里,语音识别技术将应用更为广泛。
一、语音识别技术概述
语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。如今,随着语音识别技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。以语音识别技术开发出的产品应用领域非常广泛,如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等,几乎深入到社会的每个行业和每个方面。
广泛意义上的语音识别按照任务的不同可以分为4个方向:说话人识别、关键词检出、语言辨识和语音识别。说话人识别技术是以话音对说话人进行区别,从而进行身份鉴别和认证的技术。关键词检出技术应用于一些具有特定要求的场合,只关注那些包含特定词的句子,例如对一些特殊人名、地名的电话监听等。语言辨识技术是通过分析处理一个语音片断以判别其所属语言种类的技术,本质上也是语音识别技术的一个方面。语音识别就是通常人们所说的以说话的内容作为识别对象的技术,它是4个方面中最重要和研究最广泛的一个方向,也是本文讨论的主要内容。
二、语音识别的研究历史
语音识别的研究工作始于20世纪50年代,1952年Bell实验室开发的Audry系统是第一个可以识别10个英文数字的语音识别系统。
1959年,Rorgie和Forge采用数字计算机识别英文元音和孤立词,从此开始了计算机语音识别。
60年代,苏联的Matin等提出了语音结束点的端点检测,使语音识别水平明显上升;Vintsyuk提出了动态编程,这一提法在以后的识别中不可或缺。60年代末、70年代初的重要成果是提出了信号线性预测编码(LPC)技术和动态时间规整(DTW)技术,有效地解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。
80年代语音识别研究进一步走向深入:HMM模型和人工神经网络(ANN)在语音识别中成功应用。1988年,FULEE Kai等用VQ/I-IMM方法实现了997个词汇的非特定人连续语音识别系统SPHINX。这是世界上第1个高性能的非特定人、大词汇量、连续语音识别系统。
进入90年代后,语音识别技术进一步成熟,并开始向市场提品。许多发达国家如美国、日本、韩国以及IBM、Apple、AT&;T、Microsoft等公司都为语音识别系统的实用化开发研究投以巨资。同时汉语语音识别也越来越受到重视。IBM开发的ViaVoice和Microsoft开发的中文识别引擎都具有了相当高的汉语语音识别水平。
进入21世纪,随着消费类电子产品的普及,嵌入式语音处理技术发展迅速[2]。基于语音识别芯片的嵌入式产品也越来越多,如Sensory公司的RSC系列语音识别芯片、Infineon公司的Unispeech和Unilite语音芯片等,这些芯片在嵌入式硬件开发中得到了广泛的应用。在软件上,目前比较成功的语音识别软件有:Nuance、IBM的Viavoice和Microsoft的SAPI以及开源软件HTK,这些软件都是面向非特定人、大词汇量的连续语音识别系统。
三、语音识别技术的发展现状
语音识别技术通过全球科学家的共同努力,经历半个多世纪的研究,目前已经发展到了接近实用的阶段。在实验室环境下,大词汇量的朗读式连续说话的宽带语音信号的平均识别率可以达到90%以上。正式有了如此高的识别率之后,语音识别技术慢慢地从实验室演示系统逐步走向实用化商品。以IBM Via Voice和Dragon Dictation为代表的两个听写机系统的出现,使“语音识别”逐步进入大众视线,引起了广泛的社会关注。
由于校对和更正识别的错误很麻烦和浪费时间,这样便降低语音识别的优势。同时,由于使用的环境或讲话口音习惯等因素的影响,语音识别的内容大大降低,识别的内容不能达到100%的正确,所以很多人认为目前的语音识别系统还无法满足实用要求。
目前,AT&T和MIT等将语音识别技术应用在一些有限词汇的特定任务上,如电话自动转接、电话查询、数字串识别的任务中,当讲话的内容是系统所存储的内容存在的,且使用环境的声学特性与训练数据的声学特性相差不太大时,语音识别的正确识别率可以接近100%。但是,在实际使用中如果这些条件被破坏,则会对识别系统造成一定的影响。
我国的语音识别研究一直紧跟国际水平,国家也很重视。国内中科院的自动化所、声学所以及清华大学等科研机构和高校都在从事语音识别领域的研究和开发。国家863智能计算机专家组为语音识别技术研究专门立项,并取得了高水平的科研成果。我国中科院自动化所研制的非特定人、连续语音听写系统和汉语语音人机对话系统,其准确率和系统响应率均可达90%以上。
四、语音识别技术发展趋势
语音作为当前通信系统中最自然的通信媒介,语音识别技术是非常重要的人机交互技术。随着计算机和语音处理技术的发展,语音识别系统的实用性将进一步提高。应用语音的自动理解和翻译,可消除人类相互交往的语言障碍。国外已有多种基于语音识别产品的应用,如声控拨号电话、语音记事本等,基于特定任务和环境的听写机也已经进入应用阶段。这预示着语音识别技术有着非常广泛的应用领域和市场前景。随着语音技术的进步和通信技术的飞速发展,语音识别技术将为网上会议、商业管理、医药卫生、教育培训等各个领域带来极大的便利,其应用和经济、社会效益前景非常良好.
虽然语音识别在过去的20年里有了很大的发展,但是,仍然存在很多的不足,有待于进一步的探索,具体可分为以下几个方面:
1.提高可靠性。语音识别技术需要能排除各种声学环境因素的影响。在比较嘈杂的公共环境中,人的意识会有意识的排除非需要的声学环境因素,这对语音识别系统而言,是很难做到的。另外,在日常生活中,人类的语言常常具有较大的不确定性,比较随意,并带有明显的言语习惯。这同样会给语音识别系统很大的识别麻烦。目前,在提高语音系统在不同环境中的可靠性,同时要应用现代技术让语音识别系统更加智能化,掌握人们语言随意性的部分规律,以达到最佳的识别效果。
2.增加词汇量。系统可以识别的词汇的数量是系统能够做什么事情的一个重要度量。一个语音识别系统使用的声学模型和语音模型如果太过于局限,当用户所讲的词汇超出系统已知的范围时,则语音识别系统不能准确的识别出相应的内容,比如,当突然从中文转为英文、法文、俄文时,计算机就会常常输出混乱奇怪的结果。但是,随着系统建模方法的不断改进、搜索算法效率的提高以及硬件资源的发展,未来的语音识别系统可能会做到词汇量无限制和多种语言混合,这样用户在使用的时候可以不必在语种之间来回切换,这样就能大大减少词汇量的对语音识别系统的限制。
3.应用拓展。语音识别技术可以用于把费脑、费力、费时的机器操作变成一件很容易很有趣味性的事,比如,当人们出现手忙、手不能及以及分身无术的场景时,通过语音识别系统的模型构造,则能够在象驾驶室、危险的工业场合、远距离信息获取、家电控制等各个方面,语音识别技术可能带动一系列崭新或更便捷功能的设备出现,更加方便人的工作和生活。其应用的范围和前景非常广泛。不仅能够应用于日常生活,更重要的会带来生产方式的革命,是下一代智能化控制的基础。
关键词:语音识别; 音频数据;典型的语音识别系统; 特征参数
中图分类号:TP391.42文献标识码:A
文章编号:1004-373X(2010)08-0138-03
Research on Speech Recognition Technology
LI Hong-mei, WU Xiao-qin
(Hainan University, Haikou 570228, China)
Abstract:The speech recognition is a technology which transfers the audio datainto the text or other information form convenient to be disposed bycomputer.The history and situation of development of the speech recognition technology is introduced. The principle of a typical speech recognition system is elaborated.The difficulties existing during the development of the speech recognition technologyare discussed and the solutions are given. The method and process of the speech recognition are analysed.
Keywords:speech recognition; audio data; typical speech recognition system; characteristic parameter
0 引 言
语言是人类获取信息的主要来源之一,是人类与外界交流信息最方便、最有效、最自然的工具,随着计算机技术的快速发展,语音技术的研究也越来越受到重视。人类对语音的研究主要包括语音编码、语音合成、语音识别和说话人辨识等几个方面。
语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,设计到语言学、生理学、心理学、计算机科学以及信号处理等学科。语音识别的目的是为了使机器能够准确地听出人的语音及其内容,以便控制其他设备来满足人类的各种需要,它是发展人机有声通信和新一代智能计算机的重要组成部分。
1 概 述
语音识别[1-2]研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统,它是第一个可以识别英文数字的语音识别系统。但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在20世纪60年代末70年代初。这是因为计算机的发展为语音识别的实现提供了硬件和软件的可能,更重要的是语言信号线性预测编码(LPC)技术和动态时间规整(DTW)技术的提出,有效地解决了语言信号的特征和不等长匹配问题。
实验室语音识别研究的巨大突破产生于20世纪80代末。人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特征都集成在一个系统中,比较典型的是卡耐基美隆大学的Sphinx系统。
20世纪90年代前期,许多著名的大公司如IBM、苹果、AT&T和NTT都对语音识别系统的实用化研究投以巨资。我国的语音识别研究的起步比先进国家晚一点,但是进步很快,成果突出。
2 语音识别系统原理
语音识别系统大体上可以划分为:孤立语音和连续语音识别系统、大词汇量和小词汇量语音识别系统、特定人和非特定人语音识别系统。
不同的语音识别系统,尽管设计和实现细节不同,但所采用的基本技术是相似的。一个典型的语音识别系统基本原理框图如图1所示。
图1 典型的语音识别系统基本原理框图
从图1可看出,语音识别系统包括预处理、特征提取、模型的训练和匹配、后处理等几个部分。下面分别介绍这几个部分。
2.1 预处理
预处理对输入的原始语音信号进行处理,滤除其中不必要的信息及噪声等,并进行语音信号的端点检测,即判定语音有效范围的开始和结束位置,并进行语音分帧和预加重处理等工作[3]。
2.2 特征参数提取技术
特征提取负责计算语音声学参数,提取出反映信号特征的关键特征参数。特征参数的提取是关系到语音识别系统性能好坏的一个关键技术,合理地选择特征参数不仅对系统的识别率有很大的提高,同时对系统的实时性能也至关重要[4]。
特征提取的目的是对原始语音信号进行处理,计算语音信号对应的特征参数,主要包括以下几个步骤:
(1) 采样与量化。
首先将模拟语音信号s(t)以采样周期T采样,将其离散化为S(n)。采样周期的选取应根据模拟语音信号的带宽(根据奈奎斯特采样定理确定),以避免信号的频域混叠失真。对离散后的语音信号进行量化处理过程中会带来一定的量化噪声和失真。
(2) 预加重处理。
对输入的原始语音信号进行预加重,其目的是为了对语音的高频部分进行加重,增加语音的高频分辨率。一般通过一个传递函数为H(z)=1-αz-1的滤波器对其加以滤波。其中:α为预加重系数且0.9
Иy(n)=x(n)-αx(n-1), 0.9
(3) 分帧与加窗。
语音具有短时平稳的特点,通过对语音进行分帧操作后,可以提取其短时特性,从而便于模型的建立。然后将每帧信号用某种窗相乘,以减少帧起始和结束处的信号不连续性。常用的加窗函数有汉明窗和汉宁窗。
(4) 特征参数计算。
实践证明有效的特征参数有线性预测编码(LPC)系数,线性预测编码倒谱(LPCC)系数和Mel频率倒谱系数(MFCC)。
[关键词]语音识别系统;差异性;指标需求
一、引言
语音作为语言的声学体现,也是人类进行信息交流最自然、和谐的手段。与机械设各进行语音的沟通,让机器可以明白人类在说什么,并理解这是人类长期的梦想。语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
二、语音信号分析与特征提取
1.基于发音模型的语音特征。(1)发音系统及其模型表征。其发声过程就是由肺部进行收缩,并进行压缩气流由支气管通过声道和声门引起的音频振荡所发生的。气流通过声门时使得声带的张力刚好使声带发生比较低的频率的振荡,从而形成准周期性的空气脉冲,空气脉冲激励声道便会产生一些浊音;声道的某处面积比较小,气流冲过时便会产生湍流,会得到一种相似噪声的激励,对应的则是摩擦音;声道完全闭合并建立起相应的气压,突然进行释放就是爆破音。(2)语音信号线性预测倒谱系数。被广泛应用的特征参数提取技术的就是线性预测分析技术,很多成功的应用系统都是选用基于线性预测技术进而提取的LPC倒谱系数作为应用系统的特征。LPC倒谱就是复倒谱。复倒谱就是信号通过z进行变换以后再取其对数,求反z变换所得到的谱。线性预测分析方法其实就是一种谱的估计方法,所以其声道模型系统函数H(z)反映的就是声道频率激励和信号的谱包络,对IHg(z)作反z变换就可以得出其复倒谱系数。改复倒谱系数是依据线性预测模型直接获得的,而又被称为LPC倒谱系数(LPCC)。
2.基于听觉模型的语音特征。(1)听觉系统模型。一是人类的听觉系统对于声音频率高低和声波实际的频率高低不是线性的关系,它对不同声音频率信号的敏感度是不一样的,也可看成是对数关系。二是关于掩蔽效应指的就是声音A感知的闭值因为另外的身影的出现出现增大的现象。其生理依据主要是频率群,对频率群进行划分会出现许多的很小的部分,每一个部分都会对应一个频率群,掩蔽效应就发生在这些部分过程中。所以在进行相应的声学测量时,频率刻度一般取非线性刻度。语音识别方面,主要的非线性频率刻度有Mel刻度、对数刻度和Kon~nig刻度。其中Mel刻度被广泛的应用,其是最合理的频率刻度。(2)语音信号Mcl频率倒谱系数。Mel频率倒谱系数利用人们耳朵的听觉特性,在频域将频率轴变换为Mcl频率刻度,再变换到倒谱域得到倒谱系数。MFCC参数的计算过程:
一是对语音信号进行相应的预加重,从而确定了每一帧的语音采样的长度,语音信号通过离散FFT变换得到其频谱。二是求频谱幅度的平方,得到能量谱,并选用一组三角滤波器在频谱域对能量进行带通滤波。带通滤波器中心频率一般是按照Mcl频率刻度排列的(间隔为150Mel,带宽为300Mel),其每个三角形滤波器的两个底点频率和相邻的两个滤波器的中心频率相等,频率响应之和为l。滤波器的个数一般和临界带数比较相近,设滤波器数是M,滤波后得到的输出为:X(k),k=1,2,…,M。
本方案主要由电话机芯片CD802加语音识别录放模块JT802构成。
CD802的专业性、成熟性保证了此电话机的档次和品质。
而JT802的特异化功能则会满足高端用户对电话机的易用性、智能化、人性化的需求,从而大大提升产品的附加值。
2、主要功能特性:
(1)电话机的全部基本功能。
(2)语音拨号功能:说对方的名字就可接通对方电话。名字与电话的对应关系存储于长达60人的语音电话簿中。此功能免去用户记电话号码和翻查电话本的麻烦。
(3)来电报名报号功能:来电号码在语音电话簿中有记录,则会报出来电者的姓名。此功能使用户不会漏接重要电话,也可拒接不想接的电话。
(4)电话录音功能:与人通话时,重要信息如电话号码、地址等,可以随时录下。录音最多3段、每段20秒。此功能免去用户接电话时找纸找笔的麻烦。
(5)12种特性铃声功能。
(6)200组来电查询,100组去电查询,长达150人的普通电话簿(区别于语音电话簿。
(7)欧美流行的Baby Call功能。
3、主要优势:
与其它准备推广的语音识别拨号电话相比,我们的优势在于:
(1)声控部分增加了电话录音/回放功能、来电报名功能;
(2)电话机部分更专业、更成熟,功能也更多,更贴近电话用户的需求。
【关键词】语音识别技术;语言实验室
语音识别技术是使用计算机能识别和理解的语言,把语音信号转变为相应的文本或命令的过程。语音识别是一门涉及到语音语言学、信号处理、模式识别、人工智能的多学科交叉技术,也是2000年至2010年间信息技术领域十大重要的科技发展技术之一。随着语音识别技术的发展,在传统的数字化语言实验室中其可以作为一种新的外语辅助教学的手段,完善现有的数字化语音室的功能。
一、语音识别技术
语音识别技术是一种让计算机能够听懂人的语音命令的技术。对使用者来说,这种人机交互的途径是最自然的一种方式。早在三四十年前,美国的一些大学和实验室就开始了语音识别技术的研究,50年代的AT&T Bell实验室研发的Audry系统第一个实现了可识别十个英文数字。60和70年代,提出了线性预测分析技术(LP)等相关理论并深入研究,创造出可以实现特定人孤立语音识别系统;80 年代和90年代是语音识别技术应用研究方向的,HMM 模型和人工神经元网络(ANN)的成功应用,使得语音识别系统的性能比以往更优异;伴随着多媒体时代的来临,微软,Apple 等著名公司都研发出相当成功的商业应用语音识别系统,比如,Apple的Siri系统,微软的Phone Query(电话语音识别)引擎等。近二三十年来,语音识别在交通、军事、工业、医学等诸多方面,特别是在计算机、通信与电子系统、信息处理、自动控制等领域中有着非常广泛的应用。目前,语音识别技术产品在人机交互应用中己经占到越来越大的比例。例如,在声控应用中,计算机可识别输入的语音内容,并根据内容来执行相应的动作,这包括了声控语音拨号系统、声控智能玩具、医疗服务、宾馆服务、家庭服务、股票查询服务和工业控制等。也可用于基于微型机的办公、教学、娱乐等智能多媒体软件,如语言学习、教学软件、语音玩具、语音书籍等。语音识别技术作为语音控制的主体,在应用领域中正成为一个具有竞争力的技术。
语音识别的开发平台现已逐步成熟,在windows下有微软的SAPI语音识别开发平台,在Unix/Linux下有IBM的ViaVoice和开源的Xvoice开发平台。它们都是相当优秀音识别开发系统,提供了良好的开发接口,使语音识别应用程序开发能够不需要对现有系统做大规模的修改,以较少投入、较短周期、以组件方式加入到当前的语言实验室中。
二、语音识别技术在语言实验室中的应用
1.有声图书
可以将一些由外籍专家录制的有声图书加入到语言实验室的资料库中。标准的美式或英式发音,结合文本,逐字逐句的朗读,让学生可以在阅读英语图书的同时聆听到原汁原味的英语。所有图书都支持自动播放,可以一次听完整本书,学生也可以选择单独播放某个句子,并鼓励学生模仿标准的语音语调朗读图书。从而对学生的阅读、听力、口语进行全方位的提高。
2.口述作文
影响语音识别系统辅助学生口述作文的最为关键技术是识别率和纠错能力,从某种意义上说,只要这两个关键的技术得到了提高,则其辅助写作的有效性就会得到较大提高。近几年,随着多媒体技术和人工智能技术的进步,不仅语音识别系统的识别率得到很大提高,而且多语言的语音识别产品也大为丰富。目前国际商业机器(IBM)公司推出的语音识别软件具有非特定人,无限词汇量,连续语音识别,高识别率,专业文章智能分析、理解等强大的语音功能。该软件通过对个人话语进行测试与分析来适应说话者,适应后的语音识别正确率可以达到95%以上。与过去相比,其识别率提高了很多,已经完全可以接受。语音识别系统除了识别率目前已有很大提高,其智能纠错能力也大为提高。一是纠错的操作更加方便和容易,目前的语音识别系统,可以有三种纠错方式:①通过键盘输入方式;②系统智化地产生错误词的相近词列出,供修改者选择;③还可以通过重读来纠错。二是通过纠错,可让语音识别系统更进一步地熟悉说话者的声音,而非常有效地提高系统识别率。随着信息技术的迅速发展,今后的语音识别系统必将是功能更加强大,智能化程度更高,兼容性更强,抗噪音能力更强的系统,其辅助口述作文的有效性也会更强。
3.英语口语纠正系统
语音识别技术的应用使得软件可以具有发音评测的功能,能够帮助学习者及时发现和纠正发音的错误,避免重复错误形成习惯,从而极大提高了学习者的学习效率。英语口语学习中语音识别技术遇到的难点主要有:①语音识别选取基元的问题。一般地,欲识别的词汇量比较多时,所用基元应该越小越好;②端点检测。语音信号的端点检测是语音识别的关键。据研究表明,即便是在安静的环境下,语音识别系统也会有一半以上的识别错误源自端点检测器。提高端点检测技术的关键所在是寻找稳定的语音参数;③找出反映发音质量的性能指标。主要是对发音段(指一段发音的语速、韵律、语调以及重音等)的研究;④对给定的发音进行错误检测和纠正,寻找合理的评分机制。
由于语音识别在理论与技术方面的复杂性,现有的口语纠正软件仍有很大限制范围,但随着语音技术的发展相信其在外语语言学习中的应用会越来越广泛。
三、结束语
语音识别技术作为一种逐渐成熟的计算机技术,是计算机辅助外语教学中的一种重要虚拟现实手段。而人机交互是数字语音室的一个发展方向,也是外语网络教学的核心内容。所以,语音识别技术会是未来语言实验室的建设中的一个重要方向。
参考文献:
[1]夏晴.ARS和TTS技术在外语口语教学中的应用研究[J].外语电化教学,2006(2)
[2]周英.语音识别技术发展趋势的分析[J].计算机光盘软件与应用,2012(19)
[3]孔菊芳.基于语音识别技术的英语学习网站分析[J].哈尔滨职业技术学院学报,2012(5)
关键词:语音识别;CHMM模型;特征参数选择
中图分类号:TP391.4 文献标识码:A
1 引言
在语音识别的三大算法中CHMM算法的高识别率是以大计算量和大存储量为代价的,在基于嵌入式技术的语音识别系统或具有较强实时性要求的语音识别系统等特殊情况下,系统的资源和计算能力往往受到较大的限制,在保证一定识别率情况下减少识别算法对系统存储与计算资源的需求,具有重要意义。而语音识别系统的性能与系统所采用的特征参数密切相关,这就为我们利用特征参数的选取来实现系统识别性能与计算资源需求之间的折衷处理成为可能。目前,有很多文献做了各类特征参数对识别效果影响程度的研究工作,却没有讨论同一种类参数分量的问题;则通过对相邻分量的组合,用实验结果说明了MFCC分量的相对重要性,但他们都仅用实验结果加以说明,缺乏理论分析。
本文从CHMM模型的特点出发:一方面从理论上给出了选择特征参数的数学依据,另一方面提出根据特征参数对系统误识率的影响程度,选择特征参数的方法。
2 基于CHMM模型特征参数选择的理论分析
CHMM的Gauss概率密度函数的协方差矩阵本来应该是对称的满矩阵,为了降低对计算复杂度和存储量的要求,一般简化为对角矩阵。采用对角协方差阵使模型的参数减少,也有利于避免因训练样本不足而影响模型参数估计的可靠性。而且实验结果表明,概率密度函数的个数较多且取对角协方差阵的方案优于概率密度函数较少且取满元协方差阵的方案。所以,实际中一般使用具有对角协方差阵的Gauss概率密度函数。CHMM计算
的特征矢量。通常,人们使用MFCC+AMFCC或LPCC+ALPCC作为特征矢量,即将MFCC、AMFCC、LPCC、ALPCC作为整体来处理。需要注意的是MFCC和LPCC虽然分别有其完整的物理意义,即Mel刻度听觉参数的同态变换系数和声道参数,将他们的各个分量独立考虑会破坏其物理意义的完整性,但在基于对角协方差阵的CHMM的模型中,各个分量相互独立,从而使得我们可以根据各个分量的重要性来选择分量,构成特征矢量以减少计算量。另一方面,由于舍去的是对误识率影响较小的分量,所以系统的识别效果不会显著改变,从而充分有效的利用了特征矢量的区分特性。在减少计算量的同时,保证了识别率。
3 CHMM算法计算量与存储量的分析
3.1 MFCC、AMFCC求取
目前,在语音识别系统中,最常用就是具有较好抗噪性能的MFCC+AMFCC参数。其求取步骤为:1)对预处理后的每一帧语音信号先进行快速傅里叶变换以获得频谱分布信息2)然后将频域信号通过一组三角滤波器,中心频率在Mel刻度上均匀分布3)求出每个滤波器的输出对数能量4)对其进行离散余弦变换得MFCC5)对MFCC求差分得AMFCC
3.2 计算量与存储量的分析
设CHMM模型采用N个状态、M阶混合Gauss概率密度函数的Markov链;特征矢量维数为n;训练数据为l遍语音数据,为方便表示设每遍语音数据帧数为T,模型库容量为R。训练:①每次参数迭代前计算
数下降N*M*T*R*K次;模板库中Gauss概率密度函数参数个数减少N*M*R*2*K个。
4 实验及其结果分析
实验数据:6个女性发音,0~9十个数字,每个数字发音50次,其中30次用于建立CHMM模型;实验模型选择:采用六个状态的从左到右的无跨越的4阶混合Gauss概率密度函数的CHMM模型,端点检测方法选择经典的双门限方法。
实验Ⅰ 在MFCC+AMFCC中去掉某一分量找到对误识率影响较大的分量(见表1)。
实验Ⅱ 在MFCC+AMFCC中去掉对误识率影响小的分量,找到最佳(见表2)。
从实验结果可以看出,在CHMM模型上采用MFCC1、MFCC2、MFCC4、MFCC5、MFCC7、MFCC8、MFCC10、MFCC11、MFCCi(i≠11)组成19维的特征矢量,系统的误识率仅上升2.75%,即系统的识别率仍有95.75%,可以满足实际需要。而模板库参数个数下降2400个;同时在训练中N(U,σ2)的计算次数减少了41,834,880*K次(K为迭代次数);匹配时N(u,σ2)的计算次数减少1200*T次(T为待识语音帧数)。实验结果表明:与常规的24维MFCC+MFCC相比,选择其中对识别率贡献大的主要分量构成的低维特征矢量,系统在训练、识别过程中N(u,σ2)的计算次数和模板库参数个数明显下降,而系统误识率仅略微上升。
5 结论
上周文章我明确提出阶段看多的观点,并建议积极参与反弹行情,本周上证指数上涨超过百点,同时我明确看好的板块是食品饮料行业的龙头股,本周白酒龙头股贵州茅台(600519)创出历史新高,五粮液(000858)也创出阶段反弹的新高,乳制品龙头伊利股份(600887)、肉制品龙头双汇发展(000895)均创出反弹的新高。尤其是高价股的代表贵州茅台,虽然创出历史新高,但估值却仍然比较合理,限制三公消费后,贵州茅台的品牌力开始显现,公司无论是销售收入还是净利润都与曾经的白酒龙头五粮液拉开了距离,贵州茅台龙头地位进一步巩固。上周的判断被市场完全验证,站在目前的时点上,我的观点是反弹刚开始,下周会延续反弹的基调。
分级别来看,无论是5分钟级别还是30分钟级别都处于向上反弹的过程中,丝毫看不到反弹结束的迹象,如果本轮反弹结束起码在日线上会形成一个顶分型,现在完全是上涨过程,没有形成顶分型的迹象,接下来就是观察这个日线顶分型的形成,形成后会有一个回调的过程,回调结束还会有一波上冲,此时根据这波上冲的力度方能判断这波反弹行情是否结束,在这之前安心持股即可。
如果按照我的提示在本轮反弹前买入股票并享受了本周反弹的投资者,大可以继续持股等待卖点的出现,如果是还没有买入的投资者,我的建议是买入超跌的二线的食品饮料类以及滞胀的医药类个股,在一线食品饮料股拓展出上涨的空间后,二线的股票因为弹性更大,如果前期没有跟随市场上涨,后续补涨的概率较高,简单举例比如三全食品(002216),作为速冻食品的龙头股,公司目前的规模属于食品饮料的二线品种,前期股价超跌,4月份公司的非公开增发计划得到证监会的通过,定增价格最新调整为10.14元,而目前公司股价仅8元出头,如果公司想增发成功,必须在定增机会被证监会通过后半年内也就是要在今年10月份之前完成增发,那么上市公司维护股价的意愿将很强,股价回到10.14元以上将是公司能够成功定向发行的关键。
“互联网女皇”玛丽・米克,本周三了2016《互联网趋势》报告,这也是玛丽连续21年此类报道,今年的一个最大亮点是米克认为语音应该是最有效的计算输入形式,因为对于消费者而言,语音可以快速沟通、简单方便、个性化并且无需键盘。在语音识别率方面,目前包括百度、谷歌等主流平台在单词语音识别准确率方面都已经超过90%,国内像科大讯飞、云知声等智能语音识别企业普遍识别率也都在96%以上。百度首席科学家吴恩达指出,假如语音识别准确率从95%上升到99%,所有人都会从现在的极少使用转变为一直使用。语音识别能够解放双手和眼睛,有望成为互联网新的入口,目前在美国,安卓上语音搜索占了20%,而国内百度上语音搜索占了10%,而且份额还在扩大。具体到A股市场上明确受益的语音识别龙头是科大讯飞(002230),建议投资者关注。