开篇:润墨网以专业的文秘视角,为您筛选了一篇语音识别技术的过程和应用范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!
摘 要:利用语音传递信息是人类最常用,最方便,最快捷的一种方式。人类最常用的传递信息的方式就是声音,随着现代信息化时代的不断发展,人们更加深入的研究语音信号的处理技术,并且由于语音的特殊作用及其重要性,还有其对人们生活的不断深入的影响,使得其十分受关注。语音识别技术就是将说话人的语言转变为计算机可以听懂的语言,语音识别技术的涉及面极广,它涉及到多个学术领域,如计算机科学、语言学、神经生理学、信号处理以及人工智能等。
关键词:语音识别过程;动态时间规整;隐马尔科夫模型;人工神经网络;语音识别的应用
中图分类号:TN912.34
1 语音识别技术基本原理及过程介绍
语音识别系统由语音信号预处理、特征提取、模式匹配三部分构成。第一步预处理,主要有A/D变换、预加重和端点检测部分。经过预处理之后的语音信号,要进行第二步特征提取,该过程就是在原始语音信号中提取出所需要的特征参数,从而得到特征矢量序列,特征提取完成后,接下来就是语音识别的核心,也就是第三步模式匹配,也就是模式识别。系统框图如下[1]。
图1 一般语音识别系统框图
2 语音识别方法
目前,主要的语音识别方法主要有特征参数匹配法、隐马尔可夫法和人工神经网络法。
2.1 动态时间规整
动态时间规整(DTW)是早期的模式匹配方法。由于语音信号是一种随机性非常大的信号,例如相同的字,不同人说时的发音会不同,时间长短也会不同,即便是同一个人说相同的语句,发音结果也会不同,于是,在模式匹配时,要识别字词的时间轴将不断扭曲,以测试模板与参考模板对齐。DTW是一个比较典型的优化问题,它用满足一定条件的时间规整函数W(n)描述测试模板和参考模板的时间对应关系,求解两模板匹配时累计距离最小所对应的规整函数。动态时间规整也存在一些问题,它的计算量大,比较适合同一个人说话语音的识别,而且不能对样本做动态训练,语音信号的时序动态特性并没有很好地利用,所以DTW多用于孤立字词的识别。
2.2 隐马尔可夫模型
隐马尔可夫模型(HMM)是一种统计模型,用来描述随机过程的统计特性。它是由马尔可夫链演变来的。[2]
HMM可用三元组表示:λ=(π,A,B)
A:状态转移概率的集合。
B:观察概率的集合,表示每个状态输出相应观察值的概率。
π:系统初始状态的集合。
这三个元素π,A,B可以分为由π、A描述的Markov链和由B描述的随机过程。
HMM是一种理想的语音信号模型,如今,连续语音识别,非特定人识别系统大多是基于HMM模型的。HMM是对语音序列的时间序列结构建立统计模型的,HMM是数学上的双重随机过程:一个是具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与Markov链的每一个状态相关联的观测序列的随机过程[3]。
尽管马尔可夫模型是一种理想的语音信号模型,但是它还有很多不足。HMM有三个不现实的重要假设,假设一“状态转移的Markov假设”:系统在当前时刻的状态向下一时刻所处的状态转移的状态转移概率仅仅与当前时刻的状态有关,而与以前的状态无关。假设二“不动性假设”:状态与具体时间无关。假设三“输出值的Markov假设”:输出仅与当前状态有关。这三个假设之所以不合理,是因为任一时刻出现的观测值的概率不仅是依赖于系统当前所处的状态,也可能依赖于系统之前时刻所处的状态[4]。
2.3 人工神经网络
人工神经网络(ANN)是在模拟人脑神经组织的基础上发展起来的全新计算机系统。ANN是模拟人类思维中“信息的处理是通过神经元之间同时相互作用的动态过程来完成思维”。ANN是一种非线性动力学系统,它的特点在于信息的分布式储存和并行协同处理。单个神经元的结构简单,但是大量的神经元所构成的神经网络却是一种复杂的网络。ANN更接近于人的认知过程。人工神经网络也存在一些不足,它的训练、识别时间较长、动态时间规整能力较弱并且不容易实现。
3 语音识别的应用和前景
如今的科技领域,几乎每天都有新的技术,新的研究成果出现,而语音识别也是这科技研究的一热门领域,也应用到了人类生活的方方面面。
语音识别的应用非常广泛,语音输入技术的出现,可以使人们通过说话,而非手动输入来作出正确的响应,这样使输入变的更加简单,提高了工作学习的效率。语音识别技术可以应用于汽车,可以使驾驶员用语音指令操纵车载设备,提高汽车驾驶的安全性和舒适性。将语音识别、语言理解与大量的数据库检索和查询技术相结合,就能够实现更轻松的信息查询方式。比如,图书馆的资料信息将能够对来自用户的语音输入进行理解,并将它转化为相应的指令,从数据库中获取结果并返回给用户。这种技术同样可以运用于银行服务、医疗服务等方面。语音识别技术还可以应用于口语翻译,例如,可以让与聋哑人对话的对方带上一个智能语音识别的微型摄像装置,或者给聋哑人带上一种特制的手套,然后,就可以通过语音合成技术和语音识别技术将手语翻译成声音语言,同时,系统还能够完成将正常人的语言翻译成聋哑人的手语,这种口语翻译一种语音输入翻译为另一种语言的语音输出。除此之外,语音识别在军事,航空等领域也有广阔的应用空间。语音识别将不断发展,不断丰富人类的生活。
参考文献:
[1]赵力.语音信号处理第2版[M].北京.机械工程出版社,2009(05).
[2]何彦斌,杨志义,马荟.一种基于HMM的场景识别方法[J].计算机科学,2011(04):254-256.
[3]吕云芳,基于模板匹配法的语音识别系统研究与基本实现[D].天津:河北工业大学,2005.
[4]刘云中,林亚平,陈治平.基于隐马尔可夫模型的文本信息抽取[J].系统仿真学报,2004(03):507-510.
作者简介:张珠瑾(1994-),女,河南濮阳人,本科生,研究方向:计算机科学与技术。
作者单位:郑州大学,郑州 450000