首页 > 范文大全 > 正文

语音信号处理征提取方法研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇语音信号处理征提取方法研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

【摘要】 语音特征提取的常用方法有LPCC、MFCC、PLP等,这些方法都是基于语音信号短时平稳的特性。利用二次特征提取可以通过对原始特征实施加权、微分、组合、筛选进一步提高识别率。本文介绍了语音识别和说话人识别征提取的常用方法以及最新发展,最后介绍了Hilbert-Huang这一新兴理论成果以及在特征提取中的应用。

【关键词】 语音识别 说话人识别 特征提取 二次特征提取 HHT

语音信号处理是二十世纪至今发展最为迅猛的研究领域之一,其主要任务是利用信号处理技术研究语音信号,建立和谐的人机交互通信。语音识别和说话人识别是语音信号处理中两大重要分支,两者的处理过程基本相似,都可大致分为特征提取和模式匹配两大过程,其征提取这一关键技术对提高识别率来说有着至关重要的作用。

当今国内外有很多文献对语音处理特征提取的各种方法进行了详细的说明,其中有对常规方法的推陈出新,也有新理论的研究成果。本文针对这一现状总结性的介绍了语音特征提取的一些主要方法,对其结果进行比较,并对HHT这一新起的数字信号处理方法在语音特征提取中的应用作了相应的介绍。

一、语音信号处理过程

对语音信号进行数字处理时,第一环节是预处理,主要有A/D变换、预加重和端点检测(也称去静音)部分。预处理的目的是为了后续的特征提取步骤能够更加清晰、可靠的分析语音段,提取语音或者是说话人的特征。在很多文章里把预处理过程划分到特征提取这一部分中,也可以说它是特征提取的准备阶段。检测到语音的起止点后,就开始对语音信号段进行分析处理。特征提取的主要作用是从语音信号段中提取出对识别有用的信息,去掉无关的冗余信息。特征提取完成后,在此基础上建立识别所需的模板。而计算机在识别过程中将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入的语音匹配的模板。然后,据此模板的定义,通过查表就可以给出计算机的识别结果。以上为完整的识别系统的全过程,图1给出了一般语音识别系统框图,同样的过程也适应于说话人识别。

二、语音识别与说话人识别特征提取异同

语音识别系统根据识别对象的范围可以大致分为非特定人识别和特定人识别系统两种。目前语音识别和说话人识别特征提取的主流方法很多都是一致的。事实上说话人识别当中采用的特征和建模方法大部分都是从语音识别中借鉴而来的,比如常用的LPCC和MFCC特征参数在语音识别和说话人识别上都有应用。但两者还是有本质上的差别,主要原因是语音识别和说话人识别在何种“有用特征”的提取上存在着很大的不同。对于语音识别中的非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个体特征;对于说话人识别来说情况正好相反,需要提取的特征尽量包含说话人呢个性差异,而减少共性的语义信息;对于语音识别中的特定人识别,却既需要提取的特征包含共性的语义信息也需要个性的人为差异。介于最终目的不同,特征提取的内容也存在差异。

三、特征提取的研究进展

常用的语音特征有常用的特征包括:短时平均能量或幅度、短时平均过零率、短时自相关函数、线性预测系数、基音频率、短时傅立叶变换、倒谱、共振峰等。经典的特征提取方法主要有LPCC(线性预测倒谱系数)、MFCC(美尔频率倒谱系数)、HMM(隐马尔科夫模型)、DTW(动态时间规整)等。

3.1 常规方法分析[4]

LPCC是基于声道模型,它是目前应用最多的一种倒谱特征提取方法。线性预测系数LPC用线性预测法分析语音信号相邻样值之间的关系,得到一组相关的参数。由此语音特征派生的声学特征还有线谱对LSP、PARCOR系数(反射系数)、对数面积比系数等。LPCC为LPC的倒谱参数,它的原理和计算都较为简单,容易实现。计算的快速有效使得现在的很多商用化的语音识别系统都是用LPCC作为特征提取方法的。

基于人类听觉模型的MFCC,它所采用的mel频率是人耳听到声音的高低和实际频率的非线性性映射得到的一个频率尺度。MFCC是继LPCC之后语音识别领域中又一大创新理论。相比于LPCC它的识别性能有明显的改进,只是计算量大于LPCC,用 C 语言在计算机上做模拟时其运算时间是LPCC 的近十倍。由于它是一种基于听觉模型的特征提取方法,在有信道噪声和频谱失真的情况下,仍具有较高的识别精度,特别是对噪声情况下的识别具有一定的鲁棒性。更随着DSP技术的发展以及它对FFT计算的支持,使得MFCC的参数提取速度也很快。

结合LPC与MFC的后来提出的一种特征提取的方法PLP(感知线性预测参数),用durbin法计算LPC参数,而在计算自相关时用类似MFC的方法。PLP性能类似MFCC,甚至在某些特征提取结果上要好于MFCC。

3.2 二次特征提取的主要方法

后来,基于LPCC和MFCC特征提取方法,人们衍生出它们的差分形式以及加权组合等方式来进一步提高识别率,常常也称这类对特征重新加工的方法为二次特征提取。实践证明,二次特征提取能够有效地改进原方法的识别率。二次特征提取是对原始提取的特征向量综合应用加权、微分、组合以及筛选等方法进一步寻找出更能反映语音或者说话人本质的特征。二次特征提取所运用的四种方法对原始特征向量的相应的操作涵义不同,最后提取的特征向量所能表征的识别结果就不同。很多文献都给出了二次特征提取的有效地识别结果,有的结合MFCC和LPCC,结合两者的优点提高识别率。文献[1]中给出了二次特征提取相对于原始特征向量的识别结果,文献[4]对各个特征参数提取并仿真结果。由此证明了采用二次特征提取的方式重新构造新的特征向量是有效并可行的。

3.3 特征提取的最新进展

特征提取是语音识别和说话人识别的关键技术,同样它也是由语音识别和说话人识别所决定。由于语音识别的多方面性和复杂性,特征提取的内容也相应有所不同。对于单语言语音识别,只需要建立自己语言的模板即可,而对于多语言混合语音识别,通常需要针对不同语言建立相应的识别模板。针对此情况管辖音系学提出了适用于多语言的语音学特征,文献[2]介绍了这一新型的理论管辖音系学的基本原理,并提出了汉语普通话的管辖音系学特征及提取方法。针对噪声环境中的语音识别和说话人识别,很多学者致力于寻找具有鲁棒性的特征参数,常用的是一些模仿听觉特性的感知语音特征。

语音信号的语谱图可以借鉴图像处理的相关知识提取内在的特征参数,应用图像的一些处理方法例如小波变换、神经网络等。小波变换在语音信号处理中的效果并不显著,但是应用小波包的语音特征提取取得了不错的效果。文献3、4、5中可以看出小波包相比与经典的特征提取方法,说话人识别率的较大提高,而且具有抗噪鲁棒性。

3.4 Hilbert-Huang transform应用于特征提取

HHT[10]是Hilbert-Huang transform的缩写,是指希尔波特变换经过黄锷教授的改进之后形成的一种处理非线性非稳定时间序列的行之有效的方法。HHT发表于1998年,目前已经吸引不少学者研究,在国内乃至整个学术界都属于尚新的理论。不少人探究它的优缺点,都希望能克服它的弱点,更大的发挥其优越性。

HHT在非线性非稳定信号处理领域有着其他方法无法比拟的优点,相比于经典的傅立叶变换、小波变换处理信号具有自适应性,能更好的分析数值的统计特性。把传统变换中不能联系起来的时域和频域结合在一起,观察非线性数值的频率随时间的变化情况,并且分辨率高,形成的时频特性图具有能量局部性、频带清晰聚集、能量泄漏少等优点。HHT的理论核心可以概括为原时域语音信号通过经验模式分解(EMD)得到一系列本征函数(IMFs),分别对IMFs实施希尔伯特变换,并得到瞬时频率随时间的表达式,建立频谱图。

语音信号是一个典型的非线性信号,传统的方法都是建立在其短时平稳的特型上,先对语音信号分帧,然后再分析每帧信号内的局部特型,从而忽略了语音信号动态特性。利用HHT分析语音信号,文献[11]给出了一种提取前五阶IMFs求取瞬时频率HF作为说话人特征的提取方法,结果表明利用HHT原理简单、用来训练的码本远小于传统的特征提取方法,识别率也略高。延续这个思路,可以加入其它常规特征共同提高识别率,例如幅度;也可以利用二次特征提取,进一步对能量高、频率高的IMF分量进行加权处理。不管怎样,HHT应用于语音信号为特征提取提供了新的思路,依据它的原理可以预见这个应用研究是行之有效的,目前作者更进行此方面的研究。

四、结语

本文主要介绍了语音信号处理中的特征提取的方法,总结和展望了特征提取的各个常规方法以及最新研究成果。最后介绍了HHT在特征提取中的应用,并指出这个新兴理论的研究前景与可行性。

参 考 文 献

[1] 芮贤义,俞一彪. 噪声环境下说话人识别的组合特征提取方法. 信号处理,2006 Vol.22 No.5

[2] 李虎生,刘加,刘润生. 高性能汉语数码语音识别算法[J]. 清华大学学报(自然科学版),2000,40(1):32-34

[3] 刘雅琴,裘雪红. 应用小波包变换提取说话人识别的特征参数. 计算机工程与应用,2006.09

[4] 武妍,金明曦,王洪波. 基于KL―小波包分析的文本无关的说话人识别.计算机工程与应用,2005.04

[5] 芮贤义,俞一彪. 基于小波变换的鲁棒型特征提取及说话人识别. 电路与系统学报,2005 Vol.10 No.5