首页 > 范文大全 > 正文

车内环境下基于高信噪比频带的语音特征提取方法

开篇:润墨网以专业的文秘视角,为您筛选了一篇车内环境下基于高信噪比频带的语音特征提取方法范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要:语音识别技术在汽车领域有着广泛的应用。但通常车内环境存在着噪音,且车载系统运算能力有限。要保证较高识别率,减少识别时的计算量,需要针对噪音环境的特点提取鲁棒特征并压缩语音模板。本文选择高信噪比的频带进行语音模板的训练,通过聚类的方法压缩模板的长度,并用实验验证了所提出的语音特征鲁棒性。

关键词:语音识别;特征提取;模板训练

中图分类号:TN912.34

语音识别在汽车领域的应用包括拨打电话,调节空调,控制音响甚至发动引擎等。出于成本的考虑,汽车通常使用嵌入式系统来实现这些功能。系统的运算资源有限,为了保证在噪声环境下也具有良好的识别率,减少对系统资源的需求,需要针对汽车噪声环境的特点训练鲁棒的语音模板,并压缩模板长度以降低语音识别时的计算量。

车内环境充斥着噪音,为保证较高的识别率,需要分析车内噪声的特点并进行语音模板训练。通常采用各种滤波、降噪的手段减少噪音对识别系统的影响。近年来,语音频谱熵被用于语音端点检测的任务中,取得了良好的效果[1],表明谱熵是一种能够良好区别语音和非语音的特征参数[2]。当驾驶员的语音命令被汽车噪声污染时,因为这两种信号所分布的频率范围不同,导致叠加后的信号在不同频带有着不同的信噪比。从这个角度来看,我们可以把低于某一信噪比的频带看成频域上的非语音段,并在模板训练时予以排除,用高信噪比的频带训练出鲁棒的语音模板以提高识别率。本文用谱熵来进行频带划分,然后对模板进行压缩:在时域压缩将导致识别率的大幅下降[3],而针对语音帧的压缩方法可以较好地压缩模板的长度,并在说话人确认的任务中有了成功的应用[3-5]。故本文选择高信噪比的频带进行特征提取,用聚类的方法压缩模板的长度,得到的语音模板可以在保持较高识别率的同时减少计算量,不同信噪比条件下的实验验证了所提特征在车内噪声环境中有较高的鲁棒性。

1 车内带噪语音分析

车内环境中,噪声主要包括发动机噪声、轮胎噪声、风噪等,一般为加性噪声,且能量集中在低频段[6]。本文为模拟车内环境下语音信号的端点检测,对实验室安静环境下采集的语音信号叠加汽车噪声,采用NOISEX-92噪声库中的“Volvo”噪声。纯净以及带噪(信噪比为-5dB)的语音信号的时域波形如下图所示:

图1 语音信号时域波形

图2 带噪语音信号时域波形

由图2可见当信噪比较低时,语音被淹没于噪声中。从时域上来看,带噪语音信号的波形失真严重,我们很难区分出语音段与噪声段。进一步分析车内噪声环境下的语音信号,我们观察带噪语音信号的语谱图,采用汉明窗长128,窗移32,如图3所示:

图3 带噪信号语谱图

从语谱图中可以看到,待分析的语音信号频率分布在整个低频到高频的范围内,相对的,噪声主要存在于小于300Hz的低频范围中,并且几乎完全地掩盖了语音的低频成分,使我们无法分辨出语音在低频的变化趋势。所以在进行语音模板训练时,应当排除低频段的频带数据,用高信噪比的频带计算语音特征。

2 语音特征提取

语音特征提取的过程包括预加重,分帧,计算倒谱系数几个过程。在计算倒谱系数之前,为了找到高信噪比的频带,我们利用谱熵特征来确定划分频带的阈值。

2.1 预加重。为了保证频谱平坦并消除声门激励和口鼻辐射的影响,使得在整个频带中能使用同样的信噪比进行频谱分析,将语音信号通过一个预加重数字滤波器提升高频[7]。滤波器的输入x(n)与输出y(n)满足下列差分方程:

y(n)=x(n)-a*x(n-1) (1)

本文中a的值取0.97。

2.2 谱熵的计算。对频谱的频率分量计算归一化谱概率密度,如公式2所示:

(2)

其中s(fi)为信号在fi处频谱幅值,M为FFT变换长度,得到pi为频率fi在整个频率范围内出现的概率。利用上式的结果便可计算出此信号的谱熵En:

(3)

2.3 高信噪比频带的划分。本文通过人工选取阈值的方法把频带划分成高、低信噪比两个部分,再用谱熵去评价阈值划分的效果。因为谱熵是一种能够良好区别语音段和非语音段的特征,频域上分布越分散的信号的频率不确定性越高,熵就越高,比如白噪声;相反的,语音信号的频谱则有着相对比较集中的分布,不确定性较小,熵较低。所以阈值的选择要使得噪声段频谱熵值尽可能大,且使得语音段熵值尽可能小。

实验中语音信号的采样率为8000Hz,我们将整个频率范围分成两部分:低信噪比部分(0-FHz)以及高信噪比部分(F-4000Hz)。通过观察,我们选择F=250Hz为汽车噪声环境下的阈值点。得到高信噪比部分谱熵特征如图4所示:

图4 高信噪比频带谱熵

容易看出,在高信噪比语音信号中,纯噪声段谱熵较高,而带噪语音部分的谱熵较低甚至接近零,在纯噪声段与带噪语音段的分界处,我们可以看到很陡峭的变化曲线。这表明阈值F选取250Hz时,频域上噪声的不确定性与语音的规律性可以被充分区别开来。

2.4 计算特征序列。语音信号被表示成帧序列后,计算每帧信号特征参数[8]。本文利用帧信号中的高信噪比频带去计算梅尔频率倒谱系数(Mel-frequency cepstrum coefficients,MFCC),语音帧序列被转换成特征序列。一帧的特征参数MFCC计算步骤如下:(1)计算功率谱:对每帧信号作N点快速傅立叶变换后将频域复序列乘以其共轭,再乘1/N以便估计出信号的功率谱P(f)。因系数1/N是常量,出于减少计算量的考虑将其省略。(2)将功率谱P(f)通过一组M个带通滤波器后计算出每个频带的能量E(m),m=1,2,…,M。这种滤波器的幅频响应为三角形,称为Mel频率尺度滤波器组,其中心频率在Mel频率尺度上均匀分布,每个滤波器的下限和上限取相邻两个滤波器的中心频率。Mel频率和实际频率间的关系如下式所示:

Mel(f)=25951og10(1000+f/700) (4)

由公式2可看出,Mel滤波器组的中心频率在实际频率上按指数增长。构造滤波器组时,先将信号的上限频率对应成Mel频率,再将此频率均分为M份,最后将M个Mel频率变回实际频率,就得到每个滤波器的中心频率。(3)对一帧信号的能量序列(向量)E(m)取对数后再进行C点离散余弦变换,舍去i=0时的系数后留下长度为C-1的向量便是此信号的梅尔频率倒谱系数。由公式4计算可知,第四个Mel频率滤波器的中心频率为249.3Hz,正好在阈值250Hz附近,为了排除低信噪比的频带,我们舍弃前四个滤波器得到的能量序列,并对E(m)余下的值(m=5,6,…,M)进行离散余弦变换后得到MFCC,计算公式如下:

(5)

3 模板训练

在语音模板训练时,为了压缩模板的长度,本文使用了k均值聚类的方法合并语音中的相似帧。由于所得中心的数目等于初始中心的数目,将中心直接用作模板并未缩短语音模板的长度,且丢失了时序信息,不满足模板匹配时动态时间规整算法对时序的要求。为了解决上述问题,本文利用初始中心的时序信息为其排序,选出具有代表性的中心作为语音模板,于是压缩了模板的长度。训练步骤如下:(1)对于某个语音的N次贯序输入MFCC特征向量序列:S(i),i=1,2,…,N.取出最近一次的输入序列S(Nj),j=1,2,…,J.作为初始聚类中心,其中S(Nj)是一帧语音信号的特征向量;(2)用k均值聚类算法对所有特征向量进行聚类,得到中心特征向量序列C(kj),j=1,2,…,J;(3)找出S(N)各帧特征向量分别归属的中心C(k),并用中心替换之,得到新的特征向量序列Sc(Nj),j=1,2,…,J,因为每个聚类中心都代表了一组相似的特征向量,显然这个新序列的特征向量集合是中心集合C(k)的一个子集;(4)把新特征序列Sc(N)中连续的相同帧缩减为一帧的特征向量,就得到压缩语音模板Sc(Nt),t=1,2,…,T.且有T

4 实验结果分析

实验使用了四位测试人的语音数据,分别用旧语音特征(含有低信噪比频带)和新语音特征(只含高信噪比频带)进行模板训练,识别时用动态时间规整算法进行模板匹配。模板训练时每个语音命令采集10组进行训练,模板识别时他人语音为21组,本人语音为20组(相同语音10组,不同语音10组)。计算不同信噪比下的识别率,如表1所示:

表1 不同信噪比下新旧特征模板识别率

信噪比(dB) 旧特征识别率(%) 新特征识别率(%)

-5 70.73 100

-10 43.90 96.34

-15 41.46 67.07

-20 41.46 65.85

比较新旧模板的压缩率,如表2所示:

表2 新旧特征模板压缩率

旧模板压缩率(%) 新模板压缩率(%)

46.68 49.11

从表1中可以看出,随着信噪比的恶化,新旧特征模板的识别率都下降,但是高信噪比频带提取的语音特征的识别率远高于旧特征的识别率。旧特征在-15dB和-20dB信噪比条件下识别率一样,这可能是由于测试语音数目不够多造成的。从表2可以看出,新旧模板长度都被压缩,新模板的压缩率稍高,这是因为新模板选取了高信噪比部分的频带,这个频带的范围小于整个频率范围,训练时Mel频率尺度滤波器组的输出因此减少,聚类时有更多相似的帧被合并。

5 结束语

本文针对车内噪音的频率分布特点,通过谱熵特征来划分高低信噪比的频带并进行特征提取,保证了在低信噪比的条件下系统仍然有良好的识别率。用聚类的方法压缩模板的长度,减少了模板匹配的计算量。由于实验测试人数不多,为更精确反映不同信噪比条件下的识别率变化,接下来的研究还要提取更多测试人的语音数据。鉴于高低信噪比频带的划分并非自动进行,阈值的自动获取是进一步实验所要考虑的问题。

参考文献:

[1]Asgari M,Sayadian A,Farhadloo M,et al.Voice activity detection using entropy in spectrum domain[C]//Telecommunication Networks and Applications Conference,2008.ATNAC

2008.Australasian.IEEE,2008:407-410.

[2]Vlaj D,Ka?i? Z,Kos M.Voice activity detection algorithm using nonlinear spectral weights,hangover and hangbefore criteria[J].Computers & Electrical Engineering,2012.

[3]Luan J,Hao J,Kakino T,et al.Template compression and distance normalization for reliable text-dependent speaker verification[C]//Speaker and Language Recognition Workshop,2006.IEEE Odyssey 2006:The.IEEE,2006:1-4.

[4]Kaczmarek A,Staworko M. Application of dynamic time warping and cepstrograms to text-dependent speaker verification[C]//Signal Processing Algorithms,Architectures,Arrangements,and Applications Conference Proceedings(SPA),2009.IEEE,2009:169-174.

[5]Staworko M,awski M.FPGA implementation of feature extraction algorithm for speaker verification[C]//Mixed Design of Integrated Circuits and Systems (MIXDES),2010 Proceedings of the 17th International Conference.IEEE,2010:557-561.

[6]韦晓东,胡光锐.汽车噪声中自动语音的识别技术[J].上海交通大学学报,1998(10):10-13.

[7]赵力.语音信号处理(第2版)[M].北京:机械工业出版社,2009.

[8]林玮,杨莉莉,徐柏龄.基于修正MFCC参数汉语耳语音的话者识别[J].南京大学学报:自然科学版,2006(1):54-62.

作者简介:吴紫剑(1988-),男,江苏人,硕士研究生,研究方向:信号处理。

作者单位:南京航空航天大学民航学院,江苏南京 210016