首页 > 范文大全 > 正文

基于MFCC相似度和谱熵的端点检测算法

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于MFCC相似度和谱熵的端点检测算法范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要: 为提高低信噪比环境下语音端点检测的准确率,提出了一种基于Mel倒谱参数相似度和谱熵的端点检测算法。首先,提取语音帧的的Mel频率倒谱参数,将前十帧声信号作为背景噪声,然后计算每一帧语音和噪声mfcc的相关系数距离,结合MFCC相似距离与谱熵做综合判决。实验结果表明,在低信噪比环境下此方法相对谱熵法能够提高检测准确率。

关键词: 语音信号处理; 端点检测; Mel频率倒谱参数; 相关系数; 谱熵

中图分类号: TN912.3?34 文献标识码: A 文章编号: 1004?373X(2013)21?0067?03

0 引 言

端点检测算法一直是语音信号处理的一个研究热点,准确的端点检测可以提高语音识别的准确率,用于语音增强则可以准确地更新噪声谱。传统的端点检测算法采用短时能量、过零率和自相关系数等方法,在低信噪比条件下性能下降明显。许多新的端点检测方法相继被提出,如在语音端点检测中应用希尔伯特变换[1]、基于谱熵的端点检测[2]、基于高阶统计量的特征[3]等等,然而以上方法在强噪声环境下仍然不够理想。Mel倒谱系数能较好地构造人的听觉模型,谱熵有较好的检测效果。本文通过对两种特征综合加权得到一个表现更稳健的新特征,该方法能在多种噪声环境下得到较好的效果,提高了谱熵法在低信噪比环境下检测的准确率。

1 算法描述

1.1 MFCC相似度计算

人耳对低频信号感知灵敏,对高频信号则感知模糊,不同频率范围内的语音信号会引起人耳基础膜不同位置的振动[4]。MFCC通过构造带通滤波器组来模仿人耳的听觉特性,减少噪声对语音的干扰。

在提取MFCC特征参数之前,对声信号做预加重、加窗、分帧等预处理[5]。定义一个有[M]个三角带通滤波器的滤波器组,将预处理后的频谱能量乘以三角带通滤波器,得到每个滤波器的输出能量:

式中:[Xa(k)]为信号的傅里叶变换;[Hm(k)]为三角带通滤波器的频率响应。将每个三角滤波器的输出[S(m)]取对数,从而得到相应频带的对数功率谱。对得到的对数功率谱做DCT变换,得到MFCC[6]:

相似度是用来测量两个对象之间相似程度的,本文采用了相关系数距离来测度MFCC参数的相似度。假定声信号前10帧为背景噪声,求前10帧MFCC参数的平均值,得到背景噪声的MFCC参数近似初始值。为使当前参数能实时追踪背景噪声,对背景噪声的MFCC参数按下列公式更新[6]:

式中:[C]为前10帧背景噪声的MFCC均值;[α]为加权因子;[Cn]为当前帧的MFCC参数。求每一帧MFCC参数[Cn]与[Cnoise]的相似距离[d(Cn,Cnoise)],得到MFCC相关系数距离曲线。按下式求解相关系数距离:

1.2 谱熵特征计算

语音抽样频率为8 kHz,对语音分帧和加窗,帧长为32 ms,按帧间50%的重叠进行256点的FFT变换[7]。语音的能量主要集中在250~3 500 Hz,将该频谱范围内的信号分为13个子带,根据子带信噪比的不同调整其在整个谱熵计算中的权值[8]。每个子带的能量为:

[Si=(GkR2k)] (5)

式中:[Rk]为对应子带的傅里叶变换的第[k]个幅度值,[Gk]为加权因子,[Gk]的估计公式为[9]:

1.3 两种特征联合检测

熵在信息论中表示信息的有序程度,语音信号的有序程度远高于噪声的有序程度[10]。Mel频率模拟了人耳的听觉特性,提取语音和噪声的MFCC并利用它们的相关系数距离进行端点检测,可以在低信噪比环境下较好地区分语音段和非语音段。这两种特征冗余度低,本文对两种特征值分别赋予权重构造出一个新的特征,利用新的特征值进行端点检测。

当信噪比低于-5 dB时,MFCC相似度检测方法准确率高于谱熵法,为了获得尽可能高的准确率,在信噪比低于-5 dB时赋予MFCC相似度特征更高的权值。本文通过计算当前帧各子带先验信噪比的和来估计当前帧的信噪比,定义如下:

[SnrSumi=j=1nξ(j)] (11)

基于MFCC相似度与谱熵的新特征定义如下:

[Ti=(4+20/SnrSumi)di+Hi,SnrSumi≤204di+Hi,SnrSumi>20] (12)

2 实验结果与分析

实验选用了两类噪声,一类是选自NOISEX?92噪声库的白噪声、坦克噪声,另一类噪声由短波接收机采集得到,合成的带噪语音信号信噪比为-10~10 dB。将端点检测函数的判决结果与源文件进行比较,计算判决的准确率。其中,错误帧数等于语音错判为噪声的帧数加上噪声错判为语音的帧数,准确率为判断准确的帧数占总帧数的百分比。

图1中,实线表示一段语音的开始,虚线为该段语音的结尾。(a)为纯净语音,(b)为带噪语音,(c)为新特征的检测结果,(d)为谱熵端点检测结果,(e)为MFCC相似度端点检测结果。从图(d)看出,谱熵法未检测出图(a)中第5、8、9、12段语音;从图(e)看出,MFCC相似度未检测出图(a)中第4段语音;从图(c)可以看出本文提出的方法可以得到更高的准确率,漏检最少。

图2给出的是在信噪比为-5 dB时短波信道噪声下,三种算法的检测效果。由人耳辨别语音并在图(a)中标示出语音段的位置。随着信噪比的提高,MFCC相似距离相对谱熵法检测的准确率有所下降,但二者联合得到的新特征仍具有较高的准确率。

MFCC相似距离算法性能比较结果

由图3可以看出,在-10~-5 dB之间,在坦克噪声、白噪声及短波信道噪声下,与谱熵法比较,算法性能有了改善,在0 dB以上所提算法与谱熵法性能接近。当信噪比降低至-5 dB以下时,谱熵法的漏检逐渐增多,MFCC相似度距离检测准确率较高。本文所选取的Mel倒谱特征是识别语音有效的特征,与谱熵法进行联合判决时能得到更高的检测率,表现出比单纯使用谱熵法更好的性能。

3 结 论

本文提出了一种基于MFCC和谱熵的端点检测算法。Mel频率很好地模拟了人耳的听觉特性,提取出的语音和噪声的MFCC相似度距离可以很好地识别语音段和非语音段,与谱熵法联合使用时可以得到更高的检测率。实验结果表明,该算法性能良好,改善了谱熵法在低信噪比下的表现。

参考文献

[1] 刘伯森,卢志茂.基于希尔伯特-黄变换的低信噪比语音端点检测[J].吉林大学学报:工学版,2011,41(3):844?848.

[2] 李晔,张仁志,崔慧娟,等.低信噪比下基于谱熵的语音端点检测算法[J].清华大学学报:自然科学版,2005,45(10):1397?1400.

[3] NUMER E, GOUBRAN R, MAHMOUND S. Robust voice activity detection using higher?order Statistics in the LPC residual domain [J]. IEEE Transaction on Speech and Audio Processing, 2001, 9(3): 217?231.

[4] 王让定,柴佩琪.语音倒谱特征的研究[J].计算机工程,2003,29(13):31?33.

[5] 余建潮,张瑞林.基于MFCC和LPCC的说话人识别[J].计算机工程与设计,2009,30(5):1189?1191.

[6] 王宏志,徐玉超,李美静.基于Mel频率倒谱参数相似度的语音端点检测算法[J].吉林大学学报:工学版,2012,42(5):1331?1335.

[7] 程塨,郭雷,赵天云,等.非平稳噪声环境下的语音增强算法[J].西北工业大学学报,2010,28(5):664?668.

[8] 王琳,李成荣.一种基于自适应谱熵的端点检测改进方法[J].计算机仿真,2010,27(12):373?375.

[9] COHEN I, BARUCH B. Speech enhancement for non?stationary noise environments [J]. IEEE Signal Processing,2001, 81(11): 2403?2418.

[10] 徐大为,吴边,赵建伟,等.一种噪声环境下的实时语音端点检测算法[J].计算机工程与应用,2003,24(1):115?117.