基于MFCC相似度和谱熵的端点检测算法(全文)

开篇：润墨网以专业的文秘视角，为您筛选了一篇基于MFCC相似度和谱熵的端点检测算法范文，如需获取更多写作素材，在线客服老师一对一协助。欢迎您的阅读与分享！

摘要：为提高低信噪比环境下语音端点检测的准确率，提出了一种基于Mel倒谱参数相似度和谱熵的端点检测算法。首先，提取语音帧的的Mel频率倒谱参数，将前十帧声信号作为背景噪声，然后计算每一帧语音和噪声mfcc的相关系数距离，结合MFCC相似距离与谱熵做综合判决。实验结果表明，在低信噪比环境下此方法相对谱熵法能够提高检测准确率。

关键词：语音信号处理；端点检测； Mel频率倒谱参数；相关系数；谱熵

中图分类号： TN912.3?34 文献标识码： A 文章编号： 1004?373X（2013）21?0067?03

0 引言

端点检测算法一直是语音信号处理的一个研究热点，准确的端点检测可以提高语音识别的准确率，用于语音增强则可以准确地更新噪声谱。传统的端点检测算法采用短时能量、过零率和自相关系数等方法，在低信噪比条件下性能下降明显。许多新的端点检测方法相继被提出，如在语音端点检测中应用希尔伯特变换[1]、基于谱熵的端点检测[2]、基于高阶统计量的特征[3]等等，然而以上方法在强噪声环境下仍然不够理想。Mel倒谱系数能较好地构造人的听觉模型，谱熵有较好的检测效果。本文通过对两种特征综合加权得到一个表现更稳健的新特征，该方法能在多种噪声环境下得到较好的效果，提高了谱熵法在低信噪比环境下检测的准确率。

1 算法描述

1.1 MFCC相似度计算

人耳对低频信号感知灵敏，对高频信号则感知模糊，不同频率范围内的语音信号会引起人耳基础膜不同位置的振动[4]。MFCC通过构造带通滤波器组来模仿人耳的听觉特性，减少噪声对语音的干扰。

在提取MFCC特征参数之前，对声信号做预加重、加窗、分帧等预处理[5]。定义一个有[M]个三角带通滤波器的滤波器组，将预处理后的频谱能量乘以三角带通滤波器，得到每个滤波器的输出能量：

式中：[Xa（k）]为信号的傅里叶变换；[Hm（k）]为三角带通滤波器的频率响应。将每个三角滤波器的输出[S（m）]取对数，从而得到相应频带的对数功率谱。对得到的对数功率谱做DCT变换，得到MFCC[6]：

相似度是用来测量两个对象之间相似程度的，本文采用了相关系数距离来测度MFCC参数的相似度。假定声信号前10帧为背景噪声，求前10帧MFCC参数的平均值，得到背景噪声的MFCC参数近似初始值。为使当前参数能实时追踪背景噪声，对背景噪声的MFCC参数按下列公式更新[6]：

式中：[C]为前10帧背景噪声的MFCC均值；[α]为加权因子；[Cn]为当前帧的MFCC参数。求每一帧MFCC参数[Cn]与[Cnoise]的相似距离[d（Cn，Cnoise）]，得到MFCC相关系数距离曲线。按下式求解相关系数距离：

1.2 谱熵特征计算

语音抽样频率为8 kHz，对语音分帧和加窗，帧长为32 ms，按帧间50%的重叠进行256点的FFT变换[7]。语音的能量主要集中在250～3 500 Hz，将该频谱范围内的信号分为13个子带，根据子带信噪比的不同调整其在整个谱熵计算中的权值[8]。每个子带的能量为：

[Si=（GkR2k）] （5）

式中：[Rk]为对应子带的傅里叶变换的第[k]个幅度值，[Gk]为加权因子，[Gk]的估计公式为[9]：

1.3 两种特征联合检测

熵在信息论中表示信息的有序程度，语音信号的有序程度远高于噪声的有序程度[10]。Mel频率模拟了人耳的听觉特性，提取语音和噪声的MFCC并利用它们的相关系数距离进行端点检测，可以在低信噪比环境下较好地区分语音段和非语音段。这两种特征冗余度低，本文对两种特征值分别赋予权重构造出一个新的特征，利用新的特征值进行端点检测。

当信噪比低于-5 dB时，MFCC相似度检测方法准确率高于谱熵法，为了获得尽可能高的准确率，在信噪比低于-5 dB时赋予MFCC相似度特征更高的权值。本文通过计算当前帧各子带先验信噪比的和来估计当前帧的信噪比，定义如下：

[SnrSumi=j=1nξ（j）] （11）

基于MFCC相似度与谱熵的新特征定义如下：

[Ti=（4+20/SnrSumi）di+Hi，SnrSumi≤204di+Hi，SnrSumi>20] （12）

2 实验结果与分析

实验选用了两类噪声，一类是选自NOISEX?92噪声库的白噪声、坦克噪声，另一类噪声由短波接收机采集得到，合成的带噪语音信号信噪比为-10～10 dB。将端点检测函数的判决结果与源文件进行比较，计算判决的准确率。其中，错误帧数等于语音错判为噪声的帧数加上噪声错判为语音的帧数，准确率为判断准确的帧数占总帧数的百分比。

图1中，实线表示一段语音的开始，虚线为该段语音的结尾。（a）为纯净语音，（b）为带噪语音，（c）为新特征的检测结果，（d）为谱熵端点检测结果，（e）为MFCC相似度端点检测结果。从图（d）看出，谱熵法未检测出图（a）中第5、8、9、12段语音；从图（e）看出，MFCC相似度未检测出图（a）中第4段语音；从图（c）可以看出本文提出的方法可以得到更高的准确率，漏检最少。

图2给出的是在信噪比为-5 dB时短波信道噪声下，三种算法的检测效果。由人耳辨别语音并在图（a）中标示出语音段的位置。随着信噪比的提高，MFCC相似距离相对谱熵法检测的准确率有所下降，但二者联合得到的新特征仍具有较高的准确率。

MFCC相似距离算法性能比较结果

由图3可以看出，在-10～-5 dB之间，在坦克噪声、白噪声及短波信道噪声下，与谱熵法比较，算法性能有了改善，在0 dB以上所提算法与谱熵法性能接近。当信噪比降低至-5 dB以下时，谱熵法的漏检逐渐增多，MFCC相似度距离检测准确率较高。本文所选取的Mel倒谱特征是识别语音有效的特征，与谱熵法进行联合判决时能得到更高的检测率，表现出比单纯使用谱熵法更好的性能。

3 结论

本文提出了一种基于MFCC和谱熵的端点检测算法。Mel频率很好地模拟了人耳的听觉特性，提取出的语音和噪声的MFCC相似度距离可以很好地识别语音段和非语音段，与谱熵法联合使用时可以得到更高的检测率。实验结果表明，该算法性能良好，改善了谱熵法在低信噪比下的表现。

参考文献

[1] 刘伯森，卢志茂.基于希尔伯特-黄变换的低信噪比语音端点检测[J].吉林大学学报：工学版，2011，41（3）：844?848.

[2] 李晔，张仁志，崔慧娟，等.低信噪比下基于谱熵的语音端点检测算法[J].清华大学学报：自然科学版，2005，45（10）：1397?1400.

[3] NUMER E， GOUBRAN R， MAHMOUND S. Robust voice activity detection using higher?order Statistics in the LPC residual domain [J]. IEEE Transaction on Speech and Audio Processing， 2001， 9（3）： 217?231.

[4] 王让定，柴佩琪.语音倒谱特征的研究[J].计算机工程，2003，29（13）：31?33.

[5] 余建潮，张瑞林.基于MFCC和LPCC的说话人识别[J].计算机工程与设计，2009，30（5）：1189?1191.

[6] 王宏志，徐玉超，李美静.基于Mel频率倒谱参数相似度的语音端点检测算法[J].吉林大学学报：工学版，2012，42（5）：1331?1335.

[7] 程塨，郭雷，赵天云，等.非平稳噪声环境下的语音增强算法[J].西北工业大学学报，2010，28（5）：664?668.

[8] 王琳，李成荣.一种基于自适应谱熵的端点检测改进方法[J].计算机仿真，2010，27（12）：373?375.

[9] COHEN I， BARUCH B. Speech enhancement for non?stationary noise environments [J]. IEEE Signal Processing，2001， 81（11）： 2403?2418.

[10] 徐大为，吴边，赵建伟，等.一种噪声环境下的实时语音端点检测算法[J].计算机工程与应用，2003，24（1）：115?117.

基于MFCC相似度和谱熵的端点检测算法

优秀范文

精选范文