首页 > 范文大全 > 正文

一种基于人耳掩蔽效应和无语音概率的谱减语音增强算法

开篇:润墨网以专业的文秘视角,为您筛选了一篇一种基于人耳掩蔽效应和无语音概率的谱减语音增强算法范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要:提出一种基于听觉掩蔽模型和无语音概率的语音增强算法。该算法对听觉掩蔽模型进行了适当的修正,通过引入无语音概率(SAP)思想动态地确定每一帧语音信号各个关键频率段的听觉掩蔽阈值,有选择性地进行谱减。仿真结果表明所提出的算法优于一般掩蔽增强算法,能够有效地减少音乐噪声并且更符合人耳听觉特性,特别是在低信噪比的情况下,语音具有更好的清晰度和可懂度。

关键词:语音增强;谱减法;无语音概率;人耳掩蔽效应

中图分类号:TP391 文献标识码:B

文章编号:1004-373X(2008)10-116-04オ

A Speech Enhancement Algorithm Based on Masking Property of Human Auditory

System and Speech Absence Probability

WANG Xia,LU Jianguo,ZHANG Xiuzhen,ZHAO Xiaoqun

(School of Information Engineering,Hebei University of Technology,Tianjin,300401,China)オ

Abstract:An approach to speech enhancement based on masking properties of human auditory system and Speech Absent Probability (SAP) is presented.In this approach,the masking model of human auditory is modified,the masking thresholds of the key frequency segments of each speech frame are determined dynamically through introducing the speech absence probability.Experimental results demonstrate that the proposed algorithm has better performance of speech articulation and reduces the musical noise compared to another modified spectral subtraction algorithms under the same level of noise reduction,and this superiority is more significant at very low SNR.

Keywords:speech enhancement;spectral subtraction;speech absence probability;auditory masking effectsオ

1 引 言

谱减法以其算法简单和普适性强在语音增强中得到广泛应用[1],但这种方法会产生令人烦躁的“音乐噪声”,严重影响了语音的可懂度。谱减法的改进形式[2]以改变减参数对噪声减弱、语音失真和音乐残留噪声做出权衡,但受到混合优化参数的限制。近年来,为进一步提高谱减法的性能,提出了一系列改进算法[3-9],且取得了很好的去噪效果。但大多语音增强算法在追求减小噪声的同时,也导致了较严重的语音畸变度,尽管噪声去除的效果很有效,但语音畸变度很大。

实验表明,人耳对语音的畸变比对一般的宽带噪声更敏感。因此,为达到满意的去噪效果,本文充分利用人耳的听觉系统的掩蔽效应[10,11],结合无语音概率思想(SAP)[4],有选择地进行谱减,从而较好地兼顾了去噪度和减少语音失真。

基于人耳掩蔽效应的增强算法的阈值计算是基于纯语音的,然而在语音夹杂噪声时的掩蔽阈值是不同于纯语音阈值的,也就是说掩蔽阈值的计算对于纯噪声帧和带噪语音帧应该是不一样的,因此需要根据纯噪声帧和带噪语音帧自适应地调整掩蔽阈值[12]。虽然近年来有人提出自适应地计算掩蔽阈值,然而大多对于语音出现与否的估计是基于VAD算法及SFM系数,这两种算法对于语音和噪声的区分不能较准确地跟踪带噪语音状态的时变。在此本文提出基于无语音概率(SAP)的人耳掩蔽模型,有效地区分语音的不同状态的同时使各状态之间的过渡更为平滑,更适合于低信噪比环境,也更符合语音和噪声的特性。实验表明,该算法与其他谱减法相比,能取得更小的语音畸变,而且能将残留噪声和音乐噪声控制在人耳掩蔽阈值下,使人的主观感觉得到了很大的改善,特别是在低信噪比的情况下,语音具有更好的清晰度和可懂度。

2 改进的谱减法语音增强原理

设语音增强系统的增益函数为G(ω),则增强语音的频谱|S∧(ω)|为带噪语音的短时频谱|Y(ω)|乘以系统增益函数G(ω)В即:

ИS∧(ω)=G(ω)•|Y(ω)|,0≤G(ω)≤1[JY](1)И

采用功率谱的形式,可得:

ИG(ω)=1-|D∧(ω)|2|Y(ω)|2[JY](2)И

其中|D∧(ω)|为噪声功率谱。

Berouti等人提出的改进算法采用的增益函数为:

ИG(ω)=G[SNRpost(ω)]

=1-α|D∧(ω)||Y(ω)|γ1γ2,

|D∧(ω)||Y(ω)|γ1

β|D∧(ω)||Y(ω)|γ1γ2, else [JY](3)И

其中Е(α>1)为过减因子,增加α可以使残留噪声的峰值减少,但同时也增加了听觉失真;β(0≤β≤1)为频谱阶,导致残留噪声减少,但同时增加了增强语音中的背景噪声;γ为指数,他决定频谱从G(ω)=1(频谱成分未发生改变)至G(ω)=0(频谱成分完全抑制)的平滑转变。

参数α和β的选择是语音增强的关键所在,传统的方法可以看作其特例:当α=1,β=0且固定不变时即为经典的功率谱减法,其特点是残留噪声较大,有明显的“音乐噪声”;而在非线性谱减法中β取较小值(如0.01),α可以根据噪声信噪比的变化而变化,其消噪效果有很大的改善,但在一帧语音信号中参数α也是固定的。另外,在低信噪比的情况下,这些方法是无法同时将语音失真和残留噪声降到最低的。

事实证明在所有频段和所有语音帧内采取固定的谱减系数α和β,в镆粼銮康男Ч并不理想。特别在低信噪比情况下,利用上面公式很难在提高信噪比的同时又减少音乐噪声,并保持原始语音信号质量没有明显下降。因此有人提出一种基于听觉掩蔽模型的谱减法,在不同的频率段和不同的语音帧动态地调整谱减系数。听觉掩蔽阈值较大的Bark关键频率段取较小的谱减阈值系数α。听觉掩蔽阈值较大说明此Bark关键频率段中人耳对其他相近频率段的语音信号和噪声信号的抗干扰能力较强,所以只采用较小的谱减阈值系数。反之,对于听觉掩蔽阈值较小的Bark关键频率段,采用较大的谱减阈值系数。同样,可以相应地调整谱减噪声系数β。对于各个Bark频率段的2个谱减系数α和β的值用如下公式确定:

Е(i,k)=

(T(i,max)-T(i,k))αmax+(T(i,k)-T(i,min))αminT(i,max)-T(i,min)

[JY](4)

β(i,k)=

(T(i,max)-T(i,k))βmax+(T(i,k)-T(i,min))βminT(i,max)-T(i,min)[JY](5)Иテ渲小T为各个Bark关键频率段的听觉掩蔽阈值。Tmax和Tmin是每一个语音帧的听觉掩蔽阈值的最大和最小值。α(Tmax)=αmin,α(Tmin)=αmax,β(Tmax)=βmin,β(Tmin)=βmax。为了兼顾提高信噪比和保障语音的可懂度和清晰度,减少音乐噪声,一般选择αmax=6,αmin=1,βmax=0.02,うmin=0。И

3 噪声掩蔽阈值的计算

噪声掩蔽阈值的计算由以下几部分组成:

(1) 频率群的分析:

时域语音信号x(t)经过快速傅里叶变换(FFT)变成频域信号X(ω),信号的功率谱为:

ИP(ω)=Re2X(ω)+Im2X(ω)[JY](6)И

将语音信号的功率谱按频段(Bark域)逐一分成小段,计算每一段的能量,即:

[HT5]ИBi=∑bhiω=bliP(ω)[JY](7)И

其中Bi表示第i段的能量;bli表示第i段的最低频率;bhi表示第iФ蔚淖罡咂德省*

(2) 扩散Bark域功率谱:

根据文献,引入扩散矩阵S[WTBZ],满足条件:

Иabs(j-i)≤25[JY](8)И

其中i是已被掩蔽信号的Bark频率,j是正被掩蔽信号的Bark频率,Sij为该矩阵S中的元素。

将矩阵Sij与Bi相互卷积久可以得到扩散Bark域频谱Ci,Ъ矗

ИCi=SijBi[JY](9)И

(3) 噪声掩蔽阈值的计算:

有2种噪声掩蔽门限:一种是纯音掩蔽噪声(TNN),是在Ci下面14.5+i dB;另一种是噪声掩蔽纯音(NMT),是在Ci下面5.5 dB。其中i的值是相等的,但在Ci中的i是频段,而(14.5+i)中i是指dB。

在此,本文引入无语音概率(SAP)思想,通过语音出现概率p求取噪声掩蔽阈值,即新的掩蔽能力的偏移函数为:

ИOi=p(14.5+i)+(1-p)5.5[JY](10)И

则噪声掩蔽阈值为:

ИTi=10lg(Ci)-(Oi/10)[JY](11)И

无语音概率的研究在近年取得了很大进展。引入无语音概率(SAP)[3]后,无需语音检测就能够准确有效地区分语音的不同状态,而且各状态之间的过渡更为平滑,更适合于低信噪比环境。然而,在传统方法中,分辨信号是纯音或噪声是通过给出系数SFM:

ИSFMdB=10lgGmAm[JY](12)И

其中,Gm为该语音信号的几何平均;Am为该语音信号的算术平均。然后设定系数αВ

ИЕ=min(SFMdBSFMdBmax, 1)[JY](13)И

当Е=0时,完全是噪声;α=1时,完全是纯语音。掩蔽能力的偏移函数为:

ИO′i=α(14.5+i)+(1-α)5.5[JY](14)И

这种基于SFM的系数Е联У姆椒ú⒉荒茏既返胤直嫘藕攀谴噪语音还是噪声,对语音增强结果有很大影响。图1是本文提出的基于改进掩蔽模型谱减法的流程图。

图1 改进的基于人耳掩蔽模型的谱减法流程图

4 语音出现概率的计算

在假设语音和噪声是统计独立的复高斯随机过程前提下,各帧各频率分量上的SAP是一个统计独立的随机过程。H(l,k)0和H(l,k)1分别表示无语音状态和有语音状态。各状态下的带噪语音信号Y(l,k)П硎疚:

ИH(l,k)0:Y(l,k)=D(l,k)

H(l,k)1:Y(l,k)=D(l,k)+X(l,k)[JY](15)И

其中P(H(l,k)1|Y(l,k))和P(H(l,k)0|Y(l,k))分别代表有语音的后验概率和无语音的后验概率,并分别用p(l,k)和1-p(l,k)П硎荆桓据贝叶斯公式得:

p(l,k)=

P(Y(l,k)|H(l,k)1)P(H(l,k)1)P(Y(l,k)|H(l,k)1)P(H(l,k)1)+P(Y(l,k)|H(l,k)0)P(H(l,k)0)[JY](16)И

式(16)中,P(H(l,k)0)=q(l,k),P(H(l,k)1)=1-q(l,k)Х直鸨硎疚抻镆舻南妊楦怕屎陀杏镆粝妊楦怕省8据I.Cohen提出的假设模型,可以得到:

Иp(l,k)=1+q(l,k)1-q(l,k)(1+ξ(l,k))exp(-ν(l,k))-1[JY](17)И

其中先验信噪比Е为通过因果方法[7](causal)估计得到,语音缺失概率q(l,k)通过改进最小受控递归平均方法[6](IMCRA)得到,其计算公式如下:

ИЕ=maxαlA∧2l-1λDl-1+(1-αl)(γl-1),ξmin[JY](18)И

其中Еl=1-A∧4l-1(λDl-1+A∧2l-1)2。[FL)]

И q(l.k)=

[HL(2]1,[]若γ~min(k,l)≤1且ζ~(k,l)

(γ1-γ~min(k,l))/(γ1-1),[]若1

0,[]其他[HL)][JY](19)И

[FL(K2]

其中:[WB]Е锚~min(k,l)|Y(k,l)|2BminS~min(k,l);

[DW]ζ~(k,l)S(k,l)BminS~min(k,l)И

5 实验结果及评价

原始语音采用文件“audio.wav”,噪声取自Noisex 92的工厂背景噪声信号(factory1)。将他们合成信噪比为-10~5 dB的带噪语音(16 kHz采样,512点分帧,256点重叠)。实验对比原听觉掩蔽模型进行讨论。

本文给出工厂背景噪声下的去噪对比如图2所示,并将二者与纯净语音相比,发现本文方法的语音畸变度比原听觉掩蔽模型法小,特别是在清音部分,本文方法比原听觉掩蔽模型法衰减小,而清音部分影响着语音的可懂度,而且随着信噪比降低,语音清晰度的差别也越明显,本算法明显优于原听觉掩蔽模型法。

为确证客观性能估计,进行了主观听觉测试,听见测试是在5个观众中进行,内容是对语音的残留噪声、背景噪声和语音失真进行认识。对每个语音都按下列步骤:

(1) 纯净语音和带噪语音均被重复播放2次;

(2) 每个测试信号都被重复2次,且随机顺序播放3次。

图2 去噪后的语音时域波形对比

测试结果表明:利用本方法增强的语音在初始信噪比为-5 dB以上时,没有残留音乐噪声。在信噪比更低的情况下,残留噪声对语音的干扰比原听觉掩蔽模型法要小得多。

6 结 语

单声道谱减法在减少背景噪声上简单有效,然而会产生令人烦躁的“音乐噪声”。基于人耳掩蔽效应的语音增强及其改进算法能够有效避免“音乐噪声” 的产生,但是对于语音出现与否的估计是基于VAD算法及SFM系数,这两种算法并不能准确地区分语音和噪声。因此本文提出基于无语音概率(SAP)的人耳掩蔽模型,能有效地区分语音的不同状态的同时使各状态之间的过渡更为平滑,更适合于低信噪比环境。实验证明本文算法优于一般掩蔽增强算法。这种方法能够有效地减少音乐噪声并且更符合人耳听觉特性,特别是在低信噪比的情况下,语音具有更好的清晰度和可懂度。

参 考 文 献

[1]Lim J S,Oppenheim A V.Enhancement of Speech and Bandwidth Compression of Noise Speech[J].Proc.of the IEEE,1979,67(12):1586-1604.

[2]Min-Seok Choi,Hong-Goo Kang.An Improved Estimation of a Priori Speech Absence Probability for Speech Enhancement:InPerspective of Speech Absence Probability[C].IEEE International Conference on ICASSP,2005:1 117-1 120.

[3]Israel Cohen.On Speech Enhancement under Signal Presence Uncertainty[C].Proc.Int.Conf.Acoustics,Speech,and Signal Processing ,2001:167-170.

[4]Israel Cohen.Optimal Speech Enhancement under Siganl Presence Uncertainty Using Log-Spectral Amplitude Estimator[J].IEEE Signal Processing Letters,2002,9(4):113-116.

[5]Israel Cohen,Baruch Berdugo.Noise Estimation by Minima Controlled Recursive Averaging for Robust Speech Enhancement[J].IEEE Signal Processing Letters,2002,9(1):12-15.

[6]Israel Cohen.Noise Spectrum Estimation in Adverse Environments:Improved Minima Controlled Recursive Averaging[J].IEEE Transactions on Speech and Audio Processing,2003,11(5):466-475.

[7]Israel Cohen.On the Decision-Directed Approach of Ephraim and Malah[C].IEEE International Conference on ICASSP,2004:293-296.

[8]Israel Cohen.Speech Enhancement Using a Noncasual a Priori SNR Estimator[J].IEEE Signal Processing Letters,2004,11(9):725-728.

[9]Nathalie Virag.Signal Channel Speech Enhancement Based on Masking Properties of the Human Auditory System[J].IEEE Transactions on Speech and Audio Processing,1999,7(2):126-137.

[10]陶智,赵鹤鸣.基于听觉掩蔽效应和Bark子波变换的语音增强[J].声学学报,2005,30(4):367-372.

[11]蔡汉添,袁波涛.一种基于听觉掩蔽模型的语音增强算法[J].通信学报,2002,23(8):94-98.

[12]罗玉玲,唐贤英.基于阈值优化的图像模糊边缘检测算法[J].微计算机信息,2007(6):286-288.

作者简介 王 霞 女,1970年出生,河北保定人,副教授,研究生导师。研究方向为语音增强与识别。

注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。