首页 > 范文大全 > 正文

听觉掩蔽效应的MMSE语音增强算法

开篇:润墨网以专业的文秘视角,为您筛选了一篇听觉掩蔽效应的MMSE语音增强算法范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

[摘要]语音增强不仅与信号处理技术有关,而且涉及到人的听觉感知和语音学。基于听觉掩蔽效应mmse语音增强算法,在消除背景噪声、音乐噪声、增加语音可懂度和提高语音自然度等方面比谱减法更加有效。本文首先阐述了MMSE语音增强算法的内涵,并对听觉掩蔽效应与MMSE语音增强算法结合进行分析,具有一定的参考价值。

[关键词]听觉掩蔽效应;MMSE;语音增强算法

一、前言

在语音信号的理论和应用中,所用的语音数据大部分都是在接近理想的条件下采集的。大多数语音识别和语音编码在开始研究时都要在高保真设备上录制语音,尤其要在无噪环境下录音。然而,在语音通信过程中会不可避免的受到各种噪声的干扰,这种干扰将最终导致接收者接收到的语音信号已非纯净的原始语音,而是受到噪声污染后的带噪语音,因而有必要对语音信号进行增强处理。语音增强的目的主要有两个:一是改进语音质量,消除背景噪声,使听者乐于接受,不感觉疲劳,这是一种主观度量:二是提高语音可懂度,这是一种客观度量。这两个目的往往不能兼得。

语音增强不仅与信号处理技术有关,而且涉及到人的听觉感知和语音学。另外,噪声来源众多,随应用场合不同,其特性也各不相同。即使在实验室仿真条件下,也很难找出一种通用的语音增强算法适用于各种噪声环境。必须针对不同噪声,采取不同的语音增强对策。目前国外已产生的几种算法也都是针对不同的噪声源处理,减少和消除它们对原始语音的干扰。

二、MMSE语音增强算法的内涵

MMSE语音增强算法即最小均方误差语音增强算法,它是利用已知的噪声功率谱信息,从带噪语音中估计出语音信号。由于人耳对相位不敏感,可以认为相位对语音质量影响不大,MMSE语音增强算法仅对频谱幅度的对数感兴趣,带噪语音的短时谱可用短时傅立叶变换的帧计算得到,提取其相位后存储起来,然后对纯净语音的短时对数谱作最小均方误差。处理后的语音由估计得到的幅度谱和相位重建。MMSE语音增强算法基于听觉掩蔽效应,种频率的声音阻碍听觉系统感受另外一种频率的声音,这种现象叫做听觉掩蔽效应。

三、听觉掩蔽效应与MMSE语音增强算法结合分析

听觉掩蔽效应又分为频域掩蔽和时域掩蔽。掩蔽声与被看掩蔽声同时作用时发生掩蔽效应称之为频域掩蔽效应。频域掩蔽是心理声学模型的基础。频域掩蔽中,掩蔽声有掩蔽效应发生期间一直作用,是一种较强的掩蔽效应。通常频域中的强音会掩蔽与之同时发生的附近的弱音,弱音离强音越近,越容易被掩蔽。相反,离强音较远的弱音不容易被掩蔽。比如,一个1000Hz的音比另一个900Hz的音高18dB,则900Hz的音将被1000Hz的音掩蔽。而1KHz的音要比1800Hz的音高18dB,则这两个音将同时被听到,如果想让1800Hz的音听不到,则1000Hz的音要比1800Hz的音高45dB。所以,一般低频的音容易掩蔽高频的音;在距离强音较远处,绝对听觉门限比该强音所引起的掩蔽阈值高,这时,噪声的掩蔽阈值应该取绝对听觉。

时间上相邻声音之间的掩蔽现象称谓时域掩蔽。也就是说掩蔽声和被掩蔽声不同时出现,所以又叫做异时掩蔽。它又分为导前掩蔽和滞后掩蔽。掩蔽声音出现之前的一段时间内发生掩蔽效应,则称为导前掩蔽;否则称为滞后掩蔽。产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间,异时掩蔽也随着时间的推移很快会衰减,是一种弱掩蔽效应。一般情况下,导前掩蔽只有3ms~20ms,而滞后掩蔽却可持续50ms~100ms。

由于环境的复杂性,任何增强算法都有其优点和局限性,MMSE算法和入耳听觉掩蔽效应相结合,根据掩蔽阈值来调整增益值,从而使得增强语音的残留噪声和语音畸变较小,提高了感知质量。

四、结语

经过处理大量电台录制的声音样本,得出基于听觉掩蔽效应的MMSE语音增强算法,在消除背景噪声、音乐噪声、增加语音可懂度和提高语音自然度等方面比谱减法更加有效。