首页 > 范文大全 > 正文

基于MELP的汉语耳语音重建

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于MELP的汉语耳语音重建范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:该文使用混合激励线性预测(MELP)声码器来完成耳语音转化为正常音。在语音编码的过程中,对原有的声码器的编码过程进行修改。在语音中引入基频和对语音的声道共振峰参数进行修改,进而完成耳语音的编码过程。最后使用解码器对参数进行语音的合成得到目标语音。实验结果可以较好的得到正常语音。

关键词:MELP;基频;共振峰

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)16-3834-05

耳语是人们的语言交流方式之一,在会场、音乐厅、图书馆等禁止大声喧哗的场所被广泛应用。以前对耳语音的研究主要停留在语音基础研究和医学工作的需要,但是随着科学技术的发展 ,耳语音的研究逐渐走向实际应用, 主要是耳语音的识别、耳语音转换为正常音、耳语音的情感分析等等。

近些年来对耳语的研究逐渐受到世界各国研究人员的重视。由于耳语音没有基频,而进行耳语音向正常音的转换则是从无基频到有基频的转换,显然对需要基频存在的条件下进行的不同话者的语音转换不适用于耳语音。目前,关于耳语音转换为正常音的研究还处于起步阶段,主要有 Morris 、Sharifzadeh及Ahmadi进行了这方面的研究。Morris提出谱修正法来进行英语耳语音的转换【1】。Sharifzadeh【2】和 Ahmadi【3】分别提出用CELP模型去实现耳语音转换为正常音。

本文的模型是基于melp模型。利用MELP声码器的语音编码和解码,对所编码模型部分进行修改已达到适合汉语语音转化为正常的目的。转换的目的就是保留语义的条件下,使转换后的语音逼近正常语音。由于耳语音相比于正常音发声时声带不震动、声道拉长,而且语音的能量较弱,这就导致耳语音的基频、声道参数、增益等存在着差别。通过MELP解码器把修改后的参数进行合成语音。对于这些差别,通过一些处理得到所需要的参数。基频只存在汉语正常音的韵母中,所以在添加基频的时候就要对语音进行声韵分割。对于声道参数使用一种在线性频谱域修改共振峰的方法。故提出了图1所示的转换语音的MELP模型。

本文第二部分,我们说明如何进行端点检测和声韵分割。第三部分,如何添加基频。第四部分,修改声道的共振峰参数。第五部分说明模型其余参数的设定。第六部分为实验结果。第七部分为本文的结论。

2 添加基频

耳语音的发生机理为声带不发生振动。这样耳语音就不存在基频,那么就要求添加基频。有的模型根据神经网络自适应添加基频。但是这些模型所要进行学习和识别匹配的过程,这就需要进行大量的运算。然而耳语音转化为正常音的目的是为了更好地辨别语音的文字,所以在辨别文字的基础上,尽量减少运算的时间。对于说话人,在声道中含有一定的信息,在某种程度上可以辨别出来。在添加基频中应用五度字调模型来得到基频的大小。

对于耳语音声调与耳语音的幅值包络、音长存在着关系【7】。以包络最大值出现的位置不同及变化趋势不同,将包络曲线分为:平台型、前峰型、中峰型、后峰型和双峰型。一声包络主要有平台型和前峰型,二声主要是前峰型和中峰型,三声主要是双峰型,四声主要是前峰型。一般情况下,音长与声调也存在复杂的对应关系。

3 共振峰参数

b)共振峰带宽的改变

傅氏级数幅度值的计算是以语音的基音周期为基础,而耳语音没有基频,因此很难算出其值。但将其设置为1得到的合成语音波形及音质没有太大区别。因此在这转换过程中,傅氏级数幅度值设置为1。

5 实验结果

6 结论

本文使用基于MELP的方法来实现汉语耳语音转换为正常音。修改的MELP模型很有效的实现了转换语音,并且修改后得到的语音有很好的可懂度。

此方法可以使用在通信中,在设备输入方应用此分析模型得到MELP的参数,再在接收方使用正常的MELP合成模型就可以满足通信双方的要求。以后的工作可以在耳语音和正常音的时间长短方面进行工作,这样就更加的接近正常说话的情境。

参考文献:

[1] Robert W. Morris, Mark A. Clements. Reconstruction of speech from whispers[J]. Medical Engineering & Physics. 2002;24 :515-520

[2] Hamid Reza Sharifzadeh, etc. Reconstruction of Normal Sounding Speech for Laryngectomy Patients Through a Modified CELP Codec[J]. IEEE Transactions on Biomedical Engineering. 2010;57:2448-2458

[3] Farzeneh Ahmadi, etc. Analysis – by - Synthesis Method for Whisper-Speech Reconstruction[J]. IEEE Conference. 2008;9:1280-1283

[4] 栗学丽,丁慧,徐柏龄.基于熵函数的耳语音声韵分割法[J].声学学报.2005,30:69-75.

[5] 杨顺安.五度字调模型在合成汉语语音中的应用[J].方言.1987,2:142-147.

[6] A. V. Oppenheim and R. W. Schafer, Discrete-Time Signal Processing[M]. Englewood Cliffs, NJ: Prentice-Hall, 1989.

[7] 徐敏.基于MELP模型的汉语耳语音转换为正常音的实现[D]. 苏州:苏州大学,2007.

[8] 沙丹青,栗学丽,徐柏龄.耳语音声调特征的研究[J].电声基础. 2003,11:4-7.

[9] Robert W. Morris, Mark A. Clements. Modification of Formants in the Line Spectrum Domain[J]. IEEE Signal Processing Letters. 2002,9:19-21.