首页 > 范文大全 > 正文

可训练文语转换系统的时长模型优化

开篇:润墨网以专业的文秘视角,为您筛选了一篇可训练文语转换系统的时长模型优化范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要:文语转换是人机交互的一项关键技术。当前的基于隐马尔可夫模型的语音合成系统已经能够合成出较高自然度和可懂度的声音,但与自然语音相比,韵律的节奏感不强,其主要原因是受时长的影响。提出在生成状态时长时同时优化状态、音子和音节三层模型的似然值,并通过考虑状态和长时时长的信息,使在重估计的过程中减少状态时长的错误。在普通话语料库上的实验证明,优化后的时长模型能够产生更加准确的状态时长,与状态级的基线系统相比较,均方根误差由19.90提高到了17.45。主观评测也显示改进后的模型优于基线模型。

关键词:隐马尔可夫模型;音节时长;高斯分布;最大似然值

中图分类号: TP39

文献标志码:A

Duration model optimization in HMMbased TTS

Lü Haoyin1,2

1.School of Information Science and Technology, Northwest University, Xi′an Shaanxi 710069,China;

2.College of Computer and Information Science , Longdong University, Qingyang Gansu, 745000,China

)

Abstract: TextToSpeech (TTS) is one of the important technologies of humancomputer interaction. The current stateofart HMM based TTS can produce highly intelligible and natural output speech and deliver a decent segmental quality. However, its duration tends to be unnatural. In this paper, the state durations were generated by jointly maximizing the duration likelihoods of state, phone and syllable units. By considering the duration of state and longer units jointly, the accumulation of errors in estimated state durations was regulated in the optimization procedure. Experiments on Mandarin databases show that the optimized model yields more accurate duration predictions, compared with the baseline state duration model. The improvement of phone RMSE is 2.45ms. The perceptual test further confirms that the optimized duration model outperforms the baseline system.

Key words: Hidden Markov Model (HMM); syllable duration; Gaussian distribution; maximum likelihood value

0 引言

在基于隐马尔可夫模型(Hidden Markov Model,HMM)的文语转换系统中,语音参数的建模和生产均基于最大似然准则。给定一个状态序列,语音参数射线的生成是通过最大化整个序列的似然值,并使用动态特性约束(一阶和二阶差分)。状态序列实际上根据模型的时长来决定,也就是说时长对合成声音质量的好坏起着关键作用。但现有的基于HMM的文语转换系统并不能够准确地预测时长,在此系统中,时长一般是使用高斯分布来进行建模,状态的时长通过在BaumWelch重估计算法中状态占有的数量来获得[1-2]。

为了更加准确地对时间进行建模,很多研究人员对此进行了探索。在文献[3-4]中,半隐马尔可夫模型被提出,在此模型中,时长的分布显式地用高斯分布进行建模,而并非采用传统的跳转概率的方式。该方法从时长建模的根本出发对时长进行显式的建模,但并未考虑时长的启发式结构。文献[5]提出使用状态和声韵母两层结构的时长模型,考虑了在普通话中每个字可拆分成声韵母结构的特性,但并未考虑诸如音节等更加稳定的结构。Yamagishi等人[6]最近采用层次树对时长进行建模,并通过使用决策树来对时长进行反复建模,希望能够对时长的长时结构进行建模,以产生更加准确的时长。

本文通过考虑状态和长时时长的信息,使在重估计的过程中减少状态时长的错误,提出在生成状态时长的同时优化状态、音子和音节三层模型的似然值。将分析时长的长时单元,并选择较合适的建模方式,在分析传统方法的时长建模的基础上,提出新的时长建模方法,并对提出的方法进行试验验证。

1 旧的时长模型

现有文献中的时长模型一般只对状态时长进行建模。在只有状态时长模型的情况下,Ф杂谝桓龈定的声韵母序列(长度为N),时长预测就是相当于预测一个状态分配序列,其目标是最大化如下似然值:

Иlg P(q|λ,T)=∑Nn=1∑Knk=1lg pn,k(dn,k)(1)

其中:Е霜为模型参数;q为状态序列;Kn为对应的声韵母的状态数目;pn,k(dn,k)为对应的状态时长模型,其分布函数一般采用高斯分布Nn,k(dn,k|mn,k,σn,k),其中mn,k,σn,k分别为均值和方差;T为给定的总时长约束。オ

最大化式(1)可得:

dn,k = mn,k + ρ•σ2n,k(2)

ρ = T-∑Nn = 1∑Kn k = 1mn,k /∑Nn = 1∑Kn k = 1σ2n,k(3)オ

若不考虑总的时长约束,即T=∑Nn=1∑Knk=1mn,k,г蚩傻锚Е血=0,这意味着各个状态的时长即为对应的状态模型的均值。

2 时长的长时单元建模

音节是听觉感觉可区分清楚的语音的基本单位,在汉语中一个汉字就是一个音节。汉语普通话中的无调音节(不做音调区分)共有400个音节和1B300多个有调音节,每个音节都是由声母、韵母和音调三部分组成。而且,声韵母结构是汉语特有的结构,它的上下文关系比较确定。也就是说,在汉语中,音节的时长是比较稳定的单元,声韵母的时长对音节的时长又有影响。于是,在传统的时长模型的基础上,加入对声韵母时长及音节时长的考虑,希望能够改进时长预测的准确性。

为了选择合适的分布对时长的长时信息进行建模,需要比较高斯分布和伽马分布对声韵母时长和音节时长建模的准确性。因此,首先统计音子和音节的时长分布,使用HMM声学模型对500句连续语音进行强制对齐;然后计算每个音节的时长(单位ms)。从图1可看出音节的时长分布更像一个伽马分布而不是高斯分布。基于此,本文将分别采用高斯分布和伽马分布对时长分别进行建模。

图片

图1 音节时长的分布直方图

┑1期 ┞篮埔:可训练文语转换系统时长模型优化

┆扑慊应用 ┑30卷

3 改进时长模型

早期时长模型只考虑了状态的时长分配,而不考虑音子时长和音节时长,这将导致合成的语音中有些单元的时长过于“平均”,减弱了其节奏感。对此,本文将在状态时长模型的基础上加入音子和音节时长的决策树模型,其模型初始化和决策树聚类过程与状态时长模型类似。在其合成的过程中采用最大似然准则,使状态模型的似然值和音子,音节模型的加权似然值的联合似然值最大化,从而产生时长。

改进后的时长模型可以表述为:Ф杂谝桓龈定的音子序列(长度为N),时长预测模型就相当于预测一个状态分布,其目标是最大化如下对数似然值L(D):オ

L(D)=∑j[∑n[∑klg pj,n,k(dj,n,k)+

α lg pj,n(dj,n)]+β lg pj(dj)](4)

Аkdj,n,k=dj,n(5)

Аndj,n=dj(6)

其中dj,n,k是第j个音节中第n个音子中第k个状态的时长。相应的,pj,n,k(dj,n,k)是dj,n,k的概率密度函数;pj,n(dj,n)Ш酮pj(dj),dj,nШ酮djв欣嗨频亩ㄒ濉*Е联Ш酮Е陋Х直鹞音子和音节时长模型似然值的权重因子。

在HMM中,状态是最小的单元。为了使对数似然函数L(D)最大化,令:オ

ИLdj,n,k=0(7)

假设音子和音节时长都服从高斯分布,从式(7)可得:

dj,n,k-μj,n,kδ2j,n,k+αdj,n-μj,nδ2j,n+βdj-μjδ2j=0(8)

dj,n,k=μj,n,k+-αdj,n-μj,nδ2j,n-βdj-μjδ2jδ2j,n,k(9)

又由式(5)、(6)可得:

dj,n=∑kμj,n,k+-αdj,n-μj,nδ2j,n-βdj-μjδ2j∑kδ2j,n,k(10)

对式(10)进行求解,可得:

dj,n=δ2j,n∑kμj,n,k-βdj-μjδ2j∑kδ2j,n,k+αμj,n∑kδ2j,n,kδ2j,n+α∑kδ2j,n,k(11)

令Mj,n=∑kμj,n,k, Vj,n=∑kσ2j,n,k, Dj,n=σ2j,n+α∑kσ2j,n,k,有:オ

dj=δ2j∑nδ2j,nMj,nDj,n+αδ2j∑nμj,nVj,nDj,n+βμj∑nδ2j,nMj,nDj,nδ2j+β∑nδ2j,nVj,nDj,n(12)

若仅考虑音子的时长信息,只需要把Е陋设置为0,此时式(12)变为:

dj,n,k=μj,n,k+α(μj,n-Mj,n)δ2j,n+αVj,n ×δ2j,n,k

采用同样的方法,亦可假设音子和音节时长服从伽马分布或者音子时长服从高斯分布音节时长服从伽马分布。

4 实验及分析

4.1 实验环境建立

本文将采用了音素和韵律丰富的普通话语料库来验证本文提出的方法。语料库包含一个专业的女播音员录制的连续语音。语料库分为训练集、调参集和测试集三部分。训练集用来训练时长模型;调参集用来调整加权因子的值;测试集用来测试新的时长模型的效果。三部分的比例如表1。

表格(有表名)

表1 训练集、调参集和测试集句子数量

训练集调参集测试集

300300300

从可懂度和自然度两方面可评价合成语音的质量,从而衡量一个文语转换系统的好坏。可懂度表征人对合成语音的理解程度。自然度表征合成语音的真实程度,即合成语音在多大程度上符合真人发音的韵律规律。为了评测本文提出的方法,本文分别采用主观评测和客观评测两种方法。客观评测采用均方根误差(Root Mean Squared Error, RMSE)来评估生成的时长跟原有时长的差异程度。主观评测将对基线系统和改进模型合成的语音分成两个一组,然后分给若干个测试人员进行对比测听,并对两句话的自然度进行MOS打分。从上面的表述可以看出,客观评测是对合成语音自然度的评测,而主观评测师对合成语音可懂度的评测。

4.2 实验结果及分析

本文进行了两组实验:第一组首先确定音子级最优的分布及对应的权重因子,然后在使用音子级最优的分布和权重因子的基础上确定音节级最优的分布及对应的权重因子;第二组将同时优化状态、音子和音节三层模型的似然值来确定最优的权重因子,并采用同样的分布对音子和音节级时长进行建模。

第一组实验 实验仅考虑音子级时长模型,其权重因子及测试结果如下:Щ线RMSE为20.10ms,α=0.8时高斯分布RMSE为19.10ms,α=0.6时伽马分布RMSE为19.35ms。在上述实验基础上,加入了音节级时长模型所得权重因子及结果如下:基线RMSE为20.10ms,β=1.2时高斯分布RMSE为18.15ms,β=1.8时伽马分布RMSE为17.95ms。オ

第二组实验 实验同时优化三层结构似然值,其RMSE结果及相应的权重因子结果如下:基线RMSE为20.10ms,│=0.6,β=0.9时高斯分布RMSE为18.05ms,α=0.9,β=1.2时伽马分布RMSE为18.20ms。オ

最后采用上述权重因子在测试集上进行试验,结果如下:

实验仅考虑音子级时长模型,其权重因子及测试结果如下:基线RMSE为19.90ms,α=0.8时高斯分布RMSE为18.70ms,α=0.6时伽马分布RMSE为19.05ms。加入了音节级时长模型所得权重因子及结果如下:基线RMSE为19.90ms,β=1.2时高斯分布RMSE为17.95ms,β=1.8时伽马分布RMSE为17.45ms。同时优化三层结构似然值时,基线RMSE为19.90ms,α=0.6,β=0.9时高斯分布RMSE为17.80ms,α=0.9,β=1.2时伽马分布RMSE为17.95ms。オ

从测试集可看出,音子级使用高斯分布且音节级使用伽马分布对时长进行建模时,得到的结果优于音子和音节采用同一种分布进行建模的结果。因此,可以得出如下的结论:音子级时长的分布更加接近于高斯分布,而音节级时长的分布接近于伽马分布。

最后,在上述两组试验的基础上,Р捎忙=1.2来生成状态时长并合成语音,然后使用基线系统生成的时长来合成语音。两组语音分别选出50句进行主观评测。有9位说普通话的志愿者参与了主观评测。每个自愿者要求对语音给出以下三种评价中的一种:前者较好、后者较好和听不出差别。┍2给出了主观评测结果。

表格(有表名)

表2 主观评测结果

测评结果百分率/%

基线较好24%

改进模型较好46%

没有差别30%

5 结语

本文首先分析了传统的基于HMM的文语转换系统(HTS)中时长模型存在的问题,给出了音子和音节时长的分布,介绍了对HTS框架下时长模型的优化。针对之前时长模型只考虑了状态时长分配,本文加入了音子和音节的时长模型,在合成中对三种时长模型进行加权来进行时长预测。最后通过实验的方法验证了本文所提出的三层时长模型的有效性。

参考文献:[1] TOKUDA K, YOSHIMURA T, MASUKO T, et al. Speech parameter generation algorithms for HMMbased speech synthesis[C]// Proceedings of 2000 IEEE International Conference on Acoustics, Speech, and Signal Processing. New York: IEEE, 2000:1315-1318.

[2] YOSHIMURA T, TOKUDA K, MASUKO T, et al. Duration modeling for HMMbased speech synthesis[EB/OL].[2009-04-20]. www.shlrc.mq.edu.au/proceedings/icslp98/PDF/AUTHOR/SL980939.PDF.

[3] ZEN H, TOKUDA K, MASUKO T, et al. Hidden semiMarkov model based speech synthesis[EB/OL].[2009-04-20]. www.sp.nitech.ac.jp/~zen/publications/zenicslp04slide.pdf.

[4] LEVINSON S. Continuously variable duration hidden Markov models for speech analysis[C]// IEEE International Conference on Acoustics, Speech, and Signal Processing.New York:IEEE, 1986: 1241-1244.

[5] 吴义坚,王仁华. 基于HMM 的可训练中文语音合成[J].中文信息学报,2006,20(4):75-81.

[6] YAMGISHI J, KAWAI H, KOBAYASHI T. Phone duration modeling using gradient tree boosting[J].Speech Communication, 2008,50(5): 405-415.