首页 > 范文大全 > 正文

基于DTW的孤立词说话人识别研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于DTW的孤立词说话人识别研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:利用遗传算法优越的全局搜索能力对传统DTW算法进行改进,重点研究遗传动态时间规划算法(GA_DTW)的实现机理、编码方式、适应度函数设计、种群初始化、选择机理、交叉运算、变异操作和终止策略。实验结果表明,在孤立词的说话人识别上,该算法具有识别率更高、耗时更少的优点。

关键词:说话人识别 DTW GA_DTW

中图分类号:TN912.3 文献标识码:A 文章编号:1007-9416(2013)10-0098-02

在孤立词语音识别中,DTW(动态时间规整)是一个经典算法。它将时间规整和欧式距离相结合,通过局部最优解,使两个特征矢量之间的累积失真量最小。本文将遗传算法用于DTW中,从全局角度出发,使整个系统的识别效率大大改善。

1 DTW的基本原理

假设参考模板特征矢量序列为,输入测试语音特征矢量序列为,其中,DTW就是要寻找时间规整函数m=w(n),把测试模板的时间轴n非线性映射到参考模板的时间轴m,并满足[1]:

(1)

式中,是第n帧测试矢量和第m帧参考矢量的距离测度,一般这个距离测度采用欧氏距离的平方,如式2:

(2)

其中,,Q是特征矢量维数。实际应用中,DTW采用动态规划技术实现最优化算法,w(n)被限制在一个平行四边形内如图1,其一条边的斜率为2,另一条边的斜率为1/2。规整函数的起始点为(1,1),终止点为(N,M)。DTW算法用简单的局部路径限制,使沿路径的累积距离最小,其动态搜索的空间并不是整个矩形网格,而是局限于平行四边形区域内,许多点达不到,因此,本文采用基于遗传算法的动态时间规划算法(GA_dtw)用全局搜索能力来寻找最佳匹配路径[2]。

2 GA_DTW算法机理

设参考模板为:R={R(1),R(2),…,R(m),…,R(M)},测试模板为:T={T(1),T(2),…,T(n),…,T(N)},R与T间的总失真距离表示为D[R,T],为使两模板的相似度较高,失真距离越小越好[3]。

设为规划路径,P为匹配路径的长度,用w(i)=(x(i),y(j))表示参考模板的第x(i)个特征矢量与输入模板的第y(j)个特征矢量构成的匹配对,其中y(j)=k(x(i)),任意两模板间帧距离用d[x(i),y(j)]表示,则两模板在路径为W时的距离为:

(3)

易知x(1)=1,y(1)=1,x(T)=M,y(T)=N。为了使最小,把式4作为适应度函数的原型,需找到最小的模板间距离[4]:

(4)

3 GA_DTW算法的流程

GA_DTW是对每一代个体进行适应度评价,对待识别模板和参考模板各帧间累积距离进行计算,通过选择、交叉和变异等操作得到适应度更高的下一代种群,如此反复,直到达到算法终止条件即满足模板最小总累积距离,结束算法运算,输出结果[5]。

(1)编码方式:对参考模板进行编码,并对待识别模板上特征参数帧的位置及位置上的值进行编码,使染色体上的基因位置表示待识模板的帧号数,而该位置上的基因值表示参考模板的帧号数。假如参考模板特征参数有M帧,待识别模板特征参数有N帧,那么用长度为N个字符的串来编码染色体,而这个串中的基因是一个小于或等于M的正整数,它代表待识别特征参数帧在基因位置上对应的参考特征参数帧的位置,并在串中按从左到右、从小到大的顺序排放。假设参考模板参数有10帧,待测试模板参数有15帧,如串1,1,2,2,3,4,5,5,6,7,8,9,9,10,10,它表示待识别语音特征参数中的:第1帧对应参考模板中第1帧,第2帧对应参考模板中的第1帧,第3帧对应参考模板中第2帧,…,第14帧对应参考模板中第10帧,第15帧对应参考模板中第10帧。

(2)适应度函数设计:待识别模板特征参数(N帧)参考模板特征参数(M帧)间各帧间距离是一个的矩阵dist[M,N],一般适应度值越大被遗传的机会就越大,但是累积距离是越小越好,所以需要进行最大值和最小值之间的转换。GA_DTW算法的适应度函数为式5。

(5)

其中为最大累积距离,dist[m,n]表示参考模板第m帧和测试模板第n帧间的距离。

(3)种群初始化:随机产生N个0-2的随机整数,使它们的和加起来等于M,然后对这些随机数按从左到右的顺序依次求和,即:染色体中从左至右的第K个基因是随机数序列从左至右的前K个随机数的和。

(4)选择操作:在进化时,上一代适应度最高的个体直接复制到下一代,再选取遗传运算之后适应度较高的个体,直到个体数量达到种群规模[6]。

(5)交叉操作:将种群中2X个个体以随机方式组成X个配对组,将对应两位置的中间基因片段进行交换,得到2个新的个体。

(6)变异操作:用Pm表示变异概率,一般取值0.001~0.02,通过扰乱基因值再和并允许的新值,即:随机产生一个1~M-1范围内的整数,用它取代个体中的某个元素。

(7)终止策略:本文采用固定遗传迭代次数的方法终止策略,设定迭代次数为60次。

4 实验结果及分析

实验采集了5个人的语音样本数据,包括3个女声和2个男声的发音,样本为两个字的连续词发音,分别为“芝麻、开门、晴朗、多云、小雨”,每人每个词发音重复40遍,这样得到共1000个语音样本数据,建立了一个S×5×40的语料库,供实验用。

采用同一个女声的声音样本,交叉概率和变异概率取(Pc,Pm)=(0.8,0.005),遗传迭代次数按60计算,实验结果如表1。

从表1知,DTW和GA_DTW的识别率分别为87.60%和90.51%,GA_DTW的识别率明显高于DTW的识别率,而且耗时更短,前者每个词识别平均耗时1.596s,后者每个词识别平均耗时1.371s,在效率上GA_DTW比DTW高得多。

参考文献

[1]陈永斌,王仁华.语言信号处理[M].合肥:中国科学技术大学出版社,1990.8.

[2]De.Jong, KA. An Analysis of the Behavior of a Class of Genetic Adaptive Systems[D].University of Michigan,No.76-9381,1975.

[3]Holland J H. Adaptation in Natural and Artificial Systems[M]. Ann Arbor: Univ.of Michigan Press,1975.

[4]徐宗本,张讲社,郑亚林.计算智能中的仿生学[M].北京:科学出版社,2003.5.

[5]Brindle A.Genetic Algorithms for Function Optimization[D].Dissertation, University of Alberta,1981.

[6]周明,孙树栋.遗传算法原理及应用[M].北京:国防工业出版社,2005.1