首页 > 范文大全 > 正文

基于SOM和统计检验的语音特征索引技术

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于SOM和统计检验的语音特征索引技术范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:本文在深入介绍线性预测编码、倒谱及Gabor滤波法等三种语音特征抽取方法的基础上,提出基于som统计检验的索引、分段索引以及二重索引的方法用于多媒体声音的自动检索。该方法弥补了传统索引方法的不足,适应语音特征,有效地将语音特征动态索引。仿真结果显示,该方法的查询效率要远远优于顺序查找,基本达到了特征索引的要求。

关键词:声音检索;分段索引;二重索引

中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)27-1872-04

The Technique of the Voice Characteristic Index Base on SOM and the Covariance Examinations

JIE Ming

(Computer Engineering Department,Huaiyin Industrial Technology College,Huai'an 223001,China)

Abstract:This text code, pours the foundation that three kinds of speech characteristics, such as table and a method of the Gabor. sample the method in the thorough introduction line estimate up, put forward according to SOM and statistics the examination of index, an index of cent and two heavy indexes of method used for the auto index of the multimedia voice.That method made up the shortage of traditional index method, the orientation speech characteristic, availably speech characteristic dynamic state index.Imitate to really as a result show, the search efficiency of that method want to be far better than the sequence checks to seek, basic come to a the request of the characteristic index.

Key words:multidimensional indexing;self-organized map;sectional index

1 引言

语音识别技术是多媒体信息研究领域的重要组成部分,可用于人机对话、语音打字及语言之间的通信等一系列重要场合。语音识别模型起始于用户创建的语音信号,以完成一个给定任务。遵循任务的语法、语义、语用,将输入信号分解成一系列单词。根据初步处理结果,使用动态知识表述的高级处理来修正语法、语义、语用,使其成为有意义的词句。用这种方法将不合理的推理或结论删去,以减小被误解的概率。

语音识别系统的基本任务是准确地识别、理解讲话的内容,是对语音共性的识别。以所要识别的单位来分,有孤立词识别、音素识别、音节识别、单句识别、连续语言识别和理解。语音理解是在语音识别的基础上,用语言学知识来推断语音的含义。语音理解系统是更高一级的语音识别系统。这类语音识别的发展情况是先从最原始的单音节识别,到限定数量的单词识别,再到对内容进行某种程度限制的会话识别。以说话人来分,有单个特定说话人,有限的说话人和无限的说话人。特定说话人的语音识别比较简单,能得到较高的识别率。研究人员正在为提高识别率而努力,这种系统如能够实用化,将会有很高的经济价值和深远的社会意义。以识别方法来分,有模板匹配法、随机模型法和概率语法分析法。

本文主要针对非特定说话人的孤立词识别技术进行初步的探讨与研究。在分析了特征表征声音的效果后,提出了适应于声音特征的基于神经网络SOM(Self-Organizing Map,特征影射网络)和统计检验的索引方法,以满足常规查询的需要。流程框图见图1所示。

2 语音特征抽取技术

由上述可知,非特定说话人的孤立词识别技术的首要任务是提取语音特征。在研究声音的性质时,不直接处理信号波形,而是变换成频谱和自相关函数,即变换成与频谱相关联的特征后进行处理。抽取的特征是否能正确表征声音的特征是能够正确识别语音的先决条件。下面介绍几种常见的提取方案。

2.1 线性预测编码方案

设有一线形系统:V(Z),为之建立一个模型,对模型的参数按照某种最佳准则进行估计,这种算法称为“参数解卷”。如果所取的模型中只包含有限极值点而没有有限值零点,则系统的函数可以表示为:V(Z)=1/A(Z),其中, 。这时算法可以归结为对各模型参数αi进行估计,即可称为“全极点模型”或称为“AR模型”。如果采用最小均方差准则对AR模型参数进行估计,就得到了线形预测编码(Linear Predictive Coding,LPC)算法。

经过统计计算、推导,容易得到AR模型参数估计表达式:

得AR模型:

Xt=φxt-1+…+φnxt-n

建立AR模型的关键问题是模型的定阶。在原有算法中,是采用逐一实验的方法来确定模型的阶数。这显然不是个好方法。但通过研究原有算法可知,如果计算阶数,从其计算复杂程度来看,几乎是不可能实现的。为了有效的缩短定阶时间,先根据以前的建模经验,将模型阶数的初始值定得大一些。因为传统的建模方法要将阶数建得尽量低,主要原因就是要减少计算量。而这部分计算量对计算机来说是可忽略的,所以原来阶数尽量低的要求不需要考虑。需要考虑的是如果阶数过高,有些系数很小,趋进于零,会影响矩阵的求逆。这时要考虑降阶。

在实现中,先按照初始化的阶数建立AR模型,如果阶数过高,下调阶数,重算模型;如模型不符合精度要求,上调阶数,直至获得准确的模型。实践证明,下调步长大于上调步长可以更快地得到模型阶数。

要检验建立的模型,首先计算F统计量:

其中,Q0是r阶AR模型的残差和,Q1是r-s阶AR模型的残差和,N是观察值个数。

F应满足关系式:P(F≥Fa)=a

其中,a是预先给定的显著性水平。通过查表获得Fa值。如果F小于等于Fa,就认为r-s阶AR模型和r阶模型没有显著差别,即模型的阶数可定为r-s;否则,要重新考虑模型的阶数。得到平稳AR模型后,取AR系数作为特征向量。

2.2 倒谱Cepstrum

功率谱Gxx(f)是只具有振幅信息的实函数,和相位无关。定义如下:

对数功率谱取其对数,又因为语音信号的傅立叶谱Gx(f)为声门激励频谱和声道传移函数的积,有

公式右边第一项表示频谱上的微细结构,即表示比较精细的周期图案,第二项表示频谱包络,即表示频率变化所产生的平缓的图形。利用高部位的峰值就能求出音源的基本周期;利用低部位,根据傅立叶变换,就能求出对数频谱包络。

式中,G(f)为声门激励频谱,v(f)为声道传移函数。对对数功率谱取傅立叶变换,就得到倒谱(cepstrum):

采用离散傅立叶变换(DFT)求解C(τ)时,因为将发生折叠,所以需要把N取得足够大。公式如下:

(0≤n≤N-1)

采用对数倒频谱方法提取基本周期和频谱包络的流程如图2示。

2.3Gabor滤波

将一维Gabor滤波函数用于声音韵律特征抽取:

式中,

对ω取不同的值(0,2π,…,2kπ),然后分别计算Wf(ω,τ)的均值和方差:

用得到的数值构造特征向量 ,这里k值取2。

3 基于SOM和统计检验的索引算法

由于多媒体的特征是多维的,记录间是一种相似关系,因而这种关系运算只具有自反性、对称性,却没有传递性。例如,A记录与B记录相似是由于它们的第一、第二、和第三维的值相同,B记录与C记录相似是由于它们的第四、第五维的值相同,但A记录与C记录却不相似。因此,传统的构造索引树的方法不再适用。声音索引主要解决查找的正确性问题。单词内容的最后判定是根据所获得的相似结果集得到的。一个高效的索引算法要能保证查找的结果是有效和可用的。

3.1 基本思想

已有的SOM算法通过无监督的竞争学习,将特征空间分类。以SOM节点图为底面,使用投影方法构造出一个有层次的树。搜索时自顶向下,直至里面是属于该类的所有记录指针的搜索列表。虽然SOM索引法大大减少了搜索的次数,但却存在一些问题,如预定义类间距离和类个体数目的阈值是一种硬分类方法,该方法的分类效果较为粗糙,不能适应个体数目的多样性;没有考虑类边界的个体的特殊性;停留在静态构造阶段,还没有考虑增加和删除时索引的动态维护问题等。基于此,文章提出基于SOM和统计检验的索引算法。该算法充分考虑了SOM和统计检验的特点,将两者有机的结合在一起。其思想如下:

1) 创建SOM聚类

SOM的拓扑结构如3所示。

SOM网络的一次训练过程就是训练样本模式组向网络输入一次模式向量。当每一样本模式出现后,通过一系列算法,网络选出“优胜节点”,然后在节点邻域内调整各网络节点的权值,结果是各权值形成能反映输入模式向量概率密度的一个簇集。当网络已经形成自组织能力时,训练也就完成了。这时拓扑上彼此相近的节点对相似的输入样本模式的反应作用相似。以采样语音作为训练样本对网络进行训练,可将声音的特征空间初步分类,发音相似的语音将被聚入同一类。

2) 调整分类

根据统计的方法,检验分类的合理性,调整分类。因为SOM方法并没有提供任何分类合理性的检验标准。在此,借鉴多元统计分析中的聚类检验方法。构造统计量,表征两个分类的类间距与类内距的比。如果类间距相对类内距显著,就认为分类是合理的;否则将两类合并,生成新类。

3) 构造索引树

逐一将数据库的记录加入所属的类,构造搜索链表。将待分类的样本与搜索链表的类比较,如果样本特征与比较类无显著差别,就将此样本插入该类。根据构造方法,一个样本可以插入多个类。允许一个样本插入多个查询子树的规则主要是针对处于两类边缘的样本的。多媒体字段的“相似性”查询是索引需要完成的主要功能。在实际情况中,某一样本既与A类相似,又与B类相似的情况是很可能出现的。而聚类的目标就是要把比较相似的样本聚在一类中。只要样本Y与某类X相似的概率大于α,就可以把它聚入X类。如果Y与X1类和X2类相似的概率均大于α,就把Y既聚入X1类又聚入X2类,而不应只将Y只聚入与它最相似的一类。这样聚类的结果可以保证类内样本的相似性。

见图4,应把填充区域中的样本同时聚入两类。

显然,根据上述方法建立的索引是一个树形结构,而且一个叶节点可以同时属于两棵子树,即一个样本可以插入两类。

4) 查询

首先,将查询样本与搜索链表中的各类比较,确定与它最为相似的一类。然后,计算类中所有样本与查询样本的向量距离,查找出最相似的样本集合。

查询的方法是首先确定与查询样本最相似的类,然后再在类内查询。如果样本只能唯一地插入一棵索引树,那么有一些与查询样本确实很相似的样本就不能被查到,如图5所示。同时,类内的查询保证了样本间的相似度,比完全用距离判别样本的相似程度可靠。

3.2 基于SOM聚类构造索引

综上所述,实现基于SOM和统计检验的索引算法的核心是构造索引。可分为三步进行:

第一步,创建SOM聚类。本算法采用厨师帽函数作为学习方法:只有在偏离优胜节点为中心的r半径以内的节点为相同的正调整权。具体过程如下:

1) 初始化权值

2) 迭代

① 计算激励

② 寻找优胜节点

③ 调整优胜节点及其邻近节点的权值

④ 缩小邻域范围

⑤ 判断:如果 误差

3) 输出结果权值

第二步,类的调整。SOM聚类是比较粗糙的,类间的边界比较模糊,因此,需要对类进行调整,将相似的类合并,去掉一些杂类,留下特征显著的类。由于SOM聚类后每个类都有一定的训练样本,两个类的相似性可以通过构造F统计量来判断。过程如下:

1) 迭代

① 选出两个距离最近的类

② 计算两类样本的组内距和组间距,构造F统计量

③ 如果组间距显著。则认为现有分类合理,调整算法结束;否则合并两类,继续迭代。

2)扫描所有的类,如果该类没有判别距阵(协方差距阵),删除该类,否则留下。

第三步,搜索链表的构造。在聚类和调整后,可以将数据库的训练记录加进索引中。索引文件由聚出的类和一个杂类的搜索链表组成。搜索链表的构造如下:

1) 各类的搜索链表初始为空

2) 迭代,直到最后一条记录

① 选出下一个记录m

② 计算m与所有类的标准向量的距离,选出距离最小的k个类

③ 逐一检验(类内的F检验),若m在该类的置信区间内,将m加进该类的搜索链表。类内的F检验的公式如下:

其中,n为样本数,p为维数,uA为A类的特征向量,Σ为A类的判断矩阵(协方差矩阵)。

⑤ 若m不属于任何类,将m加入杂类。

索引构造成功后,就可以进行相关的操作,如添加操作、搜索操作、删除操作等。

4 分段索引

语音信号只有在一个短时段中才可以认为是平稳的,因此对语音信号的LPC分析必须是一种短时分析。这就是说,只能利用一短段语音来估计其模型参数,这一短段的持续时间一般选择为20ms左右。一般单音节单词以正常语速读出约需0.5秒。这样计算,每个音节要被分为25小段,分别计算其LPC系数。在实际实验中,每段LPC系数约为6个,若将各段系数拼接为一个大向量,这个向量将有150维。因为训练样本有限,根据前述索引算法很难求得其协方差矩阵,不能保证有效索引的建立,必然影响查询的结果。

针对LPC特征向量的特点,设计了分段索引算法。其主要思想是创建LPC系数的分段索引,在查询的时候,综合各段查询结果,给出最后结果。对每段LPC系数使用基于SOM和统计检验的索引算法创建子索引,各子索引间相互独立。

查询算法具体步骤如下:

① 已知样本群P和查询样本q。

② 计算查询样本q的分段LPC系数L1,…LN,N为分段数。

③ 以Ln(1≤n≤N)为查询样本,在子索引In中查出与之最相似的类Cnk。

④ 计算Ln(1≤n≤N)与Cnk中样本的距离,得到,dnl1,…dnkM(n,k)其中M(n,k)为Cnk中的样本个数。

⑤ 计算综合距离。样本p与查询样本q的距离为 ,gnp为p与q的第n段距离,其具体定义为:

gnp=dnkp ,p在Cnk中

,p不在Cnk

⑥ 根据综合距离,查找出与q最相似的h个记录作为查询结果。

5 二重索引

在语音信号的处理与识别中,不同的特征抽取方法体现了语音信号的不同特性,如果能够将特征综合,最充分利用语音信号的各种特征显然可以提高语音的识别率。

由于各特征含义不同,数据完全没有可比性。如何综合度量向量间的距离就成为关键所在。二重索引的算法可以比较简单有效地解决这一问题。具体算法如下:

1) 已知样本群M,及查询样本n。

2) 按照不同方法分别计算索引X1,X2。

3) 根据索引X1计算出与n最相似的h个样本m1,1,m1,2…,m1,15,根据索引X2计算出与n最相似的h个样本m2,1,m2,2…,m2,15。

4) 将n与m1,1,m1,2…,m1,15,n与m2,1,m2,2…,m2,15的距离分别归一化,得到d1,1,d1,2…,d1,15及d2,1,d2,2…,d2,15。

5) 将归一化的距离叠加,获得最终判别距离。具体叠加规则为:

① 如果m1,i与m2,j是同一样本,则n与此样本的距离为d1,i+d2,j。

② 如果m1,i(或m2,j)不在m2,1,m2,2…,m2,1(或m1,1,m1,2…,m1,15)中,则n与此样本的距离为d1,i+2(或d2,j+2)。

6) 将叠加后的距离重新排序,从中选出与n最接近的h个记录作为查询结果

二重索引算法以结果集的排序信息为主,兼顾距离的数值信息,可以比较合理地综合不同特征信息。在二重索引中,还可以加入用户的主观意见,调整二原始索引所占比重。只需将E中的距离计算公式d1,i+d2,j更换为ad1,i+(1-a)d2,j(其中0≤a≤1 )即可。

(下转第1878页)

(上接第1875页)

6 实验结果与分析

在基于SOM和统计检验的索引算法的非特定人语音识别系统中,语音特征抽取是关键,可分别LPC、倒谱、Gabor滤波等特征抽取方法;索引处理是核心算法所在,它提供了基于SOM和统计检验的索引算法,以及加权二重索引算法。

语音识别是计算索引算法查询出的相似声音文件的加权相似度,对查询样本作出最终判断。测试数据分为两部分。一部分是12个人朗读的从0到9十个数字,共120个采样样本,每个数字采样时间为0.5秒钟。另一部分是23个人朗读的40个指定中文单词,共920个采样样本,每个单词由两个字组成,单词采样时间为1秒钟。全部采样均保存为WAV格式,采样频率为11.4Hz。

从实验数据上看,倒谱系数的索引算法效果略强于LPC索引算法。这与倒谱的共振峰值有实际物理意义有关。当两个原始索引的识别效果相近的时候,使用二次索引可以提高识别率。加重效果比较好的索引在二重索引中的权值可以提高识别率。当两个原始索引的识别效果相差比较多的时候,二重索引的使用已没有效果。因为效果比较好的索引受到效果较差的索引的影响,两个索引已不能互为补充,较差的索引将给较好的索引加入噪音。以Gabor滤波方法抽取的特征建立的索引查询效率不如LPC系数和倒谱系数,识别率偏低。Gabor滤波方法的设计主要是获得采样声音的韵律特征,也就是表征了声音波形的变化规律。观察查询的结果集,噪音中很多是音调变化与查询样本相似的。例如,“禁令”为查询样本的结果级中会混入“运用”样本。声母中含“h”的单词比较容易相混。例如,“战栗”、“耻笑”这两个单词会以比较大的概率出现在“山坡”的查询结果集中。这种特征抽取方法在某种程度上反映了单词的语音特征。

不同方法的特征抽取速度也有差别,见下表:

可见Gabor滤波法所需时间远多于其它两种方法,求倒谱系数的时间也比求LPC系数要多。如果系统对时间的要求比较高,则应选择LPC系数法。否则,应根据系统识别需求选择倒谱或Gabor滤波法。

7 结束语

基于SOM和统计检验的索引算法使用统计检验的方法来判断分类的合理性,该方法比预定义距离阈值方法更科学,而且具有比较广泛的适应性,同时充分考虑类边界的个体的特殊性。对于边界的个体,它会加入与其类似的多个类,因此,对边界个体的查找就不会出现“缺一半”的情况。另外使用杂类的方法,保证类内样本的相似,而不是简单的将记录加入最近的类中,这种处理能避免边远的个体对类的干扰。多段索引和二重索引技术适应了声音短时分析的特殊性,实现了少量样本的高维聚类,同时保持了合理的索引,综合了特征信息,使查找结果更加可靠,具有很高的使用价值。

参考文献:

[1] Umesh S,Cohen L, Marinovic N,Douglas J.Scale Transform in Speech Analysis,IEEE Transactions on Speech and Audio Processing,2001,7(1).

[2] Hui Jiang, Keikichi Hirose and Qiang Huo, Robust Speech Recognition Based on a Bayesian Presiction Approach,IEEE Transactions on Speech and Audio Processing,2004,7(4):7.

[3] Tan L,P. C. Ching.Cantonese Syllable recognition Using Neural Networks,IEEE Transactions on Speech and Audio Processing, 2005,7(4).

[4] Rivarol V.Douglas O'Shaughnessy and Azarshid Farhat, Generalized Mel Frequency Cepstral Coefficients for Large-Vocabulary Speaker-Independent Continuous-Speech Recognition,IEEE Transactions on Speech and Audio Processing, 2006,7(5).

[5] 张焱,张杰,黄志同.基于听觉模型的鲁棒性语音识别的研究[J].模式识别与人工智能,2002,(11)3:341-346.

[6] 肖国有,屠庆平.声信号处理及其应用[M].西北工业大学出版社,2003,12.

注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。”