首页 > 范文大全 > 正文

一种基于N―mode SVD的HRTF个人化近似方法

开篇:润墨网以专业的文秘视角,为您筛选了一篇一种基于N―mode SVD的HRTF个人化近似方法范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要:本文提出了一种基于N-mode svdhrtf个人化近似方法。HRTF(Head-Related Transfer Function),即头相关传输函数,描述了声波从声源方位到耳道口的传输特性,反映了头部、躯干和外耳等身体结构对不同方向声音信号的滤波效果。本文给出的多重近似方法基于传统独立主元分析的张量扩展[1]。使用该方法只需测量不同个体的部分生理参数即可得到该个体的个人化HRTF。

关键词:听觉系统;HRTF;张量;多重线性近似

中图分类号:TP311

头相关传输函数HRTF(Head-Related Transfer Function)描述了声波从声源到耳道口的传输特性,反映不同个体的身体结构对不同方向声音信号的滤波效果,是头相关脉冲响应HRIR的傅里叶变换,它能解释传统的耳间差线索(双耳时间差和双耳强度差)的声源定位机理,同时还能解释传统双工理论所不能解释的“混淆锥”问题[2]。

HRTF与特定的声源方位及特定个体的生理结构(头部、躯体、外耳等结构)有关,如果采用不匹配的HRTF的虚拟听觉系统,听者由于其本身的HRTF与系统采用的HRTF差异,容易造成听者的声源定位失真[3]。然而HRTF的测量是一项耗时且昂贵的工作,对每个个体进行全方位的HRTF测量也不切实际。因此,从应用的角度考虑,需要寻求个人化HRTF的近似方法,即通过对受试者的一些结构参数及生理尺寸的测量,或者通过测量空间少数方向的HRTF数据,通过近似的方法估计和定制出相应的个人化HRTF。

1 HRTF的张量分解

1.1 张量的基本概念

通常情况下张量[5-7]可以看作为矩阵的扩展,一个向量可以看成是一阶张量,一个矩阵可以看成二阶张量,有若干个相同维数矩阵叠放在一起组成立方体形式的数组可以看作为一个三阶张量。更高阶的张量无法使用可视化直接表示。灰度图像本质上是一个矩阵[4,5],视频则是一个三阶张量。一般情况下,基于向量的算法要把矩阵或者其它阶张量展开为向量,容易破坏原始数据的空间结构。而基于张量的算法不需要将张量展开为向量。下面是一些高阶张量运算定义[6]。

设X为M阶张量,即 ,其中Ni表示X每阶的维数。X的某个元素定义为: ,其中1≤ni≤Ni,1≤i≤M。

张量积:设X和Y张量同阶,即 , 则X和Y的张量积定义为:

(1)

张量模d矩阵化:模d矩阵化是指将一个M阶张量 转换为一个矩阵。即将张量X转换为 , 。张量模d矩阵化的实质就是把张量X的第Nd阶方向的向量提出来,而其它阶方向的向量置于Nd阶方向的向量的后面形成一个矩阵。

张量压缩:张量压缩通过让两个下标相等并把所有重复下标的值相加得到。张量压缩可以使张量阶数减2,同时满足爱因斯坦求和约定。通常情况下, , ,张量积 的压缩定义为:

(2)

张量的模d乘:张量的模d乘是张量 和矩阵 的一种运算,表示为X×dU。

1.2 基于N-mode SVD的HRTF分解

N-mode SVD分解最主要的一个功能是对于目标维度的降维。传统的PCA降维会影响整个数据的结构,而N-mode SVD降维可以分别对特定维度进行。

SVD(singular value decomposition)作为传统主元分析法的拓展,D=U1SU2T,假设D为m×n矩阵,那么U1为m×m阶酉矩阵;S为m×n阶对角矩阵,其中Sii为D的奇异值;U2T为n×n阶酉矩阵。使用张量的模d乘可得D=S×1U1×2U2,对于通用的N-mode SVD可以表示为:

D=z×1U1×2U2×L×nUn×NUN

式中核张量z类似于SVD分解中奇异值张量,Ui表示张量的特征向量。详细的N-mode SVD分解请参考文献[1]。

2 HRTF多重线性近似

2.1 HRTF数据

本文采用加州大学戴维斯分校提供的CIPIC数据库[8],它提供了43个真人对象的1250个方位(50个垂直方向,25个水平方向)的HRIR数据。其空间分辨率约5°。另外CIPCI数据库还给出了27个人体参数的测量数据。每个HRIR时长4.5ms共200个采样点,经过FFT变换得到HRTF,这里我们左右耳组合成一个包含左右耳HRTF共400个频率点。

CIPIC数据库中的43个真人受试者其中有8个人的数据不可获取,故37个受试者的数据可用。对于该37个对象的人体参数经过DTF的PCA分析选择8个人体参数。最后得出一个人体参数矩阵作为Uperson初始数据集A。

2.2 HRTF个人化

使用上述HRTF数据A,定义一个HRTF数据张量,D∈RF×P×D,其中F为DTF频率点数(400),P为CIPIC数据库中可用的受试者人数(37),D为方位数(1250)。使用N-mode SVD分解,可以将张量分解为:D=z×1UF×2UP×3UD

本文使用的目标维度是UP,即所需降维的是UP,这里我们将UP从37降低到5,得到 ,这样即需要计算出A 的投影矩阵。这里采用 回归模型,其中B为一个系数矩阵,式子两边先转置后左乘A-1可解得BT: 。

对于一个新的受试者(HRTF不在数据库内),其人体参数张量可表示为anew,解该张量系数矩阵 ,其满足: 通过 ,可以解得该新受试者的完整HRTF,得:

3 实验及结论

由于CIPIC数据库中有8个人人体参数数据不全,这里选取剩余37个人的HRIR和相应的人体参数作为实验数据。为了充分利用实验数据,我们将36个测量对象数据用于建立回归模型,另外一个人数据(这里使用数据库中编号为163的测量对象数据)用于测试模型的有效性。为了验证该方法的性能,及方便评价本章提出的HRTF个人化方法的有效性,本文利用谱失真度(SD:Spectral Distortion)[9]来度量估计的HRTF与数据库中测量得到的HRTF之间的逼近程度:

式中H(?n)为测量的HRTF, 为估计的HRTF,?为频率。文献[10]的研究表明:SD的值越小表明估计的HRTF与测量得到的HRTF越接近,且用估计的HRTF也可以得到较好的定位效果。

图1给出了CIPIC数据库中标号为163号的前半水平面左耳的SD值。其频带范围为0~2S,绿色线为测量得到的HRTF)。从图中可以看出,除了个别频率点突变外,本文给出的HRTF个人化方法能够较好地逼近测量的HRTF。

图1 编号163前半水平面左耳SD值

图2 编号163水平方向-55度右耳

参考文献:

[1]M.A.O.Vasilescu and D.Terzopoulos.TensorTextures:Multilinear image-based rendering[C].in Proceedings of ACM SIGGRAPH 2004 Conference,2004:334-340.

[2]谢菠荪.头相关传递函数与虚拟听觉[M].北京:国防工业出版社,2008.

[3]D.L.Wang and putational Auditory Scene Analysis:Principles,Algorithms,and Applications[C].Wiley-Interscience,IEEE Press,2006.

[4]B.Savas and L.Lim.Best multilinear rank approximation of tensors with quasi-Newton methods on Grassmannians[R].Technical Report LITH-MAT-R-2008-01-SE,Department of Mathematics,Linkpings University,2008.

[5]胡红梅.虚拟听觉空间实现中的关键技术研究[D].东南大学,2008.

[6]王东方,周激流,何坤.基于张量Tucker分解的彩色图像压缩[J].四川大学学报(自然科学版),2010(47):287-292.

[7]G.Grindlay and M.Vasilescu.A multilinear(tensor) framework for HRTF analysis and Synthesis[C].In Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing,Volume 1,Honolulu,Hawaii,USA,2007:161-164.

[8]Algazi V R,Duda R O,Thompson D M,et al.The CIPIC HRTF database[C].in Proc.of 2001 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics(WASPAA’01),Mohonk Mountain House,New Paltz,NY,2001(a):99-102.

[9]Nishino T,Nakai Y,Takeda K,et al.Estimating head related transfer function using multiple regression analysis[C].IEICE Trans A.,2001,84(A):260-268.

作者简介:蒋孟宜(1987-),男,四川达县人,研究生;付安邦,硕士。

作者单位:四川大学计算机学院,成都 610064