张量描述下的多姿态多表情人脸合成方法(全文)

开篇：润墨网以专业的文秘视角，为您筛选了一篇张量描述下的多姿态多表情人脸合成方法范文，如需获取更多写作素材，在线客服老师一对一协助。欢迎您的阅读与分享！

文章编号:1001-9081(2012)01-0256-05 doi:10.3724/SP.J.1087.2012.00256

摘要:为了从一幅人脸图像中合成出该人脸其他姿态和表情下的图像，提出了一种基于张量子空间的多姿态人脸表情合成方法。首先，用标记过特征点的人脸图像集构造四维纹理特征张量和形状张量；其次，通过张量分解得到核张量以及各维的投影子空间（人物标识、表情、姿态、特征维）；最后应用核张量以及表情、姿态子空间构造新的张量用于姿态、表情的合成，在合成新人脸图像的时候充分利用了影响人脸的各因素间的内在关系。实验结果表明，所提方法可以利用一张已知表情和姿态的人脸图合成出自然合理的其他姿态表情下的该人脸图像。

关键词:张量分解；表情、姿态合成；模式子空间

中图分类号: TP391.413 文献标志码:A

Abstract: To synthesize facial pose and expression images simultaneously from one image, a tensor-based subspace projection method for synthesizing multi-pose and expression face images was proposed. Firstly, the forth order texture tensor and shape tensor were created from the feature annotated images respectively. Then a tucker tensor decomposition technique was applied to build projection subspaces (person, expression, pose and feature subspaces). Core tensors, expressions, poses and feature subspaces were organized into a new tensor properly which was used for synthesizing new facial poses and expressions. The proposed method took full advantage of the intrinsic relationship among the facial affected various factors. The experimental results show that the proposed method can synthesize different facial expressions with kinds of poses of the face using a known facial expression and pose image.

Key words: tensor decomposition; multi-pose and expression synthesis; model subspace

0 引言

人脸表情合成技术在图像处理、计算机动画方面有着广泛的应用。由于人脸图像容易受姿态、表情、光照等影响而产生不同的变化，使得合成真实合理的人脸表情极富挑战性。实际中在获取人脸图像的时候通常只是某个姿态和表情下的人脸图像，如果能合成出该图像其他姿态和表情下的图像，便能获得更多的信息以便应用。多姿态人脸表情合成是当今人脸相关技术研究热点之一，具有重要的研究价值和应用价值。例如，在智能治安管理中拍摄到的进出小区人员的脸部图像会呈现出不同的角度和表情，给识别带来困难，如果能将正面无特殊表情的图像合成出来，便可有效地提高人脸识别的准确率。

脸部合成的方法有很多种，文献［1］给出了创建脸部动画的文献综述。基于几何驱动的方法［2］，可以很好地表现人脸正面表情变化的细节，如由于表情变化造成的皮肤纹理的变化，但无法从姿态表情同时发生较大变化的图像合成出正面无表情图像。基于脸部肌肉活动模型和骨骼结构的方法［3］通过人脸序列图像来估计变化的人脸肌肉收缩情况从而建立人脸模型，该方法需要大量的预处理如对应肌肉收缩点的配准等。基于统计学习的方法［4］通过LLE（Locally Linear Embedding）方法获得不同姿态下图像间的内在的共同结构，并通过参数控制姿态的变化，应用某个人的多幅不同姿态图像训练构建这个人的姿态合成模型，但该模型不能用于其他人。与以上方法不同的是，本文提出的方法旨在合成出脸部的主要特征并快速有效地生成具有可分辨性的人脸，而不是针对人脸表观细节进行描述。考虑到影响人脸的各个因素之间是相互联系的，表情、姿态变了，都会影响脸部的形状和纹理，而张量是高维数据的自然表示，是向量和矩阵模式的推广，已广泛应用于人脸数据的建模［5-11］，如张量脸等。为了挖掘并利用各影响因素间的内在关系，本文采用了多线性代数中的张量模型做人脸建模。将不同人物、姿态、表情下的人脸图像构造成两个四维的高阶张量――纹理张量和形状张量，然后运用高维奇异值分解（Higher Order Singular Value Decomposition, HOSVD），分解出核张量和各模特征子空间，并应用它们构造新的姿态表情张量用于合成人脸图像。在合成时首先将输入图像反向投影到对应维的姿态表情张量得到该图像人物标识维的混合系数向量，然后利用该混合系数向量投影到不同姿态、表情下的投影矩阵，从而合成出新的人脸图像。与文献［6，11］不同的是本文构造的张量模型可以同时合成姿态、表情都有变化的人脸图像。

1 张量基础

张量模式在模式识别、计算机视觉领域有着广泛的应用，是传统向量模式的扩展和补充，例如向量为一阶张量，矩阵为二阶张量。灰度图像为二阶张量，彩色图像为三阶张量，步态时间序列图像为三阶张量。在传统统计识别中，数据一般采用向量模式表示，但数据向量化后原始数据的结构极有可能遭到破坏，而且向量化后生成的维数极大从而导致计算复杂度和存储代价很高。相比于向量模式，张量可以更好地反映数据原有状态下的模式，而且维数和复杂度也会降低。

一个N阶张量记为A∈RI1×I2×…×IN，I1,…IN对应A的N个模式。ai1…in…iN为张量A中的元素，其中in∈{1,…,IN}。张量A的第n模展开矩阵记为A(n)∈RIn×(I1I2…In－1In+1…IN)，是将张量A的所有n模方向的向量依次作为矩阵A(n)的列向量，排列而成，如图1所示。将张量沿n模方向展开，使得对张量的操作更加方便。

张量A∈RI1×I2…×IN与矩阵U∈RJn×In的n模乘记为Β=A×nU，其中B∈RI1×I2…In－1×Jn×In+1×…IN，并且

(A×nU)i1i2…in－1jnin+1…iN=∑Inin=1ai1i2…in－1inin+1…iNUjnin(1)

n模乘表示为矩阵的形式为：Β(n)=UA(n)，其中Β(n)和A(n)分别为张量Β和A的n模展开矩阵。

应用高阶奇异值分解可将张量A∈RI1×I2…×IN分解为核张量Ζ∈RJ1×J2…×JN与N模正交矩阵U(1)…UN相乘的形式：

A=Ζ×1U(1)…×NU(N)(2)

其中U(n)∈RIn×Jn为与第n模展开矩阵相对应的子空间。

图2为三阶张量的Tucker分解示意图，张量的HOSVD方法［12］如下：

程序前

procedure HOSVD(A,R1,R2,…,RN)

for n=1,2,…,N do

U(n)Rn//张量A的n模展开矩阵的左奇异矩阵

end for

ZA×1U(1)T×2U(2)T…×NU(N)TT是变量，还是表示矩阵或向量的转置？请明确。

return Z,U(1),U(2)…,U(N)

end procedure

程序后

2 张量模型下的多姿态多表情人脸合成方法

由于形状和纹理的变化都会影响到人脸图像的变化，因此本文将同时构造形状张量和纹理张量来建模姿态表情同时变化的人脸图像。假设训练集中有I个不同的人，每人有J个表情，K个姿态，形状特征维为N，纹理特征维为M，则可以创建四维形状张量S∈RI×J×K×N和四维纹理张量T∈RI×J×K×M。

2.1 形状张量和纹理张量

形状特征的选取采用AAM（Active Appearance Model）［13］中形状模型的创建方法。在训练集中每幅图像均有L个人工标记的特征点，分布于眉毛、眼睛、鼻子、嘴唇和脸部轮廓上，如图3(a)所示。每个标记点的坐标记为(x,y)，则形状特征向量由所有标记点的坐标顺序排列而成。由人物标识、表情、姿态和形状的组合可构成四维形状张量S∈RI×J×K×2L，I，J，K分别为人、表情、姿态的个数，其中第四维的形状特征向量记为sijk，表示第i个人的第j个表情，第k个姿态的形状特征向量，sijk由特征点坐标表示表示如下：

sijk=(x1,y1,x2,y2,…,xL,yL);1≤i≤I,1≤j≤J,1≤k≤K(3)

下面构造纹理张量。首先将所有图像形状对齐到第一幅图像，求得平均形状S，然后将所有图像对齐到S，并求得新的平均形状Snew，通过迭代的方式继续进行对齐和计算平均形状，直到获得稳定的平均形状S为止。这样做的目的是为了消除由于图像位置不同而造成的形状变化，从而只保留由于人物、姿态、表情的不同所产生的形状的变化。求得S后，对人脸进行Delaunay三角分割并进行对应三角面片的变换，将人脸图像标准化到平均形状S，取S内所有点的灰度并构造为一维纹理特征向量。设S中像素点个数为M，则构造的四维纹理特征张量为T∈RI×J×K×M，I，J，K分别为人、表情、姿态的个数，其中纹理特征向量记为tijk，表示第i个人的第j个表情，第k个姿态的纹理特征向量。

2.2 创建同时合成姿态和表情的张量子空间

为了能够合成其他表情和姿态下的人脸图像，首先对形状和纹理张量进行Tucker分解:

S=ZS×1U(1)person_s×2U(2)expression_s×3U(3)pose_s×4U(4)shape(4)

T=ZT×1U(1)person_t×2U(2)expression_t×3U(3)pose_t×4U(4)texture(5)

ZS和ZT分别为形状张量和纹理张量分解后的核张量，ZS描述了人物、表情、姿态、形状特征子空间之间的相互关系，ZT描述了人物、表情、姿态、纹理特征子空间之间的相互关系。U(1)person_s、U(2)expression_s、U(3)pose_s、U(4)shape分别表示形状张量分解后的人物、表情、姿态、形状特征子空间；U(1)person_t、U(2)expression_t、U(3)pose_t、U(4)texture分别表示纹理张量分解后的人物、表情、姿态、纹理特征子空间。各子空间矩阵均为正交矩阵。子空间矩阵中的每一行表示该模下的一个特定向量，例如U(1)person_s=［up1,up2,…,upn,…,upI］T中upn表示形状描述中第n个人的特性，U(1)expression_t=［ue1,ue2,…,uen,…,ueJ］T中uen表示纹理描述中第n种表情的特性。而子空间矩阵中的列向量则反映了其他各模对该模的影响。

由分解出的核张量和各子空间矩阵构造形状张量Χshape和纹理张量Χtexture如下，用于合成一个人其他姿态、表情下的人脸：

Χshape=ZS×2U(2)expression_s×3U(3)pose_s×4U(4)shape(6)

Χtexture=ZT×2U(2)expression_t×3U(3)pose_t×4U(4)texture(7)

Χshape和S有相同的维数I×J×K×2L，Χtexture和T有相同的维数I×J×K×M。Χshape定义了一系列描述表情、姿态变化与形状特征相关的矩阵，同样Χtexture定义的是表情、姿态与纹理特征相关的矩阵。

对于输入的具有表情j0(1≤j0≤J)和姿态k0(1≤k0≤K)的图像P0，合成该人脸在表情j(1≤j≤J)、姿态k(1≤k≤K)下的人脸图像。对输入图像P0，将P0变换到平均形状S，获得变换后S内像素点的灰度值构成纹理特征向量gj0k0。

首先，合成纹理张量，令

Ψjk_t=Χtexture(:, j,k,:)(8)

Ψjk_t可视为表情j(1≤j≤J)，姿态k(1≤k≤K)下的投影矩阵，若已知人物标识维的系数向量uperson_t_i，则表情为j，姿态为k时的纹理向量Tjk可由式(9)得出：

Tjk=Ψ Tjk_tuperson_t_i(9)上标T是表示矩阵转置，还是表示变量?若是变量，是矢量、向量或矩阵吗？请明确。

因此首先根据输入图像P0的纹理向量gj0k0，以及表情j0(1≤j0≤J)和姿态k0(1≤k0≤K)下的投影矩阵Ψj0k0_t，来计算人物标识维的系数向量uperson_t_i0：

uperson_t_i0=(Ψj0k0_t)－Tgj0k0(10)

然后由P0合成的具有表情j(1≤j≤J)，姿态k(1≤k≤K)的纹理向量Tsynjk：

Tsynjk=Ψ Tjk_tuperson_t_i0(11)

形状向量Ssynjk的合成可用类似的方法获得。令Ψjk_s=Χshape(:, j,k,:)，根据输入图像P0的形状向量sj0k0，计算此时人物标识维系数向量uperson_s_i0：

uperson_s_i0=(Ψj0k0_s)－Tsj0k0(12)上标“-T”表示什么，其中的“T”是矩阵吗？请明确。

则由P0合成的具有表情j(1≤j≤J)，姿态k(1≤k≤K)的形状向量为Ssynjk：

Ssynjk=Ψ Tjk_superson_s_i0(13)

获得Tsynjk和Ssynjk后，将此时平均形状S下的纹理图像根据图像原形状向量与S间的映射关系，反向变换到原形状，则此时图像即为合成后的具有表情j(1≤j≤J)，姿态k(1≤k≤K)的图像Pij。

3 实验和分析

3.1 实验数据库

本文实验采用Weizmann人脸库［14］。该人脸库中包含28个人，每人有3种表情，5种姿态，5种光照。本实验取其中部分图像构造训练集。训练集中的图像为同一种光照条件下14个人的3种表情，5种姿态图。图4为训练集中某一个人的所有图像，包含3种表情，5种姿态，每幅图像中有68个标记点，分布于眉毛、眼睛、鼻子、嘴唇和脸部轮廓上，因此构造的四维形状张量为S∈R14×3×5×136。将取出的脸部图像变换到平均形状S（S映射到60×60的模板上），S内人脸区域像素个数为2557，因此构造的四维纹理张量为T∈R14×3×5×2557。

3.2 人脸合成结果与评价

下面应用本文第2章提出的方法实现人脸图像的合成。实验分两部分：实验一为输入正面无表情图，合成所有15种不同表情姿态的人脸图。如图5所示。图5(a)中输入图像为训练集中某个样本，对训练集中的图像，该模型可以准确地合成出姿态表情各异的人脸图，图5(b)中输入为测试集中的图片，可以看出仍可合成出比较准确的人脸图。实验二为由非正面特殊表情图像合成正面无表情人脸图。在合成正面无表情图时，首先将测试图像P0的形状对齐到平均形状S，并将脸部图像变换到S内得到表情为j0，姿态为k0的纹理向量gj0k0，将纹理向量反向投影到相应表情和姿态的子空间Ψj0k0_t，获得该脸部图像的在人物标识子空间的投影系数uperson_t_i0，将uperson_t_i0投影到正面无表情子空间Ψ13_t（j=1,k=3时为正面无表情图像）得到纹理向量g13。类似的方法合成出形状向量s13。将纹理图像由平均形状S反向变换到s13，得到该图像的正面无表情人脸图像。

实验结果如图6所示。图6为由测试集图片合成的正面无表情图，其中：图(a)为原正面无表情图像；图(b)、(c)分别为本文方法和文献［6］中方法合成的正面无表情图像以及和原图比较后的残差图。文献［6］中通过混合AAM的参数来表示纹理和形状信息，利用模型参数来构造张量模型。本文应用原始标定的形状和纹理分别构造形状张量和纹理张量。由图6(b)、(c)可以看出，本文方法合成的图像更贴近于原始图像，由图7可以看出，与原始图像比较后，本文方法残差更小。虽然对脸部某些细节如皱纹、胡须的表现不够，但可以看出合成的图可以抓住脸部主要特征，将人物区分开来。本文通过计算合成图像与原图像的归一化互相关（Normalized Correlation, NC）系数来评价合成图像的质量。NC定义如下：

NC=〈pori,psyn〉〈pori,pori〉•〈psyn,psyn〉(14)

其中：〈,〉表示两向量的内积。两图像越相似，则NC的值越大。图8是针对不同表情、不同姿态合成的图像与实际图像的相似性测度。从图8(b)中可以看出在表情为大笑时的评测值普遍偏高（图8(a)中的姿态表情11~15）。因为在嘴张开，眼睛紧闭时人脸的很多细节丢失，特征表现不明显，所以评测值偏高，比如两个人在正常表情下区别较大但在大笑时区别则会减小。在图8(b)中，姿态表情5和10处评测值最低，因为此时脸部细节表现明显且姿态偏转较大，因此评测值偏低。图9、图10分别是由任意姿态表情合成的所有15种姿态表情与原图的纹理、形状相似性测度，其中横轴坐标为图8(a)中的15种姿态表情编号。从图中可以看出目标图像若与输入图像的表情姿态越接近则合成的准确度越高。

根据该方法原理还可以得知，参与训练的个体越多，测试集中合成的结果就越好。因为样本越多则张量分解得出的各模子空间矩阵的秩就越大，投影信息也更丰富，对新样本的刻画能力就越强，因此合成出来的新图像就越贴近于真实图像。

4 结语

在做多姿态、多表情人脸表情的合成时，本文首先构造了纹理张量和形状张量，然后通过Tucker分解得到核张量和各模子空间，并构造出新的针对不同姿态和表情的投影矩阵。通过将输入图像反向投影得到人物标识维的混合系数向量，利用该混合系数向量投影到不同姿态、表情的投影矩阵，从而合成出新的人脸图像。该方法通过张量的方法挖掘各影响因素之间的内在关系，避免了复杂的参数化模型，而且运算效率高。虽然合成出的图像在某些纹理细节（比如皱纹）上表现不足，但合成的图像能够抓住面部的主要特征，将不同人物区分开来。如果姿态纹理各异的训练集样本越多，形状纹理描述越细致，则得到的各子空间的合成能力就越强，但在实际中采集样本和标定特征的过程既费时又费力，而且往往许多新采集的样本已包含在前面的样本空间里，对分解出的子空间贡献很小。因此，如果能在原有样本的基础上通过矩阵阵列扩展的技术，将子空间合理扩大，增大投影矩阵的秩，则对新样本的描述能力将大大加强。所以如何扩展出合理的且能刻画不同人脸的阵列将是下一步的研究方向。

参考文献:

[1]

ERSOTELOS N, FENG D. Building highly realistic facial modeling and animation: A survey ［J］. Visual Computer, 2008, 24(1): 13-30.

[2]

ZHANG QINGSHAN, LIU ZICHENG, GUO BAINING, et al. Geometry-driven photorealistic facial expression synthesis ［J］. IEEE Transactions on Visualization and Computer Graphics, 2006, 12(1): 48-60.

[3]

SIFAKIS E, NEVEROV I, FEDKIW R. Automatic determination of facial muscle activations from sparse motion capture marker data ［J］. ACM Transactions on Graphics, 2005, 24(3): 417-425.

[4]

WANG JUN, ZHANG CHANGSHUI, KOU ZHONGBAO. An analytical mapping for LLE and its applications in multi-pose face synthesis ［C］// Proceedings of the 14th British Machine Vision Conference. Norwich: British Machine Vision Association, 2003: 285-294.

[5]

VLASIC D, BRAND M, PFISTER H, et al. Face transfer with multilinear models ［J］. ACM Transactions on Graphics, 2005, 24(3): 426-433.

[6]

WANG HONGCHENG, AHUJA N. Facial expression decomposition ［C］// Proceedings of the Ninth IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2003: 958-965.

[7]

ALEX M, VASILESCU O, TERZOPOULOS D. Multilinear analysis of image ensembles: TensorFaces ［C］// ECCV02: Proceedings of the 7th European Conference on Computer Vision.Berlin: Springer-Verlag, 2002: 447-460.

[8]

VASILESCU M A O, TERZOPOULOS D. Multilinear image analysis for facial recognition ［C］// Proceedings of the 16th International Conference on Pattern Recognition. Washington, DC: IEEE Computer Society, 2002: 511-514.

[9]

VASILESCU M A O, TERZOPOULOS D. Multilinear subspace a-nalysis of image ensembles ［C］// Proceedings of the 2003 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2003: 93-99.

[10]

LEE H S, KIM D. Tensor-based AAM with continuous variation estimation: Application to variation-robust face recognition ［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(6): 1102-1116.

[11]

QIAO X, HAN S H, IGARASHI T, et al. Tensor-based subspace learning and its applications in multi-pose face synthesis ［J］. Neurocomputing, 2010, 73(13/14/15): 2727-2736.

[12]

KOLDA T G, BADER B W. Tensor decompositions and applications ［J］. SIAM Review, 2009, 51(3): 455-500.

[13]

COOTES T F, EDWARDS G J, TAYLOR C J. Active appearance models ［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23(6): 681-685.

[14]

The Weizmann face databases ［EB/OL］. [2011-04-06]. www.wisdom.weizmann.ac.il/~vision/FaceBase/.

收稿日期:2011-06-30;修回日期:2011-08-12。

作者简介:

吕煊（1982-），男，山东淄博人,博士研究生,主要研究方向：数字图像处理、计算机视觉；王志成（1975-），男，江苏泰兴人，副研究员，主要研究方向：数字图像处理；赵卫东（1965-），男，山东青岛人，研究员，主要研究方向：制造业信息化。

张量描述下的多姿态多表情人脸合成方法

优秀范文