基于单幅图像的人脸三维姿态估计(全文)

开篇：润墨网以专业的文秘视角，为您筛选了一篇基于单幅图像的人脸三维姿态估计范文，如需获取更多写作素材，在线客服老师一对一协助。欢迎您的阅读与分享！

摘要：针对单张人像的三维姿态计算，结合面貌测量和射影几何的理论提出了一种方法：首先在人面部的平面区域内，选取眼角点，口角点，鼻翼点建立人脸模型;然后根据人脸平面上两个相互垂直的特征线投影到照片上的灭点位置，求出人脸平面的旋转方向。该方法特征点易于标定，且无需任何的辅助设备和先验知识，具有一定的实用性。

关键词：姿态估计；颅像重合；灭点

中图分类号： TP391

文献标识码：A

0引言

颅像重合法是指对一张失踪人留下的头部照片负片与一个身源不明的颅骨像负片进行重叠影像，根据人类头部颜面与颅骨的法医人类学解剖投影关系所确立的一系列鉴定指标，以重叠时能否达到解剖关系的一致，来确定颅骨与照片是否为同一人的一种身份认证技术。其中重合摄影角度是关键技术之一[1]，即从一个人的头部二维照片中估计出三维的姿态，以此调整颅骨的姿态使二者保持摄影角度的一致。由于人脸姿态的估计在许多领域都有着广泛的应用，所以一直以来都是个研究的热点。一些学者提出对颅骨每隔5°拍摄一张照片，然后选出同人像角度最接近的与之重合，此类方法每次需拍摄至少十张不同角度的颅骨负片，操作繁琐成本高，且缺乏科学量化的标准，易出现误差。文献[2]利用人脸的三维模型和仿射对应原理从视频图像序列中估计人脸的空间姿态，但是需要先得到正面的平行投影；文献[3~4]采用计算机变形技术生成基于单视图的多姿态图像样本库，再将待测照片与样本图像进行匹配以估计出人脸的姿态。这些方法的结果很大程度上依赖于样本的数量，且计算开销很大。另一类方法是利用面部特征模型进行姿态估计[5~9]。文献[5]利用外眼点和嘴角点，通过空间几何计算人脸姿态，要求先得到两个外眼点的空间距离；文献[6]使用两个外眉点和嘴中心，利用视频流序列进行姿态估计，需要同等状态下的人脸正视参照图作为辅助信息；文献[7]根据四个眼角点和鼻尖点构造的三角形的变化估计出姿态。这类方法的特点是：计算结果依赖于特征定位的准确与否，另外更重要的是它们都要求事先满足一定的条件，如已知空间距离，焦距等。而在颅像重合技术中，除了一张失踪人留下的照片，没有其他任何可参考的信息，因此以上方法并不适用。我国学者在鉴定颅骨身源技术研究中提出了一个完整、系统的方法：即通过活体测量利用生物统计技术，用水平偏转指数和仰俯指数，根据在透视成像条件下面部特征点间距的比值和角度偏转的回归关系，来推算人像的角度[1]。如图1所示。

该方法无需任何辅助设备，仅测量出四个数值求得两个指数，即可计算出偏转角度，但易受样本数量、分布等影响，且一些特征位置不易准确定位，对表情变化较敏感。在上述研究基础上提出一种仅从单幅照片中估计人脸三维姿态的方法：这种方法计算简便，且没有对先验知识的要求，所选特征点易于标定，只要照片没有残缺，特征点可见，均可适用。

1姿态估计的面部模型

人脸姿态的变化有六个自由度，即沿X、Y、Z轴的平移和绕X、Y、Z轴的旋转，如图2所示。

对沿X、Y轴的平移，在图像上表现为人脸位置的变化，对沿Z轴的平移，则表现为比例的变化，这些都可通过适当的方法进行处理，故姿态变化主要是由绕X、Y、Z轴的旋转组成。根据人脸测量统计的知识，在人面部存在着一个平面区域（相对平行区），这部分由发际点、眼角点、口角点和颌下点连线而构成平面［1］。由于该区域内特征器官基本处在一个刚性的平面上，且在正视状态下该平面与Z轴垂直，两个外眼角点的连线与X轴平行，因此人脸的姿态估计也就转化成为求该人脸平面的旋转角度问题。本文采用两个外眼角点，两个内眼角点，两个鼻翼点，和两个口角点作为面部模型的特征点。如图3所示，图3（a）中的白色区域为相对平行区，图3（b）为区域内的模型特征点。

应用这些面部模型的特征点进行姿态估计时，可利用以下的面貌形态特征：

1）人脸部的眼角点在空间上连成一条直线，并且当人脸处于正视状态时，此直线平行于X轴；

2）在空间上，两个口角点的连线与眼角点的连线平行；

3）两条内眼角点和鼻翼点的连线（左右各一条）相互平行，且垂直于口角点连线和眼角点连线；

4）以上四条直线在一个平面上。

以上这些特征点在可见的状态下都具有相当显著的特征，因此相比于鼻尖点等特征点更容易精确地定位，而且它们具有很好的表情无关性和稳定性，既便有人脸模式（如发型、眼镜等）的干扰，也还是容易被分辨出来。

2人脸姿态估计

图4所示为面部模型所在的空间坐标系。其中O为摄影的焦点，也是空间坐标系OXYZ的原点，以视线的方向作为Z轴，Z轴与相机光轴重合。像平面坐标系为uv，其原点为光轴与像平面的交点且与像平面的中心点重合。f是焦距。E1、E2、E3、E4分别代表了空间中人脸上的两个外眼角点和两个内眼角点，N1、N2是两个鼻翼点，M1、M2是口角点，它们在像平面上投影点分别对应为e1、e2、e3、e4、n1、n2、m1、m2。

由于E1、E2的连线与M1、M2的连线平行，因此这两条直线若与像平面不平行，则它们在像平面上的投影线e1e2和m1m2将汇聚为一灭点，即图4中的vp1。设向量M=｛i,j,k｝代表E1、E2连线的方向向量，则平面OE1E2与像平面的交线，和平面OM1M2与像平面的交线可分别通过以下两组方程式求得：

上式说明根据灭点在像平面的坐标和焦距，就可以求出空间一组平行线的方向向量。同理内眼角点和鼻翼点的连线E3、N1与E4、N2相互平行，它们也会在像平面上产生一个灭点，即图中的vp2点。类似地设向量N=｛m,n,l｝代表E3、N1连线的方向向量，则vp2(x′,y′,z′)的坐标和该向量分别为：

由于E1、E2、E3、E4、N1、N2、M1、M2都在一个平面上，若记该人脸平面的法线向量为F，可得：

上式只与两个灭点的坐标有关，这样就可以求出人脸平面法线的方向向量，从而确定三维旋转姿态。具体而言，设α、β、γ分别代表人脸相对X、Y、Z轴的旋转角度，则它们可通过下式计算得到：

其中K(e1e2)表示外眼角连线在像平面上的投影线的斜率，即关于Z轴的旋转角度就是外眼角连线与水平轴的夹角。

3实验与结论

测试图片包括各个方向不同程度偏转的姿态，考虑到具体的应用环境，人脸偏转角度都在正负90度之间。图5所示为使用本方法进行姿态估计的结果，其中α、β、γ代表人脸分别相对X、Y、Z轴的旋转角度，意义与(10)式同。

从实验结果上看，估计的角度近似于实际的偏转角度。再将本算法与其他方法进行比较，由于文献[1]亦根据单幅照片去估计面部的姿态，无需其他预设条件，故将二者进行了对比，实验结果如图5所示，其中α′、β′、γ′是采用文献[1]所提出方法计算出的人脸分别相对X、Y、Z轴的旋转角度，可以看出二者的计算结果比较相近。从方法原理上分析，文献[1]操作简便，对特征点定位的稳定性较强，但易受表情（如张嘴）的影响，本算法的特征模型为面部的两对平行线，相对比较稳定，故受表情变化的影响较小。另外需要指出的是本方法仅适用于人像自然小角度的偏转，当人脸姿态变化较大时，由于面部模型中所需的部分特征点变得不可见，则无法进行计算，而这也是此类方法共同的不足之处，因此如何建立更有效的面部模型，以适用于更大角度的偏转姿态计算将是进一步的研究重点。

本文针对颅像重合技术中欲从一张照片估计出人脸的三维姿态提出了一种方法：充分利用人脸的测量统计知识和结构特征，确定了人脸平面上的两对相互垂直的平行线这一稳定的特征，从而在像平面与人脸空间模型之间建立了对应关系，根据射影几何原理和灭点位置估计出人脸的三维姿态。本方法简便快捷，不需要任何参考信息和辅助设备便能实现，也适用于类似的其他应用环境中。

对于该方法的误差来源，可总结为以下几个方面：

1) 图像噪声、脸上的遮盖物等都可能使某些计算所需的特征点定位不准，这样只能估计特征点的位置，从而造成误差；

2) 特征点标定者本身技术的娴熟程度也影响到计算的结果；

3) 面部特征可能受到表情的影响而产生误差：眼角连线和鼻翼眼角连线是相对比较稳定的特征点（线），而嘴角可能会因为不对称的歪斜，或笑容等而发生变化；

4) 由于没有其他的参考信息无法对相机进行定标，因此本文算法中假设相机光轴通过像平面中心且与之垂直，只是一种理想的状况，相机本身的畸变也会产生误差；

5) 若照片残缺，或经过剪裁、合成，如从合影照中分离而来，则因无法确定其原像的中心位置而无法估计。

因此下一步的研究重点是建立更合理更稳定的面部模型。另外，通过对图像的处理，使特征点更加明显，易于标注，以尽量减少标定者本身的因素对计算结果的影响。

基于单幅图像的人脸三维姿态估计

优秀范文

精选范文