开篇:润墨网以专业的文秘视角,为您筛选了一篇基于双密度双树复小波变换多字典的人脸特征稀疏分类方法范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!
收稿日期:2011-03-03;修回日期:2011-04-25。基金项目:重庆市科技攻关重点项目(CSTC,2009AB0175);中央高校基本科研业务费专项(CDJXS10122218;CDJXS10120019);重庆市科委自然科学基金资助项目(CSTC,2010BB2230)。
作者简介:王成语(1984-),女,重庆人,硕士研究生,主要研究方向:图像处理、模式识别; 李伟红(1962-),女,四川自贡人,副教授,博士,主要研究方向:机器学习、模式识别。
文章编号:1001-9081(2011)08-02115-04doi:10.3724/SP.J.1087.2011.02115
(重庆大学 光电技术及系统教育部重点实验室,重庆400030)
()
摘 要:基于超完备字典的人脸稀疏表示方法的难点是其字典构成。针对此问题,首先采用双密度双树复小波变换(DD-DT CWT)提取人脸图像不同尺度的高频子带,然后根据能量平均分布最大原则选择能量较大的部分子带构成对应尺度的超完备字典。同时,将测试样本相应的人脸DD-DT CWT子带特征看成超完备字典中原子的线性组合,并组合多字典上的稀疏表示进行识别。在AR人脸图像库上进行了实验,结果表明该方法是一种有效的人脸特征表示及分类方法。
关键词:超完备字典;稀疏表示;双密度双树复小波变换;特征提取;多尺度
中图分类号: TP391.413文献标志码:A
Sparse representation of face feature recognition based on
multiple dictionaries of double-density dual-tree complex wavelet transform
WANG Cheng-yu, LI Wei-hong
(Key Laboratory for Opto-electronic Technology and System of Ministry of Education, Chongqing University, Chongqing 400030, China)
Abstract: The difficulty in sparse representation of facial images based on over-complete dictionary is the dictionary generation. This paper first introduced the Double-Density Dual-Tree Complex Wavelet Transform (DD-DT CWT) for filtering the high-frequency sub-bands and the principle of energy distribution for selecting some sub-bands as the feature of a facial image to form multi-scale dictionaries, then viewed the similar feature of a test sample as the linear combination of some atoms in the overcomplete dictionary, finally got the recognition results via ensembling sparse representations on these dictionaries. The experimental results on AR face database demonstrate the efficiency of the proposed algorithm.
Key words: overcomplete dictionary; sparse representation; Double-Density Dual-Tree Complex Wavelet Transform (DD-DT CWT); feature extraction; multi-scale
0 引言
由于人脸识别在国家安全、军事安全和公共安全领域的重要地位[1-3],使人脸识别技术研究受到各国研究人员的高度重视,近年来提出的各种研究方法各具特色,最典型的有主成分分析(Principal Component Analysis, PCA)[4]2、线性鉴别分析(Linear Discriminant Analysis, LDA)[4]3以及局部保持投影(Locality Preserving Projection, LPP)[4]3、局部二元模式(Local Binary Pattern, LBP)[5]等方法。研究表明,人脸识别的核心是人脸特征的表示(提取)问题。基于超完备字典的图像稀疏表示是去除图像冗余的一种有效方法[6],适于描述人脸这种具有非高斯(non-Gaussian)分布的图像集合。与传统的基于子空间的方法相比,提取得到的人脸稀疏特征更能体现人脸的分类特性。
基于调和分析的图像表示的基本思想[7]8,图像可以表示成有限(或无限)项基函数gm的加权和。即:
S∑M-1i1cmgm(1)
其中:S表示离散化的图像信号;cm为表示系数;gm为基函数也称为调和函数,常用的有傅里叶变换、余弦变换和小波变换等。但以上的正交基函数没有考虑到实际信号时频变化范围大或者图像的各种几何正则性,造成表示的不稀疏性。
基于超完备字典的图像稀疏表示方法采用超完备的冗余函数代替传统的正交基函数,组合成超完备字典,也称为冗余字典,或简称字典。对于每个输入的图像,只有少数几个基函数具有较大的响应输出,而其他基函数的输出近于零。和PCA不同的是,图像稀疏表示的基函数没有主次之分,要使输入图像得到最稀疏的表示,即有效地提取出足以描述图像特征的信息,超完备字典的选择很重要,需要尽可能地符合被逼近的图像的结构[7]10。字典中的基函数被称作原子。一般可以利用贪婪算法或者自适应追踪算法,从字典中找到具有最佳线性组合的很少的几项原子来表示这个图像。字典可以由任意函数集或者其变化构成,但应根据实际应用选取。目前常用的超完备字典构成方法有各种多尺度几何分析方法如脊波(Ridgelet)变换[8]、曲线波(Curvelet)变换[9]、轮廓波(Contourlet)变换[10]等。此类方法均是采用基波函数及其变化作为原子,用于表示具有不同几何特征的信号或图像,适用于重构、去噪等。
由于上述方法在对图像进行表示时,自适应地根据图像结构信息选取基函数,不同图像由不同的基函数及其变化线性组合得到,不能体现图像之间的关系,不适用于分类。本文提出基于样本双密度双树复小波变换(Double-Density Dual-Tree Complex Wavelet Transform, DD-DT CWT)特征的超完备字典,将待识别图像相应的特征描述为这些图像特征的稀疏线性组合,并组合多组稀疏表示(ensemble of sparse-representation)进行决策,得到识别结果。
1 基于稀疏表示的人脸识别方法
基于稀疏表示的人脸识别方法基本思想[11]是,将给定的第i类的ni个灰度人脸图像(训练样本)或者其特征作为稀疏表示模型中过完备字典中的列向量,由这些列向量构成过完备字典。对一个属于训练样本中的某一类的测试样本,经过与训练样本相同的预处理后,计算其在字典上的稀疏表示,理想情况下,稀疏表示中只有其所属类别上的系数非0,从而可以很容易将它归为该类。但实际情况中,由于噪声和模型误差等原因,在其他类别上也有数值较小的非0系数,此时可以将其归为最大系数所属类或者系数中最能线性表示测试样本的那一类。这即是基于稀疏表示的分类(Sparse-Representation Classifier, SRC)方法的思想,其实现流程如下所示。
1)输入:k类训练样本或者其特征的集合A[A1,A2,…,Ak]∈Rm×n,形成冗余字典,测试样本或其特征y∈Rm。
2)对A的每一列以及y同时进行归一化,使其2范数为1。
3)通过解如下问题求出测试样本的稀疏表示:
1arg minxx1
s.t. Axy
4)计算残差:ri(y)y-Aδi(1)2; i1,2,…,k。
5)输出:识别结果y所属类别。
identityarg mini ri(y)
可以看到,SRC方法中,针对不同的分类识别对象,其冗余字典的构成十分重要。SRC方法的提出者Wright等人[11]认为当字典中原子维数较大时,各种字典构成方法如传统子空间、下采样、随机映射方法下的识别率趋于一致,但文献[11]中的方法没有考虑到人脸图像的结构特性,造成表示的稀疏性不够。为此,本文采用双密度双树复小波,它具有类似人眼视觉特性的局部性、方向性、带通性,是一种类Gabor的小波,在本文的实验部分与Gabor也进行了比较。
2 基于双密度双树复小波变换的人脸特征字典
2.1 双密度双树复小波变换
2004年Selesnick提出的双密度双树复小波变换[12]综合了双密度小波和双树小波的优点,即具有平移不变性和抗混叠特性、基2冗余且不随尺度变化、更加近似连续小波变换和良好的方向性等特点,在图像去噪、图像增强、图像分割和运动目标估计中具有较大优势。
双密度小波变换[13]基于一个尺度函数和两个不同的小波函数,其中一个小波是另一个小波的偏移(偏移量为0.5),在实现过程中用过采样代替临界采样,由于双密度小波有两个小波函数,这样在同一个尺度内相邻小波间的频带间隔更小,因此与传统小波变换相比,具有近似的平移不变性。把满足希尔伯特变换关系的两个离散小波变换(Discrete Wavelet Transform, DWT)并联组成双树复小波变换。双密度小波变换和双树复小波变换组合到一起便得到DD-DT CWT。其迭代滤波器组如图1所示。
双密度双树复小波是类似于Gabor的方向性小波基。具有近似的平移不变性、有限冗余(4∶1)、优良的方向性(16个)等,满足作为一种好的图像表示方法应该具有的五个特征:多尺度、局域性、临界采样、方向性、各向异性。对人脸图像进行双密度双树复小波多层(多尺度)分解变换,多层分解是对低频部分不断分解以完成特定层数的分解,每层都得到4个低频子带和32个方向的高频子带。由于多层分解后低频子带信息已经丢失很多,得到的特征各个人脸图像趋于相似,对识别意义不大,而且图的边缘以及眼睛、鼻子、嘴、耳朵等细节信息被分配到各个高频子带图像中,所以该文选取高频子带作为人脸特征。
图1 双密度双树复小波的迭代滤波器组
2.2 基于DD-DT CWT的人脸特征构成策略
过完备字典对于原子维数与原子个数的大小要求:设A{gr,r∈Γ}为用于进行图像稀疏分解的过完备原子库即字典,gr为原子。由库的过完备性可知,原子个数r应远远大于原子的大小,即若用LA表示过完备库A中原子的个数,则LA应远远大于原子大小(维数)N。
双密度双树复小波高频子带在每个方向上有两个子带,取模变换得到16个小波系数幅值特征。为了满足过完备库对于原子维数的要求,本文提出按照子带平均能量的大小排列,选择平均能量较大的几个子带向量合成为人脸特征向量,作为原子组成稀疏表示中的冗余字典。
平均能量定义在某一尺度下,所有样本对应的子带上的小波系数的平方和取平均:
Ej∑ni1Eji∑ni1aji2; j1,2,…,16(2)
其中n为样本的总数。式(2)描述了各个人脸样本在进行多尺度分解后,在某一尺度上的各个子带上的能量分布。基于双密度双树复小波变换的子带平均能量体现了人脸的频带方向特征的分布。
基于DD-DT CWT的人脸特征向量构成框架如图2所示。
图2 基于DD-DT CWT的人脸特征向量构成框架
3 基于DD-DT CWT多字典人脸特征稀疏分类
根据DD-DT CWT高频子带的特性,不同尺度的子带分别包含人脸图像的不同特征,它反映了人脸图像不同的细节信息或整体信息。从人脸识别的角度,人脸的局部信息和整体信息对于人脸分类起着不同的作用,将这些具有不同鉴别信息的特征组合起来作为人脸特征的稀疏表示,从理论上将优于用单一尺度的子带表征人脸特征。
图3为该文提出的基于DD-DT CWT的多字典人脸稀疏特征构成及识别方法的构成框架。该文实验采用AR图像库子集,尺寸预处理为128×128像素,为此,DD-DT CWT分解需要进行3层以上分解实现降维,以满足库的过完备要求。而3层以上分解后,图像的能量大部分集中在3层和4层子带图像上,5层以上鉴别信息很少,该层分解得到的系数能量约为4层的1/4,约为3层的1/20,分析结果如图4所示。为此,该文分别采用DD-DT CWT的3层和4层分解得到的高频子带生成多字典(1,2),然后组合测试样本在字典1,2上的稀疏表示用于识别。
图3 DD-DT CWT多字典构成人脸特征稀疏表示及识别框架
图4 DD-DT CWT不同尺度分解得到的子带及其能量分布
图4中,图(b)、(d)、(f)的横坐标表示分解得到的16个高频子带,纵坐标表示双密度双树复小波的子带平均能量值,由式(2)计算得到。
4 实验与分析
实验采用AR人脸图像库,该库包含126人,每人26幅在不同光照,不同表情和不同遮挡的条件下采集的正面人脸图像。该文采用AR库的无遮挡图像子集进行实验。该子集包括119人,每人14幅正面无遮挡的图像,具有不同光照、表情变化。实验图像均以人眼中心点为基准对齐,裁剪到大小为128×128像素。随机选择7幅作为训练样本,其余7幅作为测试样本。图5给出该子集中一个人的所有样本。
图5 实验所用AR库子集中训练样本示例
实验1 与几种常见的典型的人脸特征表示方法比较。
实验包括PCA、LDA、LBP、LPP、单尺度Gabor(S-Gabor)(此处的Gabor[14]采用的类视皮层的HMAX模型,取其单尺度,最佳参数设置见参考文献)。
表1给出在AR库上进行的11组随机实验的平均结果,除LDA、LPP(样本种类数-1维)外,其他方法取与DD-DT CWT4层分解相近的维数(约为512维)下进行对比。SRC方法与最近邻(Nearest Neighbor, NN)分类相似,均以度量距离最近作为分类依据。不同的是SRC将待识别样本归类到与其最相近的类所属的类别,NN将待识别样本归类到与其最相近的样本所属的类别。表1也同时给出SRC与NN分类的实验比较结果。
表1 AR库上不同方法的识别率对比
%
图6为11组随机实验结果。从图6可以看出该文提出的基于DD-DT CWT多字典人脸特征稀疏表示方法明显优于传统的几种方法,且具有很好的稳定性。
图6 本文方法与典型的人脸特征提取方法的识别率比较
实验2 与DD-DT CWT单字典人脸特征稀疏表示方法比较。
SRC方法求取的系数向量中,最大分量代表与测试样本最相近的训练样本。本文中所有训练样本和测试样本均是经过中心化和归一化操作,系数最大分量越大,说明测试样本与训练样本的某一个更相似,理想情况为1,即测试样本可以由一个训练样本表示,这时各个原子之间差异最大,同时在其他样本上的系数越小,说明生成字典的方法最好。图7、8随机选取两个样本的系数向量进行对比。
图7、8中,横坐标表示字典中原子的序号,对应训练样本的序号。图7、8显示了单尺度双密度双树复小波特征构成字典用于基于稀疏表示的识别时,与Gabor类似,能较好地提取每个人脸样本的特征,从而使得分解得到的系数向量中最大值比其他方法更接近1,且系数向量的其他分量更接近0。
图7 第15人各种方法的字典对应的系数图
图8 第72人各种方法的字典对应的系数图
实验3 在具有平移的训练样本和测试样本下,与其他几种方法的比较。
SRC用于识别在应用中本身有两个制约条件:一是为满足过完备条件需样本较多;二是要求训练样本和测试样本较好地对齐。双密度双树复小波方法相对于传统的子空间方法在样本发生小像素平移时受到的影响相对较小,图9给出在AR库上的平移效果。
图9 各种方法在AR库上的图像平移像素数与识别结果关系
图9中,横坐标表示图像发生平移时,平移的像素数,纵坐标表示各种字典生成方法在图像发生平移时的识别率。从图中可以看出图像未对齐(发生平移变化)时,图像发生不同方向的平移变化对于识别的影响是不一致的,各个方向上双密度双树复小波方法的识别率均高于其他几种方法。
5 结语
相比于传统方法生成的字典,在基于人脸图像双密度双树复小波特征的单尺度字典上能得到对人脸图像的更为简洁的表示,其效果与模拟视觉机制的Gabor滤波器类似,同时多字典上进行分解挖掘图像的各个频率带的细节特征,对其进行组合识别,改善了识别效果。实验结果显示该方法在图像有平移时优于其他几种对比方法。
参考文献:
[1] 辜小花,龚卫国,杨利平,等.核保局鉴别分析人脸识别算法[J].仪器仪表学报,2010,31(9):2016-2021.
[2] 李伟红,陈伟民,龚卫国.一种人脸特征选择新方法的研究[J].电子测量与仪器学报,2006,20(2):16-20.
[3] 龚卫国.《人脸识别技术》专题文章导读[J].光学精密工程,2008,16(8):1452-1452.
[4] CAI D, HE X F, HU Y X, et al. Learning a spatially smooth subspace for face recognition [C]// 2007 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2007: 1-7.
[5] OJALA T, PIETIKAINEN M, HARWOOD D. A comparative study of texture measures with classification based on feature distributions [J]. Pattern Recognition, 1996, 29(1): 51-59.
[6] OLSHAUSEN B A, FIELD D J. Sparse coding with an overcomplete basis set: A strategy employed by V1? [J]. Vision Research, 1997, 37(23): 3311-3325.
[7] 邓承志.图像稀疏表示理论及其应用研究[D].武汉:华中科技大学,2008.
[8] CANDES E J. Ridgelets: Theory and applications [D]. Stanford, CA: Stanford University, 1998.
[9] CANDES E J, DONOHO D L. Curvelets: A surprisingly effective nonadaptive representation for objects with edges [R]. Stanford, CA: Stanford University, 1999.
[10] DO M N, VETTERLI M. The contourlet transform: An efficient directional multiresolution image representation [J]. IEEE Transactions on Image Processing, 2005, 14(12): 2091-2106.
[11] WRIGHT J, YANG Y, GANESH A, et al. Robust face recognition via sparse representation [J]. Pattern Analysis and Machine Intelligence, 2009, 31(2): 210-227.
[12] SELESNICK I W. The double-density dual-tree DWT [J]. IEEE Transactions on Signal Processing, 2004, 52(5): 1304-1314.
[13] JAYAWARDENA A. Design of double density wavelet filter banks [C]// Proceedings of the 7th International Symposium on Signal Processing and Its Applications. Piscataway, NJ: IEEE Press, 2003: 463-466.
[14] MUTCH J, LOWE D G. Multiclass object recognition with sparse, localized features [C]// 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2006: 11-18.