首页 > 范文大全 > 正文

基于多重稀疏字典的行人检测方法

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于多重稀疏字典的行人检测方法范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要: 针对于稀疏编码在行人检测问题中提取的特征维数高和不能够有效描述行人的问题,提出了一种基于多重稀疏字典直方图的特征提取方法。通过稀疏表示方法,预先学习多个不同稀疏度的字典,分别利用每一个字典对行人图像进行稀疏编码,统计每个字典中对应稀疏编码单元的分布直方图作为行人图像的特征描述子。该方法提取到的特征维数低,并且能够有效地描述行人,具有良好的检测性能。

关键词: 行人检测; 特征提取; 稀疏表示; 多重稀疏; 字典

中图分类号: TN919?34; TP391.4 文献标识码: A 文章编号: 1004?373X(2015)02?0083?05

Pedestrian detection method based on multiple sparse dictionaries

YUAN Wen, LIU Ya?zhou

(School of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing 210094, China)

Abstract: The drawbacks of pedestrian detection method based on sparse code are high dimensions of features and can’t effectively describe the pedestrian. Aiming at the drawbacks, a feature extraction method based on multiple sparse dictionaries histogram is proposed. Several different sparse dictionaries need to be learned before hand by means of the sparse representation, sparse coding of pedestrian image is conducted with different sparse dictionaries to make statistics of the distribution histograms corresponding to the sparse coding units in each dictionary as the image feature descriptor. The feature dimensions extracted with this method are low, can effectively describe the pedestrian, and has good detection performance.

Keywords: pedestrian detection; feature extraction; sparse representation; multiple sparse; dictionary

0 引 言

行人检测作为人体运动的视觉分析中的一项关键技术,近年来在诸如视频监控、机器人、智能交通和高级人机交互等计算机视觉领域中有着广泛的应用。在行人检测中,由于极易受到光照、自身姿态、服饰等众多因素的影响,使得准确无误的检测行人有非常大的难度。

早期的行人检测主要是基于Haar特征,MIT的AI实验室在基于静态图像的人体识别方面做出了很多开创性的研究工作[1],将Harr特征与SVM相结合,进行基于整体或部分的行人检测,并且成功将其运用到人脸、车辆等物体检测中。Gavrila从人体轮廓的边缘信息出发,构建了采用层次式的人体外轮廓模型,该模型与人们对于人体的直觉上的感知相似[2]。Lin等对其进一步研究,将整体轮廓扩展到由头肩、躯干及腿部等多个部件轮廓模型,使其对遮挡有更好的鲁棒性[3]。Wu等利用由直线段和圆弧组成小边(Edgelet)特征来描述行人的局部轮廓方向特征,形成描述人体轮廓的局部模板[4]。

随着局部描述子的发展,越来越多的研究者在这一方向进行了深入研究,并取得了比较好的结果。受到具有尺度、旋转以及缩放不变性的局部描述子(SIFT)[5]的启发,Dalal等提出的方向梯度直方图(Histogram of Oriented Gradient,HOG)[6],HOG是通过刻画图像的局部梯度幅值和方向特征来描述行人,这种特征对图像的几何形变和光学形变保持着一定的不变性,Felzenszwalb等将HOG特征应用到可变形部件模型(Deformable Parts Model,DPM)中,该检测模型在行人检测中取得了很好的效果[7]。Leibe等直接利用SIFT描述子与隐式形状模型(ISM)相结合进行行人检测[8]。此外,基于局部二值模式(LBP)[9]和区域协方差矩阵[10]的方法在行人检测中也取得了比较好的结果。

单一的特征往往只能在一定适用范围内才能发挥其自身的优势,因此,很多研究者希望通过采用多种特征融合的方法来弥补单一特征描述能力不足的问题。Wu和Nevatia提出一种综合考虑特征判别能力和计算复杂度的特征选择框架[11],实现了基于Edgelet、HOG和协方差矩阵相结合的行人检测方法,在保证性能的前提下比较大幅度的提升了速度。Wojek等将HOG、Haar和光流HOG特征相结合进行行人检测[12]。Schwartz等将基于共生矩阵的纹理特征和HOG特征相结合,并利用偏最小二乘(PLS)方法对特征降维,使得该方法取得了比较好的检测效果[13]。

就单个特征而言,HOG特征可以说是目前最有效的行人特征描述子, 但是HOG特征也存在一定的局限性,一方面,其特征维数非常高,另一方面,只是单一的计算图像的方向梯度作为特征,而忽略了其他隐含的图像特征,如角点、边缘等特征,这种单一特征对行人的描述能力有限。而基于多特征融合的混合特征如LBP?HOG[14]、CoHOG[15]等特征,往往会有特征维数高,计算开销大等缺点,使得在实时的行人检测应用中难以普及。

对于图像中隐含的特征可以通过稀疏表示[16]方法学习得到,该方法在信号和图像处理中取得了非常好的效果,并且是一种有效的图像特征提取算法,稀疏表示可以学习到图像许多局部性质,如角点、边缘等特性,并且能够获取比传统的非自适应方法更高的分辨率信息,更加符合人眼的视觉特性,从而能够更有效地表达图像信息。Ren等提出了稀疏编码直方图[17],该方法在HOG检测模型的基础上,计算每个像素为中心块的稀疏编码,对得到稀疏编码值进行插值计算,以此形成图像的特征,该方法在一定程度上提升了检测精度,但其计算量大,并且特征维数非常高。

本文主要应用稀疏表示方法,从多个不同稀疏的字典中学习到行人的特征,这种方法能够有效的降低特征维数,并且能够准确对行人进行描述。

1 基于多重稀疏字典的行人检测

稀疏字典中每一个基向量实质上都是一个隐藏单元,每个隐藏单元代表着某种特征信息,可以理解为是输入信号的潜在特征。当输入信号不同,稀疏表示时会激活相应的隐藏单元而抑制其他隐藏单元,通过线性组合被激活单元来表示输入信号,对于不同的输入信号(行人或背景),被激活单元会表现出一定的分布差异性,可以利用这种差异性来区分输入信号。

基于多重稀疏字典的行人检测方法是建立在稀疏表示的基础上,首先,运用稀疏表示方法,预先学习多个不同稀疏度的字典,分别用每一个字典对图像进行稀疏编码,之后,对于稀疏编码中的非零稀疏项所对应字典的被激活单元,统计每个激活单元在字典中的分布直方图,形成多重稀疏字典直方图作为图像的描述特征。

1.1 稀疏表示

在稀疏表示方法中,给定一个集合[D=?i,i=1,2,…,k,D∈Rm×k],[D]是原子信号构成的字典,[k]远大于[m],[?i]是字典的第[i]个原子,即基向量,则稀疏编码模型可以表示为:

[Y=ikai?i] (1)

式中[Y]是给定空间的信号;[ai]为[Y]在基向量[?i]上分解表示系数。稀疏编码的目标就是找到一组线性组合,并且用较少的几个基向量将信号表示出来,也就是说,该线性组合中只有很少的几个非零系数项,故称之为稀疏。

在稀疏表示时,首先需要对输入信号进行学习字典,其形式描述如下:令[Y∈Rm×n]表示输入的训练信号,[D∈Rm×k]表示字典,[X∈Rk×n]表示训练信号的稀疏表示系数矩阵,在稀疏表示中,稀疏表示优化问题可以表示为:

[ minD,XY-DX2Fs.t. ?i,xi0≤K] (2)

式中[xi]是[X]的第[i]个列向量,[?0]为[?0]范式,[K]是稀疏表示稀疏中非零分量数目的上限。针对以上字典学习问题,现有很多常见的学习方法,如最优方向方法(MOD)[18],基追踪[19]等,本文采用Aharon等提出的经典KSVD算法[20],K?SVD算法来源于奇异值分解(SVD),是一种期望条件?最大(Expectation Conditional Maximization)的算法,算法迭代过程中的每一次字典更新都会遍历优化每一个向量,该方法的好处在于优化所有向量时可以降低计算量,并且可以避免陷入局部最小化问题。求解上述问题主要有两个步骤,首先,假设字典是固定的,使用OMP[21]算法求解稀疏表示系数矩阵;然后根据稀疏矩阵优化字典。

利用K?SVD算法,对INRIA行人数据集[6]的行人图像学习到的字典如图1所示,随着选取块和字典大小的增加,可以学习到更多复杂的特征信息。

图1 稀疏字典

1.2 多重稀疏字典直方图

当图像做稀疏表示时,字典中的被激活单元是一种非常有用的图像特征信息,如何利用被激活单元来描述图像。本文提出一种通过统计被激活单元在稀疏字典中的分布直方图来形成图像特征的方法。这种方法通过对图像进行稀疏表示得到字典中的被激活的单元,并统计相应激活单元的直方图,以此获得图像特征的统计特性。称这种直方图为稀疏字典直方图。稀疏字典直方图如图2所示,(a)是原始图像;(b)是利用大小(基向量个数)为100的字典对(a)的稀疏编码图像;(c)是统计字典中对应的被激活单元直方图。(b)中的每一块(patch)即对应字典稀疏编码的激活单元,从(b)中可以看到,行人的右腿部分稀疏编码后,表现出同一特性,其来自同一字典单元的编码,在字典中对该单元进行统计,对应(c)中右上角红色柱条。从图2可知,稀疏字典直方图记录了图像稀疏表示时字典中被激活单元的分布特征,这种分布特征记录了图像的特征的统计信息,在一定程度上能够对图像进行描述。

图2 图像稀疏字典直方图

在对图像进行稀疏编码时,由于稀疏度直接影响着字典中被激活单元,单个稀疏度的稀疏表示得到的被激活单元有限,很可能会遗漏其他有用的特征信息,并且单个稀疏度字典得到的统计特征信息对图像的描述能力不足。因此,可以预先学习多个不同的稀疏度的字典,分别对图像进行稀疏表示,统计每个字典中被激活单元的直方图,以此形成多重稀疏字典直方图。图像的多重稀疏字典直方图如图3所示。在图3中,每一个字典代表一种稀疏度,分别对图像进行稀疏表示后,统计每一个字典中被激活单元的直方图,即稀疏字典直方图,联合多个不同稀疏度字典直方图,最终形成多重稀疏度字典直方图。

1.3 多重稀疏字典特征提取

多重稀疏度字典直方图利用稀疏表示方法统计了多个不同稀疏字典的特征单元,记录了更加丰富的稀疏表示特征信息。根据稀疏表示输入的不同,这种特征信息显示了图像在稀疏表示中的特征分布差异特性。多重稀疏度字典直方图提取特征形式化描述如下:

[M=His D1,His D2,…,His Dc] (3)

式中[M]为多重稀疏度字典直方图提取的特征,[His Di]表示第[i]个稀疏字典直方图,且其稀疏度为[i],其中[i=1,2,…,c],[c]即为稀疏字典个数,为了保证其稀疏性,可取[1

[His D=i=1kj=1nr?ij] (4)

式中:[?ij]为字典的第[i]个基向量,[?ij]中的[j]表示第[j]个输入信号;[n]为输入信号的个数,即图像划分所有块(patch)的个数,[k]为字典列向量(基向量)的个数, 式中[r(?i)]表示如下:

[r(?i)=0, if ai=01, otherwise] (5)

式中,[ai]为基向量[?i]上分解表示系数。由提取到的特征可以看到,该特征维数大小是字典中基向量个数的倍数,即[c?k],一般[1

图3 多重稀疏字典直方图

2 实验

2.1 实验数据集与评测方法

实验在INRIA行人数据集[6]上进行,INRIA行人数据集中,训练集的正样本共有614张(包含2 416个行人),负样本共1 218张;测试集的正样本共288张(包含1 126个行人),负样本453张。实验使用64×128检测窗口进行实验,实验样本图像如图4所示。实验在CPU为3.0 GHz,内存为8.0 GB的PC环境下运行。选用非线性核函数(RBF)的SVM分类器进行实验,实验中检测性能由DET曲线[6]衡量,DET曲线使用漏检率(Miss Rate)和误检率(False Positive Per Window,FPPW)两个指标来衡量。其中miss rate 和FPPW如下所示:

[miss rate=FalseNegTruePos+FalseNeg] (6)

[FPPW=FalsePosTrueNeg+FalsePos] (7)

图4 INRIA行人数据集

2.2 实验结果与分析

2.2.1 稀疏度

不同稀疏度的字典是影响多重稀疏字典直方图的重要参数,当稀疏度不同时,其对应的统计特征信息则会出现一定的差异性。选取不同个数的稀疏度字典进行实验,如图5所示,选取的稀疏度分别是sparsity=1~sparsity=3(sp3),sparsity=1~ sparsity=5(sp5),sparsity=1~sparsity=7(sp7)以及 sparsity=1~ sparsity=9(sp9),由图可可以看到,随着稀疏度的不断增加,实验效果不断提升,当稀疏度由sp7到sp9时,实验效果已经非常接近(当稀疏度为sp7时,在10-3FPPW时,miss rate为9.2%,当稀疏度为sp9时,在10-3FPPW时,miss rate为12.1%)。

可以得知,选取的稀疏度较少时(如sp3),其统计的特征分布信息不够全面,表现效果较差;随着选取的稀疏度字典不断增加,其效果逐渐饱和,非常接近。

图5 不同稀疏度字典的DET曲线

2.2.2 字典大小

当字典大小(基向量个数)不同时,直接影响特征的维数和统计特征特性,选取不同大小的字典进行实验,实验结果如图6所示。当字典大小从50~100时,随着字典维数增大,实验效果不断提升,但当字典大小为150时,其表现效果要次于大小为100的字典,其主要是因为当字典较小时,其学习到的特征有限,表现出一定的局限性;而字典较大时,其对应的特征分布比较离散,导致效果有所降低。

2.2.3 选取块

在稀疏表示中,当所选patch大小不同时,其学习到字典的特征不同,对实验结果产生影响。根据稀疏编码中所选取patch大小的不同,分别对5×5,7×7,9×9的patch进行了试验,实验结果如图7所示。可以看到patch大小为7×7时得到的效果最优;当patch大小为5×5时,效果并不是很好,主要是因为patch较小时,其对特征描述能力不足;而当patch大小为9×9时,效果次于7×7的path,说明所选取的patch不宜偏大。

图6 不同大小字典的DET曲线

图7 不同大小块的DET曲线

2.2.4 实验与现有方法的比较

实验结果与现有经典的方法做了比较,如图8所示。可以看到,在10-5~10-4FPPW时,本文实验结果(spare,在10-4 FPPW时,miss rate为33.2%)介于wavelet[1](10-4 FPPW时,miss rate为37.6%)和hog[6](10-4 FPPW时,miss rate为19.3%)之间,在10-3~10-1FPPW本文实验结果总体优于wavelet和hog。

3 结 论

本文提出一种基于多重稀疏字典的行人检测方法:预先学习多个不同稀疏度的字典,分别用每一个字典对图像进行稀疏表示,统计字典中被激活单元的分布直方图,形成多重稀疏字典直方图作为图像的特征。这种方法提取到的特征维数非常低,并且可以有效的对行人进行描述。本文对实验的各种影响参数如字典大小、稀疏度、块(patch)大小等做了充分的研究,实验表明,这一方法能够有效地提取行人特征,在行人检测中具有良好检测效果。

图8 与现有方法比较的DET曲线

参考文献

[1] MOHAN A, PAPAGEORGIOU C, POGGIO T. Example?based object detection in images by components [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23(4): 349?361.

[2] GAVRILA D M, MUNDER S. Multi?cue pedestrian detection and tracking from a moving vehicle [J]. International journal of computer vision, 2007, 73(1): 41?59.

[3] LIN Z, DAVIS L S. A pose?invariant descriptor for human detection and segmentation [C]// 2008 European Conference on Computer Vision. [S.l.]: [s.n.], 2008: 423?436.

[4] WU B, NEVATIA R. Detection of multiple, partially occluded humans in a single image by bayesian combination of edgelet part detectors [C]// 2005 Tenth IEEE International Conference on Computer Vision. [S.l.]: IEEE, 2005, 1: 90?97.

[5] LOWE D G. Distinctive image features from scale?invariant key points [J]. International Journal of Computer Vision, 2004, 60(2): 91?110.

[6] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]// 2005.IEEE Computer Society Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2005, 1: 886?893.

[7] FELZENSZWALB P F, GIRSHICK R B, MCALLESTER D, et al. Object detection with discriminatively trained part?based models [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627?1645.

[8] LEIBE B, SEEMANN E, SCHIELE B. Pedestrian detection in crowded scenes [C]// 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2005, 1: 878?885.

[9] MU Y, YAN S, LIU Y, et al. Discriminative local binary patterns for human detection in personal album [C]// 2008 IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2008: 1?8.

[10] TUZEL O, PORIKLI F, MEER P. Pedestrian detection via classification on Riemannian manifolds [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 30(10): 1713?1727.

[11] WU B, NEVATIA R. Optimizing discrimination?efficiency tradeoff in integrating heterogeneous local features for object detection [C]// 2008 IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2008: 1?8.

[12] WOJEK C, WALK S, SCHIELE B. Multi?cue onboard pedestrian detection [C]// 2009 IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2009: 794?801.

[13] SCHWARTZ W R, KEMBHAVI A, HARWOOD D, et al. Human detection using partial least squares analysis [C]// 2009 IEEE 12th international conference on Computer vision. [S.l.]: IEEE, 2009: 24?31.

[14] WANG X, HAN T X, YAN S. An HOG?LBP human detector with partial occlusion handling [C]// 2009 IEEE 12th International Conference on Computer Vision. [S.l.]: IEEE, 2009: 32?39.

[15] WATANABE T, ITO S, YOKOI K. Co?occurrence histograms of oriented gradients for pedestrian detection [J]. Advances in Image and Video Technology, 2009, 40: 37?47.

[16] RUBINSTEIN R, BRUCKSTEIN A M, ELAD M. Dictionaries for sparse representation modeling [J]. Proceedings of the IEEE, 2010, 98(6): 1045?1057.

[17] REN X, RAMANAN D. Histograms of sparse codes for object detection [C]// 2013 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). [S.l.]: IEEE, 2013: 3246?3253.

[18] ENGAN K, AASE S O, HUSOY J H. Frame based signal compression using method of optimal directions (MOD) [C]// Proceedings of the 1999 IEEE International Symposium on Circuits and Systems. [S.l.]: IEEE, 1999, 4: 1?4.

[19] HALL R J, PATWARDHAN A. A two step approach for semi?automated particle selection from low contrast cryo?electron micrographs [J]. Journal of structural biology, 2004, 145(1): 19?28.

[20] AHARON M, ELAD M, BRUCKSTEIN A. K?SVD: An algorithm for designing overcomplete dictionaries for sparse representation [J]. IEEE Transactions on Signal Processing, 2006, 54(11): 4311?4322.

[21] PATI Y C, REZAIIFAR R, KRISHNAPRASAD P S. Orthogonal matching pursuit: Recursive function approximation with applications to wavelet decomposition [C]// 1993 Conference Record of The Twenty?Seventh Asilomar Conference on Signals, Systems and Computers. [S.l.]: IEEE, 1993: 40?44.