首页 > 范文大全 > 正文

融合KL散度和移地距离的高斯混合模型相似性度量方法

开篇:润墨网以专业的文秘视角,为您筛选了一篇融合KL散度和移地距离的高斯混合模型相似性度量方法范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:为提高高斯混合模型(GMM)间相似性度量方法的计算效率和准确性,通过对称化KL散度(KLD)并结合移地距离(EMD)提出一种新的相似性度量方法。首先计算待比较的两个高斯混合模型内各高斯成分间的KL散度,对称化处理后用于构造地面距离矩阵;然后用线性规划方法求解两个高斯混合模型间的移地距离作为高斯混合模型间的相似性度量。实验结果表明,将该相似性度量方法应用于彩色图像检索,相对于传统方法能够提高检索的时间效率和准确性。

关键词:图像检索;高斯混合模型;KL散度;移地距离;颜色空间分布

中图分类号: TP391.413

文献标志码:A

Abstract:

To improve the computation efficiency and effectiveness of the similarity measure method between two Gaussian Mixture Models (GMM), a new measure method was proposed by means of integrating symmetrized KullbackLeibler Divergence (KLD) and earth movers distance. At first, the KL divergence between Gaussian components of the two GMMs to be compared was computed and symmetrized for constructing the earth distance matrix. Then, the earth movers distance between the two GMMs was computed using linear programming and it was used for GMM similarity measure. The new measure method was tested in colorful image retrieval. The experimental results show that the proposed method is more effective and efficient than the traditional measure methods.

Key words: image retrieval; Gaussian Mixture Model (GMM); KullbackLeibler Divergence (KLD); Earth Movers Distance (EMD); color spatial distribution

0引言

随着网络和计算机技术的发展,多媒体信息日益膨胀,基于人工标注的多媒体信息管理方法逐渐不能满足人们的需求,基于内容的多媒体信息检索则成为研究热点。在基于内容的多媒体信息检索系统中,两个关键工作是多媒体信息的特征表达和特征间的相似性度量[1]。高斯混合模型(Gaussian Mixture Model, GMM)是常用的多媒体信息表达方法,文献[1-5]使用GMM表达图像特征实现图像分类和图像检索;文献[6-8]使用GMM表达音频特征实现声音检索和音乐标注。

在使用GMM表达多媒体信息时,常用的相似性度量方法为KL散度(KullbackLeibler Divergence, KLD)[9-10]。使用KLD度量GMM间的相似性,由于没有闭合形式的求解表达式通常使用蒙特卡罗模拟法求解KLD,但蒙特卡罗模拟算法需要大量采样,因此该方法时间效率较低。为解决GMM间KLD计算的时间效率问题,文献[1]提出了两种KLD的近似求解方法:基于匹配的KLD近似算法和基于无迹变换的KLD近似算法。虽然这两种算法能够有效提高KLD计算的时间效率,但准确性相对蒙特卡罗计算法却有所下降。

在基于内容的多媒体检索领域,常使用移地距离(Earth Movers Distance, EMD)度量多媒体间的相似性。文献[11]使用EMD进行图像检索;文献[12]使用EMD进行视频检索。首先提取图像或视频的特征向量集(如颜色、声音或运动特征);再通过聚类算法将图像或视频表达为带权聚类集合,形如{(c1,ω1),(c2,ω2),…,(cm,ωm)},其中:ci表示第i个聚类的中心,ωi表示第i个聚类的权值,m表示聚类的个数;最后使用EMD计算带权聚类集合间的距离。若使用EMD度量GMM间的相似性,可将GMM看作带权聚类集合,聚类中心为GMM中各高斯成分的均值向量,聚类的权值为对应高斯成分的权值,通过计算带权聚类集合间的移地距离度量GMM间的相似性。但这样做只考虑了GMM包含的各高斯成分的均值特征及其所占权重,却忽视了高斯成分的协方差矩阵特征。

基于以上问题的启发,本文融合klD和EMD两种度量方法,提出一种新的高斯混合模型间相似性度量方法――sKLDEMD(Gaussian mixture model similarity measure method based on symmetrized KullbackLeibler Divergence and Earth Movers Distance),并将该方法应用于彩色图像的检索。该方法一方面通过KLD的计算充分利用GMM内部各高斯成分的均值和协方差特征;另一方面通过EMD算法分析GMM的整体形状特征,从而获取更准确的相似性度量结果。

3实验结果

为验证本文提出的GMM相似性度量方法sKLDEMD的效果,将其用于彩色图像检索问题,以GMM作为图像的特征表达,以sKLDEMD作为图像间的相似性度量。实验从COREL图像库中抽出353张图像作为测试图像集,整个图像集分为7类,包括马、花朵、海滩、汽车、建筑、印第安人和恐龙,每类图像拥有相似的颜色空间分布。图像大小为384×256或者256×384,图像格式为jpg。为提高图像特征提取速度,在预处理阶段将测试图像集中所有图像缩小至原始大小的1/5,在GMM建模阶段设定所有图像的高斯混合模型均包含3个高斯成分。实际应用中也可采用极小描述长度(Minimum Description Length, MDL)准则[1]488确定各图像对应的GMM包含的高斯成分个数。

为比较sKLDEMD的性能,将它与其他3种GMM相似性度量方法从检索精确率、召回率和距离计算时间三方面进行对比,这3种度量方法分别是:

1)使用蒙特卡洛采样法计算GMM间的KL散度,采样粒子数为1000,简称为KLDMC(similarity measure based on KullbackLeibler divergence and Monte Carlo Sampling);

2)将GMM看作带权聚类集合,使用聚类中心间的欧氏距离构造地面矩阵,计算GMM间的移地距离,简称为EMD;

3)融合KLD和EMD两种方法,但构造地面矩阵时不对KLD作对称化处理,简称为KLDEMD(similarity measure method based on KullbackLeibler divergence not symmetrized and earth movers distance)。

为客观评价本文算法的性能,对比实验使用同样的数据和条件,运行的软件环境是Windows XP下安装的Matlab 7.0,硬件环境是Intel Core2 Duo 2.10GHz双核CPU、1.99GB内存。

3.2性能评价

实验采用准确率和召回率作为算法检索效果的评价标准。其中:准确率定义为检索结果中相关图像数与检索返回图像总数之比;召回率定义为检索结果中相关图像数与图像集中相关图像总数之比;相关图像指与例子图像同属一类的图像。实验从图像集中抽取每一幅图像作为例子图像进行检索,按相似度大小排序返回前100幅检索图像,取每次检索结果准确率和召回率的平均值作为算法的平均检索结果。

图3给出4种方法的检索准确率曲线,横轴表示检索结果返回图片总数,纵轴表示平均检索准确率。由图3可知,随着返回图片总数的增加,平均检索准确率会下降,但本文提出的sKLDEMD的性能曲线位于最上方,其平均检索准确率随返回图片总数的增加下降得最慢;KLDMC和EMD的性能曲线几乎重合,它们位于中部;而KLDEMD的性能曲线位于最下方,下降速度最快。

图4给出4种方法的检索召回率曲线,横轴表示检索结果返回图片总数,纵轴表示平均检索召回率。由图3可知,随着返回图像总数的增加,平均检索召回率会上升,本文提出的sKLDEMD的性能曲线位于最上方,平均检索召回率随着返回图像总数的增加升得最快;KLDMC和EMD的性能曲线几乎重合,它们位于中部;而KLDEMD的性能曲线位于最下方,上升速度最慢。

4结语

本文提出一种融合KL散度和移地距离的高斯混合模型相似性度量方法。该方法在GMM距离计算的过程中既考虑了GMM内部各成分的均值特征,也考虑了各成分的协方差特征;通过对KL散度的对称化处理,构建了地面距离矩阵,使其可以应用于移地距离的计算;最后利用移地距离处理了GMM的整体分布特征,实现了GMM整体与局部特征的融合。实验将该度量方法应用于彩色图像检索,实验结果证明本文方法取得了理想的检索效果,在检索效率和准确性上优于传统的高斯混合模型相似性度量方法。

从检索实例来看,检索返回前20张图像时,检索结果中就已出现一些不相关图像,这是因为检索只利用了图像的颜色空间分布特征。进一步考虑图像的其他特征,采用更合理的特征表达方法和相似性度量方法,实现更有效的图像检索仍需要做进一步的研究。

参考文献:

[1]GOLDBERGER J, GORDON S, GREENSPAN H. An efficient image similarity measure based on approximations of KLdivergence between two Gaussian mixture [C]// Proceedings of the 2003 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2003: 487-493.

[2]CARSON C, BELONGIE S, GREENSPAN H, et al. Blobworld: image segmentation using expectationmaximization and its application to image querying [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(8): 1026-1038.

[3]LIU Y, PERRONNIN F. A similarity measure between unordered vector sets with application to image categorization [C]// Proceedings of the 26th IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2008: 1-8.

[4]LUSZCZKIEWICZPIATEK M, SMOLKA B. Effective color image retrieval based on the Gaussian mixture model [C]// Proceedings of the 3rd International Workshop on Computational Color Imaging. Berlin: Springer, 2011: 199-213.

[5]GREENSPAN H. Medical image categorization and retrieval for PACS using the GMMKL framework [J]. IEEE Transactions on Information Technology in Biomedicine, 2007, 11(2): 190-202.

[6]HELEN M, VIRTANEN T. Query by example of audio signals using Euclidean distance between Gaussian mixture models [C]// Proceedings of the 2007 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE Press, 2007: 1225-1228.

[7]TURNBULL D, BARRINGTON L, TORRES D, et al. Semantic annotation and retrieval of music and sound effects [J]. IEEE Transactions on Audio, Speech and Language Processing, 2008, 16(2): 467-476.

[8]WANG J, YANG Y, WANG H, et al. The acoustic emotion Gaussians model for emotionbased music annotation and retrieval [C]// Proceedings of the 20th ACM International Conference on Multimedia. New York: ACM Press, 2012: 89-98.

[9]VASCONCELOS N. On the efficient evaluation of probabilistic similarity functions for image retrieval [J]. IEEE Transactions on Information Theory, 2004, 50(7):1482-1496.

[10]VASCONCELOS N, HO P, MORENO P. The KullbackLeibler kernel as a framework for discriminant and localized representations for visual recognition [C]// ECCV 2004: Proceedings of the 8th European Conference on Computer Vision, LNCS 3023. Berlin: Springer, 2004: 430-441.

[11]RUBNER Y, TOMASI C, GUIBAS L J. The earth movers distance as a metric for image retrieval [J]. International Journal of Computer Vision, 2000, 40(2): 99-121.

[12]TAKADA K, YANAI K. Web video retrieval based on the earth movers distance by integrating color, motion and sound [C]// Proceedings of the IEEE International Conference on Image Processing. Piscataway, NJ: IEEE Press, 2008: 89-92.

[13]BISHOP C M. Pattern recognition and machine learning [M]. Berlin: Springer, 2006.