首页 > 范文大全 > 正文

融合空间信息LDA的视觉对象识别研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇融合空间信息LDA的视觉对象识别研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要: 近年来国内外有很多学者将广泛用于自然语言处理的LDA模型引入视觉对象识别,对象分割,场景分类等应用中。LDA模型是产生式模型,所以必然存在产生式模型共有的弊端即它假设每个视觉词汇所对应主题的产生是条件独立的。根据图像本身的特征,图像的空间信息对图像物体识别起了很大的作用,一个视觉词汇主题的生成过程是受其相邻视觉词汇主题所影响的,为了提高图像视觉词汇的主题分配正确率,提出融合空间信息lda模型,即融合条件随机场的LDA模型,从而在图像的局部主题标签上融合二维图像空间信息,即避免空间信息的丢失同时可以提高其视觉词汇的主题分配正确率。论文主要研究内容:首先对LDA模型进行改进,并在该模型中引入条件随机场,同时推导出使用期望最大化算法确定的模型参数。该论文提出使用条件随机场获得图像的二维空间信息,将产生式模型和判别式模型融合,在增强由图像本身性质所决定的相邻区域主体标签的空间关联性的同时也提高了视觉对象识别的精确度,完成图像的自动标注。

关键词:视觉对象识别,LDA模型,空间信息,条件随机场,期望最大化算法

中文图书分类号:TP391 文献标识号:A 文章编号:2095-2163(2013)04-

LDA Model Combined Spatial Information for Visual Object Recognition Search

LI Yang, LIU Yang, GUO Maozu

(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)

Abstract: In recently years, many scholars introduce the LDA model which is widely used in nature language processing into visual object recognition, object segmentation, scene classification and so on. LDA model is a novel generative model, so there must be common defect between generative models that it assumes latent topic assignments of different visual words are conditionally independent. According to the characteristics of images, spatial information of the images plays an important role in image object recognition, that is to say, the generation process of the latent topics given the visual words is influenced by its adjacent visual words’ latent topics. In order to improve the accuracy of the distribution of the topics given the visual words, the paper proposes the LDA model combined spatial information, namely LDA model combined CRF, which is fused the 2D image spatial information in the local latent topic label to avoid the loss of spatial information and can improve the accuracy of the distribution of the latent topics. The main research contents of this paper: firstly, improve the LDA model, and combine the conditional random field into LDA model, and derive the model parameters using the corresponding EM algorithm. This paper uses the conditional random fields for getting 2D spatial information of the images; combines the generative model and the discriminative model. The paper enhances the spatial correlation of the latent topic labels of the adjacent visual words determined by the images’ nature characteristic, at the same time, improves the recognition rate of the visual objects.

Keywords:Visual Object Recognition; LDA Model; Spatial Information; CRF; EM Algorithm

0 引言

基于计算机的视觉对象识别与语义理解是人工智能的一项主要研究内容,近年来,针对这一问题,各种方法不断涌现,包括产生/判别式方法,以及多示例学习、半监督学习和迁移学习等新的机器学习思想[1-4]。特别是将广泛应用于文本领域的“词汇包”(bag of words)[5-6]表示方法引入到计算机视觉领域后,相应地,研究人员即将适合自然语言处理的统计模型——“主题模型”(topic model)[7]也引入到图像检索和对象识别问题中来。主题模型中,两个常用的模型为概率潜语义分析模型(PLSA)与潜在狄利克雷分布模型(LDA)[8],这两个模型在图像对象识别上都得到广泛的应用。中科院计算所史忠植研究员等提出适用于连续视觉特征建模的图像语义标注系统[9];吴飞博士和庄越挺教授[10]则融合了图像与文本的相关性实现对网络图像聚类,并通过引入单词与单词之间关联度等来改进LDA模型,Zisserman[11]使用尺度不变性PLSA学习Google搜索得到图片的对象类别。LDA模型是一个产生式模型,在LDA模型中将图像表示成独立于空间信息的视觉词汇的集合,在每个视觉词汇上都对应着一个主题,这个主题的产生独立于其他视觉词汇的主题。所有文档共享一系列主题,并且每篇文档对应不同的主题比例,这个主题比例产生于狄利克雷分布。LDA模型中每个主题产生于狄利克雷分布,因而不能反映主题间的依赖关系,这与现实明显不符,所以需改进主题产生的方式,即假设主题产生于高斯分布,使用协方差矩阵的结构来表达主题之间的共现关系,即一个主题与另一个主题的相关性概率。

此外,在LDA模型中,文本或者视觉词汇的主题分配都是条件独立的,并不依赖于词汇出现的顺序。近几年提出很多方法,这些方法针对词汇的主题分配的条件独立性缺陷进行了改进,多是采用在主题模型上加入马尔可夫随机场(MRF),例如Fei-Fei Li[12]将LDA模型与主题随机场模型融合并用于图像分割,Triggs[13]使用全局PLSA模型与局部MRF模型共同作用实现图像分类。Liangliang Cao[14]在没有引入MRF的情况下,使用空间关联性潜在主题模型识别图像中对象的类别和场景,其中并未引入MRF,而是将图像划分为很多区域,每个区域表示成两个部分:一部分表示该区域的所有视觉词汇,另一部分表示该区域的整体外表特征,所以依然没有融合各个区域间的二维空间相互关系。马尔可夫随机场有其自身的缺点和弊端。在马尔可夫链中都是有向图,这个有向图就反映一定的依赖关系,而这种依赖关系却不能很好地对应现实的依赖关系。另外,在现实中标签之间的转移概率不仅依赖于当前所观察到的状态,同时也依赖于以前和未来的观察状态,这在MRF中均未得到很好的诠释,而条件随机场(CRF)则很好地融合了相邻词汇间主题分配的马尔科夫依赖关系,其当前词汇所对应的主题不仅依赖于当前的词汇,而且是建模在整个所观察到的视觉词汇序列上。针对图像二维空间性,将线性链CRF转换成二维CRF来实现,从而融合二维图像空间的相邻视觉词汇的相互作用关系。

本文主要贡献可归纳为:

将二维CRF模型融合到主题产生于高斯分布的LDA模型[17]中,使得每个词汇所对应的主题分布不再是条件独立的,而是与其二维空间中的相邻词汇有关,解决了相邻词汇间的依赖问题。

1 融合空间信息的LDA模型

1.1 LDA 模型

潜在狄利克雷分配模型运用层次贝叶斯定义了文档的似然函数。具体来说就是为每个文档定义一个主题比例向量,这个比例向量来自于狄利克雷分布,每篇文档的词汇采样于一个特定的主题词汇分布。LDA模型可以是有监督学习,也可以是无监督学习。本文采用了无监督学习。但是,LDA模型中的狄利克雷分布不能获取主题之间的相关性,这与现实极为不符,因为现实中一个主题的出现常会反映出另外主题出现的可能性,所以需对LDA模型加以改进。将狄利克雷分布改为高斯分布,令表示k维的均值和方差矩阵,令表示K*N的矩阵,那么对于一需有N 个词汇的文档,改进的LDA模型的产生过程如下:

(1)获取主题概率分布

(2)For :

(a)选择隐含主题

(b)生成一个词汇.

这个过程与LDA的生成过程相同,改进之处在于文档中主题分布来自于高斯分布,而非狄利克雷分布,通过协方差矩阵表示主题之间的共现关系,与现实更加相符。图1给出了LDA图模型表示。

1.2 二维CRF

CRF[15](Conditional random fields)是一种判别式模型。这是一个无向图,满足马尔可夫性质,即对随机场中的任何一个随机变量,给定场中的其他所有变量下该变量的分布,等同于给定场中该变量的邻居节点下该变量的分布。CRF是在马尔科夫随机场中加入了观测值。马尔可夫随机场中每一个节点对应一个随机变量,节点之间的边表示节点对应的随机变量之间有概率依赖关系。在CRF中,要确定的是在给定观察集合下其MRF的分布,而不仅仅是在当前的观测值下的MRF分布。

由于图像的二维特性,需对线性链CRF进行改进,使其成为二维CRF。每个词汇的主题分布不仅依赖其前后位置词汇的主题,而且依赖其上下位置词汇的主题,所以本文采用八邻域法。根据LDA模型中一篇文档的产生过程,融合空间信息的LDA模型的图模型产生过程如图2所示。

这里,假设对每幅图像提取特征,获取每个patch块所对应的视觉词汇的索引值。每幅图像有n 个视觉词汇。该模型中,一幅图像的生成过程与LDA模型的生成过程较为相似,不同之处只在于不再满足多项式分布,而是定义为广义线性模型:

式中,是K维的特征函数向量,这个特征函数定义了与图像中视觉词汇相关的特征,是一个K维的向量。根据上式,该模型的产生过程为:

其中,满足高斯分布,是在参数为下的主题概率分布,可以将式(1)改写为:

其中,是保证式(2)为概率模式的归一因子,其就散公式如下:

1.3 特征函数

特征函数的选择对条件随机场极为重要,这里特征函数分为两种。第一种为独立特征函数,是仅与当前词汇相关的特征函数;第二种为相关性特征函数,是指当前词汇的主题分布要受到其相邻的词汇主题分布的影响,在此则体现了融合空间特性的目的。监狱图像的二维特性,需要考虑二维相邻区域词汇间主题的影响,本文采用八邻域法,如图3所示。

在此,对两种特征函数的形式与分析如下:

(1)独立特征函数:

由式可见,是一个K维的矩阵,K为所有图像共享主题的个数,是一个指示函数,表示如果这个词的主题为K,那么赋值为1,否则为0。

(2)相关性特征函数:

假设当前词汇的八邻域词汇所对应的主题分别是,那么在相关性特征函数的K维矩阵的相应位置上加1,最后得到的特征函数向量为:

2 后验推理与参数估计

隐含变量的分布和未知参数的推理都较为困难的问题,即如何推理是需要考虑的核心问题。在二维CRF中,计算难度不仅是因为一幅图像中每个词汇所对应的主题不是独立产生的,而是与其邻域很多词汇的主题分布有关,并且还因为在归一因子中存在对潜在主题分布的指数级求和,所以使用变分推理方法替代精确推理方法就可以有效计算似然函数的下界。在图模型中,变分推理方法[16]有着通用的准则,但是这里需要考虑该模型殊的结构。参数估计采用最大似然估计方法。

使用Jensen不等式对似然函数进行变换,就得到似然函数的下界:

其中,为变分分布的熵。所以上述期望都是潜在变量变分分布的期望。这里设为模型参数,为变分参数。继续假设隐含变量的变分分布满足:

连续变量的变分分布为K 个相互独立的高斯分布,与分别是高斯分布的均值和方差。则为主题为分布的K维参数。

在似然函数的下界中第一项通过计算得到:

似然函数的下界的第二项:

但是由于归一因子是log形式,式(10)不能有效地计算出来,所以根据不等式:

得到第二项中对归一因子的log形式的期望:

其中,,。将上述不等式带入似然函数中,获得似然函数的一个下界,并且是参数的函数。

给定一个模型的参数和一幅图像,变分推理算法相对于变分参数来优化式(6)。使用梯度下降法迭代优化一个参数时,其它参数都保持不变。对于参数,则有其迭代优化公式:

对于参数,通过对公式(3.1)求导得到其迭代优化公式:

其中第一项来自于词汇生成模型的多项式分布,第二项既考虑了独立特征函数,也考虑了相关性特征函数,在第二项中,特征函数就融合了图像二维空间相邻区域间的相互依赖关系。

对于参数,使用梯度下降法,则对于参数的梯度分别为:

首先设

信念传递算法可以有效计算dedao 和,在优化时并没有解析式解,所以可选用梯度下降算法优化这两个变分参数。

给出图像集合,通过最大化图像的似然函数来实现参数估计,并使用最大期望算法通过对公式(3.1)中所有图像求和来最大化似然函数的下界。

在E步中,本文对变分参数最大化似然函数下界,完成对每篇文档的变分推理。在M步中,本文对模型参数最大化似然函数下界。E步和M步重复进行,直到收敛为止。

下面给出M步中,模型参数估计的公式。

对于模型参数,是高斯分布的均值向量,使用E步中得到的变分参数获得该均值向量,计算公式为:

其中,表示训练模型中文档的总数。

对于模型参数,是高斯分布的协方差矩阵,能够反映主题间共现关系概率。对每一文档,首先计算一次中间变量cov_s,其计算公式为:

最后得到矩阵的每个元素:

其中:

对于模型参数,是一个K*N的矩阵,表示给定主题下词汇的分布概率,即,其计算公式为:

其中,式中的 指对每一行求和,使得该行的元素和相加为1。

3实验

本文使用VOC(2007)图像数据库的训练集合和测试集合,分别进行模型的训练和测试。该图像库共有20个类别的图像。使用融合空间信息的LDA模型训练得到该模型的参数,这里设置主题数为100,并且对4 952幅进行测试,得到每幅图像的主题分布矩阵,该矩阵作为SVM输入参数,使用SVM分类器对不同类别的图像进行分类。在使用SVM分类器进行分类时,将当前需要识别的图像设置为正例,将其他所有类别的图像设置为反例,形成多个2分类问题。本文采用precision、recall和accuracy这三个量化标准评价图像识别率的好坏:

最后通过precision和recall得到Aero-plane,Bottle,Bus,Cat 这四类图像的AP曲线,并且与LDA模型与SVM分类器得到的识别率的AP曲线进行比较,对比结果如图4、图5、图6、图7所示。可以看出,本模型相比LDA模型,AP曲线较稳定,没有出现LDA模型AP曲线的不稳定性情况。

4讨论

通过将二维图像空间信息融合进LDA模型,构建条件随机场LDA模型,使得每次视觉词汇主题的产生不再条件独立,而与其相邻区域视觉词汇的主题存在一定的依赖关系,这更加符合图像特性,并且文档所对应的主题的产生不再来自于狄利克雷分布,而是高斯分布,那么高斯分布的协方差矩阵就可以反映主题间的共现关系,即一个主题的出现也表现了其他主题出现的概率,可用于场景识别的应用。融合空间信息的LDA模型,可以提高图像视觉词汇主题分配的准确率,从而达到提高视觉对象识别率的目的。

参考文献:

?基金项目:国家自然科学基金(61171185,61271346,60932008);高等学校博士学科点专项科研基金(20112302110040)。

作者简介:李阳(1987-) 女,辽宁朝阳人,硕士研究生,主要研究方向: 机器学习,计算机视觉;

刘扬(1976-) 男,吉林怀德人,博士,副教授,主要研究方向: 机器学习,计算机视觉;

郭茂祖(1966-)男,山东夏津人,博士,教授,博士生导师,主要研究方向: 机器学习,计算生物学,生物信息学,图像理解。

[1]BOSCH A, ZISSERMAN A,MUNOZ X. Scene classification using a hybrid generative/discriminative approach [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence. Pattern Analysis and Machine Intelligence, 2008,30(4):712-727.

[2] VIJAYANARASIMHAN S,GRAUMAN K. Keywords to visual categories: Multiple-instance learning for weakly supervised object categorization[C]//IEEE Conference on Computer Vision and Pattern Recognition, 2008.6:1-8.

[3] CANINI K R, SHASHKOV M M, GRIFFITHS T L. Modeling transfer learning in human categorization with the hierarchical Dirichlet process[C]//Proceedings of the 27th International Conference on Machine Learning , 2010-06.

[4] BERGAMO A, TORRESANI L. Exploiting weakly-labeled Web images to improve object classification: a domain adaptation approach[C]//Neural Information Processing Systems, 2010.

[5] LOWE D G.?Distinctive image features from scale-invariant keypoints[J].?International Journal of Computer Vision,?2004 60(2): 91-110.

[6] JURIE F, TRIGGS B. Creating efficient codebooks for visual recognition[C]//Proceedings of the IEEE International Conference on Computer Vision, 2005,10(1):604-610.

[7] STEYVERS M, GRIFFITHS T. Probabilistic topic models[M]. Handbook of Latent Semantic Analysis, 2007.?

[8] BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation[J]. Journal of Machine Learning Research3, 2003:993–1022.

[9] 李志欣, 施智平, 刘曦, 史忠植. 建模连续视觉特征的图像语义标注方法[J].计算机辅助设计与图形学学报, 2010, 22(8):1412-1420.

[10] 吴飞, 韩亚洪, 庄越挺, 邵健. 图像-文本相关性挖掘的Web 图像聚类方法[J]. 软件学报, 2010, 21(7):1561-1575.

[11] FERGUS R, L Feifei PERONA P, et al. Learning object categories from Google image search[C]//ICCV 2005. Tenth IEEE international conference,2005,2:1816 - 1823.

[12] ZHAO Bin, LI Feifei, XING E P. Image segmentation with topic random field[C]//European Conference on Computer Vision,2010,6315:785-798.

[13] VERBEEK J, TRIGGS B. Region classification with Markov field aspect models[C]//Computer Vision and Pattern Recognition,2007:1-8.

[14] CAO Liangliang, LI Feifei. Spatially coherent latent topic model for concurrent segmentation and classification of object and scenes[C]//Pattern Analysis and Machine Intelligence,IEEE Transaction,2010,32(9):1627-1645.

[15] LAFFERTY J, MCCALLUM A , PEREIRA F. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C]// ICML, 2001.

[16] WAINWRIGHT M, JORDAN M. A variational principle for graphical models[C]//New Directions in Statistical Signal Processing, MIT Press, 2005.

[17] BLEI D. LAFFERTY J. Correlated topic models[C]//NIPS,2006.