首页 > 范文大全 > 正文

图像多标签学习综述

开篇:润墨网以专业的文秘视角,为您筛选了一篇图像多标签学习综述范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要: 图像语义标签的自动标注技术是当前信息检索领域的热点问题.图像标注本质上是一个机器学习问题,即如何根据图像的视觉内容推导图像的语义标签. 综述了图像标注的发展和现状,并对目前比较流行的图像标注算法进行深入的讨论和比较研究.最后提出一种目前较新且值得深入研究的基于稀疏编码的图像标注算法.

关键词: 图像标注;语义鸿沟;多标签;图像特征;稀疏编码

中图分类号:TP 3174

文献标志码:A文章编号:1672-8513(2011)06-0490-07

Summary of the Researches on Multi-Label Image Annotation

HUANG Yan1, SUN Jian1, GU Yu2

(1.Institute of Information and System Science, Xi’an Jiaotong University, Xi′an 710049, China;2. School of Education, Yunnan University of Nationality, Kunming 650031, China)

Abstract: Automatic image annotation is a hot research issue in the related fields. The nature of automatic image annotation is a process of “learning” , that is , deducing semantic keywords of images according to their visual contents. This paper describes the status and development of image annotation, discusses and compares the existing popular image annotation algorithms. Finally, a new multi-label image annotation method using sparse coding is put forward, which deserves further studies.

Key words: image annotation; semantic gap; multi-label; image feature; sparse coding

图像标注又称为图像标签学习,是指根据已知语义图像的视觉内容与标签间的关系获得未知语义图像的语义标签,它在计算机视觉系统中属于高层视觉处理,是图像理解[1]的基础.由于真实世界中的大部分图像均包含不止一个场景或者物体,一幅图像便可以被标注多个标签.而自动图像标注是在高层语义特征和底层视觉特征之间建立某种关系,它可以在一定程度上解决基于内容图像检索方法存在的语义鸿沟问题,使大规模图像管理及检索成为可能.目前已广泛应用于工业,教育,商业、军事等领域.语义标注本质上是一个学习问题.因此,各种机器学习、概率统计方法都应用到了图像标注中,并在不断地深化和推广.

1 图像多标签学习中存在的问题

随着对图像标注问题的研究越来越深入,研究者们发现在图像标注过程中有一些客观存在的问题,主要表现为以下几点[2].

1.1 语义鸿沟问题

语义鸿沟主要体现在用户所理解的高层语义信息与图像本身的底层视觉特征之间的差异性.这种差异性是基于内容的图像检索一直以来亟待解决的问题.语义鸿沟主要可分为以下几个方面:

1) 图像的视觉内容与提取的特征之间的鸿沟.由于从图像提取的视觉特征维数是固定的,难以避免在提取特征的过程中会损失掉一部分视觉内容,使得图像特征不能充分表达出图像本身的视觉含义.

2) 图像的视觉内容和语义标签之间的鸿沟.2幅图像具有相似的视觉内容,但他们的语义可能完全不同.比如,“云朵”和“棉花糖”2幅图像,它们的视觉内容非常相似,但却具有完全不同的语义标签.

3) 高层语义具有不确定性.图像的语义内容只是观察者对图像的理解,具有很强的主观性,不同用户对同一幅图像的理解可能不同.比如一只具有拟态特征的动物的图片,它可能被认出是某种动物,也可能被理解为它所模拟的其它生命体或者非生命体.因此,对图像高级语义的理解恰当与否缺少准确的判断准则.

1.2 多标签学习问题

自然图像的语义内容非常丰富,一幅图像可以被同时赋予多个标签,如:一幅图像可以被标注有“楼”、“路”、“飞机”、“草地”4个标签.可以说,图像标注问题实际是一个多标签分配问题,而传统分类往往是硬分类,即一个数据仅被分到一个类中,具有排他性,在图像标注中体现为一幅图像只标注一个标签,具有一定的局限性.这一问题又给图像标注带来了一系列困难,如下所述:

1) 语义标签间具有相关性.实际上语义标签并不是相互独立的,它们之间具有很强的相关性.而传统方法按照分类惯用的思想,再加上方法本身的局限,往往需要假设语义标签之间相互独立,因此不能很好地利用标签间相关性所提供的信息,也难以很好地对语义相关性进行建模.另外,由于一幅图像可以具有很多语义标签,不同图像语义标签可能会有部分重复,因此,语义标签具有共现性,即当图像被标注有某标签时,该图像同时具有另一个标签内容的概率很大,这样,具有不同标签的图像集合可能会出现重叠部分[3].因此,通过清晰的类边界来区分不同的标签类是十分困难的[4].

2) 数据具有不平衡性.这里说的不平衡主要是指数量上的不平衡,主要体现在以下2点:首先,不同标签类的数据具有不平衡性.根据奇普夫词频分布定理[5],大部分标签在图像中出现的频率都很小,只有极少数的标签被经常使用.因此,可以根据标签被使用的频率大小将它们分为常用标签与稀有词,包含常用标签的图像数量要远远大于包含稀有词的图像数量,具有不平衡性.其次,不平衡性也存在于同一标签类中,同一标签的正负样本具有不平衡性.所谓的正样本即包含有该标签的样本,反之则为负样本.对同一标签来说,负样本的图像数量往往要远远大于正样本的数量,具有不平衡性.数据的不平衡性对传统标注方法,尤其是判别分类方法带来很大的困难.

3) 数据具有稀疏性.由于数据的不平衡性,包含稀有词的图像数量非常少,具有稀疏性.由于数量太少,难以对这些稀有词进行准确建模,大大影响了标注模型的准确度.

2 图像多标签学习算法框架

图像自动标注模型的框架可以分为2部分:模型训练和标注测试图像.图1给出了该框架的结构.模型训练主要通过对训练集进行学习完成,训练集可分为2部分,一部分是训练图像,另一部分是训练图像所对应的标签.标注模型通常由特征提取步和分类机构成.模型建立之后,即可对新的图像进行自动标注.模型的好坏将直接影响到标注结果的精确度,而影响模型性能主要有图像的特征描述方式和模型训练的精度.常用的特征主要可分为颜色特征、纹理特征、形状特征以及空间关系特征.若根据特征区域来源分类,又可分为全局特征,基于区域的特征以及基于图像块的特征.2.1节将分别对这些图像特征进行详细的介绍,并对比分析其优劣.2.2节将对目前比较流行的图像标注算法进行深入的分类讨论及比较研究.最后提出一种目前较新且值得深入研究的基于稀疏编码的图像标注算法.

2.1 特征选择

特征提取是图像标注算法中非常关键的一步.目前已经提出了许多特征提取算法,它们提取的特征各种各样,计算复杂度和可重复性也非常不同.常用的图像特征有以下几种:

1) 颜色特征.颜色特征是基于像素提取出来的一种描述图像表面属性的全局特征.颜色特征具有一定的尺度、方向和视角的不变性[6],是图像非常重要的一种特征,是当前基于内容的图像检索技术使用最为广泛的特征.但是,也正是由于颜色特征的全局性和鲁棒性,它对图像中各种对象的局部特征不能很好地描述.另外,若数据库很大,使用颜色特征检索时常常会输出许多不相关的图像.颜色特征中,颜色直方图最为常用,它描述了图像中不同灰度值在图像中所占的比重.使用颜色直方图进行图像间的相似性度量,其优点是不受图像旋转和平移变化的影响,进一步借助归一化还可不受图像尺度变化的影响,特别适用于描述那些难以分割以及不需要考虑图像中物置关系的图像.其缺点是没有表达出图像颜色空间分布的信息,即无法描述图像中某一具体对象.

2) 纹理特征.纹理特征也是图像的一种描述图像表面属性的全局特征[7],它可以很好地区分类似“天空”与“大海”这样颜色相似的图像,但它不是基于像素的特征.提取纹理特征时需要在一幅图像区域中进行统计分析,是一种区域性的统计特征.区域性使得纹理特征在相似性度量时不会因为局部的偏差而度量失误.而统计的特性使得纹理特征具有旋转不变性以及较强的抗噪性.但是,纹理特征受图像的分辨率、光照、反射等因素的影响较大,这些因素的变化会使得所提取出的纹理特征出现偏差[8].

3) 形状特征.形状是物体的一种稳定特征[9],它不受图像颜色等因素的影响.对图形来说,形状可以说是它的唯一特征.通常,形状特征可以分为2种,一种是轮廓特征,用来描述物体边界;另一种是区域特征,用来描述图像中整块形状区域.但由于受到图像分割问题的限制,很难找到一个形状特征可以符合人眼的感知特性.

4) 空间关系特征.空间关系是指不同物体或者区域之间的位置关系,包括朝向关系和拓扑关系,其作用在于加强图像内容的区分能力.空间关系特征受图像的旋转、尺度等变化的影响较大.空间位置信息通常可以分为2类:相对空间位置信息和绝对空间位置信息.前者是指物体之间的相互位置,比如上下左右等,而后者是指物体之间的具体距离大小以及方位.显然,绝对空间位置包含有更多的信息,可以从中推导出相对空间位置,但也较相对空间位置信息更为复杂.实际应用中,准确地描述场景信息仅仅依赖空间信息是不够的,还需要结合其它特征.

根据特征的来源区域,图像内容的特征表示方法可划分为3类:

1) 全局特征.全局特征即基于整幅图像所提取出的特征.常用的颜色特征与纹理特征等均属于全局特征.比如颜色直方图特征、颜色相关图等[10].颜色直方图简单描述了一幅图像中颜色的全局分布,即不同颜色的像素点数量在整幅图像中所占的比例.而颜色相关图表示了某一种颜色的像素在整个图像中所占的比例的同时也反映了不同颜色对之间的空间相关性.

2) 基于区域的特征.使用这一类的特征首先需要将图像划分为有意义的若干区域或部分,即将图像分成互不重叠,具有各自特征的区域.这里的特性可以是灰度、颜色或纹理等.然后分别从这些小区域中提取出各自的特征,再将一幅图像中所有小区域特征进行整合,最终得到该图像的特征.比如在标注算法CMRM[11]中使用的图像特征,先利用Blobworld[12]算法将训练集中所有图像进行分割,再使用K-means算法对训练集中所有的小区域进行聚类,每个图像的特征最终由该图像所包含区域的类标号构成,这种特征就是一种基于区域的特征.

3) 基于图像块的特征.若不将图像划分为有意义的若干区域,只开一个固定大小的矩形窗口,通过该窗口在图像上游走得到一系列大小相同的图像块,这些图像块可以重叠也可以不重叠,然后类似区域特征,从这些图像块中分别提取特征,再对一副图像中所有图像块特征进行整合,最终得到的特征称为该图像的基于图像块的特征.比如标注算法MBRM[13]中提到的特征便是对CMRM算法使用的图像特征做了稍许改变得到的,它将本应做分割的图像通过游动窗口提取出图像的不重叠的图像块,再用图像块取代区域用K-means做聚类,最终每个图像的特征仍由该图像所包含图像块的类标号构成.

理论上说,基于区域的特征对图像的特征表达得最好.但在实际应用中,这种特征表示方法需要涉及图像分割,这又是另一个图像处理的基本问题,需要耗费大量时间.而且目前的图像分割算法本身在无监督的情况下效果并不能令人满意,其误差会传递到标注过程[14].因此,这种特征表示方法并不常用,全局特征和基于图像块的特征成为图像标注征表达的常用选择.

2.2 标注方法

近年来,图像标注问题已经得到了广泛的研究,人们已经发展了各种各样的方法.最著名的经典算法可分为3类:基于分类的算法、基于概率模型的算法以及网络图像算法.其中基于稀疏性的图像标注方法受到比较多的关注[15],我们将介绍此类方法并作出改进.

2.2.1 基于分类的算法

基于分类的算法即通过将标签视为图像所属的类并用传统的分类方法对图像进行标注.例如Cusano等[16]利用SVM良好的泛化能力,于2004年提出了将其用于解决图像标注的算法,其核心思想是将图像标注问题转换为有监督的多分类问题.

该算法首先将图像用图像分割算法划分成不重叠的区域,并对其中的显著区域进行人工标注.这些区域被划分为许多有重叠区域的图像块,图像块边长为

l=p・w・h,(1)

其中,w,h分别表示该图像的宽和高,p为固定常数,表示图像块的大小是整幅图像的p倍.从每一个标签的区域中随机取出m个(m为常数)这样的图像块作为训练集并用HSV颜色空间上的联合直方图作为图像块的特征对其进行表达.随后,根据这一训练集训练多分类SVM模型.这样,在对测试图像经过同样的处理得到许多图像块后,可用SVM对这些图像块进行分类,从而判断出这些图像块的标签.最后,将测试图像中所有图像块的标签信息进行综合,就可得到该图像的标签信息.

除此以外,还有Chang等[17]提出的CBSA算法,Carneiro等[18]提出的SML算法等等.CBSA算法使用的是贝叶斯点分类机,通过训练与标签个数相同多个贝叶斯点分类机(BPMs)计算出每一个标签的置信度,最终确定标签.SML算法利用Multiple Instance Learning(MIL)算法从训练集中学习标签,对每个标签建立概率模型,模型参数通过EM算法来估计,然后利用贝叶斯决策规则推导出具有最小错误率的标签作为测试图像的标签.

但是,由于分类问题本身的局限性,这类方法随着标签的增多时间复杂度会变得非常大,并且会受到数据不平衡问题的影响.此外,由于传统分类任务是一种“排他性”的分类,即假设不同类别具有独立性,使得标签之间的相关性并没有加以利用.

2.2.2 基于概率模型的算法

此类算法需要推导出图像与标签之间的概率模型, CMRM(Cross-Media Relecance Modals)[11]就是其中一种比较常见的基于概率模型的图像标注算法.

CMRM算法由Jeon等于2003年提出.该算法首先将训练集中的图片用分割算法(Blobworld, Normalized-Cuts等)分割出区域,再用聚类算法K-means对这些区域进行聚类,每一类被称作一个区域类(Blob).这样,每幅图像就可以表示为由一系列区域类的数学表示组成的向量.CMRM算法通过计算图像区域类数学表示与标签集的联合概率来对测试图像进行标注.

除此之外,此类方法还有由Duygulu等[19]于2002年提出的基于机器翻译的识别模型,Lavrenko等[20]提出的连续空间相关模型(CRM)等等.基于机器翻译的识别模型也需要将从图像中分割出来的区域通过聚类形成区域类,利用机器翻译模型来建模这些区域类到标签的映射,并通过EM学习实现.CRM也采用分割区域表示图像,与CMRM不同的是,CRM将区域类用连续概率密度函数来描述而非聚类生成,因此受聚类算法精度影响较小,然后通过学习标签与区域类之间的联合概率分布来标注测试图像.

总的来说,此类方法受数据规模和标签个数的限制较小,并且通过概率决定标签的方式使得标注的结果本身具有一定的有序性,避免了后期排序的麻烦.但是此类方法容易受到语义鸿沟问题的影响,对标签信息和图像特征以及两者关系的利用也比较粗糙,且在算法步骤中的区域聚类一步对结果好坏影响较大,易产生误差传递.

2.2.3 网络图像相关算法

网络图像相关算法是基于网络这个大环境利用网络图像本身的特性进行标签学习.例如Wang等[21]提出的网络图像自动标注系统,利用数据挖掘技术根据用户提供的关键词先用文本搜索技术得到与关键词相关的所有图像,再利用基于内容的图像检索技术从这些图像中挑选出与测试图像视觉上相似的所有图像,最后利用数据挖掘技术从与这些图像相关的文本信息中获得图像的标签.由于网络图像数量庞大,且文本信息纷繁复杂,使得训练集本身的标签准确度较低,导致这类算法抗噪性较差.但随着越来越多的图像出现在互联网上,此类算法已引起人们广泛关注.

2.2.4 基于稀疏编码的图像多标签学习算法

1996年Olshausen和Field提出的稀疏编码[22]方法近年来广受关注,它是对多位数据进行线性分解的一种稀疏表示方法,通常用l1优化问题来求解.从信息处理的角度,稀疏编码模型可以看成是一个数据转换模型,它完成了对信息的特征抽取过程,具有重建和稀疏表达性质.因此,稀疏编码模型在模式识别和信息检索方面有着潜在的优势.

我们基于MSC (Multi-Label Sparse Coding Automatic Image Annotation)算法[15]框架提出基于稀疏编码的图像多标签学习算法.该方法主要围绕多标签间的相关性,引入稀疏编码将这种相关性整合到图像标注算法中,从而将图像间关系与标签间关系有效结合,用以解决语义鸿沟问题.同时,利用稀疏编码和图像标签本身的稀疏性来对图像进行多标签标注,改进了前人方法中进行一对一图像相似性度量的不足,实现了对图像的多标签标注.

MSC算法假设图像及其标签之间满足同样的线性关系并用2个矩阵描述此关系,通过求解分别以这2个矩阵为约束的优化为题得到降维矩阵,以降维的方式将标签之间的关系转移至图像特征中.相对于MSC算法,基于稀疏编码的图像多标签学习算法的特点与创新性在于:依然利用该假设直接根据标签间关系自适应的由一个优化问题求解降维矩阵,通过放松约束使降维矩阵更好地包含了标签之间相关性信息,建立了图像标签与图像内容特征之间的联系.其算法框架是:首先将图像进行特征表达;然后学习得到含有标签间相关性信息的降维矩阵,通过降维表达图像的超向量完成特征提取;最后,运用稀疏编码将测试图像用训练集图像重建,将此重建关系转移至标签,得到测试图像的标签信息.

对图像进行特征表达首先将图像分割成图像块,运用GMM模型[23]对图像块进行建模,根据由EM算法[24]学习得到的模型参数将图像表达为超向量的形式.

全局高斯混合模型被用来描述训练集中所有图像的所有图像块的分布情况.记一个图像块为z,基于训练集中所有图像的图像块,假设其满足混合高斯分布,即

p(z;)=∑Kk=1ωkN(z;μk,Σk),(2)

其中,={ω1,μ1,Σ1,…},ωk表示第k个高斯成分的权重,μk表示第k个高斯成分的均值,Σk表示第k个高斯成分的协方差,K表示高斯成分的个数.最大似然参数由EM算法易求得.上述过程利用全局混合模型来描述所有训练集图像特征的共性.然后基于每一幅图像的所有图像块用EM算法仅更新该图像的均值来区别描述不同图像的特征.根据文献[25],用高斯混合分布表达的图像xi可以表示为超向量的形式:

xi=[ω12Σ-121i1,…,ωK2Σ-12KiK],(3)

其中,ij(j=1,…,K)表示图像xi的均值向量.

虽然以上步骤已经将图像表达出来,但其并未将图像的标签信息与图像特征联系起来.我们利用稀疏编码将每一个标签向量用其余标签向量线性重建来构建标签之间的关系.除此之外,根据训练集图像及其标签之间满足同样的线性关系这一假设,利用稀疏编码对这种相关性建模并学习获得含有此相关性信息的降维矩阵P,通过将表达图像的超向量降维进行特征提取得到含有标签之间相关性信息的图像特征.

最后,基于重建的思想,运用稀疏编码通过求解优化问题

minαtλαt1+12yt-[WTHX]B[WTBX]αt22(5)

将测试图像yt用训练集图像Y重建.其中,[WTHX]B[WTBX]=[Y,I].若训练图像的重建系数非0,那么可以认为该图像与测试图像语义相关.将此重建关系转移至标签向量空间

ct=[WTHX]C[WTBX]αt.(6)

其中,[WTHX]C[WTBX]是训练图像的标签矩阵,αt是上一步l1重建求得的系数.因为ct中的分量值越大,所对应的标签与测试图像的相关性越大,最终,测试图像将标注为ct向量中前几个最大的值所对应的标签.

该算法通过假设图像与其标签满足同样的线性关系,建立了图像标签与图像内容特征之间的联系.并对利用稀疏编码对标签之间的相关性进行了建模,以期降低“语义鸿沟”和“多标签”问题对图像标注的影响,最终以图像重建的方式对图像进行多标签学习,得到较好的标注结果.通过在一个包含591幅图像、24个标签的MSRC-V2图像库上进行实验,并将该实验结果与实际结果进行比较,验证了该算法的有效性,如表1所示.通过比较该方法与MSC方法在该图像库上的实验结果,包括查全率和查准率衡量了该算法的标注性能,如表2所示.实验结果表明基于稀疏编码的图像多标签学习算法具有更好的图像标注性能.

3 结语

本文对图像标注的发展和现状进行了较为全面的综述,指出了图像标签的自动学习作为图像检索研究的重要内容,具有十分重要的理论意义和现实意义.同时也详细阐述了图像多标签学习中客观存在的“语义鸿沟”和“多标签”问题.

本文第2部分描述了图像多标签学习的整体框架,指出了特征选择的重要性,并对常用的图像特征进行了详细的分类描述和比较分析.这一部分还深入讨论了目前比较流行的图像标注算法,通过分类分析算法优劣,对这些算法进行了比较研究.

本文的最后,提出了一种具有较好性能的图像标注算法.该方法主要围绕多标签间的相关性,引入稀疏编码将这种相关性整合到图像标注算法中,从而将图像间关系与标签间关系有效结合,用以解决语义鸿沟问题.同时,利用稀疏编码和图像标签本身的稀疏性来对图像进行多标签标注,改进了前人方法中进行一对一图像相似性度量的不足,实现了对图像的多标签标注.通过在MSRC-V2图像库上的实验,将该算法与目前性能优良的MSC算法进行了比较,实验结果表明该算法具有更好的图像标注性能.但同时也可以看出,该算法标注结果的标签个数还不够自适应.我们正在改进算法,欲通过设置合理的阈值来使算法自适应地标注图像,使其结果更加合理.

参考文献:

[1]MUBARAK S. Guest introduction: the changing shape of computer vision in the twenty-first century[J]. International Journal of Computer Vision, 2002, 50: 103-110.

[2]王梅.基于多标签学习的图像语义自动标注研究[D].上海:复旦大学, 2008.

[3]LI T, ZHANG C L, ZHU S H. Empirical studies on multi-label classification[C]// ICTAI ′06: Proceedings of the 18th IEEE International Conference on Tools with Artificial Intelligence. USA :Washington DC, 2006: 82-96.

[4]SHEN X, BOUTELL M, LUO J, et al. Multi-label machine learning and its application to semantic scene classification[C]//International Symposium on Electronic Imaging.ISEI, 2004.

[5]FLORENT M, DANIEL G P. On image auto-annotation with latent space models[C]//Proc of ACM International Conference on Multimedia. Berkeley: ACM Press, 2003: 275-278.

[6]WYSZECKI G, STILES W S. Color Science: Concepts and methods[M]. New York: Wiley Sons Inc, 1982.

[7]HARALICK R M, SHAPIRO L G. Computer and robot vision[M]. Boston: Addison-Wesley, 1992.

[8]TAMURA H, MORI S, YAMAWAKI T. Texture features corresponding to visual perception[J]. IEEE Trans Sys, 1978, 8: 460-473.

[9]MEHROTRA R, GARY J E. Similar-shape retrieval in shape data management[J]. IEEE Computer,1995, 28: 57-62.

[10]WANG C, JING F, ZHANG L, et al. Scalabel search-based image annotation[J]. Multimedia Systems, 2008, 14(4): 205-220.

[11]JEON J, LAVRENKO V, MANMATHA R. Automatic image annotation and retrieval using cross-media relevance modals[C]// Proceedings of the Twenty-Sixth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2003: 119-126.

[12]CARSON C, THOMAS M, BELONGIE S, et al. Blobworld: a system for region-based image indexing and retrieval[C]// The Third International Conference on Visual Information Systems, Notes in Computer Science.ACM,1999: 509-516.

[13]FENG S L, MANMATHA R, LAVRENKO V. Multiple bernoulli relevance models for image and video annotation[C]// Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.IEEE,2004: 1002-1009.

[14]GAO Y L, FAN J P, XUE X Y, et al. Automatic image annotation by incorporating feature hierarchy and boosting to scaly up SVM classifiers[C]//ACM International Conference on Multimedia.ACM, 2006: 901-910.

[15]WANG C W, YAN S C, ZHANG L, et al. Multi-label sparse coding for automatic image annotation[C]// IEEE Conference on Computer Vision and Pattern Recognition (2009).IEEE, 2009: 1643-1650.

[16]CLAUDIO C, GIANLUIGI C, RAIMONDO S. Image annotation using SVM[C]// Proceedings of SPIE (2003).SPIE,2003,5304:330-338.

[17]CHANG E, KINGSHY G, SYCHAY G. Content-based soft annotation for multimodal image retrieval using bayes point machines[J]. Circuits and Systems for Video Technology, 2003, 13: 26-38.

[18]CARNEIRO G, CHAN A B, MORENO P J, et al. Supercised learning of semantic classes for image annotation and retrieval[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(3): 394-410.

[19]DUYGULU P, BARNARD K. Object recognition as machine translation: learning a lexicon for a fixed image vocabulary [C]//Lecture Notes in Computer Science. Springer,2006, 2353:349-354.

[20]LAVRENKO V, MANMATHA R, JEON J. A model for learning the semantics of pictures[C]// Information Retrieval (2003).Citeseer, 2003: 553-560.

[21]WANG X, ZHANG L, JING F, et al. Annosearch: image auto-annotation by search[C]//2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Volume 2.IEEE, 2006, 2:1483-1490.

[22]OLSHAUSEN B A, FIELD D J. Emergence of simple-cell receptive field properties by learning a sparse code for natural images[J]. Nature, 1996, 381: 607-609.

[23]GRIMSON W E L, STAUFFER C, ROMANO R, et al. Using adaptive tracking to classify and monitor activities in a Site[C]// Proceedings 1998 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. IEEE Comput Soc ,1998,2: 22-29.

[24]DEMPSTER A P, LAIRD N M, RUBIN D B. Maximum likelihood from incomplete data via the EM algorithm[J]. Journal of the Royal Statistical Sociaty, 1977, 39: 1-38.

[25]YAN S, ZHOU X, LIU M, et al. Regression from patch-kernel[C]// IEEE Conference on Computer Vision and Pattern Recognition (2008).IEEE,2008: 1-8.