首页 > 范文大全 > 正文

基于主题模型的多示例多标记学习方法

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于主题模型的多示例多标记学习方法范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:针对现有的大部分多示例多标记(MIML)算法都没有考虑如何更好地表示对象特征这一问题,将概率潜在语义分析(PLSA)模型和神经网络(NN)相结合,提出了基于主题模型的多示例标记学习方法。算法通过概率潜在语义分析模型学习到所有训练样本的潜在主题分布,该过程是一个特征学习的过程,用于学习到更好的特征表达,用学习到的每个样本的潜在主题分布作为输入来训练神经网络。当给定一个测试样本时,学习测试样本的潜在主题分布,将学习到的潜在主题分布输入到训练好的神经网络中,从而得到测试样本的标记集合。与两种经典的基于分解策略的多示例多标记算法相比,实验结果表明提出的新方法在现实世界中的两种多示例多标记学习任务中具有更优越的性能。

关键词:主题模型;特征表达;多示例多标记学习;场景分类;文本分类

中图分类号: TP181

文献标志码:A

Multiinstance multilabel learning method based on topic model

YAN Kaobi1, LI Zhixin1,2*, ZHANG Canlong1,2

1.Guangxi Key Laboratory of MultiSource Information Mining and Security, Guangxi Normal University, Guilin Guangxi 541004, China

2.Guangxi Experiment Center of Information Science, Guilin Guangxi 541004, China

Abstract: Concerning that most of the current methods for MultiInstance MultiLabel (MIML) problem do not consider how to represent features of objects in an even better way, a new MIML approach combined with Probabilistic Latent Semantic Analysis (PLSA) model and Neural Network (NN) was proposed based on topic model. The proposed algorithm learned the latent topic allocation of all the training examples by using the PLSA model. The above process was equivalent to the feature learning for getting a better feature expression. Then it utilized the latent topic allocation of each training example to train the neural network. When a test example was given, the proposed algorithm learned its latent topic distribution, then regarded the learned latent topic allocation of the test example as an input of the trained neural network to get the multiple labels of the test example. The experimental results on comparison with two classical algorithms based on decomposition strategy show that the proposed method has superior performance on two realworld MIML tasks.

英文关键词Key words:

topic model; feature expression; multiinstance multilabel learning; scene classification; text categorization

0引言

传统的监督学习问题通常定义为单示例单标记学习问题,一个对象用一个示例来表示,同时关联一个标记。定义X为示例空间,Y为标记集合。单示例单标记学习的目的是从一个给定的数据集{(xi,yi)|1≤i≤N}中学习一个函数f:xy,其中:xi∈X是一个示例,yi∈Y是示例xi的一个标记。在机器学习技术[1]日益成熟的条件下,传统的单示例单标记学习方法已经取得了很大的成功。

然而,在现实世界中,一个对象通常是多义性的复杂对象,如果仍用传统的单示例单标记学习方法,不但不能很好地表达出对象丰富的内容信息,而且不能得到对象准确的语义标记集合,因此对于这种多义性对象,可以采用多标记学习方法来处理。在多标记学习[2]方法下,一个对象用一个示例来表示,但是关联多个标记。多标记学习的目的是从一个给定的数据集{(xi,yi)|1≤i≤N}中学习一个函数f:x2y,其中:xi∈X是一个示例,yiY是示例xi的一个标记集合{(yi1,yi2,…,yili)},li是标记集合yi中标记的个数。虽然多标记学习已经取得了很大的成就,但是只用一个示例来表示多义性对象不能有效地表达出多义性对象的复杂内容。

事实上,在多标记学习中,一个标记对应着对象不同的区域,如果能够对一个确定的区域(不是一个整体的对象)和一个特定的标记直接建立对应的模型,将会有效地减少噪声对分类准确性的影响,因此可以采用多示例学习的方法来表示多义性对象的复杂内容。多示例学习[3]的任务是从一个给定的数据集{(xi,yi)|1≤i≤N}中学习一个函数f:2xy,其中:xiX是一个包的示例集合{(xi1,xi2,…,xini)},ni是包xi中示例的个数,yi∈Y是包xi上的一个标记。然而,多示例学习主要用于单标记问题,对于多标记问题需要分解为多个单标记问题进行处理。

为了克服多标记学习和多示例学习方法的缺点,将二者结合起来形成一种多示例多标记学习方法[4],来处理带有复杂内容的多义性对象将会更加合理和有效。多示例多标记学习的目的是从一个给定的数据集{(xi,yi)|1≤i≤N}中学习一个函数f:2x2y,其中,xiX是一个包的示例集合{(xi1,xi2,…,xini)},ni是示例集合xi中示例的个数,yiY是包xi的一个标记集合{(yi1,yi2,…,yili)},li是标记集合Yi中标记的个数。

近年来,多示例多标记学习已经取得了很大的进展,同时也面临着三个主要的难题。首先,由于图像分割技术[5]的限制,很难划分出具有完整语义标记的示例;其次,在划分示例后,传统的做法是提取示例的底层特征,然后建立特征向量和语义标记之间的映射模型,由于特征提取[5]和机器学习技术[1]的限制,如何自动提取示例的高层特征及建立映射模型也是一个难点;最后,由于标记之间复杂的相关性[6],如何建立能够捕获标记之间相关性的模型[7]也是一个难点,同时文献[8]指出了大数据问题也是多示例多标记学习面临的一个新问题。如果能够克服这些主要难题,可以建立一个完美的多示例多标记模型,该模型可以直接学习示例和标记之间的映射关系,同时可以捕获到标记之间的相关性。

1相关研究

1.1多示例学习

多示例学习中,一个样本被看成是一个包含多个示例的包,当需要对一个包进行标记的时候,如果包中至少有一个示例具有对应的标记含义,则将这个包标记为正包,否则标记为负包。虽然多示例学习框架被限制在单标记问题上,但是多示例学习方法已经取得了很多研究成果,针对不同的问题提出了不同的多示例学习方法,此外多示例学习还可以用于图像检索。

1.2多标记学习

对于多义性对象,可以采用多标记学习的方法来处理。文献[6]对多标记学习作了一个全面的综述报告;文献[9]提出了一种基于神经网络的多标记学习方法。从现有的多标记算法可以看出,可以采用两个策略来处理多标记学习问题:一是将多标记问题分解为多个单标记问题。但是在很多情况下标记之间是有相关性的,例如天空和海洋可能会同时出现在同一个场景中,如果仍然用这个策略来处理多标记学习问题,将会丢失这种对提升多分类性能很有帮助的信息。二是直接对示例和标记集合之间建立模型。在一些复杂的模型中,不但可以直接建立示例和标记集合的对应关系,同时也可以得到标记之间的一些相关性。

1.3多示例多标记学习

对于多示例多标记学习,文献[4]中对多示例多标记学习作了一个全面的介绍,并且提出了MIMLBOOST和MIMLSVM算法。MIMLBOOST算法首先将多示例多标记问题转化为多示例问题,然后再采用MIBOOST[10]来处理多示例问题;MIMLSVM算法首先将多示例多标记学习问题转化为多标记问题,然后采用MLSVM[11]算法来处理多标记问题。传统的监督学习方法、多示例学习方法和多标记学习方法都可以通过分解策略从多示例多标记学习中得到,但是采用这种分解策略会丢失很多蕴藏在训练样本中的信息,同时也不能考虑到标记之间存在关联性的问题。后来,文献[12]提出了一种直接学习示例和标记之间映射关系的MIMLRBF算法;文献[7]提出了一种联合多示例和多标记的新颖算法,该算法不但可以直接对示例集合和标记集合之间进行建模,同时还可以捕获到标记之间的关联性;文献[8]则提出了一种针对大数据问题的快速多示例多标记算法。然而,上述文献中提到的方法都没有考虑如何来更好地表示对象的特征这一因素。针对这一问题,本文考虑将特征学习模型融入多示例多标记学习中,以学习到一个更好的特征表达方式,从根源上提升分类算法的准确性。概率潜在语义分析模型可以学习到样本中潜在的主题这一高层特征,本文结合这一特性提出一种新的多示例多标记学习方法PLSANNMIML,以解决多示多标记学习中如何更好地表示对象特征这一问题。

2PLSANNMIML方法

2.1概率潜在语义分析

Hofmann[13]首次提出用概率潜在语义模型对文本进行建模的方法。当用概率潜在语义分析模型处理图像数据时,可以把图像看成是文档,用概率潜在语义分析模型对图像进行建模来发现图像潜在的主题分布。

假设D={d1,d2,…,di}代表一个图像数据集,W={w1,w2,…,wj}代表一个视觉词汇表,这种用概率潜在语义分析模型对图像进行建模的模型是一个发现共现矩阵隐变量的模型,而该共现矩阵的值由nij=(wj,di)组成,其中nij=(wj,di)是一个视觉词wj出现在图像di中的数量。设Z={z1,z2,…,zk}代表没有观测到的潜在主题变量, P(di)代表观测到一张具体图像的概率, P(zk|di)代表一张特定图像在潜在主题空间下的概率分布, P(wj|zk)代表一个视觉词出现在一个确定主题变量下的条件概率。这种生成模型可以用如下步骤表示:

1)以一定的概率P(di)选择一张图像di;

2)以一定的概率P(zk|di)选择一个主题zk;

3)以一定的概率P(wj|zk)生成一个词wj。

经过上面的过程,当得到一个观测点(wj,di)时,潜在的主题变量zk被忽略,产生下面的联合概率模型:

L=logP(wj,di)=∑d∈D∑w∈Wn(wj,di)logP(wj,di)

(1)

在遵循似然原则的条件下,采用期望最大化算法[12]最大化似然函数的对数,从而得到P(wj|zk)和P(zk|di),似然函数的对数表现形式如式(2)所示:

L=logP(wj,di)=∑d∈D∑w∈Wn(wj,di)logP(wj,di)

(2)

2.2神经网络

神经网络[14]由于其在信息处理中具有非线性的自适应能力,已经在人工智能领域中取得了广泛的应用。算法通过具有三层结构的前向神经网络模型[15]来得到样本的标记集合,每层由不同的神经元组成,第一层叫输入层,中间层叫隐藏层,最后一层叫输出层。在每一层中的每个神经元都连接着下一层的所有神经元,但在同一层中的神经之间是没有连接的,当信息从一层传到下一层时,前层中的每个神经元都会有一个激活函数对信息进行变换,该函数选择的是S型的激活函数,其定义是:f(x)=1-ex1+ex。在训练神经网络时,采用的是反向传播学习算法[15]来学习神经网络中神经元的权值。

2.3PLSANNMIML方法

算法主要包括训练和测试两个阶段,流程如图1所示。

2.3.1训练阶段

训练过程包括两个步骤:首先通过概率潜在语义分析模型从所有的训练样本中学习到每个样本的特定主题分布P(zk|di)和每个主题的特定词分布P(wj|zk),每个样本就可以用P(zk|di)来表示;其次再用每个样本的特定主题分布来训练神经网络,具体细节如下所示:

式(3)描述的是神经网络在样本xi上的误差函数。训练过程中算法采用概率潜在语义分析模型将xi转化为主题向量zk。假定标记空间Y有Q个标记,神经网络具有与主题向量zk维数相同的输入和Q个输出,其中Q个输出对应着Q个标记,向量w是在神经网络中需要学习的权值向量。

Ei(w)=∑Qq(ciq-diq)2

(3)

其中:ciq是训练时样本xi在第q个类上的实际输出;而diq是样本xi在第q个类上的目标输出,如果q∈yi则diq的值为1,否则其值为-1。通过结合误差反向传播策略[14],采用随机梯度下降法来最小化式(3)中的误差函数,其过程如下:

假定xji是单元j的第i个输入, wji是关联输入xji的权值大小,netj=∑iwjixji是单元j的网络输出,oj=f(netj)是单元j的实际输出,tj是单元j的目标输出,根据随机梯度下降算法可以得到每个权值的更新公式如下:

wji=wji-ηEiwji

(4)

其中η是学习速率的大小。计算式Eiwji的值时,分两种情况讨论:

当j是输出层的单元时,推导出式(5):

Eiwji=-(tj-oj)oj(1-oj)

(5)

当j是隐藏层的单元时,推导出式(6):

Eiwji=-oj(1-oj)xji∑k∈S[(tj-oj)oj(1-oj)]wkj

(6)

其中S是单元j的输出所能连接到的单元的集合。

2.3.2测试阶段

给定一个测试样本pX,算法首先利用在训练阶段得到的每个主题的特定词分布P(wj|zk)来学习到测试样本的特定主题分布P(zk|dt),然后将学习到的主题分布输入到已经训练好的神经网络,神经网络将会有Q个输出,采用文献[9]介绍的方法选择阈值,通过选择合适的阈值,得到标记的相关集合。

3实验结果与分析

3.1实验步骤

根据选择的模型,算法涉及到三个需要确定的参数变量,分别是词的数量、主题的数量和神经网络中隐层神经元的数量,分别用Words、Topics、Neurons来表示。由于这三个参数对算法的性能有很重要的作用,因此首先需要确定这三个参数的最优值。在确定参数的最优值时,采用汉明损失(Hamming loss)和1错误率(oneerror)这两个评价指标来评估参数对算法性能的影响。确定算法的最优参数后,算法对现实世界中的两种多示例多标记学习任务进行实验,并与现有的多示例多标记算法MIMLBOOST和MIMLSVM进行比较。

实验涉及到两个数据集,每个数据集都有2000个样本。实验时先把每个数据集划分为三部分:1000个样本的训练集合、500个样本的验证集和500个样本的测试集。

其中500个样本的验证集用于确定算法的最优参数。当确定算法的最优参数后,再将1000个样本的训练集和500个样本的验证集合并形成一个1500个样本的训练集,最终每个数据集对应着一个1500个样本的训练集和一个500个样本的测试集。表1是对实验中所用数据集的具体描述。

【答:文本数据集每个包划分出的示例都不相同,一个平均值表示的是一次实验时每个包的示例的平均数,表格中平均数有个范围是对数据集进行不同的划分,进行多次实验时的一个平均值范围,所以是3.56±2.71,也与后面表中的实验数据一致。上面场景数据集,每幅图片都划分成9个示例,所以平均数不变,也可以写成9.00±0.00;

3.1.1场景数据集

实验使用的场景数据集包含2000幅自然场景图像,整个数据集包含的类标记有沙漠、山、海洋、日落、树。数据集中每幅图像的标记都是人工标记的,数据集中超过22%的图像具有多个标记,平均每幅图像的标记数量是1.24±0.44。对图像划分示例后,通过提取每个示例的颜色和纹理特征将其中的每个示例表示为一个18维的向量,并用这个特征向量代表这个示例。

3.1.2文本数据集

实验使用的文本数据集又名为Reuters21578数据集。实验时先对这个数据集进行预处理,形成一个具有2000个文档的数据集。整个文档数据集包含7个类标记,大约15%的文档具有多个标记,平均每个文档的标记数量是1.15±044。当进行示例划分时,采用滑动窗口的技术[16]来形成文档的示例,每个示例对应着一个被大小为50的滑动窗口所覆盖的文本段,最后采用基于词频[17]的词袋模型表示方法来表示生成的示例。

3.2实验结果

图2是采用部分场景数据集作为实验数据,观测不同参数值配置对算法性能的影响。图2(a)~(f)中参数变量的取值范围为[3,21],并且参数变量取整数值;

算法中,学习速率η的值设置为0.1。通过改变参数的配置,采用汉明损失和1错误率来评估参数对算法性能影响,进行了多组实验来确定算法的最优参数值。

实验开始时,如图2(a)和(b)中显示,先确定Neurons和Topics这两个参数的值,其值设置为Neurons=3,Topics=3,Words的变化范围为[3,21]。从图2(a)和(b)中可以看到,当Words取值为7时,汉明损失和1错误率指标取得最小值,算法的分类性能最好。

在图2(c)和(d)中,参数Neurons的值与图2(a)和(b)中的值相同,但是Words的值设置为7,Topics的变化范围为[3,21]。从图2(c)和(d)中可以看出,当Topics取值为9时,汉明损失和1错误率指标取得最小值,算法的分类性能最好。

在图2(e)和(f)中,根据前面的实验结果,参数Words的值设置为7,Topics的值设置为9,Neurons变化范围为[3,21]。从图2(e)和(f)中可以看出,当Neurons取值为9时,汉明损失和1错误率指标取得最小值,算法的分类性能最好。确定算法的最优参数值后,算法对现实世界中的两种多示例多标记学习任务进行实验,并和MIMLBOOST和MIMLSVM进行比较,采用文献[12]中提到的五种多标记学习评价指标来评估算法的性能。表2和表3分别是各个算法在场景数据集和文本数据集上进行实验的结果,同时表4还给出了各个算法在这两个数据集进行实验时所需要的时间。在表2和表3中,表示数值越小算法性能越好,而表示数值越大算法性能越好。

从表2、3中的数据可以看出,对于表中的所有评价指标,PLSANNMIML算法在场景数据集和文本数据集上具有更好的性能。

从表4中可以看出,PLSANNMIML方法在时间上也具有更好的性能,在训练和测试阶段,算法需要的时间都比MIMLSVM算法稍微少些,而且远远要少于MIMLBOOST算法所需要的时间。从所有的实验结果可以看出,PLSANNMIML方法在现实世界中的两种多示例多标记学习任务中具有更优越的性能。

4结语

现有的大部分多示例多标记学习算法都没有考虑怎么样更好地表示对象的特征这一因素,因此提出了一种结合概率潜在语义分析和神经网络的多示例多标记学习方法。概率潜在语义分析模型可以学习到样本中的潜在语义这一高层特征,而神经网络在多标记问题中具有良好的分类性能。对现实世界中的两种多示例多标记学习任务进行实验表明,PLSANNMIML算法对其他的多示例多标记学习算法而言具有很强的竞争力,解决了在多示例多标记学习算法中怎么更好地表示对象的特征这一问题;同时也存在着不足之处,算法依然采用的是分解策略来处理多示例多标记学习问题,同时还忽略了标记之间的相关性。下一步将在融入特性学习模型的基础上寻找其他策略来处理多示例多标记问题,同时也要考虑标记之间的相关性。

参考文献:

[1]

BISHOP C M. Pattern recognition and machine learning: information science and statistics [M]. New York: Springer, 2006: 67-459.

[2]

ZHOU Z, ZHANG M,ZHANG S, et al. Multiinstance multilabel learning [J]. Artificial Intelligence, 2012, 176(1): 2291-2320.

[3]

ZHOU Z. Multiinstance learning: a survey [R/OL]. Nanjing: Nanjing University, National Laboratory for Novel Software Technology, 2004 [20150206]. http:///zhouzh/zhouzh.files/publication/techrep04.pdf.Nanjing, China, Mar. 2004.

[4]

ZHOU Z, ZHANG M, HUANG S, et al. Multiinstance multilabel learning [J]. Artificial Intelligence, 2012, 176(1): 2291-2320.

[5]

PRATT W K. Digital image processing [M]. DENG L, ZHANG Y, translated. Beijing: China Machine Press, 2005:345-398. (PRATT W K. 数字图像处理[M].邓鲁华,张延恒,译. 北京:机械工业出版社,2005:345-398.)

[6]

LI Z, ZHUO Y, ZHANG C, et al. Survey on multilabel learning [J]. Application Research of Computers, 2014, 31(6): 1601-1605. (李志欣,卓亚琦,张灿龙,等.多标记学习研究综述[J].计算机应用研究,2014,31(6):1601-1605.)

[7]

ZHA Z, HUA X, MEI T, et al. Joint multilabel multiinstance learning for image classification [C]// CVPR 2008: Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2008: 1-8.

[8]

HUANG S, ZHOU Z. Fast multiinstance multilabel learning [C]// AAAI 2014: Proceedings of the 28th AAAI Conference on Artificial Intelligence. Menlo Park: AAAI Press, 2014: 1868-1874.

[9]

ZHANG M, ZHOU Z. Multilabel neural networks with applications to functional genomics and text categorization [J]. IEEE Transactions on Knowledge and Data Engineering, 2006, 18(10): 1338-1351.

[10]

XU X, FRANK E. Logistic regression and boosting for labeled bags of instances [C]// PAKDD 2004: Proceedings of the 8th PacificAsia Conference on Knowledge Discovery and Data Mining, LNCS 3056. Berlin: Springer, 2004: 272-281.

[11]

BOUTELL M R, LUO J, SHEN X, et al. Learning multilabel scene classification [J]. Pattern Recognition, 2004, 37(9): 1757-1771.

[12]

ZHANG M, WANG Z. MIMLRBF: RBF neural networks for multiinstance multilabel learning [J]. Neurocomputing, 2009, 72(16/17/18):3951-3956.

[13]

HOFMANN T. Unsupervised learning by probabilistic latent semanticanalysis [J]. Machine Learning, 2001, 42(1/2): 177-196.

[14]

SCHMIDHUBER J. Deep learning in neural networks: an overview [J]. Neural Networks, 2015, 61: 85-117.

[15]

HAYKIN S. Neural networks [M]. YE S, SHI Z, translated. 2nd ed. Beijing: China Machine Press, 2004: 109-176. (HAYKIN S. 神经网络原理[M].叶世伟,史忠植,译.2版.北京:机械工业出版社,2004:109-176.)

[16]

SEBASTIANI F. Machine learning in automated text categorization [J]. ACM Computing Surveys, 2001, 34(1): 1-47.

[17]

ANDREWS S, TSOCHANTARIDIS L, HOFMANN T. Support vector machines for multipleinstance learning [C]// Advances in NeuralInformation Procession Systems 5. Cambridge: MIT Press, 2003: 561-568.