首页 > 文章中心 > 卷积神经网络的缺陷

卷积神经网络的缺陷

开篇:润墨网以专业的文秘视角,为您筛选了八篇卷积神经网络的缺陷范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

卷积神经网络的缺陷范文第1篇

过去10年,人们对机器学习的兴趣激增。几乎每天,你都可以在各种各样的计算机科学课程、行业会议、华尔街日报等等看到有关机器学习的讨论。在所有关于机器学习的讨论中,许多人把机器学习能做的事情和他们希望机器学习做的事情混为一谈。从根本上讲,机器学习是使用算法从原始数据中提取信息,并在某种类型的模型中表示这些信息。我们使用这个模型来推断还没有建模的其他数据。

神经网络是机器学习的一种模型,它们至少有50年历史了。神经网络的基本单元是节点(node),基本上是受哺乳动物大脑中的生物神经元启发。神经元之间的连接也以生物的大脑为模型,这些连接随着时间的推移而发展的方式是为“训练”。

在20世纪80年代中期和90年代初期,许多重要的架构进步都是在神经网络进行的。然而,为了得到好的结果需要大量时间和数据,这阻碍了神经网络的采用,因而人们的兴趣也减少了。在21世纪初,计算能力呈指数级增长,计算技术出现了“寒武纪大爆发”。在这个10年的爆炸式的计算增长中,深度学习成为这个领域的重要的竞争者,赢得了许多重要的机器学习竞赛。直到2017年,这种兴趣也还没有冷却下来;今天,我们看到一说机器学习,就不得不提深度学习。

作者本人也注册了Udacity的“Deep Learning”课程,这门课很好地介绍了深度学习的动机,以及从TensorFlow的复杂和/或大规模的数据集中学习的智能系统的设计。在课程项目中,我使用并开发了用于图像识别的卷积神经网络,用于自然语言处理的嵌入式神经网络,以及使用循环神经网络/长短期记忆的字符级文本生成。

本文中,作者总结了10个强大的深度学习方法,这是AI工程师可以应用于他们的机器学习问题的。首先,下面这张图直观地说明了人工智能、机器学习和深度学习三者之间的关系。

人工智能的领域很广泛,深度学习是机器学习领域的一个子集,机器学习又是人工智能的一个子领域。将深度学习网络与“经典的”前馈式多层网络区分开来的因素如下:

比以前的网络有更多的神经元更复杂的连接层的方法用于训练网络的计算机能力的“寒武纪大爆炸”自动特征提取

这里说的“更多的神经元”时,是指神经元的数量在逐年增加,以表达更复杂的模型。层(layers)也从多层网络中的每一层都完全连接,到在卷积神经网络中层之间连接局部的神经元,再到在循环神经网络中与同一神经元的循环连接(recurrent connections)。

深度学习可以被定义为具有大量参数和层的神经网络,包括以下四种基本网络结构:

无监督预训练网络卷积神经网络循环神经网络递归神经网络

在本文中,主要介绍后三种架构。基本上,卷积神经网络(CNN)是一个标准的神经网络,通过共享的权重在空间中扩展。CNN设计用于通过内部的卷积来识别图像,它可以看到图像中待识别的物体的边缘。循环神经网络(RNN)被设计用于识别序列,例如语音信号或文本。它的内部有循环,这意味着网络上有短的记忆。递归神经网络更像是一个层级网络,在这个网络中,输入必须以一种树的方式进行分层处理。下面的10种方法可以应用于所有这些架构。

1.反向传播

反向传播(Back-prop)是一种计算函数偏导数(或梯度)的方法,具有函数构成的形式(就像神经网络中)。当使用基于梯度的方法(梯度下降只是方法之一)解决优化问题时,你需要在每次迭代中计算函数梯度。

对于神经网络,目标函数具有组合的形式。如何计算梯度呢?有两种常用的方法:(i)解析微分(Analytic differentiation)。你已经知道函数的形式,只需要用链式法则(基本微积分)来计算导数。(ii)利用有限差分进行近似微分。这种方法在计算上很昂贵,因为函数值的数量是O(N),N指代参数的数量。不过,有限差分通常用于在调试时验证back-prop实现。

2.随机梯度下降法

一种直观理解梯度下降的方法是想象一条河流从山顶流下的路径。梯度下降的目标正是河流努力达到的目标——即,到达最底端(山脚)。

现在,如果山的地形是这样的,在到达最终目的地之前,河流不会完全停下来(这是山脚的最低点,那么这就是我们想要的理想情况。)在机器学习中,相当从初始点(山顶)开始,我们找到了解决方案的全局最小(或最佳)解。然而,可能因为地形的性质迫使河流的路径出现几个坑,这可能迫使河流陷入困境。在机器学习术语中,这些坑被称为局部极小值,这是不可取的。有很多方法可以解决这个问题。

因此,梯度下降很容易被困在局部极小值,这取决于地形的性质(用ML的术语来说是函数的性质)。但是,当你有一种特殊的地形时(形状像一个碗,用ML的术语来说,叫做凸函数),算法总是保证能找到最优解。凸函数对ML的优化来说总是好事,取决于函数的初始值,你可能会以不同的路径结束。同样地,取决于河流的速度(即,梯度下降算法的学习速率或步长),你可能以不同的方式到达最终目的地。这两个标准都会影响到你是否陷入坑里(局部极小值)。

3.学习率衰减

根据随机梯度下降的优化过程调整学习率(learning rate)可以提高性能并减少训练时间。有时这被称为学习率退火(learning rate annealing)或自适应学习率(adaptive learning rates)。训练过程中最简单,也是最常用的学习率适应是随着时间的推移而降低学习度。在训练过程开始时使用较大学习率具有进行大的改变的好处,然后降低学习率,使得后续对权重的训练更新更小。这具有早期快速学习好权重,后面进行微调的效果。

两种常用且易于使用的学习率衰减方法如下:

逐步降低学习率。在特定的时间点较大地降低学习率。

4 . Dropout

具有大量参数的深度神经网络是非常强大的机器学习系统。然而,过拟合在这样的网络中是一个严重的问题。大型网络的使用也很缓慢,这使得在测试时将许多不同的大型神经网络的预测结合起来变得困难。Dropout是解决这个问题的一种方法。

Dropout的关键想法是在训练过程中随机地从神经网络中把一些units(以及它们的连接)从神经网络中删除。这样可以防止单元过度适应。在训练过程中,从一个指数级的不同的“稀疏”网络中删除一些样本。在测试时,通过简单地使用一个具有较小权重的单一网络,可以很容易地估计所有这些“变瘦”了的网络的平均预测效果。这显著减少了过拟合,相比其他正则化方法有了很大改进。研究表明,在视觉、语音识别、文档分类和计算生物学等监督学习任务中,神经网络的表现有所提高,在许多基准数据集上获得了state-of-the-art的结果。

5. Max Pooling

最大池化(Max pooling)是一个基于样本的离散化过程。目标是对输入表示(图像,隐藏层输出矩阵等)进行下采样,降低其维度,并允许对包含在分区域中的特征进行假设。

这在一定程度上是为了通过提供一种抽象的表示形式来帮助过拟合。同时,它通过减少学习的参数数量,并为内部表示提供基本的平移不变性(translation invariance),从而减少计算成本。最大池化是通过将一个最大过滤器应用于通常不重叠的初始表示的子区域来完成的。

6.批量归一化

当然,包括深度网络在内的神经网络需要仔细调整权重初始化和学习参数。而批量标准化有助于实现这一点。

权重问题:无论权重的初始化如何,是随机的也好是经验性的选择也罢,都距离学习到的权重很遥远。考虑一个小批量(mini batch),在最初时,在所需的特征激活方面将会有许多异常值。

深度神经网络本身是有缺陷的,初始层中一个微小的扰动,就会导致后面层巨大的变化。在反向传播过程中,这些现象会导致对梯度的分散,这意味着在学习权重以产生所需输出之前,梯度必须补偿异常值,而这将导致需要额外的时间才能收敛。

批量归一化将梯度从分散规范化到正常值,并在小批量范围内向共同目标(通过归一化)流动。

学习率问题:一般来说,学习率保持较低,只有一小部分的梯度校正权重,原因是异常激活的梯度不应影响学习的激活。通过批量归一化,减少异常激活,因此可以使用更高的学习率来加速学习过程。

7.长短时记忆

LSTM网络在以下三个方面与RNN的神经元不同:

能够决定何时让输入进入神经元;能够决定何时记住上一个时间步中计算的内容;能够决定何时让输出传递到下一个时间步长。

LSTM的优点在于它根据当前的输入本身来决定所有这些。所以,你看下面的图表:

当前时间标记处的输入信号x(t)决定所有上述3点。输入门从点1接收决策,遗忘门从点2接收决策,输出门在点3接收决策,单独的输入能够完成所有这三个决定。这受到我们的大脑如何工作的启发,并且可以基于输入来处理突然的上下文/场景切换。

8. Skip-gram

词嵌入模型的目标是为每个词汇项学习一个高维密集表示,其中嵌入向量之间的相似性显示了相应词之间的语义或句法相似性。Skip-gram是学习单词嵌入算法的模型。

Skip-gram模型(以及许多其他的词语嵌入模型)的主要思想是:如果两个词汇项(vocabulary term)共享的上下文相似,那么这两个词汇项就相似。

换句话说,假设你有一个句子,比如“猫是哺乳动物”。如果你用“狗”去替换“猫”,这个句子仍然是一个有意义的句子。因此在这个例子中,“狗”和“猫”可以共享相同的上下文(即“是哺乳动物”)。

基于上述假设,你可以考虑一个上下文窗口(context window,一个包含k个连续项的窗口),然后你跳过其中一个单词,试着去学习一个能够得到除跳过项外所有项的神经网络,并预测跳过的项是什么。如果两个词在一个大语料库中反复共享相似的语境,则这些词的嵌入向量将具有相近的向量。

9.连续词袋(Continuous Bag Of Words)

在自然语言处理问题中,我们希望学习将文档中的每个单词表示为一个数字向量,使得出现在相似的上下文中的单词具有彼此接近的向量。在连续的单词模型中,我们的目标是能够使用围绕特定单词的上下文并预测特定单词。

我们通过在一个庞大的语料库中抽取大量的句子来做到这一点,每当我们看到一个单词时,我们就会提取它周围的单词。然后,我们将上下文单词输入到一个神经网络,并预测位于这个上下文中心的单词。

当我们有成千上万的这样的上下文单词和中心词以后,我们就有了一个神经网络数据集的实例。训练神经网络,最后编码的隐藏层输出表示特定单词的嵌入。而当我们对大量的句子进行训练时也能发现,类似语境中的单词得到的是相似的向量。

10.迁移学习

卷积神经网络的缺陷范文第2篇

关键词: 积分投影; 循环神经网络; 长短时记忆网络; 防止过拟合技术; 精度; 留一法

中图分类号:TP391.4 文献标志码:A 文章编号:1006-8228(2017)04-13-04

Abstract: The existing research on micro expression recognition is mainly based on the improved LBP (local binary patterns) algorithm and SVM (support vector machine). Recently, integral projection has been applied in the field of face recognition. The long and short memory network (LSTM), as a kind of recurrent neural network, can be used to process time series data. So LSTM-IP model, which combines integral projection with LSTM, is proposed, and experimented on the latest micro-expression database CASME II. The horizontal and vertical projection vectors obtained by integral projection are used as the input of LSTM and classified, and the over-fitting preventing method is used. The experimental results show that LSTM-IP algorithm gets better results than the previous method.

Key words: integral projection; recurrent neural network; long and short memory network; prevent over-fitting; accuracy; leave-one-subject-out cross validation

0 引言

人们表情的短时间变化,也叫微表情,心理学在这方面的研究很早就开始了。近年来,有关利用机器学习的方法来对微表情进行研究的学者越来越多,其成为当前一个热门研究方向。微表情的研究成果可用于测谎[2-4]、临床诊断等方面,因橐话闳思幢闶切睦硪缴也很难注意到1/25~1/5秒人表情的变化[1],而这时,机器可以很好的对微表情进行自动的识别。

最近,基于积分投影和纹理描述符的方法被用在人脸识别[5],然而,很少有研究将积分投影用于包含人脸的时间序列中进行识别。微表情与人脸识别有很大不同,特征很难单从每帧图片中提取,这时就需要考虑时间轴。LSTM可以对时序数据进行分类,以前基本用在语音识别和自然语言处理的任务中,很少用于图像识别,可能是因为LSTM处理的是一维的数据,而图像是二维的数据。将图像的二维信息积分投影到一维(水平方向和垂直方向),并以此作为LSTM的输入并分类,这样就能将二者很好的结合起来。

本文构造了基于积分投影和LSTM的深度学习的模型来对微表情进行识别。得到的结果不仅比以前的基于局部二值模式(LBP)的方法好,而且也略微的优于最近基于积分投影的论文中的方法。

1 CASME II微表情数据集介绍

2014年,中科院心理研究所建立了更进一步改进的自然诱发的微表情数据库CASMEII[8]。CASMEII有26个平均年龄为22岁左右的亚洲人,9类表情(happiness, surprise, disgust, fear, sadness, anger, repression, tense, negative)组成。用来录制的高速相机为200 fps。高速相机可以捕捉更细节的微表情。CASMEII是据我们所知目前最好的自然诱发的微表情数据库。

2 基于差分图像的积分投影

Mateos等人的开拓性工作[6-7]表明积分投影可以提取同一人脸图像的共同基本特征。积分投影将人脸的特征水平和垂直投影,可以用公式⑴和⑵表示:

其中It(x,y)表示时间为t时,图像位于(x,y)时的像素值,Ht(y)和Vt(x)表示水平和垂直积分投影。直接将积分投影应用到CASME II微表情数据集上效果如图1所示。

然而,由于微表情的变化是十分微小的,若直接采用上面的积分投影会有很多噪声,从图1(c)可以看出区分不是很明显。因此,我们采用改进的积分投影方法。可以用公式⑶和⑷表示:

我们将每个视频下的2到N帧微表情的图像减去第1帧,将得到的差分图像做积分投影,效果如图2所示。

从图2的(c)可以看出,采用基于差分图像的水平积分投影效果更好,去掉了不必要的噪声。

3 长短时记忆网络

循环神经网络(RNN)可以用来处理时序数据,但它有一个明显的缺陷,就是不能记忆发生在较久以前的信息。长短时记忆网络(LSTM)[9]是一种特殊的RNN,比RNN多了一些特殊的门和细胞,可以学习长期依赖信息。LSTM结构如图3所示。

最上面横着带箭头的线包含细胞单元,作用是记忆之前LSTM单元的信息。x和+表示点分的乘法与加法,表示Sigmoid激活函数(如公式⑸),tanh表示双曲正切激活函数(如公式⑹)。

最下面圆圈中的X和最上面圆圈中的h分别表示时序输入和输出。

通用的LSTM结构可以参考图4,图4中,底层节点为输入,顶层节点为输出,中间层为隐藏层节点或记忆块。(a)描述的是传统的 感知机(MLP)网络,即不考虑数据的时序性,认为数据是独立的;(b)将输入序列映射为一个定长向量(分类标签),可用于文本、视频分类;(c)输入为单个数据点,输出为序列数据,典型的代表为图像标注;(d)这是一种结构序列到序列的任务,常被用于机器翻译,两个序列长度不一定相等;(e)这种结构会得到一个文本的生成模型,每词都会预测下一时刻的字符。

4 LSTM-IP模型

因为CASME II数据集每个视频下微表情图像帧数是不一样的,为了方便我们统一LSTM的输入,所以我们提取了最能代表这个视频微表情的10帧,同时,本文将整个数据集图像的尺寸统一到200×200像素,将原来彩色图像转化为灰度图像。通过基于差分图像的积分投影,得到一个视频下差分图像每帧图像的水平和垂直投影,一个图像可以得到一个200维的水平向量和一个200维的垂直向量,因为差分图像是后面9张减去了第一张图像,所以一个视频下共有9个水平向量和9个垂直向量,初始化两个9×200大小的一维向量分别保存水平向量和垂直向量。

本文采用图4(b)和图4(e)结合的LSTM结构,如图5所示。

顶层的X_IP表示将一个视频下9个差分图像的水平投影组成的9×200的一维特征向量作为输入,经过第一层LSTM得到9×128的一维特征向量,接着经过第二层LSTM得到9×128的一维特征向量,最后经过一层LSTM得到一个128的特征向量,Y_IP也是同样的处理过程。最后将这两部分的128的特征向量连接起来作为一个256的特征向量输入softmax分类器,结果输出属于五类微表情的哪一类。在图5的每两层之间加入一层Dropout层,Dropout的比率设为0.5。LSTM内部参数初始化采用了glorot_normal,相比较于其他初始化方法,glorot_normal效果最好。

Softmax和Dropout在深度学习中都是常用的技术。Softmax是逻辑斯特回归应用于多分类的推广。Dropout[10]这种技术的作用是减少过拟合,是一种正则化技术,通过防止由完全连接的层引起神经元的参数过多,有助于减少神经网络的过度拟合问题。给定 dropout率p,其在我们的LSTM中被设置为0.5,50%单位将被保留,而另外50%将被放弃。简单地说,“Dropout”只是随机忽略一些神经元。然而在测试阶段,每个神经元的输出将通过因子1-p(保持率)加权以保持与训练阶段中产生相同的效果。如图6所示。

我们的实验采用基于Theano的keras框架,keras借b了Torch的搭建深度学习网络的方式,而且使用笔者比较熟悉的Python语言(Torch使用Lua语言),keras的底层可以是Theano或者Tensorflow,可能是因为keras最先在Theano开发的,经过实验比较单个GPU下,Theano的速度要比Tensorflow快,所以我们的底层采用Theano。

5 实验结果与分析

现在微表情识别的算法主要是基于LBP改进的算法,例如LBP-TOP[11](Local Binary Pattern-Three Orthogonal Planes)、LBP-SIP[12](LBP-Six Intersection Points)和LOCP-TOP[13](Local ordinal contrast pattern-

TOP)等。我们将LSTM-IP算法与以前的方法做了比较,如表1所示。

实验是在CASME II上做的,因为CASME II微表情数据集是最新最好的微表情数据集。STLBP-IP也是基于积分投影的,结合了1DLBP来提取特征。通过表1的比较我们发现,基于积分投影的算法效果好于原来基于LBP的算法,可以得出,采用提取积分投影特征的方法在微表情数据集CASME II上效果比较好。可以看出,STLBP-IP的性能优于文献[27]的重新实现,STLBP-IP的精度提高了20.64%。从表1中可知,时间插值法(TIM)可以提高LBP-TOP的性能,其中LBP-TOP增加到39.68%。然而,与STLBP-IP相比,LBP-TOP在微表情识别上的效果上有很大的差距(19.43%)。比较两种基于积分投影的方法,本文提出的方法略微好于STLBP-IP,但通过阅读STLBP-IP的论文笔者发现,这种方法存在繁琐的调参过程,比如图像如何分块,SVM核参数的选择,而本文提出的LSTM-IP算法可以自动从差分图像的积分投影中学习,调参的内容比较少,而且速度也很快。这些结果表明,LSTM-IP实现了令人满意的效果,而不是LOCP-TOP和LBP-SIP。 这部分地解释了LSTM-IP通过使用积分投影来保持形状和辨识的能力。

实验采用了留一法交叉验证,CASME II有26个subjects,通过把每个subject作为测试,其余作为训练,循环26次,最后把每次测试得到的正确视频个数相加除以总的视频数,得到识别精度,这种方法现在是微表情识别主流的验证方法。

6 Y束语

基于差分图像的积分投影方法,保存了我们微表情形状的特征,然后增强微表情的辨别力。深度学习在图像识别领域已经取得了很不错的成绩,而现在深度学习的技术还没有应用于微表情识别。本文将差分图像的积分投影与LSTM结合,从实验结果上看,结果要好于以前的方法。我们认为深度学习的探索不会停止,会有越来越多新的网络模型产生,也会有越来越多的深度学习的技术应用于微表情识别。

我们将继续探索基于深度学习的微表情识别的方法及技术手段。卷积神经网络在图像识别上取得了很好的成绩,但笔者也将卷积神经网络应用于微表情上,效果并不好,可能是因为微表情在图像上变化比较细微,卷积神经网络不容易捕捉到特征,但如果考虑了一个视频时间序列的特性,也许会有比较好的结果,对此还有待进一步研究。随着技术的进步,相信微表情识别效果会越来越好,并最终能够应用于我们的生活中。

参考文献(References):

[1] Ekman P. Micro Expressions Training Tool[M]. Emotion-

srevealed. com,2003.

[2] Ekman P. Darwin, deception, and facial expression[J].

Annals of the New York Academy of Sciences,2003.1000(1):205-221

[3] Ekman P. Lie catching and microexpressions[J]. The

philosophy of deception,2009:118-133

[4] Ekman P, O'Sullivan M. From flawed self-assessment to

blatant whoppers: the utility of voluntary and involuntary behavior in detecting deception[J]. Behavioral sciences & the law,2006.24(5):673-686

[5] Benzaoui A, Boukrouche A. Face recognition using 1dlbp

texture analysis[J]. Proc. FCTA,2013: 14-19

[6] Mateos G G. Refining face tracking with integral projections

[C]//International Conference on Audio-and Video-Based Biometric Person Authentication. Springer Berlin Heidelberg,2003: 360-368

[7] García-Mateos G, Ruiz-Garcia A, López-de-Teruel P

E. Human face processing with 1.5 D models[C]//International Workshop on Analysis and Modeling of Faces and Gestures. Springer Berlin Heidelberg,2007:220-234

[8] Yan W J, Li X, Wang S J, et al. CASME II: An improved

spontaneous micro-expression database and the baseline evaluation[J]. PloS one, 2014.9(1):e86041

[9] Hochreiter S, Schmidhuber J. Long short-term memory[J].

Neural computation,1997.9(8):1735-1780

[10] Hinton G E, Srivastava N, Krizhevsky A, et al. Improving

neural networks by preventing co-adaptation of feature detectors[J]. Computer Science,2012.3(4):212-223

[11] Zhao G, Pietikainen M. Dynamic texture recognition

using local binary patterns with an application to facial expressions[J]. IEEE transactions on pattern analysis and machine intelligence,2007.29(6).

[12] Wang Y, See J, Phan R C W, et al. Lbp with six

intersection points: Reducing redundant information in lbp-top for micro-expression recognition[C]//Asian Conference on Computer Vision. Springer International Publishing,2014:525-537

[13] Chan C H, Goswami B, Kittler J, et al. Local ordinal

contrast pattern histograms for spatiotemporal, lip-based speaker authentication[J]. IEEE Transactions on Information Forensics and Security,2012.7(2):602-612

卷积神经网络的缺陷范文第3篇

【关键词】网络安全 小波分析 检测 稳健

随着网络和计算机信息技术的发展,网络安全受到人们的日益关注,网络安全是保障网络系统稳定运行,避免数据和信息遭到入侵攻击的重要学科。研究网络攻击的优化检测方法,在网络安全领域中具有重要的应用价值,相关的算法研究受到人们的重视。网络攻击信号为一组多源宽带调频信号,而当前采用的时频特征提取方法难以有效挖掘攻击信号的波束响应特征,检测算法的稳健性不好,导致对网络攻击的检测性能不好。为了克服传统方法的缺陷,本文在传统的时频特征提取方法的基础上进行网络攻击检测算法的改进设计,提出一种基于小波尺度分解的网络攻击稳健检测方法。首先进行了网络攻击的信号模型构建,然后进行了小波尺度分解,实现信号检测,仿真实验进行了性能验证,得出有效性结论。

1 模型构建和网络攻击信号分析

在网络攻击检测中,需要进行网络攻击的信号模型构建,构造对大型网络的接口跨平台移植扩展控件编码种类序列,对网络接口跨平台移植扩展控件的价值参量X的二项式为,Lk调度到目标函数Rl。假设输入的网络攻击信号x(k)为一组多源宽带调频序列,它是由网络攻击信号和合法的网络数据表征的噪声共同构成的,y(k)为网络攻击信号经过二阶格型陷波器滤波后的输出,得到输出的网络攻击信号模型为:

=1,当陷波器的陷波频率点落在x(k)中预测误差范围内时,由前项预测误差或后项预测误差的卷积处理进行噪声抵消;y(k)为在自适应权系数向量调制下的输入信号,即为噪声信号,用输入x(k)减去输出y(k)可以得到M个输入的多源特征信号;x1(n)是陷波器的一个状态参数。通过缓存污染攻击命中判决准则分析可见,times字段的阈值设置直接影响到ISP的域间流量,通过定量分析功率自激网络缓存污染攻击的命中率与域间传输阈值的关系,可以降低缓存污染攻击命中率,提高网络攻击检测的稳健性。

2 小波尺度分解与网络攻击检测算法实现

在上述进行网络攻击信号模型构建的基础上,进行网络攻击检测算法设计,提出一种基于小波尺度分解的网络攻击稳健检测算法,算法核心描述如下:基于综合调度策略,为减少存储对应的内容块和存储该数据块的开销,提高控制效率,构建母小波基函数为:

其中,N为采样点数,利用攻击容忍系统FRFT的频移性质,A0,φ0的取值不影响变换的分布,如果表项中times字段值没有超过阈值Threshold,采用小波尺度分解,假设一个循环对应着一个初始化过程和若干时帧,对于每个时帧,构成时帧节点,通过小波尺度分解,得到网络攻击信号检测的各个节点对应的时延包络特征幅度,这个申请过程即为与检验统计量与判决门限δ进行比较的过程,根据二元假设准则作出网络攻击检测的攻击命中判决准则:

3 仿真实验与性能测试

为了测试性能,进行仿真实验。仿真实验的硬件环境采用个人PC机为,配置参数为:CPU 3.0G,12G内存,操作系统为Windows 7。假定网络系统遭到缓存污染攻击的状态转移概率,对最近邻链的脆弱点的容忍失效概率为,根据最近邻链的攻击容忍系统的任务执行能力策略判定系统的转移方向,令,,。得到网络攻击的信号模型如图1所示。

以上述网络攻击数据为检测对象,进行信号检测,采用本文方法和传统方法,得到检测性能对比如图2所示。从图可见,采用本文方法进行检测的稳健性较好,加速比较高。

4 结语

本文提出一种基于小波尺度分解的网络攻击稳健检测方法。首先进行了网络攻击的信号模型构建,然后进行了小波尺度分解,实现信号检测,仿真表明,该方法进行网络攻击检测的稳健性较好,检测准确性较高。

参考文献

[1]杨雷,李贵鹏,张萍.改进的Wolf一步预测的网络异常流量检测[J].科技通报,2014.30(2):47-49.

[2]张宾,杨家海,吴建平.Internet流量模型分析与评述[J].软件学报,2011,22(1):115-131.

[3]许利军,杨棉绒.网络数据流量组播路由的多种群遗传算法[J].科技通报,2012,28(5):171-175.

[4]黎峰,吴春明.基于能量管理的网络入侵防波动控制方法研究[J].计算机仿真,2013,30(12):45-48,335.

[5]张骏,田泽,梅魁志,等.基于节点预测的直接Cache一致性协议[J].计算机学报,2014,37(3):700-720.

[6]王海涛,佟惠军,王洋.基于改进的BP神经网络空空导弹攻击区解算方法[J].电子设计与工程.2014.22(3):28-31.

作者简介

栾凯(1980-),男,山东省青岛市人。大学本科学历。现为华北计算技术研究所公共安全信息化事业部工程师。研究方向为计算机软件。

卷积神经网络的缺陷范文第4篇

关键词:PCB;图像处理;视觉检测

中图分类号:TP277文献标识码:A文章编号:1009-3044(2012)07-1648-06

当今世界科技发展日新月异,电子产业的发展直接制约着国民经济的腾飞与否,而PCB电路板制作工艺的提高对促进电子产业的发展至关重要,能否有效精确地检测PCB电路板的缺陷一直都是电子行业的研究热点。国外的印刷电路板自动检测技术一直领先于国内,国内的很多厂家不得不采用昂贵的外国技术,虽然近年国内的印刷电路板自动检测技术发展迅速,但大都没有取得令人非常满意的结果。加入研究这一领域的热潮,赶超外国的先进技技水平,打断外国垄断技术,对于发展国民经济具有十分重要的意义。

1 PCB检测系统的硬件设计

1.1 PCB检测系统的硬件组成框图

虽然本文所做的工作主要是软件方面,但对于硬件系统的设计也是至关重要的,它对于建立有效的计算机视觉识别检测系统,起着决定性作用。因此,必须在综合考虑系统性价比和系统性能的基础上,设计出合理的硬件系统[9]。PCB检测系统的硬件组成框图如图1所示:图1 PCB检测系统硬件组成框图

1.2系统的硬件组成

系统的硬件组成[10]主要包括:计算机主机、CCD摄像机、图像采集卡、照明系统及相关的设备。

2 PCB电路板缺陷检测识别

PCB电路板在电子工业中的应用越来越广泛,如何降低电路板的故障率、提高电路板的质量直接影响到整个产业的发展。因此,对于PCB电路板缺陷的识别技术的发展至关重要。PCB电路板的缺陷很多[16],主要有短路、断路、划痕、凸起、空洞、缺焊、过焊等等,由于实验室设备限制和个人水平所限,本文主要研究的内容是PCB电路板短路与断路的检测识别

近年来出现了很多图像检测算法,这些算法大致可分为三大类:有参考算法、无参考算法以及混合型算法。有参考算法分为两大类:图像对比法和模型对比法。无参考算法是一种不需要标准图像的检测算法,它是基于一定的设计规则来进行检测的。混合型方法是将有参考算法与无参考算法混合使用,从而发挥出各自的优点。比如,模板匹配法与数学形态学方法结合使用,或者连接表方法与数学形态学方法结合使用等。本文中短路与断路的检测识别采取了图像对比法,即将经过一定处理后的图像进行相减,从而分析相应的结果;而对焊点缺陷的识别主要采用模板匹配法与数学形态学方法结合使用。

2.1 PCB电路板缺陷检测识别的主要流程图

图2为子程序流程图;图3为主程序流程图。

2.2 PCB电路板短路与断路的检测识别

2.2.1边缘检测

在对图像进行基本的处理过后可以将图像与背景分割开来。边缘检测是图像处理和计算机视觉中的基本问题,边缘检测的目的是标识数字图像中亮度变化明显的点。图像属性中的显著变化通常反映了属性的重要事件和变化。

这些包括:深度上的不连续;表面方向不连续;物质属性变化;场景照明变化。边缘检测是图像处理和计算机视觉中,尤其是特征提取中的一个研究领域。

图像边缘检测大幅度地减少了数据量,并且剔除了可以认为不相关的信息,保留了图像重要的结构属性。有许多方法用于边缘检测,它们的绝大部分可以划分为两类[17]:基于查找一类和基于零穿越的一类。基于查找的方法通过寻找图像一阶导数中的最大和最小值来检测边界,通常是将边界定位在梯度最大的方向。基于零穿越的方法通过寻找图像二阶导数零穿越来寻找边界,通常是Laplacian过零点或者非线性差分表示的过零点。

1)Roberts算子

边缘,是指周围像素灰度有阶跃变化或屋顶等变化的那些像素的集合。图像的边缘对应着图像灰度的不连续性。显然图像的边缘很少是从一个灰度跳到另一个灰度这样的理想状况。真实图像的边缘通常都具有有限的宽度呈现出陡峭的斜坡状。边缘的锐利程度由图像灰度的梯度决定。梯度是一个向量,?f指出灰度变化的最快的方向和数量,如式2-1所示。

?f=(决定的。

因此最简单的边缘检测算子是用图像的垂直和水平差分来逼近梯度算子,式2-4所示。?f=(f(x,y)-f(x-1,y),f(x,y)-f(x,y-1))(式2-4)

因此当我们想寻找边缘的时候,最简单的方法是对每一个像素计算出(2,4)的向量,然后求出他的绝对值,然后进行阀值操作就可以了。利用这种思想就得到了Roberts算子,由式2-5所示。

R(i,j)=

(式2-5)

它是一个两个2×2模板作用的结果。

2)Sobel算子

该算法通过2个3*3的模板,对选定的二维图像中同样大小窗口进行卷积,通常是一个模板对一个边缘响应大,另一个模板对水平边缘响应大,两个卷积值对最大值作为该点对输出。对于图像上的任意点(i,j)进行卷积,可得其X方向上的差分由式2-6、式2-7所示。Δx=f(i-1,j+1)+2f(i,j+1)+f(i+1,j+1)-[f(i-1,j-1)+2f(i,j-1)+f(i+1,j-1)](式2-6)Δy=f(i-1,j-1)+2f(i-1,j)+f(i-1,j+1)-[f(i+1,j+1)+2f(i+1,j)+f(i+1,j+1)](式2-7)则输出图像公式如式2-8所示。

用sobel算子检测阶跃边缘得到的边缘宽度至少为两个宽度。3)Laplacian边缘检测算子

Laplacian算子定义由式2-9所示。

Δ2f(x,y)=

(式2-9)它的差分形式由式2-10所示。

Δ2f(x,y)={[f(x+1,y)-f(x,y)]-[f(x,y)-f(x-1,y)]}+{[f(x,y+1)-f(x,y)]-[f(x,y)-f(x,y-1)]}

=f(x+1,y)+f(x-1,y)+f(x,y-1)+f(x,y+1)+f(x,y+1)+4f(x+1,y)(式2-10)

Laplacian算子是一种各向同性算子,在只关心边缘的位置而不考虑其周围的灰度象素差值时时比较合适,Laplacian算子对孤立象素的响应要比对边缘或线的响应更要强烈,因此只适用于无噪声图像。

原图像与用三种边缘检测算子处理后的图像如下所示:图6 Sobel边缘检测图7 Laplacian边缘检测

从上面四幅图分析比较可得出结论:用Roberts边缘检测得出的图像较之其他方法更为清晰,噪点更少,图像更为连续,所以本文中采用Roberts算子来进行边缘检测。

2.2.2阈值分割

阈值分割法是一种基于区域的图像分割技术,其基本原理是:通过设定不同的特征阈值,把图像象素点分为若干类。常用的特征包括:直接来自原始图像的灰度或彩色特征;由原始灰度或彩色值变换得到的特征。设原始图像为f(x,y),按照一定的准则f(x,y)中找到特征值T,将图像分割为两个部分,分割后的图像为:

若取:b0=0(黑),b1=1(白),即为我们通常所说的图像二值化。

在数字化的图像数据中,无用的背景数据和对象物的数据经常放在一起,同时,图像中还含有各种噪声,因此可以根据图像的统计性质,从概率的角度来选择合适的阈值。

1)最大方差阈值法

把待处理图像的直方图在某一阈值处分割为两组,当被分割成的两组间的方差最大时,便可以决定阈值了。

设灰度图像f(x,y)的灰度级为0-L,灰度级I的像素为Ni,则图中:

总象素数N=∑j=0 i=LNi(式2-11)灰度级i出现的概率Pi= 1-ω(K)(式2-16)则两组间的数学期望为ω0μ0ω1μ1=μ(式2-17)两组间的方差为ρ2(k)

ρ2(k)是K的函数,计算k取从0,1,2…L时ρ2(k)的值,当多的值为最大时,K即为阈值。

2)双峰法

根据图像的直方图具有背景和对象物的两个峰,分割两个区域的阈值由两个峰值之间的谷所对应的灰度值决定。设灰度图像f(x,y)的灰度级为0-L,灰度i的像素为Pi,分别计算

因为实际PCB电路板有着许多的划痕、污点等,使用最大方差阈值法时,会在处理后的图像上产生许多误点,而影响实际结果的分析,而双峰法能够顺利地滤除这些干扰,这个结论在分析对比以上图像时也可得出。所以本文选用了双峰法来进行阈值分割。

2.2.3粒子分析与图像对比

经过边缘检测和阈值分割的图像中会存在许多瑕点,这些点会影响到最后的图像识别与分析,有可能会增加多余的残留图像。本文中利用NI VISION ASSISTANT中的REMOVE SMALL OBJECTS功能进行去除,如图11和图12所示。图11原图像图12粒子分析

将标准PCB图片减去缺陷缺陷PCB图片,便可以得到缺陷板的断路部分的图像,再利用NI ASSISTANT中的PARTICLE ANALYSIS可以得到断路部分的具体分析,如图13示。

将缺陷PCB图片减去标准PCB图片,便可以得到缺陷板的短路部分的图像,与上述相同的方法,便可以得到短路部分的具体分析,如图14所示。

3结束语

利用LABVIEW来进行PCB电路板缺陷的识别与检测是一项非常好的课题,它在近些年已经得到了一定的发展,并将得到更大的进步。限于本人能力和时间,本文的研究还未涉及很深的领域,可以在以下方面加以改进:

1)本文中只利用到NI公司的LABVIEW和IMAQ VISION,更好的设计可以再利用其他语言如VISUAL BASIC,C++等编程语言加以辅助设计,相信可以取得更加令人满意的结果。

2)由于实验设备等其他因素,本文中只重点研究了PCB电路板短路与断路的检测识别,PCB电路板的其他缺陷还有待于进一步的分析研究、分类和总结,并设计出更好的检测方法,以真正满足PCB电路板检测的需求。

3)照明设备的限制在很大程度上影响到了图像的检测效果,为取得PCB缺陷检测的进一步进展,在照明设备的选择上必须重视,并且设计出更好的图像采集系统。

4)在识别与检测手段上,可以引入更新更好的方法,而不要局限于在传统的方法中分析比较,例如基于BP神经网络的识别检测,图像的模糊决策等将有待于进一步研究。

总之,基于LABVIEW的机器视觉检测系统已经取得了不错的进展,高速发展的PCB制造技术和计算机技术对于PCB缺陷的检测提出了更高的要求,同时也大大地促进了PCB缺陷检测技术的发展。利用机器视觉检测在未来的较长的一段时间内将占据检测行业的半壁江山,相信在未来会取得更大的发展。

参考文献:

[1]程学庆,房晓溪.LabVIEW图形化编程与实例应用[M].北京:中国铁道出版社,2005.

[2]胡仲波.基于虚拟仪器技术的PCB视觉检测系统[D].南京:南京理工大学硕士学位论文,2006.

[3]段峰,王耀南.机器视觉技术及其应用综述[J].自动化博览,2002,19(3).

[4]周长发.精通Visual C++图像处理编程[M].北京:电子工业出版社,2004.

[5]陈锡辉,张银鸿.LabVIEW 8.20程序设计从入门到精通[M].北京:清华大学出版社,2007.

[6]郑伟.图像法检测印刷电路板缺陷[M].西安:西安理工大学,2002.

[7] National Instruments,IMAQ User Manual Concepts[Z].1999.

[8]李强.PCB板缺陷自动检测技术的分析研究[D].合肥:合肥工业大学,2002.

[9]傅茂名.基于形态边缘检测算法的一种改进[J].电子科技大学学报,2005(2).

[10]王思华.计算机视觉新技术及其在IC标记质量检验系统设计中的应用[J].电子技术应用,2000(9).

[11]岳永哲.图像处理技术在阅卷系统中的应用[D].北京:北京工业大学,2006.

[12] Bruce sehneier.Applied Cryptography protocols,Algorithms,and SourceCode[M].C Jolm Wiley & Sons,Inc,1994.

[13] William work Security Essentials:Applications and Standard[M].Prentice Hall/Pearson,2002.

[14]高育鹏,杨俊,何广军.基于图像识别的自动阅卷系统研究[J].现代电子期刊,2006(22).

[15]杨青燕,彭延军.基于灰度图像的答题卡识别技术[J].山东科技大学学报:自然科学版,2009(3).

[16]周海涛,韩晓军.基于数字图像处理的答题卡识别方法研究[J].电脑知识与技术,2008(28).

[17]周万珍,郑广,王建霞,等.数字图像处理技术在客观题阅卷中的应用[J].数学的实践与认识,2006(8).

[18]王胜春.基于SVM的信息卡识别系统[D].长沙:湖南师范大学,2008.

[19]吴志明.SMT系统中焊点位置的检测[D].哈尔滨:哈尔滨工业大学,2006.

[20]杨敏,王春青,邹增大,等.表面组装印刷电路板上焊点信息的自动获取[J].焊接学报,2005,39(6).

卷积神经网络的缺陷范文第5篇

关键词:文本生成图像;对抗生成网络(GAN);美观度评判;StackGAN++;美学损失

基于给定文本生成对应图像是计算机视觉领域一项经典且富有挑战性的任务,顾名思义,即给出一句描述确定内容的文本(可描述某件物体或某个场景环境),通过一定架构的模型生成与文本内容相对应的图像,使其尽可能做到逼近现实,能够迷惑人眼的识别或一些模型的判断。该任务需要在理解文本含义的基础上,根据文本的内容构建出合理的像素分布,形成一幅完整的、真实的图片。因为给出的文本所包含的信息量在通常情况下都远少于其所对应生成的图像(文本通常只对图像中主体部分大致进行了描述,图像则还包含主体所处背景、图像全局特征等额外信息),所以一句给定的文本可能会对应许多符合其描述的图像结果,这是文本生成图像任务的难点所在[1]。在如今生活、制造等多方面迈向智能化发展的时期,文本生成图像这一任务在实际生产生活当中具有非常广的应用价值和潜力,比如应用于平面广告设计领域,可以为广告制作团队生成广告用的配图,从而不必再专门雇用插画制作人员;家具、日用品生产领域,可以通过给出一段产品描述,利用模型批量生成大量的产品概念图,从而给设计者提供了可供选择的样例空间,降低设计环节的工作量。

如今,基于给定文本生成图像任务的实现都是基于从大量的图像数据中学习并模拟其数据的分布形式来生成尽可能接近真实的图像,尤其在对抗生成网络(GenerativeAdversarialNetworks,GAN)[2]的火热发展下,借助其来实现文本生成图像的任务已经成为了主流选择,目前也有许多生成效果优秀的模型被提出。在这一研究方面,研究者所关注的重点是如何能够提高生成模型生成图片的真实性、清晰度、多样性、解析度等问题,这些将直接影响生成模型的质量和性能,并关系到生成模型能否有效投入到实际应用当中。

然而如果考虑到实际应用,图像好看,或者有足够的美观度也是一项重要的需求。比如为平面广告设计配图,对图像的要求不仅是清晰、真实,还应该拥有较高的美观度,从而能够吸引人的眼球,提高广告的关注度。可以说,如果能够实现提高此类模型生成图片的美观度,则在实际应用场景中将会给用户带来更加良好的使用体验,从而提高此类应用的质量。遗憾的是,现在对文本生成图像GAN的研究很少关注生成图像的美观质量,现有文献中也并未发现有将美学评判与图像生成相结合的研究,这成为了本文研究的动机。

由此引出另一个问题:如何评判一幅图像的美观度。图像的美观度评判实际上是一项带有主观性质的任务,每个人因不同的阅历、审美观甚至所处环境、情感状态等多方面因素的影响,对同一幅图像有可能会给出完全不同的评价。然而,面对互联网空间与日俱增的图片数量,借助人力对其进行美观度的评价是不切实际的。因此,研究借助计算机进行自动化图像美观度评判成为了计算机视觉领域另一项研究课题,至今也有许多研究者提出了实现原理各异且效果优良的美观度评判模型。借助这些模型,可以对目标图像进行分类或评分,给出尽可能接近符合多数人评价标准的评判结果。

借此,本文致力于研究从美观度的角度对文本生成图像GAN的生成结果进行优化的方法。本文的贡献和创新点如下:

1)从实际应用的角度出发,将生成结果美观度加入评价文本生成图像GAN模型生成结果的评价指标,以目前受到较高认可度的文本生成图像GAN模型——StackGAN++[3]为基础,从美观度的角度对其生成结果进行评估,以观察其生成结果的美观度质量。

2)将美观度评判模型融入该GAN的生成模型当中,通过增添美学损失的方式改造生成模型,从而在模型训练过程中加入美学控制因素,引导模型生成美观度更高的结果。本文提出的改进方法使得模型生成图像的总体美学质量(以IS(InceptionScore)为评价指标[4])提高了2.68%,其生成图像结果整体的美观度指标提高了3.17%。

1相关工作

1.1美观度评判模型

随着网络空间中图片数量的急速增长,在图片检索领域为了能够更好地为用户甄选返回图像的质量、给用户返回更高质量的搜索结果,对图片按美学质量进行分类的需求逐渐增加。图片所附带的数据标签(如喜欢该图的人的数量、图片内容等)可以作为美观度评价的一类较为有效的标准,但大部分的图片并不存在类似这样的标签,虽然如今有许多研究已能够做到给图片准确高效地进行标签标注[5],然而即使每幅图片均被标注了足够用以进行评判的标签,图片庞大的数量又使得人工评判工作量巨大,因此需要能够对图片进行美观度评判的模型,由计算机来完成这一任务。

受到心理学、神经科学等领域中对人类美学感知的研究成果启发,计算机视觉领域的研究者们通过模拟、复现人类处理接收到的图像视觉信息的过程,设计实现了一系列自动评判图片美学质量的模型[6]。图像美观度评判模型一般遵循一个固定的流程:首先对输入图像进行特征提取,然后借助提取的特征,利用训练好的分类或回归算法获得相应的结果。

特征提取则是其中非常重要的一环,因为特征信息是对图像美学质量的概括,其决定了美观度评判模型的精确度。选取得当的特征既能提高模型评判的精确度,又能减少不必要的计算量,因为不同特征对于图像美学质量的贡献度是不同的[7]。早期的研究中,研究者们通常选择以绘画、摄影所用的美学规则理论和人的直观感受为依据,自主设计所要提取的特征,比如清晰度、色调、三分规则等。这类方法的好处是直观、易于理解,但缺点在于所设计的特征通常不能很全面地描述图像美学信息,而且设计特征对于研究者的工程能力和相关领域知识了解程度都有较高的要求。而随着深度学习领域的不断发展,将卷积神经网络(ConvolitionalNeuralNetworks,CNN)应用于图像处理这一方式展现出了卓越的效果。借助CNN能够从大量的图像数据中学习到有力的图像特征表示,其所包含的信息量远超人工特征设计所设定的特征[8],从而使得CNN处理图像的方式在图像处理领域得到广泛应用,并逐渐成为主流选择的方法。深度学习方法应用于图像美观度评判的特征提取环节,主要有2种方式:第1种是借助已有的深度学习图像处理模型,利用其中间层特征作为评判依据,采用传统的分类或回归方法进行美观度评判;第2种是对已有的模型进行改造,使得其能够从图像数据中学习到新的隐藏的美学特征,并借此对图像的美观度作出评判。

本文采用的是Kong等[9]设计的美观度评判模型。该模型随AADB(AestheticsandAttributesDatabase)数据集一同提出,其基于AlexNet[8]改造得来,通过提取图片的内容特征以及自定义的属性标签特征来帮助判断图像的美观度。此外,该模型吸收了Siamese网络[10]的结构,实现了接收两幅一组的图像作为输入并给出它们之间相对评分的功能,同时提出了2种对图像进行成对采样的训练方式来辅助增加结果的精确度。实验结果表明该模型在AVA(AestheticVisualAnalysis)数据集上的判别准确率达到77.33%,超过了当时已有的许多模型的表现。作者并未对该模型进行命名,为方便说明,下文中统一用“AADB模型”对其进行代指。

1.2文本生成图像GAN

GAN的提出是机器学习领域一项重大的突破,其为生成模型的训练提供了一种对抗训练的思路。相比于传统的生成模型如变分自编码器、玻尔兹曼机,GAN优势有:其训练只需借助反向传播而不需要马尔可夫链、能够产生全新的样本以及更加真实清晰的结果、简化任务设计思路等,因此,其成为了现今机器学习领域十分火热的研究课题。

GAN的结构一般可分为两部分:生成器部分,负责接收一段随机噪声作为输入来生成一定的结果;判别器部分,负责接收训练数据或生成器生成的数据作为输入,判断输入是来自哪一方。生成器的最终目标是生成能够彻底欺骗判别器的数据,即判别器无法区分输入数据来自真实数据分布还是生成器拟合的数据分布;而判别器的最终目标是有效区分其输入来源,识别出来自生成器的输入。GAN的训练正是基于这种博弈的过程,令生成器和判别器二者之间进行对抗,交替更新参数,当模型最终达到纳什均衡时,生成器即学习到了训练数据的数据分布,产生相应的结果。

虽然GAN拥有良好的表现力和极大的发展潜力,但其本身还存在一些缺点,比如训练困难、无监督使得生成结果缺少限制、模式崩溃、梯度消失等问题。后续许多研究者对GAN从结构[11]、训练方法[12]或实现方法[13]上进行了改进,逐渐提高了GAN训练的稳定性和生成效果。此外,CGAN(ConditionalGAN)[14]将条件信息与生成器和判别器的原始输入拼接形成新的输入,用以限制GAN生成和判别的表现,使得GAN生成结果的稳定性得到提高。

利用GAN来实现文本生成图像任务也是基于CGAN的思想,以文本-图像组合为训练数据,文本作为输入数据的一部分,在生成器中与随机噪声拼接作为生成器的整体输入,在判别器中则用于形成不同的判断组合——真实图片与对应文本、真实图片与不匹配文本、生成器生成图片与任意文本并进行鉴别。文本数据通常会借助其他编码模型将纯文字信息转化为一定维数的文本嵌入向量,用以投入模型的训练计算当中。最先利用GAN实现文本生成图像任务的是Reed等[15]提出的GAN-INT-CLS模型,其吸收了CGAN和DCGAN(DeepConvolutionalGAN)[11]的思想,同时提出改进判别器接收的文本-图像组合输入(新增真实图像与不匹配文本的组合)以及通过插值的方式创造新的文本编码向量两种方法来提高生成结果的质量和丰富度,生成了64×64大小的图像。随后该领域的一项重要突破是Zhang等[16]提出的StackGAN模型,该模型通过使用2个生成器的方式生成图像,首次实现了只借助给定文本的条件下生成256×256大小的图像。该模型中,第1个生成器接收随机噪声与文本向量的拼接来生成64×64大小的中间结果,第2个生成器则使用该中间结果与文本向量作为输入,这种方式可以实现利用文本信息对中间结果进行修正和细节补充,来获得质量更高的256×256大小图像的结果。

在StackGAN的理论基础上,Zhang等[3]提出了StackGAN++模型。该模型使用3个生成器-判别器组以类似树状的方式连接,其中3个生成器分别对应生成64×64、128×128、256×256大小的图像,第1个生成器以文本向量和随机噪声的拼接为输出,之后每一个生成器接收前一个生成器生成的图像结果与文本向量作为输入,生成下一阶段的图像结果;每一个判别器接收对应阶段的生成器的输出与文本向量进行判别,计算条件生成损失。此外,Zhang等[3]引入了无条件生成损失,即计算在不使用文本信息的情况下生成图片的损失,与条件生成损失相结合,引导模型的训练,最终进一步提高了生成图片的质量。本文即选用了该模型进行基于美学评判的优化改进研究。

此后文本生成图像GAN的研究多在类似StackGAN++的多阶段生成模式基础上,通过加入各种辅助信息来帮助生成器生成更好的结果,如AttnGAN(AttentionalGAN)[17]引入了注意力机制,分析对比生成图像与对应文本之间的特征相似度,并利用对比结果辅助生成器的训练;Cha等[18]则通过引入感知损失的方式,从图像特征层面进行对比来辅助生成器更好地学习到训练数据的分布。

2StackGAN++的美学质量分析

在提出基于美学评估的对StackGAN++模型的优化方法之前,需要了解该模型目前生成结果的美学质量如何。本节将利用AADB模型对其进行初步测量。

本节实验使用的StackGAN++模型是基于Caltech-UCSDBirds200鸟类图像数据库2011版训练的鸟类图像生成模型,其测试数据集中包含2933张图像,每张图像对应10条文本说明,其中文本数据需经过char-CNN-RNN模型编码。Zhang等[3]给出了其模型源码的github地址(https://github.com/hanzhanggit/StackGAN-v2)。

本文实验运行于Ubuntu16.04操作系统,使用GeForceGTX1080Ti显卡进行训练。软件环境方面,本实验利用Adaconda2搭建python2.7虚拟环境,并需要安装Pytorch1.0以及caffe1.0(分别对应StackGAN++以及AADB模型运行所需)。

2.1测试数据集生成结果的美观度分布

首先针对测试数据集所产生的样本进行美观度评判,观察其分布状况。理论情况下,训练数据集中包含了29330条语句对应的嵌入向量,经由生成模型后获得29330张图像结果,实际运行中由于StackGAN++模型所采用的批处理训练策略,最终生成图像数量为29280张,但从整体数量的规模来看并不影响对于其整体美观度评价的判断。利用AADB模型获得生成图像的美学分数,其分布如图1所示。

由AADB模型计算得出的美学分数集中于[0,1]区间,在特殊情况下会超过1。为了便于标注美学分数的分布区间,在绘制区间分布柱状图时,将由AADB模型获取的美学分数(超过1的截断至0.9999)乘以10,这种表示方法也符合实际生活中人工评判时的常用取值范围选择;在展示降序分布时则直接采用模型输出的结果范围来标注分数坐标轴。图1(a)表明,原始StackGAN++在测试数据集上生成图像的美学分数集中在5~8的区间段内,占总体的78.6%,其中6~7区间段内的图像数量最多,占整体结果数量的33.9%。而图1(b)表明,在5~8区间段内,图像的美学分数变化呈现出均匀平缓的变化趋势,并没有出现在某一节点大幅变动的情况。

29280张生成结果的平均美学分数为0.62828。根据AADB模型作者给出的评判标准,一张图片的分数超过0.6则可以认为是一张好图片,低于0.4则认为是一张差图片,在两者之间认为是一张一般性质图片,而本文出于后续实验样本划分的考虑,将好图片的下限标准提高至0.65,差图片的上限标准提高至0.5。由此来看,模型的平均结果处于一般质量的区间,说明原模型的整体生成结果从美观度的角度来讲仍然存在可以提升的空间。本文从全部生成结果中选择美学分数最高以及最低的图片各10张的结果,交由真人进行主观评判,其结果均与美学分数表现出对应关系,即认为最高分数的10张图片拥有较高的美观度,而最低分数的10张图片则评价一般或交叉表明AADB模型给出的美学分数对图像美观度的评价能较好地符合人的直观感受。

2.2固定文本批量生成图像结果的美观度分布

如果想要达成提高生成模型美观度质量的目标,一个简单的想法是,可以对同一条语句,一次性批量生成大量的图片,按美观度模型给出的分数进行降序排序,从中选出分数最高图像作为输出结果,或以分数排序最靠前(分数最高)的一定数量的图像作为输出结果,再交由模型使用者自行判断选择最终的结果。这种方法虽然存在严重的效率问题,但易于实现且非常直观。其中的问题在于确定生成图像的数量,因为随着生成图像数量的增加,其多样性也会随之增加。也更容易出现更多美观度高的图像结果,但进行美观度评判以及排序选择的时间消耗也会随之增加,因此若选择此种做法作为优化方法,需要在生成结果质量以及模型运行效率之间寻求一个平衡点。

基于以上考虑,除对测试集整体进行美观度评判以外,还从中选择一批(实验设定为24)数量的文本输入数据,针对每一条文本数据生成不同数量的图片来观察其美学分数的分布。选择100、200、350、500、750、1000共6种生成数量,针对选定的文本数据生成对应数量的图像,利用AADB模型计算生成结果的美学分数。图2展示了其中一条文本的结果。结果表明,美学分数在各个区间的分布状况是相近的,基本不受一次性生成数量的影响。6组结果都表现出生成图像的美学分数集中于5~7的区间内的分布状况,且随着生成数量的增加,高分图像的出现频率也越来越高。表1展示了6组分布结果中最高分数图像的分数与分数前10高图像的平均分数,表明了一次性生成数量越多,即使是处于高分分段的图像其整体的质量也会得到提高,也验证了本节第一段所述的情况。但面对最高分数的情况,因生成模型会以随机噪声作为输入来生成图像,这导致了其对生成结果的不可控性,所以生成结果会出现一定的扰动,使得最高分图像的分数与生成数量之间并不存在确定的正相关关联性。

3基于美学评判的图像生成优化

原始的StackGAN++模型采用了3组生成器-判别器组合,以类似树状的方式进行连接,每一个生成器生成不同尺寸的图像,并作为下一个生成器输入数据的一部分。其中每一个生成器的损失LGi(i=1,2,3)计算式为

pagenumber_ebook=102,pagenumber_book=2443

式中:pGi为生成器Gi学习到的数据分布;si为生成器Gi生成的结果;c为文本向量;Di为与生成器Gi对应的判别器,其接收单个输入si或双输入si和c,输出相应的判别结果;E[·]表示期望函数。

该损失计算方式由两部分组成,前一部分计算生成器不利用文本向量生成图像的损失,即无条件损失,该部分用以监督生成器生成更加真实的、使判别器认为来自于真实数据分布的数据;后一部分计算生成器利用了文本向量生成图像的损失,即条件损失,该部分用来监督生成器生成符合输入文本描述的图像,即保证文本与图像之间的一致性。在StackGAN++的理论描述中,Zhang等[3]认为每一个生成器生成的图像虽然大小不同,但都是基于同一条文本生成的,所以它们彼此之间应该保持相似的色彩和基本结构,并提出了色彩一致性损失用来保证3个生成器生成图像之间拥有较高的色彩一致性。但经过实验作者发现在基于文本生成的模式下,色彩一致性所起到的作用十分微弱,因为其对生成结果的约束力要远远小于文本-图像一致性的约束,即式(1)中的Esi~pGi[lnDi(si,c)]。式(2)为生成器的总体损失(下文称为对抗损失)计算公式,用于训练过程中的梯度计算。

受到Johnson等[19]提出的感知损失的启发,本文将AADB模型与StackGAN++的生成器结合,用于在生成模型训练过程中提供辅助训练信息,达成从美学角度来优化生成模型的目的。具体地,在式(2)的基础上,加入一项新定义的损失——美学损失Laes,其计算式为

式中:Aes函数表示使用AADB模型计算生成结果s3的美学分数。2.1节中,AADB模型计算得出的美学分数存在超过1的情况,因此在计算美学损失时,会对模型返回的美学分数进行判断,如果其超过了1,则将其截断至0.9999。该损失实际计算了最后一阶段生成器G3生成结果的美学分数与1之间的欧几里得距离,最小化该损失即最小化生成结果美学分数与1之间的差距,代表了生成结果美学质量的提升。最后,加入了美学损失后新的生成器损失计算公式为

式中:β为美学损失的权重,用来控制其在总体损失中所占的比例,β越大则美学损失所占的比例越大。β为0时,模型即还原为StackGAN++。

由于美学损失的作用是引导生成器生成美观度更高的图像,而对抗损失则是控制整个训练过程以及生成结果的关键,保证了生成器能够生成符合文本描述的真实图像,这是文本生成图像模型最基本的目的,因此β值的选择应当在保证在训练过程中美学损失起到的调控作用不会压过对抗损失的前提下对生成结果的美观度产生影响。

4实验与性能评估

选取不同的美学损失权重β进行训练,以IS作为训练获得模型的质量的衡量指标,在保证IS与原模型相比不降低的前提下,观察其生成结果的美观度分布情况。IS是借助InceptionModel[20]计算得出的用来衡量GAN图像生成效果的最常用指标之一,通常情况下其数值越大代表GAN生成的图像具有更高的多样性和真实性,进而代表生成图像的总体质量更好。在文本生成图像GAN领域,IS被广泛用来进行不同GAN之间的效果对比。

本节所使用的环境与第2节对StackGAN++本身进行美学质量分析的实验环境相同,故此处不再赘述。模型训练过程采用批训练策略,每个批包含24条文本嵌入向量,每一个时期(epoch)中包含368个批的训练过程,下文将一个批完成一次训练的过程称为一步(step)。训练过程包含600个时期,并于每2000步的时间节点保存一次模型参数,以便于训练完成后根据保存时模型的表现选取效果最好的模型。本文提出的优化方法的实现流程如图3所示。

本文选取β=45,0,0.0001,分别进行了训练。选择45是因为,观察StackGAN++训练时生成器的对抗损失发现对抗损失与美学损失的比值在50左右。因此,当β=45时,对抗损失与经权重放大的美学损失在数值上比较接近;1与0.0001是基于经验的选择,取β=1时美学损失与对抗损失平权,而β=0.0001则是参考了Cha等[18]提出的感知损失的权重选取。训练完成后,对应每个β取值各形成了一组于不同时间节点保存的模型,分别从中选取IS分数最高的模型作为对应取值下的结果模型。在对选定的模型进行美学质量评判之前,需要先考察它们所生成的图片的总体质量,以确保在引入了美学损失后没有出现模型生成图像质量下降的情况。表2展示了3种取值对应模型与原模型的IS数据,其中β为0即代表未引入美学损失的原始StackGAN++模型。

通过对比,当β=0.0001时,模型在IS上取得最高的数值,并且超过了原始模型的IS,表明美学损失的引入还起到了提高模型生成效果的正面效应。这是可以理解的,因为当生成器生成了一幅效果很差的图像,例如模糊不清或主体扭曲变形,此时美观度评判模型将会给出较低的分数,使得美学损失增大并导致生成器总损失增大。此外,当β=45时,模型的IS分数降低,表现为生成器生成图像的质量有所下降。对β=45时获得的模型所生成的图像进行人工评判的结果也反映出这时生成图像出现了更多的模糊、失真等不良结果。因此,β=45的情况已无继续讨论的价值,此后美学层面的实验和数据统计也不再考虑此种情况。当β=1时,模型的IS与原模型相比十分接近,还需通过美学分数的分布对比来确定在此情况下美学损失是否起到了优化的作用。

为了验证美学损失是否对生成模型结果的美学质量起到了优化作用,接下来计算了使用β=1,0.0001这2种情况的模型在测试数据集上生成的29280张图像的美学分数分布情况;同时针对一个批的24条文本嵌入向量,每条文本生成1000张图像,计算其美学分数的分布,数据结果如图4所示(这里选出一条文本生成的1000张图像的美学分数分布进行展示)。表3展示了2种β取值下模型在测试数据集上的生成结果的美学分数,同时一并列出了原模型在测试数据集上生成结果的美学分数作为对比。从表中可知,当β=0.0001时,由测试数据集生成的图像其平均美学分数与原模型相比提高了3.17%;表4给出了原模型与β=0.0001优化模型分别生成的24组针对同一条文本的1000幅图像平均美学分数对比情况,也可以发现大部分文本生成结果的美学分数与原模型的生成结果相比有所提高。同时由图4所示的美学分数分布情况也能看出,此时高分段图像的数量增加,较低分段图像的数量减少,表明美学损失起到了调控生成结果美观度的作用。图5展示了原模型与β=0.0001的优化模型使用4条文本对应生成的1000张图像中等距抽取10张图像的结果(每个分图第1行为原模型,第2行为优化模型,每个模型对每条文本均生成1000张图像),每行图像从左到右按美学分数从高到低的顺序排列,从中可以直观感受到,经过美学优化的生成模型所生成的图像结果在色彩对比度、整体色调、背景虚化简单化等方面均有一定优势,反映了其美观评价相比原模型有所提升。

5结论

本文提出了一种基于美学评判的文本生成图像GAN的优化方法,利用美观度评判模型获得生成器生成图像的美学分数,计算该生成图像的美学损失,与模型本身的对抗损失以适当的权重关系相结合,作为该生成器新的损失并重新训练模型,最后对获得的新模型生成的图像进行了美学质量的统计与和原模型的对比。实验所得结论如下:

1)经过本文方法获得的生成模型,其生成结果的美观度与原模型相比得到了提升,同时IS分数也有所提高,表明美学损失能够起到提高生成模型质量的作用。