首页 > 文章中心 > 神经网络卷积层的作用

神经网络卷积层的作用

开篇:润墨网以专业的文秘视角,为您筛选了八篇神经网络卷积层的作用范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

神经网络卷积层的作用范文第1篇

以上文章都结合卷积神经网络模型对交通标志分类做了大量的研究,避免了复杂的人工特征提取算法的设计,研究结果具有一定的参考性。在现有卷积神经网络模型的启发下,以上文章都采用分类器。而训练分类器需要大量样本,因而在小样本数据下,采用分类器容易造成过拟合,降低网络的泛化性。同时,由于SVM分类器在小样本数据集上具有出色分类性能,本文提出一种基于卷积神经网络和多类SVM分类器[[4]的交通标志识别模型。此模型利用卷积神经网络强大的特征提取和泛化能力,使得算法在复杂环境中依然具有可靠的识别结果。  首先,本文通过迁移学习策略「51L61对AlexNet网络[7]特征提取部分进行微调,并将微调结果作为本文的特征提取器。然后将卷积神经网络提取的特征作为多类SVM分类器的输入。同时为了进一步防止过拟合现象的发生,本文在SVM分类器中加入dropout层,利用随机置零策略进行参数选择。最后,文章通过实验结果证实本文提出的分类模型相比于采用softmax分类器有更好的准确率、在复杂背景中具有较高的识别率和较强的鲁棒性棒。1卷积神经网络和SVM

1.1  AlexNet网络    

AlexNet网络是著名的卷积分类网络,可成功实现对1000类别物体的分类。其结构可以分为特征提取器和分类器两部分。    

特征提取器主要由卷积层、池化层、激活函数组成。卷积层由大小不同的卷积核组成,卷积核类似于传统视觉中的特征提取算子。但区别于传统视觉算子,卷积核参数由网络自己学习得到,可以提取图像从底层到高层的不同特征信息。池化层常连接在卷积层之后,一般常用最大池化操作。池化层可以加强网络对平移变化的鲁棒性。激活函数为网络引入非线性因素,使得网络可以逼近任意函数形式。    

分类层主要由全连接层和多类逻辑回归函数组成。全连接层学习用合理的方式组合特征,可以看为函数映射。逻辑回归函数进行类别概率判别,逻辑回归判别见公式。同时,为了防止全连接层过拟合,AlexNet网络引入dropout层,dropout[9]采用随机置零的方式,防止神经元以特定的方式组合工作,从而防止深度网络的过拟合。p}Y}}}=j1二(‘);B)=艺  e醉x})丫‘eBTx}' }e'  j代表类别,二(i)为输入,k代表类别总数,8,表示将样本x}')映射到j类的参数,B代表er,r=i,z,~…  ,,组成的矩阵,p(少‘)=j}x(仍表示x}'}属于j类的概率。1.2标准SVM    SVM是基于结构风险最小化理论的有监督学习算法,通过寻找最优分割超平面来实现分类[}10}。相比于神经网络,SVM在小样本数据集上也能表现出良好的分类效果,因而得到广泛使用。标准的SVM通过寻求公式(2)的最优解来找到最优超分割平面。minw,b含,,w,,(2)yc> (w·二(‘)+b) >_ 1,i=1, 2,……,m尹)代表第i个样本标签,x}'}代表第i个样本特,m为训练集大小。分类模型设计    

本文提出的分类模型主要分为两部分,特征提取部分和多类SVM分类器。整体结构如图1所示。    

图1中,特征提取器主要对输入图片进行特征提取和融合,最终得到图像的高阶特征并将提取到的信息特征送入多类SVM分类器。dropout层进行参数随机丢失步骤,此步骤通过随机失活神经元可有效防止过拟合的发生;然后结合不加正则化项的SVM算法进行分类,得到最终输出结果。

2.1特征提取器    

神经网络卷积层的作用范文第2篇

关键词:物联网;人脸识别;视频网络

1物联网及人脸识别视频网络技术的发展

1.1物联网视频网络技术的发展状况

最近几年,随着物联网技术、图像处理技术以及数据传输技术的快速发展,视频网络技术应运而生并取得了长足的发展。当前,视频网络系统作为一种模拟数字控制系统,其具有非常成熟和稳定的性能,已广泛应用于实际工程中。虽然数字系统发展迅速,但尚未完全形成相应的体系,因此,混合数字和模拟应用程序逐渐迁移到数字系统将成为未来发展的主要趋势之一。当前,国内外市场上主流的产品主要有两种,即模拟视频数字网络系统、数字视频网络系统。前者技术先进,性能稳定,被广泛应用于实际工程应用中,特别是大中型视频网络项目。后者作为一种新兴技术,是一种通过以计算机技术和视频压缩为核心的新型视频网络系统,其有效的避免了模拟系统所存在的一些弊端,但未来仍需要进行不断的改进和发展。外部集成、视频数字化、视频网络连接、系统集成是未来视频网络系统发展的重要研究方向。数字化是网络的前提,而网络是系统集成的基础。因此,视频网络领域的两个最大发展特征是:数字化和网络化。

1.2人脸识别视频网络的发展状况

人脸识别技术作为模式识别领域中的一项前沿课题,截止目前,已有三十多年的研究历史。人脸识别目前是模式识别和人工智能的研究热点,目前主要采用AdaBoost分类器进行人脸区域的检测,人脸识别研究的内容大致分为以下内容:(1)人脸检测:其指的是在不同场景下的人脸检测及其位置。人脸检测是通过在整个输入的图像中找到一个合适的人脸区域为目的,并将该图像分为人脸区域和非人脸区域两部分。在实际的某些理想情况下,由于可以人为手动控制拍摄环境,因此,可以轻松确定人脸的位置;但是在大多数情况下,由于场景更加复杂,因此,人脸的位置是未知的。因而在实际的人脸识别视频网络过程中,首先必须确定识别场景中是否有人脸的存在,如果存在人脸,再进一步确定图像中人脸的具体区域。(2)人脸识别:将系统检测到的人脸特征信息与系统数据库中存在的已知人脸信息进行充分识别与匹配,以此获取相关信息,该过程的本质是选择正确的人脸模型和匹配策略。在实际生活的应用当中,由于成人的面部模型处于不断变化当中,且容易受到时间、光线、相机角度等方面的差异,因而很难用一张图纸表达同一个人的面部图像,这使得提取特征变得困难,由于大量的原始灰度图像数据,神经元的数量通常很大并且训练时间很长。除此之外,完全依赖于神经网络的识别方法具有当前计算机系统固有的局限性,尽管神经网络具有很强的感应能力,但是随着样本数量的增加,其性能可能会大大降低。简而言之,由于年龄,表情,倾斜度和其他表征对象的因素的多样性,很难进行人脸识别,因此,识别该对象的效果仍远未达到现实。目前,普遍采用AdaBoost算法来对出现在视频中的人脸区域进行检测,以此达到实时获取人脸图像的目的,AdaBoost算法的原理是通过训练得到多个不同的弱分类器并将这些弱分类器通过叠加、级联得到强分类器,AdaBoost算法流程如图1所示。(3)表情分析:即对面部表情信息(幸福,悲伤,恐惧,惊奇等)进行分析和分类。当前,由于问题的复杂性,正在对面部表情的分析进行研究,它仍处于起步阶段。心理学表明,至少有六种与不同面部表情相关的情绪:幸福,悲伤,惊奇,恐惧,愤怒和恶心。即与没有表情的面部特征相比,这六个表情的面部特征具有相对独特的运动规则。(4)生理分类:分析已知面孔的生理特征,并获得相关信息,例如种族、年龄、性别和职业。显然,此过程需要大量知识,通常非常困难和复杂。

2物联网卷积神经网络人脸识别方法分析

卷积神经网络是专门设计用于识别二维形状的多层感知器。通常,可以使用梯度下降和反向传播算法来训练网络。从结构上讲,卷积神经网络包含三个概念:局部感受野、权重共享和下采样,使其在平移,缩放,倾斜或其他形式的变形中相当稳定。当前,卷积神经网络被广泛用于模式识别,图像处理和其他领域。卷积神经网络(CNN)用于提取目标人脸图像的特征。训练网络后,将先前测试的模型用作面部分类器,微调可以缩短网络模型的训练时间。卷积神经网络的基本体系结构是输入层,卷积层(conv),归约层(字符串),完全连接层和输出层(分类器)。通常有多个卷积层+速记层,此程序实现的CNN模型是LeNet5,并且有两个“卷积+下采样层”LeNetConvPoolLayer。完全连接的层等效于MLP(多层感知器)中的HiddenLayer。输出层是一个分类器,通常使用softmax回归(有些人称为直接逻辑回归,它实际上是多类逻辑回归)。LogisticRegression也直接提供了该软件。人脸图像在视频监控中实时发送到计算机,并且面部区域部分由AdaBoost算法确定。在预处理之后,将脸部图像注入到新训练的预训练模型中进行识别。该过程如图2所示。

3物联网人脸识别视频网络多目标算法优化

多目标优化问题的实质是协调并在各个子目标之间达成折衷,以便使不同的子目标功能尽可能地最佳。工程优化的大多数实际问题都是多用途优化问题,目标通常相互冲突。长期以来,多目标优化一直受到人们的广泛关注,现在已经开发出更多的方法来解决多目标优化问题。如果多标准优化没有最差的解决方案,那么通常会有无限多的解决方案,这并不是最差的解决方案。解决面部强调时,人们不能直接应用许多次等解决方案。作为最后的决定,我们只能选择质量不是最低,最能满足我们要求的解决方案。找到最终解决方案的方法主要有三种。因此,只有通过找到大量有缺陷的解决方案以形成有缺陷的解决方案的子集,然后根据我们的意图找到最终的解决方案。基于此,多目标算法是通过将多准则问题转变为一个关键问题,这种方法也可以视为辅助手段。这种方法的棘手部分是如何获取实际体重信息,至于面部特征,我们将建议一种基于权重的多功能优化算法,该算法可以更好地反映脸部的特征。我们将人脸的每个特征都视为多个目标,并且在提取面部特征时,面部特征会受到外界的强烈影响,例如位置,光照条件和强度的变化,并且所有部位和每个部位都会受到影响。因此,我们可以使用加权方法从每个受影响的分数中提取不同的权重。通过开展试验测试,结果表明,在有多目标优化的算法的作用下,比在没有多目标优化的算法作用下人脸识别效果有所提高,大约提高了5—10个百分点。

4结论

鉴于多准则优化算法在科学研究的各个领域中的广泛使用,本文提出了一种多准则优化算法来对复杂的多准则人脸图像上的各种面部特征进行特征提取的多准则优化,以达到提高人脸识别率的目标、提高整个人脸识别视频网络系统的性能。

参考文献

[1]江斌,桂冠.基于物联网的人脸识别视频网络的优化方法研究[C]//物联网与无线通信-2018年全国物联网技术与应用大会论文集.2018.

[2]余雷.基于物联网的远程视频监控优化方法研究[J].科技通报,2014(6).

[3]张勇.远程视频监控系统的传输技术的实现[D].电子科技大学,2011(9)

神经网络卷积层的作用范文第3篇

关键词:卷积神经网络;人脸识别;大样本;对抗生成网络

中图分类号:TP391 文献标识码:A 文章编号:2095-1302(2017)07-00-04

0 引 言

近几年,基于大量训练数据的卷积神经网络(Convolutional Neural Networks,CNN)在目标检测、目标识别、显著性检测、行为识别、人脸识别和对象分割等计算机视觉领域取得了举世瞩目的成果。这些令人鼓舞的成绩主要归功于以下几点:

(1)将大量有标签的数据作为训练集,学习出具有百万参数的模型,从而使卷积神经网络能够有效提取对象的本质特征;

(2)不断改进性能优异的网络结构,如Very Deep VGG Network[1],Google Inception Network[2]和Deep Residual Networks[3]等;

(3)各种并行计算硬件设备(如GPU)的支持,大大提高了CNN训练模型的效率。其中,将标签的大量数据作为训练集起着至关重要的作用。

本文以人脸识别为例,讨论和综述多样本算法的研究现状和发展方向。

有效的特征是目标识别的关键,对人脸识别问题来说亦如此。传统的主成分分析(Principal Component Analysis,PCA)[4,5],线性区分分析(Linear Discriminant Analysis, LDA)[6]和局部二值模式化(Local Binary Pattern,LBP)[7,8]等取得了不错的成绩。基于传统特征的人脸识别受限于环境,此类特征作用在复杂或者背景多变的人脸图像时,其识别性能往往大幅下降,如在LFW数据集上其识别率骤然下降[9]。

采用CNN作为特征提取模型,主要考虑到该模型的所有处理层,包括像素级别的输入层,均可从数据中学习到可调节的参数。即CNN能自哟哟笫据中学习特征,无需人工设计特征。合理有效的特征需从大量数据和大量参数中自动学习获取,从而达到优秀的识别性能。基于卷积神经网络的世界领先方法均使用了上百万的数据,其中最具有代表性的如VGG-Face网络需要260万个人脸图像样本进行训练[10],Facebook的DeepFace网络需要440万个有标签的人脸图像样本训练[11]。而Google更使用了2亿样本数据来训练FaceNet网络[12]。

1 多样本获取现状

如引言所述,有效合理的特征是目标识别的关键,而CNN能从大量有标签的数据中自动学习图像的本质特征。获得图像特征的关键因素是有标签的大数据。因此许多研究的前提工作均聚焦在人工获取数据和给数据加标签方面。然而,获取百万级的数据并非易事。大数据获取需要人工从网上下载、处理,然后给数据添加标签,耗费大量的人力物力。虽然也有一些公开免费的数据集,且收集该类数据相对比较容易,如CASIA-WebFace[13],有49万个图像,但远少于Facebook和Google的数据集。在这种情况下,缺乏大量样本直接阻碍了深度学习方法的使用,成为阻碍提高检测率和识别率的瓶颈。除了深度学习技术提取特征需要大量样本外,已有研究证明[14-19],基于传统方法的技术同样需要大量样本作为支撑。在这种形势下,通过图像处理与机器学习技术自动增加样本集已成为必要手段。

无论基于传统方法的识别问题,还是基于深度学习的识别问题,大量有标签的数据作为训练集在算法中起着举足轻重的作用。如果样本不足,算法往往过拟合,无法提高算法的性能。为了获得更多样本,一些研究工作从网络上获取数据,例如在IMDb上,已经把9万有标签的数据集扩大到了26万 [10]。除此之外,Facebook获取了440万个有标签的人脸进行DeepFace网络训练[11],而Google使用2亿个数据训练FaceNet网络[12]。

目前获取方法具有如下局限:

(1)现有方法耗时耗力,需要经费支持。获取百万级的数据并非易事。大数据获取需要人工从网上下载、处理,然后给数据添加标签,耗费大量的人力物力。这种情况下,只有像Facebook和Google这样的大公司会收集大量有标签的数据进行网络训练。而大多数情况下的数据收集涉及个人隐私与财力物力等问题,对于一般的小公司或科研院所而言,收集数据普遍难度较大。

(2)收集特殊图片困难。对于一些特殊的图像,如医学图像,遥感图像,现实中数量本身就少,加之无法直接从网上获取,因此小样本很容易导致过拟合。

2 样本集扩大算法研究现状

2.1 基于传统方法的多样本算法研究现状

对于传统的样本生成算法,如果数据集中有足够的训练样本,均可得到比较满意的识别结果,但在现实的人脸数据库中,人脸的数据样本却是有限的。文献[20]表明,增加图像样本的数量可以较大幅度提高识别的准确率。

为了增加样本数量,提高识别准确率,科研工作者已做了大量工作。其中,借助原始样本产生虚拟样本是一种有效的增加数据集方法。这种方法大致分为如下几类:

(1)通过人脸图像的对称性来得到原始样本的虚拟样本,如Xu[14,15]和Liu等[21]提出借助原始图像的“对称脸”和“镜像脸”产生虚拟样本,从而扩大数据集并提高人脸识别的正确率,Song[22]也提出相应的算法来改进人脸识别的性能;

(2)通过改变图像的光照、姿势和表情等来产生虚拟样本,例如Boom等用一种称为VIG的方法对未知光照情况进行建模[16],Abdolali[17]和Ho[18]等提出了类似的算法扩大数据集;

(3)基于人脸图像自身的特征生成虚拟样本,Ryu等根据原始样本的分布来产生虚拟样本[19],Liu等也根据图像本身特性来产生虚拟样本[23]。

(4)基于数学的多样本产生方法,如Zhang等提出利用奇异值分解的方法获得基于原始样本的虚拟样本[24]。借助图像合成方法生成的新样本如图1所示。

图1 借助图像合成方法生成新样本

除了借助图像处理方法获得原始样本的新样本外,还可以利用图像合成算法获取多样本,本研究做了相关实验,其结果如图1所示。假设数据集中有c类人脸图像,每类有ni个样本,令表示第i类中的第j个样本,这里i=1,2,…,c,j=1,2,…,ni,h和w分别代表样本xij的高和宽(均为像素值)。用X=[X1,X2,…,Xc]代表所有样本,则Xi=[xi1,xi2,…,xini],i=1,2,…,c代表第i类样本。则有:

其中, P(Xi)代表所生成的第i类新样本, f(g)表示图像处理函数,代表多个样本的串联,即将多个样本联合起来得到一个类别的新样本。

2.2 基于深度学习的多样本生成算法研究现状

大量有标签的训练数据是机器学习成功的关键,尤其对于强大的深度学习技术,大数据集能提高CNN的性能,防止过拟合[25]。为了扩充数据集,已有一些工作在不改变图像语义的情况下进行,如水平镜像[26]、不同尺度的剪裁[27,28]、旋转[29]和光照变化[27]等传统方法。

DeepID[30]采取了增大数据集手法来训练网络,只有大的数据集才能使得卷积神经网络训练得更加充分,该研究采用两种方法增大数据集:

(1)选择采集好的数据,即映入CelebFaces数据集。

(2)将原始数据集中的图片多尺度、多通道、多区域的切分,然后分别进行训练,再把得到的向量串联起来,即得到最后的向量。

以上方法仅局限于相对简单的图像处理技术,该类方法生成的多样本具有一定的局限性。比如,真正意义上的旋转应按一定的角度进行3D旋转,而不仅仅是图像本身的角度旋转。合成数据能一定程度上解决以上问题,如Shotton等通过随机森林合成3D深度数据来估计人体姿势,Jaderberg等使用合成数据来训练CNN模型识别自然场景下的文字[31]。这些研究的结果均优于使用剪裁,旋转等传统方法。但使用3D合成图像比较复杂,需要较多的前期工作。

近年来,借助生成对抗网络(Generative Adversarial Networks,GANs)来生成原始样本的方法吸引了很多学者。2014年6月,Goodfellow 等发表了论文《Generative Adversarial Nets》[32],文中详尽介绍了GANs的原理、优点及其在图像生成方面的应用,标志着GANs的诞生。早期的GANs模型存在许多问题,如GANs网络不稳定,甚至有时该网络永远不会开始学习,生成的结果无法令人满意。文献[32]中生成器生成的图片十分模糊,针对此问题,Denton等提出一个被称为 LAPGANs的模型[33],该模型用多个卷积神经网络连续生成图像,这些新图像的清晰度不断提高,最终得到高分辨率图像。GANs除了基于图像生成图像外,还可以通过文字生成图像,如文献[34]搭起了文本到图像的桥梁,通过GANs将文本直接转换成对的图像。文献[35]将GAN应用于超分辨率中,该文献提出了全新的损失函数,使得 GANs 能对大幅降采样后的图像恢复其生动纹理和小颗粒细节。另外,Radford 等提出了名为DCGANs的网络[36],该文献指出,用大数据集训练出的 GANs 能学习一整套层级的特征,并具有比其他无监督学习模型更好的效果。以上方法均为基于一大类原始样本生成另一大类图像。

基于GAN生成样本的过程如图2所示。首先将同类别的原始图像输入到生成对抗网络GAN的生成器网络G中,生成“假冒”图像G1和G2,接着借助判别器D来判断输入的图像是真实图像还是“假冒”图像。生成器G努力生成类似原始样本的图像,力争判别器D难以区分真假;而判别器D应不断提高自身性能,有能力鉴别出由生成器G生成的图像为赝品。生成器G和判别器D的价值函数如下:

生成器G最小化log(1-D(G(z))),判别器D最大化logD(x),使得最大概率按照训练样本的标签分类, 生成模型G隐式定义了一个概率分布Pg,希望Pg 收敛到数据真实分布Pdata。

图2 GAN生成新样本示意图

3 结 语

综上所述,基于原始样本的多样本生成算法是一个值得深入研究探索的问题,具备清晰而明确的理论意义和现实应用意义。虽然研究人员已经对相关问题进行了一些研究,取得了一系列成果,但是多样本的产生方法缺乏全面、深入的理解,尚未出现具有里程碑意义的研究成果。具体而言,本文认为,基于原始样本的多样本生成问题需要在如下几个方面展开深入的研究:

(1)在研究多样本生成算法时,保留原始样本的本质特征,如在人脸识别中,抛弃不必要信息(光照、表情和姿势)的影响是一项十分有意义的工作。

(2)在合成新样本时,设计合理有效的构造元素,使合成的新表示更接近自然亦是一个值得研究的方向。

(3)基于生成对抗网络,研究某一类对象的生成新样本的核心算法是一项有意义的工作。

参考文献

[1] K Simonyan, A Zisserman.Very deep convolutional networks for large-scale image recognition [Z]. Computer Science, 2014.

[2] C Szegedy,W Lin,Y Jia, et al. Going deeper with convolutions[C]. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015.

[3] K He,X Zhang,S Ren,et al. Deep residual learning for image recognition[C]. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016.

[4] Turk, Matthew, Pentland, et al.Eigenfaces for Recognition[J]. Journal of Cognitive Neuroscience, 2014,3(1): 71-86.

[5] A Pentland.Looking at People: Sensing for Ubiquitous and Wearable Computing[J].IEEE Transactions on Pattern Analysis & Machine Intelligence, 2000,22(1): 107-119.

[6] C Liu, H Wechsler.Robust coding schemes for indexing and retrieval from large face databases[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2000,9(1): 132-137.

[7] T Ojala,M Pietik?inen.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2002,24(7): 404-420.

[8] T Ahonen, A Hadid, M Pietikainen.Face Description with Local Binary Patterns: Application to Face Recognition[J]. European Conference on Computer Vision, 2004,28(12): 469-481.

[9] GB Huang, M Mattar, T Berg,et al. Labeled faces in the wild: A database for studying face recognition in unconstrained environments[Z].Month,2008.

[10] OM Parkhi, A Vedaldi, A Zisserman.Deep Face Recognition[C]. British Machine Vision Conference, 2015.

[11] Y Taigman,M Yang, Marc, et al. DeepFace: Closing the Gap to Human-Level Performance in Face Verification[C]. in Conference on Computer Vision and Pattern Recognition,2014.

[12] F Schroff,D Kalenichenko,J Philbin.FaceNet: A unified embedding for face recognition and clustering[C]. in IEEE Conference on Computer Vision & Pattern Recognition,2015.

[13] D Yi,Z Lei, S Liao, et al.Learning face representation from scratch[Z]. Computer Science, 2014.

[14] Y Xu, X Zhu, Z Li, et al.Using the original and ‘symmetrical face’ training samples to perform representation based two-step face recognition[J]. Pattern Recognition, 2013,46(4): 1151-1158.

[15] Y Xu.Integrate the original face image and its mirror image for face recognition[J]. Neurocomputing, 2014,31(7): 191-199.

[16] BJ Boom, LJ Spreeuwers, RNJ Veldhuis.Virtual illumination grid for correction of uncontrolled illumination in facial images[J]. Pattern Recognition, 2011,44(9): 1980-1989.

[17] F Abdolali,S Seyyedsalehi. Improving pose manifold and virtual images using bidirectional neural networks in face recognition using single image per person[Z]. in International Symposium on Artificial Intelligence and Signal Processing,2011.

[18] HT Ho,R Chellappa. Pose-invariant face recognition using Markov random fields[J].IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2013,22(4): 1573.

[19] Y.-S., Ryu.,S.-Y., O..Simple hybrid classifier for face recognition with adaptively generated virtual data[J]. Pattern Recognition Letters, 2012,23(7): 833-841.

[20] A Wagner,J Wright, A Ganesh,et al.Toward a Practical Face Recognition System: Robust Alignment and Illumination by Sparse Representation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2012,34(2): 372-386.

[21] Z Liu,X Song,Z Tang.Integrating virtual samples and fuzzy discriminant analysis for sparse representation-based face classification[J]. Journal of Electronic Imaging, 2015,24(2): 23013.

[22] YJ Song,YG Kim,UD Chang,et al. Face recognition robust to left/right shadows; facial symmetry[J]. Pattern Recognition, 2006,39(8): 1542-1545.

[23] Z Liu, X Song, Z Tang.Fusing hierarchical multi-scale local binary patterns and virtual mirror samples to perform face recognition[J]. Neural Computing & Applications, 2015,26(8): 2013-2026.

[24] G Zhang,W Zou,X Zhang,et al. Singular value decomposition based sample diversity and adaptive weighted fusion for face recognition[J]. Digital Signal Processing, 2017,62: 150-156.

[25] K Chatfield,K Simonyan,A V edaldi,et al. Return of the devil in the details: Delving deep into convolutional nets[Z]. Computer science, 2014.

[26] H Yang, I Patras.Mirror, mirror on the wall, tell me, is the error small? [J]. Der Chirurg; Zeitschrift für alle Gebiete der,2015,69(12):235-240.

[27] A Krizhevsky, I Sutskever, GE Hinton. ImageNet Classification with Deep Convolutional Neural Networks [J]. Advances in Neural Information Processing Systems, 2012,25(2): 1097-1105.

[28] G Levi,T Hassner. Age and gender classification using convolutional neural networks[C].in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops,2015.

[29] S Xie, Z Tu. Holistically-nested edge detection[C]. in Proceedings of the IEEE International Conference on Computer Vision,2015.

[30] Y Sun, X Wang, X Tang.Deep Learning Face Representation from Predicting 10,000 Classes[C]. in Computer Vision and Pattern Recognition,2014.

[31] M Jaderberg, K Simonyan,A Vedaldi,et al.Synthetic data and artificial neural networks for natural scene text recognition[Z]. Eprint Arxiv, 2014.

[32] I Goodfellow,J Pougetabadie, M Mirza, et al. Generative adversarial nets[Z]. in Advances in neural information processing systems, 2014.

[33] E Denton,S Chintala,A Szlam. Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks[Z]. Computer science,2015.

[34] S Reed,Z Akata, X Yan,et al. Generative adversarial text to image synthesis[C]. in Proceedings of The 33rd International Conference on Machine Learning,2016.

神经网络卷积层的作用范文第4篇

关键词: 粮虫检测; 特征提取; RBF神经网络; 图像识别

中图分类号: TN911.73?34; S24 文献标识码: A 文章编号: 1004?373X(2017)04?0107?04

Application of image recognition processing technology in agricultural engineering

ZHOU Qingsong, TANG Xiuzhong

(School of Technology, Puer University, Puer 665000, China)

Abstract: A grain insect detection method based on image recognition processing is studied. The image recognition processing technology is applied to the agricultural engineering. The gray processing, binaryzation, smoothing and sharpening techniques are used to preprocess the grain insect image to make it easier to conduct the edge detection and image feature extraction. The commonly?used four edge detection methods are adopted to detect the edge of the grain insect image under recognition. Eight regional descriptor features of the grain insect image are taken as the input characteristics of the grain insect recognition model. Three familiar grain insects of maize weevil, tribolium and coleoptera are selected as the research objects, and the identification model based on RBF neural network is used to recognize the geometric feature of three grain insect images.

Keywords: grain insect detection; feature extraction; RBF neural network; image recognition

0 引 言

目前储粮害虫问题是世界上很多国家所面临的困难,在很多国家每年都会因为粮食害虫而损失很多粮食。在遭受到粮食害虫的侵害以后粮食的籽粒会被破坏,容易变质、Y块、发热以及发霉,另外在老化死去害虫尸体、粪便以及有毒液体的影响下粮食会受到较为严重的污染[1]。

总的来说,目前主要有四种方法来检测粮食害虫:首先是取样法,将所制作的扦样器按照区域定点的方法安装在储粮库内。采用电机或者人工的方法吸取粮食样本,然后交由技术人员分类、鉴别以及筛选,这样就可以对库区粮食害虫密度进行确定。这种方法需要较大的劳动量,降低了工作效率,另外人为主观因素容易对最后的结果产生影响,因此产生了较大的误差。其次是诱捕法,通过对粮食害虫生理特性以及习性的利用来采取合适的诱捕方式,主要包括粮食害虫生理特性诱集法以及陷阱式诱集法两种。但是在应用诱捕法的过程中需要制作诱导剂以及提取粮食害虫的信息素,由于具有较强的针对性,而且具有种类繁多的粮食害虫,因此所消耗的成本比较大,所以以上两种方法也存在着一定的缺陷。再次是声测法,通过对声音监测装置的应用,分析害虫爬行以及吃食时的声音,进而就可以获取粮食害虫密度信息。在应用这种方法的过程中会在周围产生较大的噪音,同时需要花费较大的资金来制造声音监测装置,所以目前这种方法并没有得到广泛的应用。最后一种方法是近红外反射光谱识别法,粮食害虫的C,H,N成分存在着很大的差距,因此就会产生不同的近红外线光谱,这种不同种类的粮食害虫就可以通过NIR 的扫描来进行识别。但是这种方法仍然存在着一定的缺陷,例如粮食的不完整颗粒以及颗粒大小等物理因素会对扫描结果产生一定的影响,使得无法获得准确和清晰的NIR 扫描图像[2?3]。

除了使用声音检测方法外,其他方法不利于实现自动化粮虫检测,人工检测方法效率低、成本高,因此本文研究一种基于图像识别处理的粮虫检测方法,将图像识别处理技术应用于农业工程。

1 粮虫图像预处理

1.1 图像灰度化处理

在分析粮虫图像的过程中首先需要进行图像颜色之间的转换,通常是将彩色转换为灰色,这样既能够加快图像的处理速度,另外还能够方便地将处理后的信息向原来的图像上进行转移。

通常利用最大值法、加权平均法以及平均值法来进行彩色图像和灰色图像之间的转换。本文在进行彩色图像灰度化处理的过程中主要采用了最大值法,这种方法比较简单,采用三原色R,G,B来对图像的灰度值进行描述[4]。

1.2 二值化

采用二值化手段来处理粮虫图像,这样能够重点显示对象区域,对于后续的分析和辨别非常有利。由于在灰度上目标图像与背景图像存在着较大的差距,因此可以根据灰度值的不同来对目标图像进行区分。分别用0和1来表示目标图像和背景图像,这样就能够实现灰色图像和二值图像之间的转换,具有较高的识别度。本文只对单个的背景和图像进行了分析。因此在数据对比的过程中使用了一个阈值Th,达到分类像素群的目的。将图像中的背景灰度值以及目标灰度值分别设置[5]为1和0。

1.3 图像平滑

本文使用邻域平均法对粮虫图像进行平滑处理。所应用的均值滤波的邻域平均法实际上就是进行空域平滑处理,首先在相同的窗口上放置图像,平均所有的像素灰度值,通过对中心部位像素灰度值的替代就能够达到平滑的目的。均值滤波和低通滤波器具有相同的作用,输出的图像可以用离散卷积来进行表示[6]。

1.4 图像锐化

通过对图像的锐化处理能够达到修复外部形状以及进行图像边缘聚焦的目的。通过图像灰度颜色的加深以及外援色彩数值的对比能够对图像的清晰度进行提升。目前Sobel算子、Laplace算子以及Robert算子是图像锐化过程中经常采用的算子,本文在图像锐化的过程中采用了Robert算子。

2 边缘检测

在经过上述的预处理后,能够显著地提升图像的质量,但是还需要采用图像边缘检测技术来对图像中的背景和目标进行区分[7]。

(1) Roberts 边缘检测算子。Roberts 边缘检测算子是使用局部差分算法实现。其中原始图像用f(x,y)表示,边缘检测后输出的图像用g(x,y)表示:

(1)

利用互相垂直方向上的差分Roberts 边缘检测算子就可以对梯度进行计算,另外边缘之间的检测可以利用对角线方向相邻像素之差来实现。

通过对模板的利用能够对Roberts 的梯度幅度G进行计算,进而得到合适的阈值T,当G>T时,该点就是阶跃边缘点,进而获取边缘图像。

(2) Sobel 边缘检测算子。Sobel边缘检测算子考察各个像素的邻域加权差,加权差值最大的点就是边缘点:

(2)

算子模板为:

(3)

(3) Prewitt 边缘检测算子。算子和算子具有相似的特点:

(4)

算子模板为:

(5)

(4) Laplacian 边缘检测算子。边缘检测算子,通过在边缘处产生陡峭的零交叉来实现边缘检测的目的[8]:

(6)

本文选取常见的玉米象、拟谷盗和锯谷盗三种粮虫为研究对象,使用上述四种边缘检测方法对粮虫图像边缘进行检测,其中检测效果最好的是使用边缘检测算子,检测效果最差的是使用边缘检测算子。两种算子检测结果如图1所示。

图1 两种算子对玉米象、拟谷盗和锯谷盗三种粮虫的边缘检测

3 粮虫图像特征提取

区域描述子特征在图像分析的过程中具有非常强的实用效果。因此本文使用粮虫图像的八种区域描述子特征作为粮虫识别模型的输入特征[9?10]:

(1) 面积A:图像中待识别对象面积像素点个数总和:

(7)

(2) 周长P:待识别对象的周长:

(8)

式中,SUM(in)为4邻域内像素均为待识别对象的像素个数总和。

(3) 相对面积RA:待识别对象面积占图像总体比例:

(9)

(4) 延伸率S:待R别粮虫图像的最小外接矩形的宽度比上长度值[11]:

(10)

(5) 复杂度C:待识别对象紧凑性:

(11)

(6) 占空比B:反应待识别对象的复杂程度:

(12)

(7) 等效面积圆半径R:

(13)

(8) 偏心率E:待识别对象长短轴长度之比,描述了待识别对象的紧凑性,使用Tenebaum近似计算公式对偏心率E求解:

平均向量求解:

(14)

j+k阶中心矩求解:

(15)

方向角求解:

(16)

偏心率E近似求解[12?13]:

(17)

4 粮虫识别实验

本文选取常见的玉米象、拟谷盗和锯谷盗三种粮虫为研究对象,对其图像进行处理识别。分别使用边缘检测算子、边缘检测算子、边缘检测算子和边缘检测算子对其图像进行边缘检测,并提取其图像的面积A、周长P、相对面积RA、延伸率S、复杂度C、占空比B、等效面积圆半径R和偏心率E这八个特征用于对三种粮虫的识别,具体特征值如表1所示。

使用基于RBF神经网络的识别模型对三种粮虫图像的几何形态特征进行识别,识别原理如图2所示。

选取50张玉米象图像、50张拟谷盗图像和50张锯谷盗图像以及20张无粮虫图像对基于RBF神经网络的识别模型进行训练,提高其识别粮虫图像的泛化能力。

基于RBF神经网络的识别模型的输入向量为粮虫图像的八种特征,即输入节点数为8;基于RBF神经网络的识别模型的输出向量结果为玉米象图像、拟谷盗图像、锯谷盗图像以及无粮虫图像4种,即输出节点数为4;隐含层节点数根据经验公式计算。

分别使用20张玉米象图像、20张拟谷盗图像和20张锯谷盗图像对训练后的基于RBF神经网络的识别模型进行测试。

能够得到使用边缘检测算子、边缘检测算子、边缘检测算子和边缘检测算子对其图像进行边缘检测后,以及使用基于RBF神经网络的识别模型对粮虫图像的识别结果如图3所示。

从基于RBF神经网络识别模型的粮虫识别结果可以看出,分别使用边缘检测算子、边缘检测算子、边缘检测算子和边缘检测算子对其图像进行边缘检测后,识别模型对三种粮虫的平均识别率为80.65%,81.96%,80.34%和78.56%,说明在其他情况相同情况下,使用Sobel 边缘检测算子对粮虫图像边缘检测对于粮虫图像识别准确率是最有利的,而使用Laplacian 边缘检测算子后粮虫图像的识别率最低。

5 结 论

本文研究一种基于图像识别处理的粮虫检测方法,将图像识别处理技术应用于农业工程。选取常见的玉米象、拟谷盗和锯谷盗三种粮虫为研究对象,对其图像进行处理识别。分别使用边缘检测算子、边缘检测算子、边缘检测算子和边缘检测算子对其图像进行边缘检测,并提取其图像的面eA、周长P、相对面积RA、延伸率S、复杂度C、占空比B、等效面积圆半径R和偏心率E这八个特征用于对三种粮虫的识别,使用基于RBF神经网络的识别模型对三种粮虫图像的几何形态特征进行识别。结果表明,在本文的研究条件下,使用边缘检测算子对粮虫图像边缘检测对于粮虫图像识别准确率是最有利的,而使用边缘检测算子后粮虫图像的识别率最低。

参考文献

[1] 代亭.粮食害虫智能检测及分类方法研究[D].郑州:河南工业大学,2012.

[2] 张明真.储粮害虫活动声信号识别研究[D].西安:陕西师范大学,2013.

[3] 张红涛.储粮害虫图像识别中的特征抽取研究[D].郑州:郑州大学,2002.

[4] 张成花.基于图像识别的储粮害虫分类的研究[D].郑州:郑州大学,2002.

[5] 韩瑞珍.基于机器视觉的农田害虫快速检测与识别研究[D].杭州:浙江大学,2014.

[6] 葛恒赫.基于机器视觉的外螺纹表面缺陷检测技术研究[D].重庆:重庆大学,2014.

[7] 王凡.基于机器视觉的螺纹缺陷检测技术研究和系统开发[D].成都:电子科技大学,2011.

[8] 梅雪.基于图像识别的储粮害虫检测专家系统的研究[D].北京:北京邮电大学,2009.

[9] 张卫芳.基于图像处理的储粮害虫检测方法研究[D].西安:陕西师范大学,2010.

[10] 张红梅,范艳峰,田耕.基于数字图像处理技术的储粮害虫分类识别研究[J].河南工业大学学报(自然科学版),2005(1):19?22.

[11] 胡祝华,赵瑶池,白勇,等.基于图像处理技术的储粮害虫快速识别[J].安徽农业科学,2014(30):10784?10787.

[12] 苏庭奕.基于图像处理的储粮害虫检测及识别方法研究[D].郑州:河南工业大学,2015.

神经网络卷积层的作用范文第5篇

关键词:计算机视觉;课堂考勤;深度学习;MCV架构

前言

随着国家标准《智慧校园总体框架》(Smartcampusoverallframework)的,智慧校园的规划与设计成为了校园建设的重点项目[1]。而课堂考勤作为学校教学管理、学生评价的重要组成部分,随着物联网技术、人工智能和移动通信技术的水平的提高与发展,更应该向着智能化、准确化的方向发展[2]。本文研究了的当前应用的课堂考勤方式,并做了进一步的分析,最终根据社会技术的革新与发展[3],提出了一种基于计算机视觉的实时课堂考勤系统的设计。我们的主要工作是搭建了整个系统框架,包括数据库系统、服务器、计算机视觉模型、网络通信、图像采集系统、客户端和网络通信系统。

1课堂考勤方式现状

目前校园中主要的课堂考勤方式存在为两种,分别是传统的考勤方式和生物识别的考勤方式。如图1所示,其中传统的考勤方式包括点名考勤和通过校园卡进行考勤,点名考勤的方式仍然是高校中最常用的考勤手段,因它不受场地的限制,可以根据点名册直接核对现场的学生信息,但这种方式存在的缺点就是花费时间,影响上课效率,为此有些教师不进行点名,因此影响了考勤的效果。校园卡考勤解决了点名占用课堂时间的问题,但这种方式具有学生代考勤的漏洞,因为学生可以拿着别人的校园卡进行考勤。生物识别的考勤方式包括指纹考勤和人脸识别考勤,这些方式有效解决了传统考勤方式代考勤的弊端,但这种方式受设备硬件的影响,识别能力太慢,尤其是在下课后学生较多,考勤签退时容易发生拥挤等现象,具有安全隐患[4]。因此,为解决当前考勤方式存在的一些弊端,本文设计了一种基于计算机视觉的实时课堂考勤系统。

2系统设计基础

2.1系统开发环境

本文设计的实时课堂考勤系统主要是使用Python开发语言,Python是目前最流行开发语言之一,主要应用于Web服务设计、大数据、人工智能等领域,它的主要优点是开发效率高、可扩展性强、跨平台和具有可移植性等,满足了本文系统的设计要求。另外,在开发过程还用到了基于Python的第三方软件开发包,包括Flask用于搭建系统的Web服务器;PyQt5用于搭建系统的客户端;OpenCV用于系统中对图像视频的处理;Tensoflow用于开发计算机视觉模型,搭建深度学习模型,完成人脸检测和识别任务;Mysqlclient用于管理、访问、查询和更新Mysql数据库。

2.2系统开发框架

本文设计的实时课堂考勤系统通信基于Web应用,因此选择一个合适的服务架构有利于提高系统的开发和部署效率。目前较流行的Web应用主要有MVC(ModelViewController)和CMS(ContentManagementSystem)两种架构。本文使用了基于Python和Flask搭建的MVC架构[5],该架构如图2所示,主要包括模型层、视图层和控制器。使用该框架的优点是可将视图层和业务逻辑层进行分离开发,提高开发效率,方便系统的部署、维护和管理。

3系统设计方式

3.1系统总结构设计

本文设计的实时课堂考勤系统的总体结构如图3所示。根据MVC构架的设计,我们将该系统分为了模型层、控制器层和视图层,另外还包括网络通信设备。

3.2模型层设计

模型层主要是关系型数据库模,MySQL是目前使用最多的关系型数据库系统,也是学校管理系统使用最多的数据系统,为了更好地与学校管理系统兼容,我们选择了MySQL数据库,数据表之间的关系如图4所示。

3.3控制器层设计

控制器层主要包括服务器应用软件和计算机视觉模型,服务器应用软件的功能包括系统通信配置、数据业务处理和系统各模块间的调度。计算机视觉模型是实时课堂考勤系统的核心模块,基于深度学习卷积神经网络实现[6],主要作用是进行人脸检测和识别两个部分,计算机视觉模型的工作流程如图5所示。在人脸检测阶段使用VGG16检测器作为主干网络,为提高模型的检测准确率,通过引入注意力模型和多尺度特征融合对网络进行了优化,有效地从输入图片中提取人脸位置信息,得到人脸图像。在人脸识别阶段首先使用FaceNe人脸识别网络提取人脸图像的特征图,然后通过决策树算法与待检测的人脸特征进行匹配,从而识别图片中的学生信息。

3.4视图层设计

本文设计的实时考勤系统的模型层主要包括图像采集系统和客户端。目前各学校教室内都安装有监控设备,因此为节约成本和安装消耗,图像采集系统使用教室内的监控设备作为图像采集系统,负责采集教室现场图片。客户端设计首先在本系统中采用应用程序接口,然后在教学管理系统中设计图形化用户界面,通过应用程序接口调用本系统的功能,从而减少资源浪费,方便维护和管理。

4实时考勤功能的实现

实时考勤功能的实现方式如图6所示,首先系统启动后,用户可以随时更新考勤信息,比如在数据库中创建新的考勤表等。接着系统会自动读取考勤表的信息,比如课程所在教室、上课时间。然后启动考勤程序,进行签到、签退操作,并将考勤数据保存到考勤数据表中。整个系统启动完成后可以自动运行,直到关闭系统,而且可以实时进行课堂考勤。

神经网络卷积层的作用范文第6篇

关键词:科学计算;大数据处理;超级计算机;模拟仿真;并行计算

1引言

在现代科学研究和工程实践中,通常使用数学方程式来表示某些自然科学规律,产生了众多复杂繁琐的数学计算问题[1]。基于普通计算工具来解决这些问题,将耗费大量人力物力,甚至无法得到准确结果。而科学计算[2],利用计算机仿真、重现、预测或探索自然世界万物运动规律和演变特性的全过程,通过研究合理的计算方法,设计高效的并行算法,研制合适的应用程序,能准确、高效地模拟各领域研究过程,分析计算结果。然而,普通计算机的科学计算能力往往是有限的,现有的计算能力无法高效地解决某些基础学科和工程技术部门的科学计算问题,如长期天气预报、石油勘探、飞机整体气动力等等。

与此同时,地震检测仪、粒子碰撞器、天文望远镜以及高通量分析装置等大型科学仪器的研制和发展[3],产生了大量非结构化或半结构化的数据,使得“大数据”趋势变得越来越突出[4]。如今,许多科学发现和见解由大量数据集驱动,“大数据”被认为是除了实验、理论和计算方法之外的第四种科学范式[5]。数据生成的容量、速度和多样性构成了分析大数据的主要挑战。

为提高科学计算能力,解决大数据问题,高性能计算(HPC)[6]技术迅猛发展。高性能计算机代表用于解决计算密集型科学和工程问题的高端计算基础设施。我国的高性能计算早已突破每秒浮点运算千万亿次的壁垒,并继续解决性能、可扩展性、可编程性、能效和可靠性等问题,探索新的支持技术以达到e级计算能力。

目前,高性能计算机已在多个领域得到了成功的应用[7],但仍存在大量可供多个研究机构使用的空闲节点。本文简介了一些高性能计算机系统及其性能,针对近年来在高性能计算机上的各大领域应用实例进行总结,并对在其他领域的应用做出了展望,以促进更高效、全面地使用高性能计算机。

2高性能计算机系统概述

中国首台千万亿次超级计算机,是“天河一号”。“天河一号”超级计算机使用由中国自行研发的“龙”芯片,其峰值计算速度能够达到1.206TFlop/s,同时Linpack实测性能达到了0.563TFlop/s,该超级计算机位居当时公布的中国超级计算机前100强之首,中国成为了继美国之后世界上第二个能够自主研制千万亿次超级计算机的国家。

天河一号采用6144个英特尔通用多核处理器和5120个AMD图形加速处理器,其内存总容量98TB。至于点对点通信的带宽就达到了40Gbps,而其用于共享的磁盘总容量则达到1PB。该超级计算机系统部署于天津滨海新区的国家超级计算天津中心作为业务主机。

2013年,由国防科学技术大学研制的“天河二号”大型超级计算机以每秒33.86千万亿次的浮点运算速度成为全球最快的超级计算机,位列国际大型超级计算机TOP500榜首。随后,“天河二号”实现了世界最快超算“六连冠”。天河二号采用基于加速器的架构[8]。在可接受的总成本、功率预算、支持可靠性、可用性和可服务性(RAS)的能力、应用开发和移植的复杂性下提供高的计算性能。

天河二号的硬件系统由五个子系统组成,包括计算系统、通信系统、存储系统、监控诊断系统和服务系统。它由16000个节点组成,每个节点有2颗基于IvyBridge-EXeonE52692处理器和3颗XeonPhi,每个节点的内存是64GB。所有的计算节点都通过专有的高速互连系统连接。还提供了一个服务子系统的4096个节点,以加快高吞吐量的计算任务,如大数据处理。存储子系统包括256个I/O节点和64个容量为12.4PB的存储服务器。天河二号文件系统命名为h2fs,采用麒麟操作系统、基于SLURM的全局资源管理。支持大多数现代编程语言,包括C、C++、Java、Python等。采用的是新型异构多态体系结构(Multipurpose-Heterogeneous)[9]。

天河二号的系统配置列于表1中。

“天河二号”集科学计算、大数据分析和云计算于一体,被认为是满足工业和社会需求的战略基础设施。以超级计算机为支撑的高性能计算应用正加速向各个领域渗透。

Table1SystemindicatorsofTianhe-2

表1天河二号系统指标

width=375,height=252,dpi=110

在国内早期的高性能计算机研究中,2004年6月超级计算机曙光4000A研制成功,落户上海超级计算中心,标志着继美国和日本之后,中国是第三个能研制10万亿次高性能计算机的国家。曙光能够每秒运算11万亿次,进入全球超级计算机前十名。经过十多年发展,曙光E级高性能计算机系统项目现在是国家“十三五”期间高性能计算的重点专项,其最显著的特点是突破了制约E级计算发展的各个关键技术,通过这样原型机的研制去验证E级的技术路线,为未来真正实现国产E级系统做技术铺垫。

width=642,height=303,dpi=110

Figure1StructureofSugon’sCPU

图1曙光CPU结构

在2016年法兰克福世界超算大会上,“神威·太湖之光”超级计算机系统成为新的榜首,速度较第二名“天河二号”快出近两倍,效率提高三倍。

神威·太湖之光超级计算机由40个运算机柜和8个网络机柜组成。每个运算机柜包含4块由32块运算插件组成的超节点。每个插件由4个运算节点板组成,一个运算节点板又含2块“申威26010”高性能处理器。一台机柜就有1024块处理器,整台“神威·太湖之光”共有40960块处理器。每个单个处理器有260个核心,主板为双节点设计,每个CPU固化的板载内存为32GBDDR3-2133。

在2018年的法兰克福世界超算大会上,美国能源部橡树岭国家实验室(ORNL)推出的新超级计算机“Summit”以每秒12.23亿亿次的浮点运算速度,接近每秒18.77亿亿次峰值速度夺冠,“神威·太湖之光”屈居第二。

3高性能计算机各大领域应用实例分析

为充分发挥高性能计算机的优势,极大限度地满足客户需求,自超级计算机在中国开始发展以来,相关团队都致力于扩展高性能计算在各个领域的利用,迎合各领域应用的计算要求,协助用户配置应用环境,建立高效模型,设计合理并行算法,以实现各领域的科学计算和大数据处理在高性能计算机上的应用。

3.1生物计算与精准医疗

根据广州国家超级计算中心的内部统计[10],生物医学相关应用现在是超级计算中心的主要客户。生物医学研究主要包括生物大分子的结构模拟与功能建模,药物设计与筛选,蛋白质序列分析,基因序列分析与比对,基因调控网络的分析与建模,医疗卫生的双数据分析及生物医学文献挖掘等。

生物医学数据繁多,且一直呈指数增长。如世界最大的生物数据保存者之一,欧洲生物信息学研究所(EBI),存储超过20PB的数据,并且最近每年的数据量都增加一倍[11]。数据源的异质性,包括基因组学、蛋白质组学、代谢组学、微阵列数据、文献等,使其更加复杂。

针对典型类型的大数据——基因组大数据,在大数据框架(如Hadoop和Spark)的帮助下,云计算已经在大数据处理中发挥着积极作用。现在,HPC在中国的快速发展使得以不同的方式解决基因组大数据挑战成为可能。Yang等人[12]强调了在现代超级计算机上增强大数据支持的必要性,提出只需单个命令或单个shell脚本就能使当前的大数据应用在高性能计算机上运行,并且支持多个用户同时处理多个任务的Orion作为高性能计算机的大数据平台。该平台可以根据大数据处理需求,合理分配所需的资源量,并使用HPC系统软件栈自动建立和配置可回收的Hadoop/Spark集群。以华大基因提供的基因组学大数据作为案例研究,测试基因组分析流水线SOAPGaea的FASTQ过滤、读取对齐、重复删除和质量控制四个过程,证明了Orion平台的高效性。

为更好地了解基因的精细结构、分析基因型与表现型的关系、绘制基因图谱,DNA序列分析成为生物医学中的重要课题[12]。

DNA序列的排序是对DNA序列分析的基础[13]。通常先使用测序仪得到生物体基因组的一些片段,再利用计算机对片段进行denovo拼接,从而得到DNA序列的排列顺序。而随着测序仪的发展,基因组的数据量增大,分析复杂性提高,普通计算工具分析数据会消耗大量时间和空间。张峰等人[14]基于高性能计算机,使用一种新型序列拼接工具SGA(StringGraphAssernbler),对任务之间数据耦合度小的分批构建FM-Index,采用粗粒度的多进程并行;对任务之间数据耦合度较大的FM-Index合并过程,采用多线程的细粒度并行。这种多进程与多线程的混合并行策略,使用并行计算代替通信开销,测试小规模数据时,将索引构建时间的最佳性能提高了3.06倍。叶志强等人[15]在基因组排序时,引入随机listranking算法,基于高性能计算机,使用MPI并行实现Pregel框架的线性化步骤,利用节点之间的通信和计算能力,减少了线性化步骤时间。

SNP(单核苷酸多态性)检测是DNA序列分析的关键步骤[16]。它将对齐的read、参考序列和被编排的数据库(如数据库SNPP)作为输入,通过站点检测对齐的read和引用站点的信息,生成SNP站点的列表。SNP检测工具SoAPSNP可以用一个多星期的时间来分析一个覆盖20倍的人类基因组。崔英博等人[17]通过重新设计SOAPSNP的关键数据结构以降低内存操作的开销,设计CPU与XeonPhi协作的协调并行框架,以获得更高的硬件利用率。并提出了一种基于读取的窗口划分策略(RWD),在多个节点上提高吞吐量和并行规模,开发了SOAPSNP的并行版本MSNP,在没有任何精度损失的情况下,利用高性能计算机的一个节点实现了45倍的加速。

方翔等人[18]利用高性能计算机,构建了由基因组与转录组测序数据分析、蛋白质结构预测和分子动力学模拟三个功能模块组成的生物信息平台分析水产病原,对约氏黄杆菌等多种水生动物病原进行生物信息学分析。

从生物医学文献中提取有价值的信息的一种主流方法是在非结构化文本上应用文本挖掘方法。然而,大量的文献需要分析,这对文本挖掘的处理效率提出了巨大的挑战。彭绍亮等人[19]将针对疾病实体识别的软件DNorm加入可高效识别基因、蛋白质、药物、基因通路等实体关系的文本挖掘工具PWTEES流水线中,扩充了PWTEES的功能。使用LINNAEUS导入MEDLIN数据库提供的摘要,并在个人账户目录下,动态使用计算节点,编译安装配置了非关系型数据库(MySQL),将大量非结构化数据(文献)转为结构化数据。将平时在普通服务器上需100天能完成的文本挖掘过程缩短为1小时,并利用200个进程并行挖掘7万篇头颈癌相关文献中的关键命名实体,得到了80%以上的并行效率。Xing等人[20]开发了一个可运行的框架PARABTM,它能够在超级计算机上实现并行文本挖掘。以GNormPlus、tmVar2.0、Dnorm三种命名实体识别任务为例,对多个数据集上PARABTM的性能进行了评价。结果表明,使用PARABTM并行处理策略中的短板匹配负载平衡算法(Short-Boardloadbalancingalgorithm),最大程度地提高了生物医学命名实体识别的处理速度。

3.2全数字设计与制造

数字设计与制造是一种以计算机系统为中心的集成制造方法。随着制造工厂中计算机系统数量和质量的提高,数字化趋势迅速。越来越多的自动化工具被用于制造工厂,有必要对所有机器、工具和输入材料进行建模、模拟和分析,以优化制造过程。而模拟能够建模和测试一个系统行为特性,让工程师能够用更低耗、更快速同时更安全的方式来分析所做的设计会产生什么样的影响。模拟的应用范围广泛,涵盖了产品设计、过程设计以及企业资源安排[21]。在模拟过程中,利用超级计算机强大的计算能力,使工程师能在几分钟或几小时内仿真和测试数千种设计方案。

利用数字化的方式,可以对产品进行结构力学分析、流体力学分析、电磁设计和多物理场模拟等多种计算仿真。

在计算流体力学CFD(CcomputationalFluidDynamics)领域的一大热点研究问题就是如何在当前主流的众核异构高性能计算机平台上进行超大规模计算。杨梅芳等人[22]在高性能计算机的单个节点上,利用超然冲压发动机燃烧数值模拟软件LESAP模拟一个实际发动机燃烧化学反应和超声速流动的问题,采用OpenMP4.0编程标准,向量化SIMD,优化数据传输过程,均衡基于网格块划分的负载技术,实现了软件面向CPU+MIC异构平台的移植,达到了3.07倍的性能加速比。王勇献等人[23]面向高性能计算机探索了高阶精度CFD流场数值模拟程序的高效并行性。在高性能异构并行计算平台上进行了多个算例的数值模拟的结果显示最大CFD规模达到1228亿个网格点,共使用约59万CPU+MIC处理器核,实现了移植后的性能大幅度提高。通过将算法移植到超级计算机进行大规模并行,能够实现高效的流体力学分析。而文献[24-26]都是针对空气动力学中的具体分类利用高性能计算机进行模拟以验证有效性的研究。利用数字化设计,能够快速低成本地对设计性能进行分析评估。

在图像模拟中,Metropolis光传输算法能够利用双向路径跟踪构建出由眼睛到光源的路径,是MonteCarlo方法的变体。然后,使用Metropolis算法静态计算图像中光线的恰当的散射状态,由一条已发现的光到眼睛的路径,能搜索到邻近路径。简单地说,Metropolis光传输算法能够生成一条路径并存储其上的节点,同时能通过添加额外节点来调整并生成新的路径。随着对照片级真实感图像的要求越来越高,为Metropolis光传输算法开发高效且高度可扩展的光线跟踪器变得越来越重要。主要是渲染图像通常需要花费大量时间,开发高效且高度可扩展的光线跟踪器的困难来自不规则的存储器访问模式、光携带路径的不平衡工作量以及复杂的数学模型和复杂的物理过程。Wu等人[27]提出了一种基于物理的高度可扩展的并行光线追踪器,并在高性能计算机上进行了实现,利用多达26400个CPU内核,证明了其可扩展性,能够从复杂的3D场景生成逼真图像。

模拟高场非局部载流子传输同样需要3DMonteCarlo模拟方法,通过适当的量子校正涵盖散射效应,半经典的MC模拟能够给出准确的结果。但是,MC方法中3D模拟和量子校正都需要巨大的计算资源[28],由效率出发超级计算机的计算能力就至关重要了。文献[29]中,通过在高性能计算机上使用IntelMIC协处理器,进一步提高了之前工作中开发的3D并行的继承MC模拟器的并行效率。

对于高性能计算机在全数字设计和制造领域的集成应用,国家超级计算广州中心推出了天河星光云超算平台,以云服务的方式提供CAE计算和HPC访问,大大降低了数字设计的门槛,支持产品设计的全工作流。目前基于该平台支撑的项目有诸如国产大飞机、高铁等,都是国家工业生产中重要项目[30]。

3.3地球科学与环境工程

基于该应用领域,超级计算机的主要作用在于变革对自然界中诸如地理状况、海洋、大气等种种元素的模拟方式。以超算为平台,不仅能模拟出地球上每个时期的状况,甚至是对宇宙中的种种同样能进行模拟分析,让地球科学和环境工程的研究范围不再限于此时此地,而是更广阔的空间。

在宇宙学的层面,早在2015年就利用高性能计算机模拟出宇宙大爆炸后1600万年之后至今约137亿年的暗物质和中微子的演化过程,并将进一步寻找宇宙边界的报告[31]。中微子虽然是自然界中的基本粒子之一,在宇宙大爆炸约1s后与其他等离子体物质退耦,形成看不见的宇宙背景,通过物理实验和实际的天文观测都无法精确测量中微子的质量。在高性能计算机平台上,利用3万亿粒子来对宇宙中的中微子和暗物质的分布和演化进行模拟,开创了宇宙学中独立测量中微子质量的道路。

在地球外围层面上,大气变化同样是一个关注点。Xue等人[32]提出了一种基于高性能计算机的全球性大气动态模拟的混合算法。通过使用更灵活的域分区方案来支持节点中任意数量的CPU和加速器,算法能够充分利用超算的优良性能。当使用8664个节点,包括了近170万个核心时,可以有效地利用节点内的三个MIC卡,对两个IvyBridgeCPU(24个内核)实现4.35倍的加速。基于成功的计算-通信重叠,算法分别在弱和强缩放测试中实现了93.5%和77%的并行效率。

相较于广袤无边的宇宙,大部分人们对于脚下的土地更加关心。自然灾害如地震、泥石流等,可能会造成巨大的生命财产损失,而地下油气资源又是经济社会发展所必需的,利用超级计算机去探索大地也是发展所需要的。

中石油集团开发的用于石油油气勘探的GeoEast系统已经经过了十几年的发展更新,在数据模型、数据共享、一体化运行模式、三维可视化、交互应用框架、地震地质建模、网络运行环境和并行处理方面取得了多项创新与重大技术突破,是地震数据处理解释一体化系统。目前GeoEastV3.0版本软件总体达到国际同类软件先进水平,为推动中国石油勘探开发领域不断取得新成果发挥了重要作用[33]。但是,这样的一体化系统在使用中势必会产生大量的数据,这就对计算机的性能有了要求。因此,在GeoEast系统闻名世界的过程中,高性能计算机在幕后是功臣之一,保证了系统的顺利运行,助力石油勘探工作[34]。而文献[35]专注于地震模拟,提出了针对英特尔至强处理器的对于软件SeisSol的优化,以适用于高性能计算机的计算环境中,通过全摩擦滑动和地震波的耦合仿真实现了空前复杂的地震模型。移植到高性能计算机的SeisSol提供近乎最佳的弱缩放,在8192个节点上达到8.6DP-PFLOPS,在所利用的整个高性能计算机上能达到18~20DP-PFLOPS,成功模拟了1992年兰德斯地震。

3.4智慧城市云计算

城市发展经过多年的调整,已经在经济上有了相当进展,目前从如何让人们生活更加便捷出发,许多地区开始建设智慧城市。智慧城市(SmartCity)是指利用各种信息技术或创新意念,集成城市的组成系统服务,以提升资源运用的效率,优化城市管理和服务,进而能够提高居民生活质量。智慧城市的发展不仅仅是对生活的改变,还能促进生产方式的转变,解决在城市扩张及经济高速发展中产生的一系列“城市病”问题。智慧城市,代表的是城市的智慧,由智慧,能够衍生出智能中、知识和数字等更广泛的内涵[36]。

迄今为止,广州、北京、上海、宁波、无锡、深圳、武汉、佛山等国内城市已纷纷启动“智慧城市”战略,相关规划、项目和活动渐次推出。高性能计算机云平台应运而生,为智慧城市建立坚实、先进的基石。智慧城市由于其性能需求,对依赖的平台的计算能力的要求会更高,而超算的计算能力就能为智慧城市的建设提供相当助力。在2014年,就有中国首台千万亿次超级计算机“天河一号”在智慧城市中应用的报道,以其在天津滨海区的应用为例,“天河一号”的建筑信息领域的大数据平台通过对建筑信息建模,实现对建筑物从规划、设计、建造到后期物业管理理的全程数字化。此外,城市规划、气象预测、生物医疗、装备制造、汽车碰撞模拟等行业,也能更多地通过“天河一号”,实现大批量数据计算、分析和存储[37]。

而高性能计算机的持续计算速度进一步达到了亿亿次,所能提供的服务质量也更高,麒麟云平台被部署在1920个节点(15个机柜),其中64个节点(两个机框)作为云平台控制节点,其余节点为运行虚拟机的计算节点和分布式存储的存储节点。为方便管理,将计算节点进行分区管理,512个节点(4个机柜)为一区,用于满足生产环境、适配环境、测试环境需要。分布式存储没有分区,所有节点形成一个全局的分布式存储池,但在使用时可按需划分指定容量的区域供不同用途使用[38]。这种云超算服务采用麒麟安全云系统实现虚拟化技术,将虚拟机资源远程推送给用户使用[39]。可通过互联网远程管理虚拟机资源,使高性能计算机云平台资源能够被更多人使用,超算的计算能力能够更好地推动社会各个领域发展。2017年OpenStack的第15个版本中,麒麟云团队在核心功能解决的Bug数,以及Commits的数量均进入全球前20,麒麟云的发展是非常迅速的,与开源社区紧密结合,贡献突出[40]。

3.5材料科学与工程

在材料科学与工程的研究中,量子力学、经典动力学、统计力学是三大基础且主要的研究方向。研究人员致力于材料参数的建模、多尺度平台开发和新材料的设计、开发和优化。

分子动力学模拟在材料科学、生物化学和生物物理学等领域得到了广泛的应用。分子动力学(MD)是研究分子和分子的物理运动的计算机模拟方法,它提供分子尺度上的微观取样。基于能量细化的辅助建模AMBER(AssistedModelBuildingwithEnergyRefinement)[41]是用于MD模拟的使用最广泛的软件包之一。然而,对于具有百万原子级的系统的AMBERMD模拟的速度仍然需要改进。彭绍亮等人[42]在单CPU上的细粒度OpenMP并行、单节点CPU/MIC并行优化和多节点多MIC协作并行加速方面进行了改进。在高性能计算机上实现AMBER的并行加速策略,与原程序相比,实现了25~33倍的最高加速比。同时,对于计算资源的限制,分子动力学软件GROMACS不能大规模地进行满意的操作。Wang等人[43]提出了一种利用卸载模式加速GROMACS的方法。为了提高GROMACS的效率,提出了异步化、数据重组和数组重用等一系列方法。在这种模式下,GROMACS可以与CPU和IntelXeonPHITM多个集成内核(MIC)协处理器同时有效地配置,充分利用高性能计算机资源。

材料辐照效应(Materialirradiationeffect)是使用核能的重要关键之一。然而,由于高通量辐照设施和进化过程知识的缺乏,此效应的利用并不好。在高性能计算的帮助下,Hu等人[44]提出了一种新的数据结构,用于大规模并行模拟金属材料在辐照环境下的演化。基于所提出的数据结构,开发了一种新的分子动力学软件——CrystalMD,并在高性能计算机上进行了二兆个原子模拟,对MD辐射效应研究的模拟规模进行了扩展。

3.6其他领域

近年来,随高性能计算的推广,政府部门对超级计算机的重视,旧产业转向新产业的变化及大量有高性能计算需求的企业对超级计算机的需求增大,超算人才培养初见成效[45]。在应用软件开发等推动下,高性能计算机的适用范围逐渐向更多领域渗透。

源于人工神经网络的研究深度学习作为人工智能的一个新研究领域,在模仿人脑的机制来解释如图像、声音和文本数据上有了很大进展。例如,卷积神经网络(CNN)能准确地对大型图像进行识别处理,然而CNN的训练密集程度很高,特别是对于大型具挑战性的任务,卷积层的参数数据量庞大。而高性能计算机的易访问、高峰值等性能使学术界和工业界都可以轻松访问相关平台,并可以在合理的时间内训练中等和较大规模的CNN。使用基于输入展开以将其投影为矩阵乘法(Unfold+Parallel-GEMM)的算法的CAFFE、Theano、Torch7、Chainer、CNTK和TensorFlow等最先进的CNN基础设施已可以在高性能计算机上进行部署和应用。

增强现实技术AR(AugmentedReality),将真实世界信息模拟至虚拟世界,让人随时产生真实感受。通过高性能计算机高效地实现算法,可以数字虚拟孕育“互联网+”新业态,开发虚拟试衣、模拟试驾等应用项目。