开篇:润墨网以专业的文秘视角,为您筛选了一篇基于BP神经网络的磷酸铝合成数据补值模型研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!
摘 要:磷酸铝合成反应数据库中有29%的数据存在不同情况的缺失。为了处理缺失值问题,本文首次提出利用BP神经网络对其进行估计补值。在不同缺失率下,通过大量的随机实验结果证明了补值算法具有一定的有效性和可行性。
关键词:微孔材料;BP神经网络;缺失值
中图分类号:TP391.4 文献标识码:A
1 前言
数据缺失(missing values,MVs)问题是广泛存在且无法回避的一个问题。尤其是在面对处理现实问题时,缺失问题更为普遍和严重[1]。数据参数缺失有很多种原因,如对实验数据没有详细的记录、部分参数无法测定等。不完整的数据对后续的数据分析带来不同程度的干扰。因此,对缺失值数据进行补值是一步非常重要的数据预处理方法[2]。
近些年,国内外学者子在研究是发现,如果在补值时考虑参数间的相关性则补值的估计误差率会明显降低[3]。针对不同情况,学者们先后提出了不同的补值方法,如KNN补值方法(K-nearest neighbor imputes,KNNimpute)[4]、奇异值分解补值方法(singular value decomposition imputes,SVDimpute)[5]等。在生物信息学[6]和计量化学[7]等很多领域已经开展了缺失值处理方法的研究。但目前还没有针对磷酸铝合成反应数据的缺失值处理的相关方法研究报道。因此,本文首次提出基于bp神经网络的补值方法(BP neural networks imputes,BPimpute)应用到磷酸铝合成反应数据上,并同其他经典方法(基于KNN的补值方法(K-nearest neighbor imputes,KNNimpute)、基于SVD的补值方法(singular value decomposition imputes,SVDimpute)和基于最小二乘的补值方法(least square imputes,LSimpute)进行对比,来验证算法的可行性和有效性。
本文结构如下:在第二部分对现有的几种经典补值方法进行简单介绍;然后在第三部分详细描述BPimpute的补值过程;第四部分是实验设计和结果分析;最后给出本文结论。
2 补值方法简介
现有的补值方法一般被分为两类:基于模型的方法和插补方法(hot-deck inputation)[8]。插补方法是最典型的无需构建模型的补值方法,它利用含缺失数据的样本较像数据的可用参数值来替换缺失值,最经典方法就是KNNimpute[9]。插补方法简单、易用,能够实现完备集数据,但是它没有考虑数据参数间的相关性。基于模型的方法(如SVDimpute[10]和LSimpute[11])首先根据现有数据建立估计模型,然后对缺失值进行补值,是一种更复杂、应用更灵活的方法。近年来,一些学者发现神经网络也能解决类似的问题。
3 BPimpute方法
基于分子筛的合成机理,以及参数间存在潜在映射关系,而BP神经网络是能够获得从输入到输出之间的非线性映射关系的有效工具,因此利用BP神经网络来刻画参数间的映射关系,首次提出基于BP神经网络的补值方法。
BPimpute采用三层BP神经网络结构(输入层、隐含层和输出层)来构建参数模型[12]。从Y中不含参数缺失的样本随机选出k个样本作为训练样本;假设第h个参数缺失。BPimpute方法分两个阶段进行缺失值估计,即训练模型阶段和估计缺失值阶段。在训练阶段,每个训练样本除第h个参数外的参数作为BP网络的输入向量,训练样本的第h个参数值作为模型的输出,训练好BP网络模型。在估计阶段,就是将测试样本送入训练好的BP模型中,模型的输出即为缺失值的估计值。
4 实验结果与分析
4.1 磷酸铝合成反应数据库简介
磷酸铝合成反应数据库[13]是由吉林大学徐如人院士领导的“无机合成与制备国家重点实验室”在国内外大量学者、科研机构研究的基础上率先建立起来的,并对国内外学者免费开放(http:///alpo/)。该数据库共有约1600条数据,对应230余种磷酸铝骨架结构。
4.2 补值实验设计与结果分析
首先,从原始数据库中挑选出不含参数缺失的数据构建完备数据集,每条数据由凝胶成分、溶剂属性、模板剂属性和生成物结构参数四部分组成。因为溶剂和模板剂属性是固定参数,所以本文仅考虑能够生成含(6,12)元环无机微孔化合物的数据(398条)的4个凝胶成分参数[14](data_M)作为研究目标。并做以下假设:4个凝胶成分参数是相关的,且发生缺失的情况是独立的、随机产生的,每条样本数据最多存在一个参数缺失。最后,根据以上假设,随机将部分数据样本的某个参数设为缺失,对其进行补值,通过与真实值的误差评价算法的有效性。
补值实验的设计描述如下所示:
(1)首先从原始数据中删除含有缺失值的样本,得到完备数据集;
(2)根据缺失比率q()在中随机产生缺失情况;
(3)利用补值方法估计缺失值;
(4)计算估计值和真实值之间的误差;
(5)重复l次实验,获得估计平均误差来评价算法的性能。
补值方法的性能通过均方误差根(normalized root mean squared error,NRMSE)来衡量,如公式(1)所示:
其中,是真实值,是通过补值方法获得的估计值。NRMSE值越小说明算法性能越好,误差越小。
实验中data_M的缺失比率q被设为1%,3%,5%,10%,20%,30%和50%。重复l次实验的目的是为了保证至少99%的数据都参与了实验,更符合统计规律。不同的数据和缺失率l设置不同,具体详见表1。
表1 不同数据和缺失率下l值的设置
Tab.1 The setting of l
表2列出了不同方法的平均NRMSE结果。可以看出当训练样本数量多、缺失率较低的情况下BPimpute效果最优,而在缺失率较高的情况下KNNimpute的补值结果不受其影响,如图1所示。
表2 不同方法的平均NRMSE结果
Tab.2 The average NRMSE of different methods
针对反应凝胶中第一种溶剂的摩尔数/Al的摩尔数(F3)无论那种补值方法的NRMSE都超过了1.0。
图1 不同补值方法的NRMSE结果图
Fig.1 Comparisons of NRMSE different methods
4.3 补值算法对现有数据的修正
除了补值实验外,本文还设计了通过补值算法对现有数据的修正的实验。如果算法有效,构建的参数间关系模型准确,可以对参数进行校正,则那些被错误分类的样本经过补值算法的修正后能够被正确分类。实验描述如下:
(1)从数据库中随机选择398个负样本和398个正样本构建样本集;
(2)随机选择199个正样本和199个负样本训练SVM分类器(RBF核函数),剩下的样本作为测试样本;
(3)重复t次5重交叉验证实验,得到平均预测准确率、错误样本和训练好的SVM模型;
(4)分别用BPimpute方法和KNNimpute()方法对错误样本进行修正;
(5)将修正后的数据重新送入SVM模型中,得到修正后的预测准确率。
图2显示,仅修正了(6,12)元环样本后的预测准确率就得到了提升,这也证明了补值方法对数据的修正作用,并从另一个角度证明了补值方法的有效性。如果能够对全体错误样本都进行修正,那么准确率一定会进一步提升。
图2 修正后的预测准确率结果对比图
Fig.2 Comparisons of prediction accuracy on
AlPOs dataset
5 结语
针对磷酸铝数据库的样本含缺失值的情况,本文首次提出基于BP神经网络的补值方法。在不同缺失率下,通过大量的随机实验结果证明了补值算法具有一定的有效性和可行性,尤其是当完备数据较多、缺失率较小时,BPimpute方法补值效果最好。但是本文仅针对(6,12)元环结构进行实验,在后续的工作中将陆续开展其他结构的实验工作。
参考文献
[1] Celton M, Malpertuy A,Lelandais G,et parative analysis
of missing value imputation methods to improve clustering and
interpretation of microarray experiments[J].BMC
Genomics,2010,11-15.
[2] Aittokallio T.Dealing with missing values in large-scale studies:
microarray data imputation and beyond[J].Brief Bioinformatics,
2010,11: 253-264.
[3] Alizadeh A A,Eisen M B,Davis R E,et al.Distinct types of diffuse
large B-cell lymphoma identified by gene expression profiling[J].
Nature, 2000:403;503-511.
[4] Troyanskaya O,Cantor M,Sherlock G, Brown P,et al.Missing
value estimation methods for DNA microarrays[J].Bioinformatics,
2001,17:520-525.
[5] Watkins D S.Fundamentals of Matrix Computations[M].Wiley,
1991 New York.
[6] Liew A W C,Law N F and Yan H. Missing value imputation for
gene expression data:computational techniques to recover
missing data from available information (Review paper)[J].
Briefings in Bioinformatics,2011,1-16.
[7] Andersen C M,Bro R.Practical aspects of PARAFAC modeling
of fluorescence excitation- emission data[J]. Journal of
Chemometrics,2003, 17(4):200-215.
[8] Lakshminarayan K,Harp S,Samad T.Imputation of missing data
in industrial databases[J]. Applied Intelligen ce,1999,11(3),
259-275.
[9] Chen J,Shao J.Nearest neighbour imputation for survey data[J].
Journal of Official Statistics,2000,16(2),113-131.
[10] Mirkin B.Mathematical Classification and Clustering[M].
Kluwer Academic Publishers,1996.
[11] B? TH,Dysvik B,Jonassen I: LSimpute: accurate estimation
of missing values in microarray data with least squares
methods[J].Nucleic Acids Res, 2004,32(3):e34.
[12] Kong J,et al.A two stage neural network-based personal
identification system using handprint[J].Neurocomputing,2008
(71),641-647.
[13] 颜岩,等.开放骨架磷酸铝合成反应数据库的建立与应用[J].
中国科学B辑: 化学,2009,39(11):1308-1313.
[14] Li J,et al.Missing value estimation for database of
aluminophosphate (AlPO) syntheses[J].Microporous and
Mesoporous Materials,2013(173):197-206.
作者简介:
李劲松(1980-),男,理学博士,中级工程师.研究领域:数据
分析.