首页 > 范文大全 > 正文

一种基于Mahalanobis距离和主成分分析的电子鼻信号预处理方法

开篇:润墨网以专业的文秘视角,为您筛选了一篇一种基于Mahalanobis距离和主成分分析的电子鼻信号预处理方法范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:针对样本集中的少数异常样本便可导致网络的稳定性下降甚至失效的问题。该文提出了基于马氏距离异常检测的PCA-RBF(Principal Component Analysis- Radial Basis Function)网络模型,将粗糙样本集经异常检验后进行PCA-RBF网络的识别。实验证明该方法能够克服异常样本的干扰,提高了网络的稳定性和识别能力。

关键词:电子鼻;PCA;RBF;马氏距离

中图分类号:TP212文献标识码:A文章编号:1009-3044(2010)07-1699-02

An Application of PCA-RBF Neural Network Based on Anomaly Detection for Electronic Nose Gas Detection.

MA Jian-wei, LIU Tao, ZHOU Hong-wei, PAN Li-na, LI Hong-juan

(College of Communication Engineering, Chongqing University, Chongqing 400044, China)

Abstract: Due to the fact that some anomaly of the sample set can decline the stability of the network.In this paper, an abnormal detection based on mahalanobis distance and a novel network PCA-RBF (Principal Component Analysis- Radial Basis Function) are proposed. PCA-RBF network identification is made after the anomaly detection. Experiment results show that this method can overcome the interference of abnormal samples and improve the network's stability and ability to identify.

Key words: electronic nose; PCA; RBF Neural Network; mahalanobis distance

电子鼻系统由气敏传感器阵列和模式识别算法两部分构成[1]。气敏传感器阵列将气体信息转换为电信息,这些信息也称之为气味图谱。模式识别算法根据气味图谱对被测气体进行分类判别。由于电子鼻具有检测快速、操作简单等特点,已在医疗[2]、卫生[3]、食品[4]、环境[5]等方面的领域得到应用。

PCA是模式识别中常用的降维技术,它通过构造原变量的一系列线性组合,使各个线性组合在相互不相关的前提下尽可能多地反映原变量的信息,即使方差最大[6-8]。在实际数据集中不可避免的混入不可靠的数据和没有代表性的样本,这些数据和所希望得到的鉴别模型相差甚远,由于PCA中分散度判据是均方差,所以少数离群样本点对PCA造成严重干扰。

本文提出了一种支持电子鼻的基于马氏距离异常数据剔除的PCA-RBF联用网络模型。该网络模型能够有效的剔除异常样本,并将正常样本由高维空间映射到低维空间后传递于RBF网络进行模式识别。利用网络实现了对甲醛,一氧化碳和二氧化氮三种有害气体的定性识别,并获得了较高的正确率。

1 模式识别算法

1.1 异常检测

对服从同一正态总体分布Np(μ0,σ2) 的若干不同子组,在总体协方差σ2已知的情况下,均值向量的检验统计量如下式所示[9]:

式中:n――样本容量;pDD向量维数; XDD样本均值向量;μ0DD总体均值向量;σ2DD总体的协差阵;

式中等价于由点X到μ0的马氏距离D2 M(X, μ0)。由此可以得到正常样本的马氏距离范围:

这样每一个样本点xi 到μ0的马氏距离都对应一个χ2p,ai,即对应一个显著水平ai。在实际应用中ai小于0.05,就有充分的理由认为子组中该样本点是异常值。

由于在实际应用中,σ2和μ0都不易求得,因此只能通过有限的子组对其进行估计,通常当子组数目超过20个时,可得到如下统计量:

式中:Xp, S-1 P表示子组的均值和协方差矩阵,即可得出:

若检测到样本不再该区范围内,删除样本。

1.2 PCA-RBF网络

PCA是常用的多变量分析技术,采用将高维信息投影到低维子空间,并保留主要信息的方法。RBF神经网络是一种性能良好的前向网络,该网络具有收敛速度快,不易陷入局部最小点,鲁棒性好和易于实现的优点。已经证明,RBF神经网络可以在任意精度下逼近任意的非线性函数[10]。但是RBF网络训练样本增多时,计算量也随之增大,在RBF之前使用PCA能够减少RBF网络的计算量。

在电子鼻的测量中,传感器阵列常常包含p个传感器,所要测量的样本数是n个,形成了n×p样本数据矩阵X。主成分分析步骤如下:

1) 计算样本数据矩阵的协方差矩阵σ2;

2) 求协方差矩阵σ2的特征值,并按降序排列,λ1>λ2…>λp;

3) 求对应于各特征值的单位特征向量μ1,μ2…μp,并作为相应的主轴;

4) 通过下式计算特征值的贡献率:

(5)

5) 根据各个特征值的贡献率的大小,依次选取主轴,直至;

6) 利用下式计算样本数据的矩阵X的第i主成分Yi:

Yi=μiX i=1,2,…,m(6)

然后将经过PCA后的m维向量X'={x'1, x'2,…, x'm}T送入RBF网络识别。

2 实验与讨论

2.1 实验环境

实验平台由电子鼻系统,测试腔和PC机组成,测试腔选用定制的恒温恒湿培养箱,容积150升。为了避免测试过程中,箱中的残留气体的影响,测试箱内壁均匀喷涂了一层无吸附材料――聚四氟乙烯。传感器阵列由5支金属氧化物(MOS)气敏传感器构成且置于测试箱之中。AD数据采集模块采用串口传送到PC机上并记录。用于数据处理的算法模型均使用MATLAB2008建立。实验中配置了三种测试气体,见表1。对每种气体进行了21次测量,总共63个样本。随机抽取每种气体的14个样本作为训练,其中混入少数异常样本,剩余7个作为测试样本。

2.2 算法结果与讨论

实验中,首先使用基于马氏距离异常值检验方法对粗糙样本集进行筛选,剔除异常样本。将经过删选的样本进行PCA,各个特征值占总方差的贡献率分别为59.1%,19.0%,9.9%,7.8%,4.0%,可知,第一,第二主轴,第三主轴对信息的累计贡献率为88%,故选取前三主轴作为后续网络的输入。

选择PCA后的数据作为RBF的输入,令一氧化碳的目标输出为(1,0,0),二氧化氮的目标输出为(0,1,0)和甲醛的目标输出为(0,0,1)。由此可以确定该网络的结构:输入层神经元数目为3,输出层神经元数目为3,目标误差设为10-3,,径向基函数分布密度为7,自适应的添加隐含层直至满足误差要求。

本文使用基于马氏距离异常数据检测PCA-RBF网络与普通的PCA-RBF网络对上文提到的数据集进行了测试,其神经元的输出值见表二,可见两种网络对三种气体的识别的正确率分别为95%和71.4%。在数据测量过程中,由于实验中的温度或湿度的突然变化,在数据集中常混入若干异常样本,数目虽少,但会使数据集的均值和协方差产生很大的变化。PCA中分散度判据是均方差,所以少数的离群点产生严重的干扰,甚至可以使一些没有意义的向量成为主成分,使得后续的测试网络失效。

3 结论

针对电子鼻测试系统的特点,本文研究基于马氏距离异常检测的PCA-RBF网络模型的有害气体检测系统,克服传统网络模型中少数异常样本引起网络稳定性下降甚至失效的缺点,实验结果表明基于马氏距离异常检测的PCA-RBF网络对于混入异常值的样本集具有较强的抗干扰能力和较高的识别正确率。

参考文献:

[1] Gardner J W, Bartlett P N. A brief history of electronic nose[J].Sensors and Actuators B,1994(18-19):211-220.

[2] Siripatrawan U. Rapid differentiation between E. coli and Salmonella Typhimurium using metal oxide sensors integrated with pattern recognition[J]. Sensors and Actuators B, 2008(133):414-419.

[3] Horvath I, Lazar Z, Gyulai N, et al. Exhaled biomarkers in lung cancer[J].European Respirarory Journal,2009,34(1):261-275.

[4] Yong Yin, Huichun Yu, Hongshun Zhang. A feature extraction method based on wavelet packet analysis for discrimination of Chinese vinegars using a gas sensors array[J]. Sensors and Actuators B, 2008(134):1005C1009.

[5] Zhang S P, Xie C S, Bai Z K, et al. Spoiling and formaldehyde-containing detections in octopus with an E-nose[J].Food Chemistry,2009,113(4):1346-1350.

[6] CARMEL L, SEVER N, LANCET D, et al,An eNose algrorithm for identifying chemicals and determining their concentration[J].Sensors and Actuators B,2003(92):222-227.

[7]BRANCA A,SIMONIAN P,FERRANTE M, et al.Electronic nose based discrimination of a perfumery compound in a frafrance[J].Sensors and Acruators B,2003(92):222-227.

[8] LEE D S,HUH J ,LEE D D.Classifying combustible gases using micro-gas sesor array[J].Sensors and Actuators B,2003(93):1-6.

[9] 方开泰.实用多元统计分析[M ].上海: 华东师范大学出版社,1989,150-951.

[10] Broomhead DS and Lowe D.Multivariable. Functional interpolation and adaptive networks[J].Complex System,1988(2):321-355.