首页 > 范文大全 > 正文

基于非负分解方法的质谱成像数据特征提取

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于非负分解方法的质谱成像数据特征提取范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要 [HTSS]质谱成像技术能够在同一个实验里无需标记手段而获得样品表面的分子信息及其分布信息,是当前质谱分析的热点。其分析所得数据量大且复杂,使其特征难以提取。多元统计分析方法,特别是主成分分析法已应用于质谱成像数据的压缩和特征提取。然而由于主成分分析常产生负的数据结果,其意义难以解释且不易分解为单一的特征。本研究开发出一种基于非负分解的质谱成像数据提取方法,能够提取单一的分子特征及其在样品上的分布特征,并将多个单一的特征分布通过红、绿、蓝三色叠加显示,获得轮廓直观的综合特征分布。应用本方法对小鼠脑组织切片质谱成像数据进行分析,可直观分解出灰质区域、白质区域和背景区域,相对主成分分析方法更直观且易于解释。应用本方法对在同一个样品靶上的人膀胱癌变组织和其相邻非癌变组织切片质谱成像数据进行分析,癌变与非癌变组织间差异清晰直观。本研究设计的质谱成像软件可由www.省略获取。

本文系国家科技支撑计划课题(No. 2009BAK59B03)和国家重大科学仪器设备开发专项(No.省略

1 引 言

质谱成像技术(Mass spectrometry imaging,MSI)能够在同一个实验中同时获取样品表面的分子信息及分子的空间分布信息\[1~3\]。MSI分析对象随着离子源的发展从元素成像发展到小分子成像,生物组织的蛋白、多肽和脂质分子成像。MSI技术从二维成像发展到三维成像\[4~6\]。MSI的应用从早期材料成像分析拓展到法庭科学\[7\]、字画鉴定\[8\],药物及其代谢物在组织内的分布研究\[9~11\],癌变组织边界测定\[12\]、肿瘤标志发现\[13\]、医学诊断、分子病理研究等领域\[14~19\]。MSI成为当前质谱分析的研究热点。

MSI分析所得的数据往往包括样品表面上每个采样点的质谱全谱数据。随着样品表面积、空间分辨率(单位面积内样品采样点数)、分析的质量数范围及质量分辨率的增加,数据量及复杂度递增。在复杂的表面质谱成像分析中,空间分辨率、质量分辨率和质量范围的增长呈越来越明显的要求和趋势。对复杂基质的大量质谱成像数据,靠手动挑选每一个离子谱图的方法,不仅耗时乏味,而且越来越不能满足MSI高通量分析的需求\[20\]。为此,多元统计分析方法被用于处理MSI数据,实现数据降维和特征提取\[21,22\]。其中应用最广泛的是主成分分析方法,主成分分析能够有效对数据降维、压缩数据,但其结果数据中常有负数据,使结果难以解释。非负分解是一种多元变量数据因子分解方法,已成功应用于图像分析,提取局部图像特征\[23\]。非负分解的约束条件是分解所得数据均为非负。原数据可以由分解所得数据线性组合近似表示,易于解释其结果数据的意义,适合于MSI数据的分解和特征提取。

2 实验部分

2.1 质谱成像数据非负分解算法描述

设X是质谱成像数据集,是N×M阶矩阵,其中N表示样品采样点的个数(N通常有r行,c列; M表示质量数的个数)。从行向量看是N个样品点对应的质谱图数据,从列向量看是M个质量数对应的离子图像。非负分解方法就是寻找能够近似表达X的非负矩阵W和非负矩阵H,其中W为N×P矩阵,H为P×M阶矩阵,这两个矩阵的每个元素都是非负数。P的选取通常遵守P<(N×M)/(N+M),由于P小于M和N,因此非负分解有降维、压缩数据的功能。X=WH+E,其中E为N×M阶矩阵,通常表示噪音或误差。因此X≈WH,即

Xnm≈(WH)nm=∑Pa=1(WnaHam)(1)

其中,a,n,m变量分别是整数(a=1,...P; m=1,...M; n=1,...N),在本文的后续表述中,意义相同。

为了更好地解释其意义,将等式(1)元素形式改写为等式(2)向量形式:

分 析 化 学第40卷

第5期熊行创等: 基于非负分解方法的质谱成像数据特征提取

xm≈∑Pa=1(Wahma)=Whm(2)

其中,向量xm是X(N×M)的第m列,是列向量(N×1),表示第m个质量数对应的离子图像。Wa是W(N×P)的第a列(a=1,..., P),也是列向量(N×1)。W可以看作是由P个Wa数据块(“数据积木”)组成。hm是H(P×M)的第m列,是列向量(P×1),而hma是该列向量中第a个元素,表示第a个数据块Wa(“数据积木”)在第m个离子图像上的强度值(或系数值)。

从(2)式可见,每个质量数对应的离子图像都可以分解为P个公共基本图像(P个Wa“数据积木”)与P个系数值的线性组合。因此,如果P选择合理,由P个公共基本图像组成的W可以表示为X的图像特征,即分子在表面上的分布特征;而由P条谱图数据组成的H可表示为质谱成像的分子组成特征。

应用等式(3)――误差平方(欧式距离)函数表示非负分解结果与原数据间的误差。

E(W,H)=X

Symbolm@@ WH2=∑nm(Xnm-(WHnm))2(3)

通过最小化E(W,H)误差平方来寻找能够近似表示X的非负W和H的分解因子。通过等式(4)进行多次迭代,计算最优的W和H。

HamHamWTX(WTWH)am WnaWna(WHT)na(WHHT)na(4)

算法的原理参照相关文献\[24,25\]

2.2 质谱成像数据三色叠加显示

从质谱成像数据非负分解获得的图像特征数据集中,任选W1, W2和W3, 分别用红、绿、蓝3种颜色表示其信号强度,即RGB(IW1,0,0),RGB(0, IW2,0),RGB(0,0, IW3)。其中IW1、IW2和IW3分别表示强度的映射值,其数据范围为\[0,255\],0表示强度的最小值、255表示最大值。然后将W1,W2,W3三幅图叠加显示,新合成图的每个像素信号强度值的颜色表示RGB(IW1, IW2, IW3)。

2.3 代码开发

应用Matlab语言(The MathWorks, Natick, MA, USA)开发质谱成像数据非负分解及三色叠加显示软件工具。数据输入包括原始数据集X(样品的行数r和列数c)及质量轴列表信息,需要调节的运行参数包括成分数P和迭代次数,输出结果包括图像特征W和分子特征H以及分解误差系数(Mean squared normalized error)。通过任选3个基本图像, 用三色叠加方式显示其叠加图,获得不同分子分布特征的轮廓。

3 结果与讨论

3. 1 小鼠脑组织切片质谱成像数据的非负分解与主成分分析

对小鼠脑组织切片质谱成像数据(由美国普渡大学Cooks教授课题组提供)分别进行主成分分析和非负分解。该原始数据由DESI离子源(负离子模式)结合Thermo LTQ质谱仪进行质谱成像分析获得。对原始质谱数据(质量范围m/z 150~1100,单位质量分辨)进行图像重构和谱峰归一化到\[0,1\]范围内,获得950个质量数,无数据平滑、谱峰筛选等处理过程。组织切片采样数据行数r为75,列数c为104,共7800个采样点。因此,原始质谱成像数据X为7800×950。

3.1.1 主成分分析方法 应用主成分分析方法(应用Matlab开发小工具)处理X数据。主成分分析也可表示为X=WH+E或者X≈WH,类似于非负分解的表达形式。主成分分析与非负分解主要区别在于分解的限制条件不同,非负分解中W, H限制其每个元素都是非负值;主成分分析中的W和H要求分别各自正交(即HHT为单位矩阵,WTW为对角矩阵),因此W和H中常常有负值。通常,将W称为得分数据集,将H称为载荷数据集。主成分所占总信息量依次减少,即第1主成分最多,第2主成分次之。

选取前3个主成分(数据信息量共占原数据的74.01%)示于图1。

[TS(][HT5”SS]图1 应用主成分析方法处理小鼠脑组织切片质谱成像数据结果图

Fig.1 Principal component analysis (PCA) result maps of mass spectrometry imaging data of a mouse brain section tissue

(a) 图为前3个主成分的载荷数据图。 (b) 图左列为m/z 256, m/z 835和m/z 889的载荷数据,分别提取于载荷图(a),用3种颜色标示。(b)图中间列为前3个主成分的得分图。(b)图右列为重构后的m/z 256, 835和889离子图。前3个主成分占原数据总信息量74.01%(其中,PC1:47.18%,PC2:15.01%,PC3:11.82%)。应用(hm)TWT=Whm=xm等式,将分解得到的m/z 256, m/z 835和m/z 889的载荷数据(示于(b)图左列)与得分图数据(示于(b)图中间列)重构出相应的离子图数据(示于(b)图右列)。重构图与原始离子图的均方根差分别为:0.8395, 0.1312和0.1366,基本反应了原始数据的主要特征。但是其载荷数据和得分数据中都存在负值,使其结果难于解释。

(a) Loading plots of the frist three principal components (PCs). (b) Loading data of m/z 256, 835 and 889 in the left column, the corresponding scores maps in the middle column, the reconstructed ion maps in the right column.. The three PCs kept 74.01% of the total variance (PC1: 47.18%, PC2: 15.01%, PC3: 11.82%). By applying the equation (hm)TWT=Whm=xm, the ion maps shown in the right column of (b) were reconstructed from the linear combination of the loading data shown in the left column of (b) and the scores shown in the middle column of (b). The rootmeansquareerror between the reconstructed maps and the corresponding original maps were 0.8395, 0.1312 and 0.1366, which indicated the reconstructed maps kept the principal feature of the original maps. However, there were negative value in both the loading plots and the scores maps, which made the interpretation of the results data from PCA very difficult.[HT][TS)]

从图1可见,3个质谱峰m/z 835(实际上是m/z 834.7,phosphatidylserine 18∶0/22∶6,在小鼠脑组织灰质区域有较高含量),m/z 889(实际上是m/z 888.8,sulfatide 24∶1,在小鼠脑组织白质区域有较高含量)和m/z 256特征突出。在第1主成分载荷图(H1)中,m/z 835和m/z 889系数较高,为正值,而m/z 256系数也较高,为负值;在其相应的得分图(W1)中,可以看出灰质区域(浅蓝色表示)、白质区域(蓝色表示)为正值,背景区域为负值。第1主成分占了总信息量的主要特征。第2主成分载荷图(H2)中,m/z 256和 835系数较高,为正值,m/z 889系数也较高,为负值,在其相应的得分图(W2)中,可以看出白质区域为负值,背景区域为正值,但是灰质区域不明显。而在第3主成分载荷图(H3)中,m/z 835系数较高,为正值,m/z 889系数也较高,为负值,在其相应的得分图(W3)中,可以看出白质区域为负值,灰质区域为正值,背景区域不明显。

从离子图的重建过程可以看出,m/z 256的系数(h1= m/z 256)有正值和负值,与得分数据(W有正值和负值)线性组合后,所得m/z 256离子图(x1= m/z 256)正值部分为背景区域,与原始数据相似,但存在负值(白质区域)。每一个离子图的重构可以表示为xm =Whm=(hm)TWT, 即载荷系数与得分数据的线性组合,但是各成分数值有正有负,重构过程有加有减,难以解释为单一的特征。

主成分分析所得的得分图像与载荷图谱,在提取特征时存在两个问题:(1)由于存在负值,其解释较为困难。此处的正负值不能简单用大小区别,属于同一符号的可以区分大小,但是符号不同需要分别对待。因此,需要将载荷数据的正值与相应得分数据正值联系起来,载荷数据的负值与相应得分数据负值联系起来解释,而且在得分图中,需要将正值与负值的表示用不同的颜色表示,以便区分;(2)由于主成分的所占的信息量是依次递减,第1主分成分占最大信息,所以第1主成分就尽可能多地综合了多个特征信息(能够有效地降维、压缩数据),信息的过分综合就不易分解,很难直观地解释为单一分子特征谱和特征图像。这是由主成分分析原理所决定的。以此图为例,第1主成分综合了白质、灰质和背景特征信息,第2主成分综合了白质和背景特征信息,第3主成分综合了白质和灰质特征信息。

3.1.2 非负分解方法 应用非负分解方法处理同一组数据。选取3个成分变量,即P=3,应用非负分解方法处理结果示于图2。由图2可见,系数谱1(H1)主要质谱峰是m/z 835,其相应的公共基本图像1(W1)为小鼠脑组织灰质区域;系数谱2(H2)主要质谱峰是m/z 256,其相应的公共基本图像2(W2)为非样品组织区域,即背景区域;系数谱3(H3)主要质谱峰是m/z 889,其相应的公共基本图像3(W3)为小鼠脑组织白质区域。系数谱和公共基本图像均无负值。各成分间没有主次之分。

[TS(][HT5”SS]图2 应用非负分解方法(选取3个成分变量)处理小鼠脑组织切片质谱成像数据结果图

Fig.2 Nonnegative matrix factorization (NMF) result maps (3 components) of mass spectrometry imaging data of mouse brain tissue

(a)图为3个成分的系数谱图。 (b)图左列为m/z 256, 835和889的系数,分别提取于系数谱图(a),用不同的颜色标示。(b)图中间列为3个成分的公共基本图像。(b)图右列为重构图后m/z 256, 835和889的离子图。应用(hm)TWT=Whm=xm等式将分解得到的m/z 256, 835和889的系数(示于(b)图左列)与得分图数据(示于(b)图中间列)重构出相应的离子图数据(示于(b)图右列)。重构图与原始离子图的均方根差分别是:0.0916, 0.1329和0.0535,基本能反应原始数据的主要特征。

(a) Coefficient plots of three components. (b) Coefficient data of m/z 256, 835 and 889 in the left column, base images of the three components in the middle column, reconstructed ion maps in the right column. By applying the equation (hm)TWT=Whm=xm, the ion maps shown in the right column of (b) were reconstructed from the linear combination of the coefficient data shown in the left column of (b) and base images shown in the middle column of (b). Root mean square error between the reconstructed maps and the corresponding original maps were 0.0916, 0.1329 and 0.0535, which indicated the reconstructed maps kept the principal features of the original maps.[HT][TS)]

从离子图的重建过程可以看出,m/z 256的系数(h1= m/z 256)为非负值,与得分数据(W,3个公共基本图像)线性组合后,所得m/z 256离子图(x1=m/z 256)正值部分为背景区域,与原始数据相似。每一个离子图的重构可以表示为xm =Whm=(hm)TWT, 即载荷系数与得分数据的线性组合,由于各成分数值非负,过程有加无减,是线性“加和”,可以解释为若干个特征单一公共基本图像(积木数据),按照相应的系数加权叠加而成。因此,非负分解,如果组分P选择合理,系数谱图可以看作是质谱成像数据的分子组成特征,而公共基本图像可以看作是分子在表面上的分布特征。

对比图1和图2,可清晰地看出,由于主成分分析存在负值,其载荷图和得分图难以解释, 不够直观;而非负分解无负值,一张离子图可以表达为由各基本图的线性“加和”,较容易解释其意义,图像直观。

再应用RGB三色叠加显示,将非负分解所得的公共基本图像通过红、绿、蓝三色叠加,示于图3。从叠加图可看出,其轮廓清晰直观。

[TS(][HT5”SS]图3 小鼠脑组织切片质谱成像数据经过非负分解方法处理所得特征分布图及其RGB叠加图

Fig.3 Nonnegative matrix factorization (NMF) feature maps of mass spectrometry imaging (MSI) data of a mouse brain section and their RGB (redgreenbule) color overlaid map

(a) 为第一成分的分布图(脑组织灰质区域,用红颜色表示);(b)为第二成分的分布图(非样品组织区域,用绿色表示);(c)为第三成分的分布图(脑组织白质区域,用蓝色表示);(d)为这3个成分的RGB叠加图

(a) First component distribution map with the grey matter regions of the mouse brain tissue highlighted in red, (b) Second component distribution map with the background regions in the whole sample highlighted in green, (c) Third component distribution map with the regions of white matter in the mouse brain tissue highlighted in blue, (d) RGB color map overlaid by (a), (b) and (c)[HT][TS)]

3.2 同一样品靶上人膀胱癌组织和其邻近正常组织质谱成像数据的非负分解

用非负分解法及三色叠加法分析同一样品靶上人膀胱癌组织和其邻近非癌变组织质谱成像数据(由美国普渡大学Cooks课题组提供)。该癌变组织及其邻近非癌变组织均由提供该组织的临床医生严格确

[TS(][HT5”SS]图4 人膀胱癌组织及其邻近组织切片质谱成像数据经过非负分解方法(选取3个成分变量)处理所得特征分布图及其RGB叠加图

Fig.4 Nonnegative matrix factorization result maps of mass spectrometry imaging (MSI) data of a human cancerous and adjacent normal bladder tissue sections and their RGB overlaid map

(a), (b), (c)分别是3个成分的系数图谱,即分子特征图谱。(d), (e), (f)分别是相应的公共基本图像,即分子分布特征图像。(g)为(d), (e), (f)三图的RGB三色叠加图。(h)为组织染色图

(a), (b) and (c), Coefficient plots of three components with their feature mass spectral highlighted individually. (d), (e) and (f), Base images of three components showing the distribution of corresponding molecules on tissue sections. (g) RGB color overlaid map of (a), (b) and (c). (h) H&E stained tissue sections of tumor tissue and its adjacent tissue.[HT][TS)]

认。质谱原始数据均由DESI离子源(负离子模式)结合Thermo LTQ质谱仪进行质谱成像分析获得\[26\]。

对原始质谱数据(质量范围m/z 150~1000,单位质量分辨)进行图像重构和质谱峰强归一化\[0,1\],获得850个质量数,无数据平滑、谱峰筛选等处理过程。组织切片采样数据行数r为32,列数c为69,共2208个采样点。因此,原始质谱成像数据X为2208×850。

应用非负分解方法处理此质谱成像数据。选取3个成分变量,即P=3,应用非负分解方法处理结果示于图4。从图4可见,(a)为癌变区域的质谱特征峰,

(e)为其相应的癌变组织分布图像;(b)为非癌变组织区域的质谱特征峰,(d)为其相应的非癌变组织分布特征;(c)为非组织区域的质谱特征峰,(f)为相应的背景区域。公共基本图像三色叠加图(g)与组织染色图(h)非常相似,而且癌变与非癌变差异明显,一目了然。该方法有可能发展为病变组织差异快速确认的数据分析方法。4 结 论

基于非负分解的质谱成像数据特征提取方法,通过非负分解得出单一的分子组成特征及相应分布特征,然后将多个单一特征分布进行三色叠加显示,可直观清晰显示其轮廓。能够快速有效提取成像数据的分子组成特征以及分子在表面上的分布特征。本方法相对于主成分分析,其数据结果更易解释,更加直观,而且具有原始数据前处理简单等优点,可作为快速特征提取方法应用于基于生物分子质谱成像临床医学研究和生命科学研究。

致 谢 感谢美国普渡大学Cooks教授课题组提供的质谱成像原始数据。

References

1 Pacholski M L, Winograd N. Chemical Reviews, 1999, 99(10): 2977~3006

2 McDonnell L A,Heeren R M A. Mass Spectrometry Reviews, 2007, 26(4): 606~643

3 Caprioli R M. Proteomics, 2008, 8(18): 3679~3680

4 Sinha T K, KhatibShahidi S, Yankeelov T E, Mapara K, Ehtesham M, Cornett D S, Dawant B M, Caprioli R M,Gore J C. Nature Methods, 2008, 5(1): 57~59

5 Andersson M, Groseclose M R, Deutch A Y,Caprioli R M. Nature Methods, 2008, 5(1): 101~108

6 Eberlin L S, Ifa D R, Wu C, Cooks R G. Angewandte ChemieInternational Edition, 2010, 49(5): 873~876

7 Ifa D R, Manicke N E, Dill A L, Cooks G. Science, 2008, 321(5890): 805~805

8 Liu Y, Ma X, Lin Z, He M, Han G, Yang C, Xing Z, Zhang S, Zhang X. Angewandte ChemieInternational Edition, 2010, 49(26): 4435~4437

9 Wiseman J M, Ifa D R, Zhu Y X, Kissinger C B, Manicke N E, Kissinger P T,Cooks R G. Proceedings of the National Academy of Sciences of the United States of America, 2008, 105(47): 18120~18125

10 Rubakhin S S, Jurchen J C, Monroe E B,Sweedler J V. Drug Discovery Today, 2005, 10(12): 823~837

11 KhatibShahidi S, Andersson M, Gillespie T A, Caprioli R M. Anal. Chem., 2006, 78(18): 6448~6456

12 Oppenheimer S R, Mi D, Sanders M E,Caprioli R M. Journal of Proteome Research, 2010, 9(5): 2182~2190

13 Lemaire R, Ait Menguellet S, Stauber J, Marchaudon V, Lucot JP, Collinet P, Farine MO, Vinatier D, Day R, Ducoroy P, Salzet M, Fournier I. Journal of Proteome Research, 2007, 6(11): 4127~4134

14 YANG ShuiPing, CHEN HuanWen, YANG YuLing, HU Bin, ZHANG Xie, ZHOU YuFen, ZHANG LiLi, GU HaiWei. Chinese J. Anal. Chem., 2009, 37(3): 315~318

杨水平, 陈焕文, 杨宇玲, 胡 斌, 张 燮, 周瑜芬, 张丽丽, 顾海威. 分析化学, 2009, 37(3): 315~318

15 Eberlin L S, Dill A L, Golby A J, Ligon K L, Wiseman J M, Cooks R G,Agar N Y R. Angewandte ChemieInternational Edition, 2010, 49(34): 5953~5956

16 Cazares L H, Troyer D, Mendrinos S, Lance R A, Nyalwidhe J O, Beydoun H A, Clements M A, Drake R R, Semmes O J. Clinical Cancer Research, 2009, 15(17): 5541~5551

17 LIU Nian, LIU Feng, XU Bin, GAO YaBing, LI XiangHong, WEI KaiHua, ZHANG XueMin, YANG SongCheng. Chinese J. Anal. Chem., 2008, 36(4): 421~425

刘 念, 刘 锋, 许 彬, 高亚兵, 李向红, 魏开华, 张学敏, 杨松成. 分析化学, 2008, 36(4): 421~425

18 LIU Hui, CHEN GuoQiang, WANG YanYing, LI ZhiLi. Chinese J. Anal. Chem., 2011, 39(1): 87~90

刘 辉, 陈国强, 王艳英, 李智立. 分析化学, 2011, 39(1): 87~90

19 CHEN HuanWen , HU Bin, ZHANG Xie. Chinese J. Anal. Chem., 2010, 38(8): 1069~1088

陈焕文, 胡 斌, 张 燮. 分析化学, 2010, 38(8): 1069~1088

20 Watrous J D, Alexandrov T, Dorrestein P C. Journal of Mass Spectrometry, 2011, 46(2): 209~222

21 Dubey M, Emoto K, Cheng F, Gamble L J, Takahashi H, Grainger D W,Castner D G. Surface and Interface Analysis, 2009, 41(8): 645~652

22 Park J W, Min H, Kim Y P, Shon H K, Kim J, Moon D W, Lee T G. Surface and Interface Analysis, 2009, 41(8): 694~703

23 Lee D D, Seung H S. Nature, 1999, 401(6755): 788~791

24 Lee D D, Seung H S. Algorithms for Nonnegative Matrix Factorization, in Advances in Neural Information Processing Systems 13, Leen, Editor. 2001: 556~562

25 Hoyer P O. Journal of Machine Learning Research, 2004, 5: 1457~1469

26 Dill A L, Eberlin L S, Costa A B, Zheng C, Ifa D R, Cheng L A, Masterson T A, Koch M O, Vitek O, Cooks R G. Chemistrya European Journal, 2011, 17(10): 2897~2902

Feature Extraction Approach for Mass Spectrometry Imaging

Data Using Nonnegative Matrix Factorization

XIONG XingChuang1,2, FANG Xiang2, OUYANG Zheng3, JIANG You2, HUANG ZeJian2, ZHANG YuKui1

1(School of Life Science, Beijing Institute of Technology, Beijing 100081, China)

2(National Institute of Metrology Beijing 100013, China)

3(Weldon School of Biomedical Engineering, Purdue University, West Lafayette 47907, USA)

Abstract Mass spectrometry imaging (MSI) provides molecules composition information and corresponding spatial information on complex biological surfaces in a single experiment without label. It is getting significant amount of attention in the mass spectrometric community currently. However, due to the large mount and complexity of MSI data, its data reduction and feature extraction are always a problem. Some multivariate statistical analysis methods, for example, the famous principal component analysis (PCA), were developed to address this issue. But the results with negative value are hard to be interpreted as features about molecules. A feature extraction approach for MSI data by applying nonnegative matrix factorization was developed. It could extract single molecules composition feature and the corresponding distribution (basic images), and further integrated the basic images to create a profile showing the whole sample by RGB (redgreenblue) color overlaid model clearly. The MSI data of a mouse brain section were used to test the efficiency of this approach compared with PCA. The white matter regions, the grey matter regions and the background regions were clearly shown and the corresponding molecules mass spectra were extracted, which indicated the approach is easier than PCA in result interpreting. Moreover, the MSI data of a human cancerous and adjacent normal bladder tissue sections on the same sample target were analyzed by the approach, the cancerous regions and the normal regions were clearly differentiated. The software developed in this paper could be downcoaded from the website www.省略.

Keywords Mass spectrometry imaging; Feature extraction; Nonnegative matrix factorization; Principal component analysis

(Received 25 October 2011; accepted 5 December 2011)