首页 > 范文大全 > 正文

基于熵理论的评价指标权重应用与研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于熵理论的评价指标权重应用与研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:评价指标权重的确定是多目标决策的一个重要环节,它将直接影响评价结果。本文把熵与多目标评价方法TOPSIS结合起来,分析候选基因与乳腺癌易感性之间强弱的评价值,综合考虑定性和定量因素,同时消除了主观因素对权重确定的影响,通过最终的分析结果,为进一步发现乳腺癌候选基因提供理论依据。

关键词:熵;熵权TOPSIS;乳腺癌

一、引言

熵是热力学中的一个名词,在信息论中又称为平均信息量,它是信息无序度的度量,信息熵越大,信息的无序度越高,其信息的效用值越小;反之,信息熵越小,信息的无序度越小,信息的效用值越大。因此,在综合评估中,通常运用信息熵评估系统信息的有序程度及信息的效用值。同时最大熵技术也广泛应用于多目标决策问题各评价指标权重的确定[1]。基于此,本文把熵与多目标评价方法TOPSIS结合来分析乳腺癌候选基因与乳腺癌易感性之间强弱的评价值,进而综合考虑定性和定量因素,并最终给出了分析结果,为进一步发现乳腺癌候选基因提供了理论依据。

二、熵、熵权TOPSIS方法

空间统计学中,距离综合评价法是一种以空间统计学为基础的分析方法,它是通过将统计数据转化为多维坐标系中的点,在空间中确定出参考点,即最优样本点和最劣样本点,然后计算各样本点到参考点的距离来分析评价的方法。具体计算步骤如下。

1.对数据的初步分析处理。假设用P个指标对n个数据进行评价,先构造原始数据,

X′=(X1′,X2′,X3′…XP′)=( XIJ′)n*p

并对数据进行处理,进行指标同向化,将逆指标、适度指标转为正指标后得到矩阵:

X′=(X1,X2,X3…XP)=( XIJ′)n*p i=1…n;j=1…p。

2.无量纲化。为消除量纲,并在数量上统一,TOPSIS法使用无量纲化公式

yij=

得到无量纲矩阵

Y′=(Y1′,Y2′,Y3′…YP′)

3.确定权重,构造加权数据矩阵。传统的TOPSIS法在确定评价指标权重时,一般采用专家意见调查法或层次分析法等方法,这些方法存在着较大的主管因素,不同的人对各个指标的重要度有不同的评价。因此,本文采用熵的概念来确定评价指标的权重,从而避免主观因素的影响。

熵值法是根据各指标的观测值所提供信息量的大小来确定权重的方法。数据分布越分散,其不准确性也越大。当系统可能处于N种不同状态,每种状态出现的概率为批pi时,该系统的熵为

e=-pilnpi

式中0≤pi≤1,∑pi=1。各个指标的决策信息可用其熵值来表示:

ej=-kpijlnpij

式中K=1/lnn。于是第j个指标的评价值数据的分散程度gj可表示为gj=1-ej。

给定的指标xj,xij的差异越大,相应的gj值也越大,表明该指标所包含和传输的信息量越大,重要程度也越高;相反,表明该指标的重要性低;如果各方案的xij都相等,则在指标评价值绝对集中,该指标对综合评价不起任何作用,因此,用熵测度来表示的第j个指标的权重为

wj=

确定出各指标的权重后,以它们为主对角线上的元素构造主对角矩阵

Y′W=(yij)n×ji=w1y11…wpy1p

wnyn1…wnynp

式中yij=wj*yij

4.确定参考样本:参评样本中的最大值构成最优样本,最优样本点为:

Y+=(y1+,y+p),y+j={yij}

参考样本中的最小值构成最劣样本,最劣样本点为:

Y-=(y1-,y-p),y-j={yij}

5.计算距离:为综合考虑样本点到最优样本点和最劣样本点的距离,需计算样本点在最优样本点两个参考点间连线的射影:

d=

=

di越大,样本越好。

三、基于熵权TOPSIS乳腺癌易感基因分析

随着医学分子生物学的发展,使得人类有机会从分子水平研究乳腺癌,由此对乳腺癌的研究也进入了基因时代。在这个研究过程中,用到了很多方法和实验,产生了大量的数据。尽管从中发现了一些致癌基因,但至少有80%的乳腺癌基因不能由已知的致癌基因解释,这意味着有更多的致癌基因尚待发掘。Pujana等人结合自定义五规则匹配和基因见的相关系数大小,找出了一个乳腺癌致癌易感基因―HMMR;徐超等人运用多目标评价模型对候选易感基因进行评价并对SMC4L1进行了着重分析。但以上文献中,模型权重的确定客观性太强,在一定程度上对评价结果产生了影响。对此,本文引用熵权TOPSIS方法对乳腺癌候选易感基因进行分析和评价,从而避免了主观因素对权重确定的影响。

以徐超等人整理的乳腺癌易感基因参考数据对其运用熵权TOPSIS方法评价,具体分析如下。

1.构造原始数据。利用Pujana等人提出的评价规则体系、徐超等人整理的评价数据,构建乳腺癌易感基因多目标评价模型的评价指标集及相应的评价属性集,如表1所示。

2.对模型数据进行无量纲化处理后,算出其属性权重如表2所示。

3.确定参考样本。参评样本中的最大值构成最优样本,参考样本中的最小值构成最劣样本,具体数值为:

Y+=(0.0682699910564073,0.0002237

90471939587);

Y-=(0, .0000498327157898221)。

4.计算距离并排序。通过计算每个样本和参考样本之间的距离,得出排序结果,部分数据如表3所示。

取其结果与文献参考评价模型结果进行比较,通过比较可以看出,其评价结果完全相同。进一步说明了此方法的可行性,同时也避免了由于主观因素对权重造成的影响。

四、总结

本文通过运用熵权TOPSIS方法对乳腺癌治病基因进行评价分析,消除了主观因素对权重确定的影响。根据计算结果表明,该方法能够有效地度量各致病基因的重要程度,为进一步发现乳腺癌候选基因提供了理论依据。

参考文献:

[1]赵静,王婷,牛东晓.用于评价的改进熵权TOPSIS法[J].华北电力大学学报.2003(3).

[2]中华人民共和国卫生部.中国卫生统计年鉴[M].中国协和医科大学出版社,2009.

[3]THOMPSON D, SZABO C I, MANGION J, et al. Evaluation of linkage of breast cancer to the putative BRCA3 locus on chromosome 13q21 in 128 multiple case families from the Breast Cancer Linkage Consortium[J]. PNAS,2002, 99:827-831.

[4]Pujana M A, Han Jing-Dong J, Starita L M, et al. Network modeling links breast cancer susceptibility and centrosome dysfunction.Nature Genetics,2007,39: 1338-49.

[5]徐超,蒋艳.基于多目标评价模型的SMC4L1基因的乳腺癌易感性分析[J].生物医学工程杂志,2011(3).

[6]Xu Chao, Jiang Yan. Multi-Criteria Evaluation Model Reveals SMC4L1 Gene Maybe a Breast Cancer Susceptibility Gene. 2009 Fourth International Conference on Bio-Inspired Computing, BIC-TA2009, 2009, 10:161-163.

* 本论文受上海市一流学科(系统科学)项目资助:(XTKX2012);受上海市教委创新项目资助(2013Z10252016)。

(作者单位:田鑫,上海理工大学管理学院;蒋艳,上海理工大学管理学院;隋杨,中国矿业大学矿业工程学院)