首页 > 范文大全 > 正文

区域形状的粗集分类研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇区域形状的粗集分类研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:本文主要利用粗集理论针对图像分割后的区域形状进行分类研究。依据粗集理论研究离散化数据的特点,考虑类分布信息,采用信息熵理论进行连续条件属性的离散化。在此基础上,利用约简算法剔除冗余属性,获取约简属性,并进一步提取决策规则。最后选取测试样本进行实验分析,结果表明分类是有效的。

Abstract: The classification research of regional shape after image segmentation is brought forward in this paper based on RS theory. Data discrimination is the character of RS,considering distributed information of class,and continual condition attributes are described according to information entropy theory. On the basis of that,redundancy attributes are eliminated by RS reduction algorithm. Reduction attributes and rules are gained. Finally,the result indicates that the classification is valid through selecting test sample and analyzing the imitation experiment.

关键词:区域形状;粗集;分类;信息熵

Key words: regional shape;rough set;classification;information entropy

中图分类号:TP30 文献标识码:A文章编号:1006-4311(2010)21-0028-02

0引言

在有关视觉信息的讨论中,目标的形状具有特殊的意义。图像分割后,图像中一个区域的形状就是该目标边界上的点所组成的模式。要对形状进行分类,首先要对目标的形状特征进行描述。由于形状很难给出精确的数学定义,所以对形状的度量往往是相对的,而不是绝对的。为了对目标的形状描述更加精确,需要同时使用多种特征,然而特征越多,计算量越大,实现也越复杂。因此,能用最少的特征来完成形状分类的目的有着重要的意义。

粗糙集理论是一种崭新的智能信息处理理论,它为研究不精确知识的表达、学习、约简,分类归纳等提供了一种新的方法。鉴于形状描述的特点及粗糙集理论在处理不确定性信息方面的优势,本节提出一种基于粗集理论的区域形状分类策略。将目标图像的统计学特性作为条件属性,形状分类作为决策属性,并针对连续属性进行离散化,属性约简,最终从训练样本中提取出决策规则,进而对测试样本进行分析。

1基于粗集的处理过程

在给定一幅含有多个物体的数字图像的条件下,处理过程由三个主要阶段组成[1]:

①图像分割的预处理阶段

在该阶段中检测出各个物体,以获得精确的分析目标。

②特征抽取阶段

对物体进行度量。一个度量是指一个物体某个可度量性质的度量值,而特征是一个或多个度量的函数。计算特征是为了对物体的一些重要特征进行定量估计。特征抽取过程产生了一组特征,把它们组合在一起,就形成了特征向量,即产生条件属性和决策属性。

③分类阶段

基于粗集的一种决策,主要确定每个物体应该归属的类别,其中包括对知识的约简,获取及分析决策。

在物体从图像中分割出来后,进一步就可以对它的几何特征进行测量和分析,在此基础上可以识别物体,也可以对物体分类,结合区域形状的分析特征及粗集理论的特点,给出基于粗集的区域形状的分类处理过程,如图1所示。

在特征抽取阶段建立基于粗集理论的区域形状分类信息系统S=(U,C,D,V,F),其中U为论域,是区域形状对象的非空有限集合,C∪D=A为属性集合,子集C和D分别称为条件属性和决策属性,V=∪a∈Va是属性值的集合,Va表示了属性a∈A取值的范围,F为U与A之间的关系集。信息系统的数据可以以关系表的形式来表示,即决策表[2]。决策表的列表示条件属性和决策属性。行表示对象,每个单元格表示对象的属性值。可以看出,一个属性对应一个等价关系,一个决策表看作是一族等价关系,即知识库。知识等价可以用不同的属性集描述论域中的对象,表达关于论域相同的事实。

2仿真实验

2.1 区域形状分类信息系统的建立

描述区域形状特征的因素复杂且难以测量,本文采用对形状变化比较敏感的形状特征来描述区域形状,并利用部分区域形状特征建立决策表,其中,条件属性C包括五个形状特征,分别代表外观比C1,形状因子C2,偏心率C3,矩形度C4及饱和度C5,决策属性D为形状类别,分别是1为圆形,2为矩形,3为三角形,4为椭圆形。

2.2 基于信息熵的连续条件属性离散化

区域形状决策表中条件属性是连续的,而粗集研究离散数据,所以采用的离散算法好坏直接影响预测结果的正确性,一般意义上经常采取等宽度或等频率方法进行离散,这种形式断点形式简单,但因为忽略了对象的类别信息,使其容易丢失信息,也就难以获得较好的离散化结果。

本文采用基于信息熵的离散化方法[3],此方法是一种监督的、自顶向下的分裂技术。它在计算和确定断点时利用类分布信息。

设x?哿u为子集,其实例个数为|X|,其中决策属性为j(j=1,2,…,r(d))的实例个数为kj,定义此子集的信息熵[4]为

H(X)=-pjlog2pj,pj=(1)

设P为已选取的断点的集合,L为实例被断点集合P所划分成的等价类集合,B为候选断点的集合,H为决策表信息熵,初值由公式(1)取为H=H(U)。

基于信息熵的数据离散化算法如下:

step1:P= ;L={U};H=H(U);

step2:对每一个c∈B,计算H(c,L);

step3:若H≤min{H(c,L)},则结束;

step4:选择使H(c,L)最小的断点cmin加到P中;H=H(c,L);B=B-{c};

step5:对所有X∈L,如果cmin把等价类X划分为X1和X2,那么,从L中去掉X,把等价类X1和X2加到L中;

step6:如果L中各个等价类中的实例都具有相同的决策,则结束;否则转到步2。

根据如上算法针对表1进行基于信息熵的离散化,得到离散化区间如下:

①C1的断点:[*, 1.4115),[1.4115, 1.4922),[1.4922, 1.5278),[1.5278, 1.6528),[1.6528, *)

②C2的断点:[*, 1.2017),[1.2017, 1.5447),[1.5447, *)

③C3的断点:[*, 0.7066),[0.7066, 0.7201),[0.7201, 0.7955),[0.7955, *)

④C4的断点:[*, 0.7699),[0.7699, 0.7734),[0.7734, 0.7753),[0.7753, 0.8911),[0.8911, *)

⑤C5的断点:[*, 0.0984),[0.0984, 0.1410),[0.1410, 0.1658),[0.1658, *)

2.3 知识约简和知识获取

知识约简是在保持决策表分类或决策能力不变的前提下,删除冗余属性,即进行属性约简。本文采用约简算法可以求出一个相对较小长度约简,算法可以由用户来定义属性的权重。约定B表示约简;S表示分辨函数中的每一个集合;w(S)表示S的权重。算法描述如下:

step1:算出给定决策表的分辨矩阵;

step2: ;

step3:令a为在S中出现频率与权值w(S)乘积最大的属性,如果两个属性的值一样大,则随机地取一个属性;

step4:把属性a添加到集合B中;

step5:将S中所有包含属性a的项去掉;

step6:如果 ,则返回B,否则转到3。

由此可得到(基于表2的)属性约简为{C2,C4,C5},即{形状因子,矩形度,饱和度}。

知识约简结果有利于进一步进行知识获取,即决策规则的提取,除去冗余属性值,所得决策规则如下:

Rule1:IF C2

Rule2:IF C2

Rule3:IF C2

Rule4:IF 1.2017

Rule5:IF 1.2017

Rule6:IF 1.2017=0.1658 THEN D=2

Rule7:IF C2>=1.5447 AND C4< 0.7699 AND 0.0984

Rule8:IF C2

Rule9:IF C2

选取测试样本,应用决策规则,通过对测试结果的分析可知,分类规则能以较高精度将测试样本按其形状正确分类,说明该分类决策是有效的。Rule1是一种特殊情况,在判断圆形和椭圆形时,三个属性值,形状因子小于1.2017,矩形度小于0.7699,饱和度小于0.0984,即三个属性值在最小区间范围内,说明形状相近。

3结论

主要利用粗集的约简理论及分类功能,对图像分割后的区域几何形状进行分类,文中所用到的是规则的几何图形,因此形状特征明显,通过仿真实验证明,只用三个形状特征就能以较高精度完成分类任务,此方法是有效的。当然对于复杂形状,在以后的研究中,需要通过改进算法,增加形状特征的因素等手段进一步进行研究。

参考文献:

[1]CostaLF,CesarRM.ShaPeAnalysisandClassification:heoryandPraetiee.CRCPress 2001.

[2]史忠植.知识发现[M].第一版.北京:清华大学出版社,2002.

[3]谢宏,程浩忠,牛东晓.基于信息熵的粗糙集连续属性离散化算法[J].计算机学报,2005,28(9):1570-1573.

[4]张文修,吴伟志,梁吉业.粗糙集理论与方法[M].北京:科学出版社, 2001.

[5]邵明文,张文修,吴伟志.信息系统知识约简简便算法[J].计算机科学,2003,30(11),25-28.