首页 > 范文大全 > 正文

数据挖掘技术在晶体材料结构与性能关系研究中的简单应用

开篇:润墨网以专业的文秘视角,为您筛选了一篇数据挖掘技术在晶体材料结构与性能关系研究中的简单应用范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:该文利用数据挖掘技术中的常用的Weka软件作为挖掘工具,对收集的大量的简单晶体材料结构性能数据,先使用聚类方法进行数据预处理,再使用关联规则方法挖掘两者间存在的某些关联,发现挖掘出的规则与已知的规律符合较好,表明了数据挖掘技术,特别是关联规则在材料的性能和结构关系研究领域具有很强的实用性,具有巨大的应用潜力,值得进一步深入研究。

关键词:数据挖掘;关联规则;Weka;晶体材料;性能与结构关系

中图分类号:TP311文献标识码:A文章编号:1009-3044(2011)12-2741-03

Application of Data Mining in the Relations Between the Properties and Structure of the Crystal Materials

LIN Jie, HUANG Xu-ming

(The College of Applied Science & Technology, Fujian Normal University, Fuzhou 350007, China)

Abstract: This paper collected a number of the data including the properties and structures of crystal materials, and by the Weka software, pretreated the data with Clustering, and then data mined with association rule. The relations discovered between the properties and the structures of crystals were according with the known rules. This implies that data mining technology has the huge potential in the studies in the relations between the properties and structure of materials.

Key words: data mining; association rule; Weka software; crystal material; relation between structure and properties

数据挖掘是数据和信息系统及其应用的一个欣欣向荣的科学前沿,它是从大规模数据集中抽取隐含的有意义的规律或模式的过程,通常又称为数据中的知识发现(Knowledge Discovery in Database,即KDD)[1]。数据挖掘的方法可分为关联规则、分类和预测方法、聚类方法三大类:1) 关联规则就是发现大量数据中项集之间有趣的关联或相关联系;2) 分类和预测方法可以用于提取描述重要数据类型或预测未来的数据趋势;3) 聚类是采用相似度度量,将物理或抽象对象的集合分成若干个簇的过程。近年来,数据挖掘技术已经在许多领域取得了成功的应用,显示了一定的经济价值和社会价值,如在电信、保险等行业,数据挖掘技术可以用于客户细分、客户流失预测、个性化服务等方面[2];在零售行业,数据挖掘技术可以帮助识别顾客购买行为、发现顾客购物模式和趋势、改进服务质量;而在科学领域,数据挖掘同样可以通过对大量科学实验数据的分析,从而发现其中隐藏的模式,促进新的科学发现的产生。

材料科学是目前十分热门的学科之一,它对国民经济建设和国防建设起着重要的作用,与信息、生物技术并称为21世纪最重要、最有发展潜力的领域。不管是什么材料,在其研发过程中,普遍存在两个主要的问题[3]:1) 材料的结构与性质性能关系的研究,即解答“用何种原子可堆成何种结构,形成的物质(或材料)具有何种物理性质或化学性质,或具有何种使用性能”的问题,据此可以有目的地设计具有指定性能的材料,以适应某种实际需要。2) 材料制备或生产中传热、传质、流体流动和化学反应的交互作用,以及这些作用与材料性能、合格率、可靠性、能耗、成本等的关系,即解答“用何种流程、何种设备、何种配方、在何种条件下生产或制备该种材料可有最佳效果”的问题,据此可以有目的地设计该种材料的生产工艺流程。目前,数据挖掘技术在特定材料的设计和制备中得到了较大的应用,也得出了较好的结果。陈念贻等[4]将多维数据挖掘应用于材料设计及制造,并构建了软件产品 MasterMiner。杨杰等[5]提出了多重知识模型的分层数据挖掘方法,其构建的 DBMiner 数据挖掘平台可以用于多元合金材料预报,其研究成果已得到国际同行的肯定。Huang[6]等报道了应用人工神经网络建立的模型在模拟陶瓷工具材料的组分、含量,预测机械性能方面是有效的。然而,在材料的结构与性能关系的研究方面,数据挖掘技术的应用还相当少。

因此,本文收集了现有已知的大量的晶体材料的理想结构数据及其部分性能数据,使用Weka作为数据挖掘工具,首先使用聚类方法进行简化数据,再用关联规则方法探索揭示结构和性能之间存在的某种关联,与已知的规律相比较,探讨数据挖掘技术在该方面的应用。

1 相关的数据挖掘算法与weka软件

1.1 聚类算法

聚类就是将数据对象分成多个簇,使得簇内的对象很相似,而不同簇之间的对象是相异的,对象间的相似度(或相异度)是根据数据对象的属性值来计算的,通常采用的度量方式是距离。本文希望通过使用聚类分析可以获得对数据分布的了解,因此采用了划分聚类中的K-均值算法。

K-均值算法的过程为:1) 把要生成的簇的数目k作为输入参数;2) 随机选择k个对象,每个对象代表一个簇的中心;3) 将每个实例分配到距离它最近的中心所代表的簇中,得到k个簇;4) 分别计算各个簇中所有实例的均值,把它们作为各簇新的簇中心。重复3) 和4) ,直到k个簇中心的位置都固定,簇的分配也固定。

1.2 关联规则算法

关联规则是描述两个或多个变量之间的某种潜在关系的特征规则。关联规则的评价度量一般为支持度和置信度两种。支持度指事务数据库中同时包含A和B的比例,它反应了所发现规则的有用性。置信度指事务数据库中包含A的同时也包含B的百分比,它反应了所发现规则的确定性。最小支持度阈值和最小置信度阈值一般由专家或用户通过相关领域经验或反复实验来确定。Apriori算法是一种最有影响力和应用最广泛的挖掘布尔关联规则挖掘算法。Apriori算法分为2个过程进行。第一步是寻找频繁项集,其基本思想为:①扫描事务数据库一次,找出频繁1-项集;②用频繁k-项集来产生候选k+1-项集; ③用事务数据库来测试这些候选,通过计算支持度计数,满足最小支持度的候选k+1-项集即为频繁k+1-项集,不满足条件的候选项集则排除。重复②③步直到不能再产生候选项集或频繁项集为止。Apriori算法的第二步是由频繁项集产生强关联规则,其基本思想为:在事务数据库中找出频繁项集后,计算每条规则的置信度,若满足最小置信度阈值即为强关联规则。

1.3 Weka软件简介

Waikato Enviroment for Knowledge Analysis(简称Weka)软件,即怀卡托大学知识分析环境,是一款基于Java环境的开源免费软件,是目前最完备的数据挖掘工具之一,已经成为全球从事数据挖掘和知识发现人员的首选工具之一。Weka中集合了大量算法,可执行数据预处理、分类、回归、聚类、关联规则等任务。

2 数据挖掘过程与结果讨论

2.1 实验数据准备

晶体是由原子(或离子、分子)在空间周期地排列构成的。在理想晶体结构的分析研究过程中,人们发现晶体的宏观对称要素只有10种,分别是C1、C2、C3、C4、C6、S1(= m)、S2(= i)、S3、S4、S6,而这些对称要素可以单独存在,也可以组合成各种不同的对称类型。本文共搜集了258种现有的晶体材料结构及其性能数据,整理后如表1所示。

2.2 数据转换

变量“对称轴”共有10个取值:C2、C2’、C2”、C3、C4、C6、S2、S3、S4、S6(C2、C2’、C2”是相互垂直的三条C2),变量“对称面”有4个取值:m、mh、md 、mv(都是对称面,跟对称轴的空间位置不同),对于某一晶体材料,其在该属性的取值可能是其中的一种或多种的组合。根据以上数据的离散化特点,可以采用多变量法将离散变量数值化[2],即将该离散变量中的每一个值变换成一个新的变量。例如,变量“对称面”经过多变量法变换后,变量“对称面”被4个新变量所取代,分别为“对称面-m”、“对称面-mh”、“对称面-md”、“对称面mv”,这些变量的对应取值为:若原变量中取值和变量名一致,则为1,否则为0。同样地,对变量“对称轴”也进行多变量法变换。

2.3 聚类简化

使用K-均值算法对数据集进行聚类简化,weka中的SimpleKmeans模型是对K-均值算法的实现。通过实验,将参数numClusters(即数据集中的实例分成的簇的个数)设为31。运行后可以得到每一个实例所对应的簇标号,如图1所示。258个实例经过聚类预处理后被分成31个簇,从每个簇中选出一个作为该簇的代表,组成一个新的数据集,该数据集中只包含了31个实例,从而极大地缩减了数据集的数量规模。

对晶体来说,由于有限图形的所有宏观对称要素是共点的(可称之为点群),所以只可能存在32种不同类型的点群,也就是说晶体可分为32个晶类。然而通过上述聚类算法进行挖掘,只得到了31个簇,也就是31个晶类,这主要是因为在引入晶体结构数据时,只简单考虑了晶体结构的对称要素,而忽略了对称要素的数量不同,导致了D3(对称要素为3个C2、2个C3)和T(对称要素为3个C2、8个C3)点群引入的结构特征同样为(C2、C3),从而导致了这两个点群没有被分开。由此可见,聚类规则能够实现海量随机晶体结构的归纳和总结,发现了晶体结构方面的某些规律,而且同时在数据挖掘的过程中,能够简化数据集的规模,起到了数据预处理的作用。当然,在数据的引入和转化过程中,还是需要细心考量数据的特征点,否则会使得结果出现瑕疵。

2.4 关联规则

使用Apriori算法对聚类后的得到的新数据集进行挖掘,设置参数最小支持度阈值为20%,最小置信度阈值为100%,运行后结果如图2所示。

在晶体物理学中,存在一个基本准则,称之为诺埃曼原则[7]―“晶体的任一物理性质所拥有的对称要素必须包含晶体所属晶类的对称要素”。这个规则将晶体的物理性质与结构的对称性相联系了起来。物理性质在晶体学中主要用张量来描述的。那么,存在这么几条关系[7]:1、凡用三阶张量描述的所有性质,都不是中心对称的,也就是说只有无对称中心的晶体才具有这些规则;2、凡用一阶张量描述的所有性质都是极性的,因而只有极性晶类的晶体才具有这些性质,也就是只有某些具有极轴(极轴指轴的两端不能通过该晶体具有的对称要素,如对称心或轴或面的作用而相互重合的轴)方向的晶体,才具有这些规则。而本文中收集的数据中,倍频效应(简称SHG)和压电效应(简称Pie)这两个物理性质是用三阶张量描述的,那么具有Pie或SHG性质的晶体肯定是无心对称的;热释电效应(简称Pye)这一物理性质是用一阶张量描述的,也就是说,具有Pye性质的晶体肯定属于极性晶类,导致了具有中心对称的晶体同样不可能存在该性质。因此,运行关联规则后得出的结果(见图2,只列出了前30条规则)中,第6、8、9、15、16、19、21、22、24、26、27、29条规则中,均描述了center=tSHG=0或Pie=0或Pye=0,表示具有对称中心的晶体,不存在SHG、Pie和Pye这三个性质,这是符合上述规律的。也就是说,通过关联规则挖掘出的部分规则,能够符合已发现的科学规律,表明了关联规则在晶体材料的结构和性能关系领域具有很强的实用性,具有巨大的应用潜力。因此,进一步发展并深入研究针对材料结构和性能研究方面的数据挖掘技术是很有必要的。

3 结束语

本文使用数据挖掘技术来探索揭示晶体材料结构和性能之间存在的某些关联,得出的部分规则与已知的规律相符合,验证了数据挖掘技术,特别是关联规则在材料结构和性能关系研究中具有的巨大应用潜力。因此,有必要进一步发展针对材料结构和性能研究方面的数据挖掘技术,从而更快速地发现复杂结构的材料与性能之间的关系规律,加速发现或发明具有特定结构和特定功能的新材料提供一定基础。

参考文献:

[1] 韩家炜,堪博.数据挖掘概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2008.

[2] 胡可云,田凤占,黄厚宽.数据挖掘理论与应用[M].北京:北京大学出版社,2008.

[3] 熊家炯.材料设计[M].天津:天津大学出版社,2000.

[4] Chen N Y,Daniel D P,Wang W H.Intelligent materials processing by hyperspace data mining[J].Eng Appl Artificial Intelligence,2000(13):527.

[5] 杨杰,叶晨洲,陈念贻.DBMiner数据挖掘平台及其应用[J].系统仿真学报,2001,13(6):740.

[6] Huang CZ.A study on the prediction of the mechanical properties of a ceramic tool based on an artificial neural network[J].J.Mater.Proc.Tech.,2002,129:399.

[7] 蒋民华.晶体物理[M].1版.济南:山东科学技术出版社,1980.