首页 > 范文大全 > 正文

聚类分析方法在网格技术中的应用

开篇:润墨网以专业的文秘视角,为您筛选了一篇聚类分析方法在网格技术中的应用范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:建立在网格基础上的数据挖掘结合了网格技术的优点,能够对各种信息载体中分布的海量信息进行高效的处理、分析和挖掘。本文分析了网格技术与聚类分析方法的特点,使用基于网格方法的数据分析方法将空间划分为由(超)矩形网格单元组成的网格,然后在网格单元上进行聚类分析,以达到更加深入的进行数据挖掘分析之目的。

关键词:数据挖掘;网格技术;聚类分析

中图分类号:TP311 文献标识码:A文章编号:1007-9599 (2011) 17-0000-01

Cluster Analysis Method Application of Grid Technology

Ma Dongmei

(Xinjiang Tianshan Vocational and Technical College,Urumqi830017,China)

Abstract:In the grid based on data mining combines the advantages of grid technology to various information carriers in the distribution of vast amounts of information for efficient processing, analysis and mining.This paper analyzes the grid and cluster analysis of the characteristics,the use of grid-based methods of data analysis methods will be ground into space(hyper)rectangular grid consisting of grid cells,then the cluster analysis of grid cells in order to achieve a more in-depth analysis of the data mining purposes.

Keywords:Data mining;Grid;Cluster analysis

一、引言

随着信息技术的飞速发展,人们对计算机信息处理的要求越来越高,同时处理、传输、储存各种信息的数据量也越来越庞大。如何进一步增强计算机信息系统的处理能力,从海量的数据中提取有益的资源,便成为人们不断追求的目标。网格技术和数据挖掘技术的发展,为解决此问题提供了一种有效的办法。网格是一个集成的资源环境,它能够充分吸纳各种资源,并将它们转化成一种随处可得的、可靠的、标准的、经济的能力。这些资源包括计算资源、网络通信资源、数据资料、仪器设备、知识等各种各样的资源。网格计算就是基于网格的问题求解。数据挖掘就是从大量的数据中发现或"挖掘"知识,而网格上含有丰富的数据,是数据挖掘的理想目标。基于网格的数据挖掘就是建立在数据网格的基础设施和相关技术的基础上,在广域分布的海量数据和计算资源的环境中发现数据模式,获取新的科学知识和规律。

二、基于网格的数据挖掘

网格计算技术是解决复杂海量科学数据的访问存储组织和管理的一种有效技术,是广域分布的异构虚拟组织间实现协同资源共享、多领域的科学和工程的问题求解。建立在网格基础上的数据挖掘结合网格计算的思想及其技术的优点,能够对广域分布的海量数据进行高效的处理、分析和挖掘,将给信息分析处理的效率带来极大的促进。(一)网格数据挖掘过程:数据的处理,数据的分析与挖掘,模式的评价。(二)网格数据挖掘的特点:超强的计算能力;具有分布性和动态性;具有高性能的I/O负载平衡能力;高效的数据存储服务、传输服务和复制管理。(三)聚类分析在网格计算中的实现方法。

三、网格聚类过程划分

基于网格聚类算法的第一步是划分网格结构,按搜索子空间的策略不同,主要有基于由底向上网格划分方法的算法和基于自顶向下网格划分方法的算法。由底向上划分方法只需对数据集进行一次线性扫描以及较高的簇的描述精度,算法的效率与维度密切相关。自顶向下划分方法能够自动根据数据的分布对空间进行划分,可以快速将大型高维数据集中的簇分隔开,数据空间维度对网格计算的影响较小。可以看出,两类方法适用于不同的问题。前者适于处理高维数据集,后者能有效处理存取代价较大的超大型数据集与动态数据。

四、基于网格的聚类过程分析

基于网格的聚类算法的基本过程是,首先将数据空间W划分为网格单元,将数据对象集O映射到网格单元中,并计算每个单元的密度。根据用户输入的密度阈值Min Pts判断每个网格单元是否为高密度单元,由邻近的稠密单元组形成簇,第一步,定义一个网络单元集;第二步,将对象指派到单元,并计算密度;第三步,删除密度低于指定阙值的单元;第四步,由稠密网格单元形成簇。

(一)网格单元的密度。簇就是一个区域,该区域中的点的密度大于与之相邻的区域。在网格数据结构中,由于每个网格单元都有相同的体积,因此网格单元中数据点的密度即是落到单元中的点的个数。据此可以得到稠密网格单元的密度是,设在某一时刻t一个网格单元的密度为density,定义density=单元内的数据点数/数据空间中总的数据点数,设密度阈值为A,为用户输入的密度阙值,当density>A时,该网格单元是一个密集网格单元。反之为稀疏网格单元。需聚类计算时,对于稀疏网格单元一般采用压缩或直接删除的处理方法,理论分析和实验证明删除稀疏网格单元并不影响聚类的质量。(二)由稠密网格单元形成簇。在基于网格的聚类算法中,根据以上分析,由邻接的稠密单元形成簇是相对直截了当的,这也是基于网格的方法的优点之一。但是需要首先定义邻接单元的含义。设n维空问中的存在任意两个网格单元U1和U2,当这两个网格单元在一个维上有交集或是具有一个公共面时,称它们为邻接网格单元。在二维空间中,比较常使用的是4-connection相邻定义和8-connection相邻定义,

五、结束语

基于网格聚类方法的优点是它的处理速度快,因为其速度与数据对象的个数无关。但是,基于网格方法的聚类算法的输入参数对聚类结果影响较大,而且这些参数较难设置。当数据中有噪音时,如果不加特殊处理,算法的聚类质量会很差。而且,算法对于数据维度的可伸缩性较差。

基于网格的聚类方法目前还存在一些急需解决的问题,主要有以下几点:(1)当簇具有不同的密度时,全局的密度参数不能有效发现这样的簇,需要开发具有可变密度参数的算法。(2)对于不同类型数据的聚类问题,比如对于高维数据,网格的数据将急剧增加,需要有效地技术发现近邻单元。(3)当数据集的规模巨大以及数据具有地理分布特性时,需要开发有效的并行算法来提高处理的速度。(4)对现有网格算法的优化,从不同方面提高网格算法的有效性。比如开发稀疏网格的压缩算法、密度相似网格的合并算法等。

本文对基于网格的聚类方法的进行了分析和研究,包括网格的定义与划分方法、网格单元密度的确定、由邻接网格单元形成聚簇的聚类过程;最后对网格聚类方法优点与局限性进行总结,在已有研究分析的基础上,提出后续需要重点解决的问题。

参考文献:

[1]曹洪其,余岚,孙志挥.基于网格聚类技术的离群点挖掘算法[J].计算机工程,2006,6

[2]孙玉芬.基于网格方法的聚类算法研究[J].华中科技大学,2006

[3]王森.计算机原理[M].北京:电子工业出版社,2002