首页 > 范文大全 > 正文

数据挖掘技术浅析

开篇:润墨网以专业的文秘视角,为您筛选了一篇数据挖掘技术浅析范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:数据挖掘是当前热门的数据处理技术。本文介绍了数据挖掘概念、数据挖掘过程及数据挖掘系统的体系框架与结构,阐述了数据挖掘的方法,并对数据挖掘应用进行了简单的介绍。

关键词:数据挖掘;神经元;方法;应用;发展

中图分类号:TP311.13 文献标识码:A 文章编号:1007-9599 (2012) 12-0000-02

一、引言

伴随信息技术的迅猛发展,数据库规模与应用的不断扩大,大量数据随之产生。新增的数据包含了重要的信息,人们希望更好地利用这些数据,并通过进行更高层次的数据分析,为决策者提供更宽广的视野。

现今,很多领域已建立了相应的数据仓库。但人们无法辨别隐藏在海量数据中有价信息,传统的查询方式无法满足信息挖掘的需求。因此,伴随着数据仓库技术不断发展并逐渐完善的一种从海量信息中提取有价潜在信息的崭新数据分析技术------数据挖掘(Data Mining)技术应运而生。

二、数据挖掘概念

数据挖掘技术从1990年左右开始,发展速度很快,数据挖掘技术的产生和不断发展可使得人们对当今世界的海量数据中隐藏着人们所需要的商业和科学信息等重要信息进行挖掘。数据挖掘运用到交叉学科,涉及到,包括Database、AI、Machine Learning、人工神经网络(Artificial Neural Networks)、统计学(statistics)、模式识别(Pattern Recognition)、信息检索(Information Retrieval)和数据库可视化等,因此数据库目前还没有明确的定义。通常普遍认可的数据挖掘定义是:从数据库中抽取隐含的、以前未知的、有潜在应用价值的模型或规则等有用知识的复杂过程,是一类深层次的数据分析方法。

三、数据挖掘方法

由于数据挖掘技术研究融合了不同学科技术,在研究方法上表现为多样性。从统计学角度上划分,数据挖掘技术模型有:线形/非线形分析、回归/逻辑回归分析、单/多变量分析、时间序列/最近序列分析和聚类分析等方法。通过运用这些技术可以检索出异常形式数据,最后,利用多种统计和数学模型对上述数据进行解释,发掘出隐藏在海量数据后的规律和知识。

(一)数据挖掘统计

统计学为数据挖掘技术提供了判别方法与分析方法,经常会用到的有贝叶斯推理(Bayesian reasoning; Bayesian inference)、回归分析(Regression analysis)、方差分析(Analysis of Variance,简称ANOVA)等分析技术、贝叶斯推理是在估计与假设统计归纳基础上发展的全新推理方法。贝叶斯推理在与传统统计归纳推理方法相比较,所得出的结论不仅根据当前观察得到的样本信息,还将根据推理者过去相关的经验和知识来处理数据挖掘中遇到的分类问题;回归分析是通过输入变量和输出变量来确定变量之间的因果关系,通过建立回归模型,根据实测数据求解模型的各参数,若能很好的拟合,则可根据自变量进一步预测。统计方法中的方差分析是通过分析研究中估计回归直线的性能和自变量对最终回归的贡献大小,从而确定可控因素对研究结果影响力的大小。

(二)聚类分析(Cluster analysis )

聚类分析(Cluster analysis)是将一组研究对象分为相对同质的群组(clusters)的统计分析技术。 同组内的样本具有较高相似度,常用技术有分裂/凝聚算法,划分/增量聚类。聚类方法适用于研究群组内的关系,并对群组结构做出相应评价。同时,聚类分析为了更容易地使某个对象从其他对象中分离出来的方法用于检测孤立点。聚类分析已被应用于经济分析(Economic analysis)、模式识别(Pattern Recognition)、图像处理(image processing)等多种领域。

(三)机器学习(Machine Learning)

机器学习方法经过多年的研究已相对完善,通过建立人类的认识模型、模仿人类的学习方法从海量数据中提取信息与知识,在很多领域已取得了一些较满意的成果。因此利用目前比较成熟的机器学习方法可以提供数据挖掘效率。

(四)数据汇总

数据库中的数据和对象经常包含原始概念层上的详细信息,将数据集通过数据立方体和面向对象的归纳方法由低概念层抽象到高概念层,并对数据归纳为更高概念层次信息的数据挖掘技术。

(五)人工神经网络(Artificial Neural Networks)

神经网络是一种模范动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。近年来在解决数据挖掘中遇到的问题越来越受到人们的关注,源于人工神经网络具有良好的自组织自适应性、并行处理、分布式存储和高容错等特性,并通过调整内部大量节点之间相互连接的关系,达到处理信息的目的。

(六)遗传算法(Genetic Algorithm)

遗传算法(Genetic Algorithm)是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法,是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。遗传算法可直接对结构对象进行操作,不存在求导和函数连续性的限定,能自动获取和指导优化的搜索空间,自适应地调整搜索方向。遗传算法已被人们广泛地应用于多种学科领域。

(七)粗糙集

粗糙集是一种刻划不完整性和不确定性的数学工具,能有效地分析不精确,不一致(inconsistent)、不完整(incomplete) 等各种不完备的信息,还可以对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律。粗糙集理论应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

四、数据挖掘技术发展趋势

当前,数据挖掘技术不断创新与发展,数据挖掘技术开发研究人员、系统应用人员所面对的主要问题:高效、有效的数据挖掘方法和相应系统的开发;交互和集成的数据挖掘环境的建立以及在实际应用中解决大型问题。

五、小结

数据挖掘技术涉及到多种学科技术,如:数据库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索及空间数据分析等。因此,数据挖掘是非常有前景的研究领域,随着数据挖掘技术的不断发展,它将会广泛而深入地应用到人类社会的各个领域。

参考文献:

[1]罗可,蔡碧野.数据挖掘及其发展研究[J].计算机工程与应用,2002

[2]赵丹群.数据挖掘:原理、方法及其应用[J].现代图书情报技术,2000

[3]刘毅勇.情报分析智能辅助决策方法及其军事应用[M].北京:国防大学出版社,2001

[4]唐晓萍.数据挖掘技术及其在指挥控制系统中的应用[J].火力与指挥控制,2002

[5]Alex Berson,Stephen J.Smith,Data Warehousing,Data Mining,&OLAP[M], McCraw-Hill Book Co,1997

[6]吴修霆.SAS数据挖掘技术的实现[J].微电脑世界,2000, Vol.14:pp44-45

[7] INDERPAL BHANDARI, EDWARD COLET, JENNIFER PARKER, ZACHARYPINES, RAJIV PRATAP, KRISHNAKMAR RAMANUJAM. Advanced Scout: Data Mining and Knowledge Discovery in NBA Data. Data Mining and Knowledge Discovery,1997,1:121~125

[8]刘辉,胡大治.数据挖掘技术发展及其应用[J].甘肃科技,2006,22

[作者简介]李响(1985-),男,汉,天津市,职称:助理实验师,硕士(学历),研究方向:计算机科学与技术。康洋(1984-),男,汉,天津市,大学本科(学历),研究方向:计算机信息查新检索。