首页 > 范文大全 > 正文

浅谈数据挖掘技术的概念

开篇:润墨网以专业的文秘视角,为您筛选了一篇浅谈数据挖掘技术的概念范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

【摘 要】随着信息技术和数据库技术的快速发展和普及应用,信息化建设取得了长足的发展。数据挖掘技术在分析大量数据中具有明显优势,基于数据挖掘的分析技术在金融、保险、电信等有大量数据的行业已有着广泛的应用。本文就数据挖掘的概念、过程和技术进行介绍与分析。

【关键词】数据挖掘;KDD;应用

【Abstract】The progress of science and technology,especially the development of the information industry,brings us into a brand-new information age. The emergence of data mining technology to meet the needs of the people, by the vast amounts of data information into useful data warehouse, decision support for the development of all walks of life. In this paper, the concept of data mining ,tasks, techniques and processes are introduced and analyzed.

【Key words】Data Mining;KDD;Application

0 引言

随着互联网技术的普及应用,信息化进入了新的发展阶段,大大提高了人们的生产机及生活水平。各行各业逐步实现了信息化的发展道路,大大提高了各行各业的管理水平和经济效益。然而,随着市场经济的发展,各行各业的信息化系统积累了大量的数据信息。如何对这些海量的数据信息进行统计、分析、利用、决策已经成为当前各行各业迫切需要解决的问题。与此同时,出现了海量数据挖掘技术,被广泛地应用于信息化管理、科学研究、金融决策、加工零售业、医学医药等方面。正是由于数据挖掘技术以及数据仓库技术的出现,很好的解决了海量数据的有效利用,进一步促进了信息化的发展。

1 数据挖掘的概念

数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据库中知识发现(knowledge discover -y indatabase,KDD)是一个从数据库中挖掘有效的、新颖的、潜在有用的和最终可理解的模式的复杂过程。DM是KDD过程中对数据真正应用算法抽取知识的那一个步骤,是KDD过程中的重要环节。因此,DM也称为DMKD。这里需要指出,数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。

2 数据挖掘的过程

KDD的整个过程包括在指定的数据库中用数据挖掘算法提取模型,以及围绕数据挖掘所进行的预处理和结果表达等一系列的步骤,是一个需要经过反复的多次处理的过程。整个知识发现过程是由若干挖掘步骤组成的,而数据挖掘仅是其中的一个主要步骤。整个知识发现的主要步骤有以下几点。

1)目标定义阶段

要求定义出明确的数据挖掘目标。目标定义是否适度将影响到数据挖掘的成败,因此往往需要具有数据挖掘经验的技术人员和具有应用领域知识的专家以及最终用户紧密协作,一方面明确实际工作中对数据挖掘的要求,另一方面通过对各种学习算法的对比进而确定可用的算法。

2)数据准备阶段

数据准备在整个数据挖掘过程中占的比例最大,通常达到60%左右。这个阶段又可以进一步划分成三个子步骤:数据选择 (DataSelection), 数据预处理(DataProcessing)和数据变换(Data Trans- formation)。数据选择主要指从已存在的数据库或数据仓库中提取相关数据,形成目标数据(Target Data)。数据预处理对提取的数据进行处理,使之符合数据挖掘的要求。数据变换的主要目的是精减数据维数,即从初始特征中找出真正有用的特征以减少数据挖掘时要考虑的特征或变量个数。

3)数据挖掘阶段

这一阶段进行实际的挖掘工作。首先是算法规划,即决定采用何种类型的数据挖掘方法。然后,针对该挖掘方法选择一种算法。完成了上述的准备工作后,就可以运行数据挖掘算法模块了。这个阶段是数据挖掘分析者和相关领域专家最关心的阶段,也可以称之为真正意义上的数据挖掘。

4)结果解释和评估阶段

根据最终用户的决策目的对提取的信息进行分析,把最有价值的信息提取出来。对于数据挖掘阶段发现的模式还要经过用户或机器的评估,对于存在冗余或无关的模式要将其删除;对于不能满足用户要求的模式,则需要退回到上一阶段。另外,数据挖掘面对的最终用户是人,因此要对发现的模式进行可视化,或者把结果转换为用户易懂的其他方式。

3 应用分析

数据挖掘技术是一种新兴的学科,虽然起步比较晚,但是对其的研究已经比较成熟。人们为了更好的利用数据挖掘技术,还开发了很多专业的工具,如气象、金融、生物医学、电信业务等的数据挖掘业务,数据挖掘的应用不断发展,必定会为人们的生产生活带来更多便利。

1)在医学上的应用。人体的奥秘是无穷无尽的,人类遗传密码的信息、人类疾病史和治疗方法等,都隐含了大量数据信息。采用数据挖掘来解决这些问题,将给相关工作者的工作带来很大方便。此外,医院内部医药器具的管理、病人档案资料的整理、医院内部结构的管理等,也是庞大的数据库。

2)在金融领域中的应用。银行和金融机构中有大量的金融数据,如储蓄、信贷和投资等。利用数据挖掘技术来管理和应用这些数据,会收获意想不到的结果。对于金融市场的变化趋势,可以用数据挖掘中的多维数据进行分析;对于侦破洗黑钱等犯罪活动,可以采用孤立点分析等工具进行研究,为相关工作提供了极大的方便。

3)在高校贫困生管理的应用。目前,在部分高校里面依旧存在很多贫困大学生。而高校对贫困生给予了多方面的照顾,其中贫困生管理分析系统主要应用了数据仓库技术以及数据挖掘技术,以校内贫困生群体为研究对象,采集、存储贫困生在校生活信息、学习信息、学业信息,然后建立贫困生认定模型;以此为依据,查询、统计贫困生信息,并在此基础上提供贫困生资助及帮扶决策支持信息。

4)在电信业中的应用。电信业已经不再是传统概念上的电话提供商,将语言、传真、电话、电子邮件、计算机网络、图像及其他数据通信业务综合起来,逐渐发展为一个全方位立体化的综合电信服务商。数据挖掘可以帮助营运商进行商业形式和模式的分析,如利用多维分析电信数据,如系统负载、用户行为、数据通信速率和容量、利润率等;采用聚类和孤立点分析方法,查找出异常状态和盗用模式;利用关联和序列模式,找出影响电信发展的相关因素,更好的推动电信业务的发展。

4 结语

当前,数据挖掘及其技术得到快速发展和应用,取得了重大成果,可以为行业的生产和发展提供重大决策支持,尤其对于高校贫困生认定及帮扶管理工作方面,可以提供有力的决策和支持,有助于建设和谐校园;相信在不久的将来,数据挖掘技术将会得到深入发展,这对于人类的生产和生活具有重要意义。

【参考文献】

[1]蒋嘉瑞.浅析数据仓库及数据挖掘技术在 ERP 中的应用[J].中国管理信息化,2011(23).

[2]韦艳艳,张超群.“数据仓库与数据挖掘”课程教学实践与探索[J].高教论坛,2011(01).

[3]方明,薛天助.数据仓库在银行信息系统中的研究与应用[J].信息与电脑:理论版,2011(02).

[4]于春香.数据挖掘技术简介[J].福建信息技术教育,2005,1.

[5]杨勇,袁芹芹.数据挖掘技术及其应用[J].西安文理学院学报:自然科学版,2006,2.

[6]钟智,尹云飞.软件数据挖掘中的几种模型[J].计算机工程,2005,23.

作者简介:赵淑君(1984―),女,助教,从事计算机应用技术。

袁小波(1984―),男,助工,从事建筑给水排水设计。