首页 > 范文大全 > 正文

数据挖掘与统计学的关系讨论

开篇:润墨网以专业的文秘视角,为您筛选了一篇数据挖掘与统计学的关系讨论范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:数据挖掘来源于统计分析,而又不同于统计分析。数据挖掘不是为了替代传统的统计分析技术。相反,数据挖掘是统计分析方法的扩展和延伸。

关键词:数据挖掘、统计学、比较研究、关系研究

中图分类号: V221+.1 文献标识码: A 文章编号:

引言

随着科学技术的发展,利用数据库技术来存储管理数据,利用机器学习的方法来分析数据,从而挖掘出大量的隐藏在数据背后的知识。这种思想的结合形成了现在深受人们关注的非常热门的研究领域:数据库中的知识发现——KDD(Knowledge Discovery in Databases),其中,数据挖掘技术便是KDD中的一个最为关键的环节。

二、数据挖掘简介

1、数据挖掘的含义和功能

数据挖掘—DM(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是一门交叉学科,它汇聚了数据库、人工智能、统计学、可视化、并行计算等不同学科和领域,近年来受到各界的广泛关注。

一般说来,数据挖掘是一个利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系的过程,这些模型和关系可以用来做出决策和预测。它强调对大量观测到的数据库的处理。它是涉及数据库管理、人工智能、机器学习、模式识别、及数据可视化等学科的边缘学科。

作为一门处理数据的新兴技术,数据挖掘有许多的新特征。首先,数据挖掘面对的是海量的数据,这也是数据挖掘产生的原因。其次,数据可能是不完全的、有噪声的、随机的,有复杂的数据结构,维数大。最后,数据挖掘所采用的技术涉及到:数据库、人工智能、统计学、可视化、并行计算等不同学科和领域。

数据挖掘的关键步骤与技术实现

1、挖掘

把潜在的不明确数据关系的数据提取并转化为数学问题。这一步的结果只是表明数据之间有关系,但是具体是什么关系仍然不明确。

2、建模

把不明确的数据关系通过数学建模过程转化为明显的数据关系,即把数据之间的内在变化规律由数学符号与数学结构表示出来。

3、数据挖掘技术实现

在技术上可以根据它的工作过程分为:数据的抽取、数据的存储和管理、数据的展现等关键技术。

(1)数据的抽取

就是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面的处理。

(2)数据的存储和管理

数据仓库的组织管理方式决定了它有别于传统数据库的特性,也决定了其对外部数据的表现形式。数据仓库管理所涉及的数据量比传统事务处理大得多,且随时间的推移而快速累积。在数据仓库的数据存储和管理中需要解决的是如何管理大量的数据、如何并行处理大量的数据、如何优化查询等。

(3)数据的展现

主要的方式有:查询:实现预定义查询、动态查询、OLAP查询与决策支持智能查询;报表:产生关系数据表格、复杂表格、OLAP表格、报告以及各种综合报表;可视化:用易于理解的点线图、直方图、饼图、网状图、交互式可视化、动态模拟、计算机动画技术表现复杂数据及其相互关系;统计:进行平均值、最大值、最小值、期望、方差、汇总、排序等各种统计分析;挖掘:利用数据挖掘等方法,从数据中得到关于数据关系和模式的识。

四、统计学的含义

统计学最初是作为一门实质性科学建立起来的,它从数量上研究某类具体的现象(如社会经济发展)的规律,但是,随着统计学研究范围的不断扩大以及统计方法在社会领域和自然领域内的有效应用,加之统计方法体系本身的不断发展和完善,使得统计学的研究对象也发生了变化。统计学已从实质性科学中分离出来,转而研究统计方法,成为一门方法论的科学。即统计学是研究如何搜集数据、整理数据和分析数据的一门方法论科学。

从本质上看,统计工作的核心就是数据(或者信息)的采集、分析和处理,即“统计:收集、分析、表述和解释数据”。

五、统计学的作用

统计学是一门综合性较强的学科,其往往涉及到企业多个方面的信息。从原材料、设备、生产、包装、出售等多个环节都有统计学的工作 。统计部门摄取的信息基本上囊括了企业全部的发展资料,因而在企业决策中的参考价值极大。

1、了解经营状况。

在企业日常经营中,统计学能够对所有信息进行实时跟踪记录,每个阶段时期的资料都会收集在内。领导者只需调出统计部门的资料,就可以掌握当前的企业经营状况,了解企业在某一个时期的具体动态,如:机构、人员、资产、负债等状况。

2、呈现企业规模。

为了扩大生产经营,企业通常会采取“招商引资”的措施来寻求合作伙伴。而统计学资料则能够把企业各项规模指标如实反映出来,包括:资产、人员、生产、销售、盈亏等,以保证企业领导者结合自身实际来制定规模扩大策略,提高投资的成功率。

3、把握市场行情。

市场经济体制改革主要是根据“市场”而变,企业经营决策同样要根据市场行情而定,否则决策实施后必然是失败的。统计部门在经济活动中立足于市场行情展开统计工作,对于市场变化情况基本了如指掌,只要企业在决策中参考统计信息,则可确保万无一失。

六、数据挖掘与统计学的比较

数据挖掘来源于统计分析,而又不同于统计分析。数据挖掘不是为了替代传统的统计分析技术,相反,数据挖掘是统计分析方法的扩展和延伸。大多数的统计分析技术都基于完善的数学理论和高超的技巧,其预测的准确程度还是令人满意的,但对于使用者的知识要求比较高。而随着计算机能力的不断发展,数据挖掘可以利用相对简单和固定程序完成同样的功能。新的计算算法的产生如神经网络、决策树使人们不需了解到其内部复杂的原理也可以通过这些方法获得良好的分析和预测效果。

由于数据挖掘和统计分析根深蒂固的联系,通常的数据挖掘工具都能够通过可选件或自身提供统计分析功能。这些功能对于数据挖掘的前期数据探索和数据挖掘之后对数据进行总结和分析都是十分必要的。统计分析所提供的诸如方差分析、假设检验、相关性分析、线性预测、时间序列分析等功能都有助于数据挖掘前期对数据进行探索,发现数据挖掘的题目、找出数据挖掘的目标、确定数据挖掘所需涉及的变量、对数据源进行抽样等等。所有这些前期工作对数据挖掘的效果产生重大影响。而数据挖掘的结果也需要统计分析的描述功能(最大值、最小值、平均值、方差、四分位、个数、概率分配)进行具体描述,使数据挖掘的结果能够被用户了解。因此,统计分析和数据挖掘是相辅相成的过程,两者的合理配合是数据挖掘成功的重要条件。

七、结语

数据挖掘理论与技术的产生,促进了统计学发展的同时,也提出了更多的挑战。如何更好地使用数据挖掘和统计为解决社会实际问题做出贡献,是统计学家和数据挖掘研究者共同关心的话题。数据挖掘和统计学应该相互学习和渗透,各自分工,协同工作,共同为挖掘隐藏在复杂现象背后的有价值的知识贡献力量。

参考文献:

韩明:《数据挖掘及其对统计学的挑战》,《统计研究》,2001年08期

孙薇斌:《数据挖掘中统计方法的作用和问题点》,《数理统计与管理》,2004年05期

行智国:《统计学与数据挖掘的比较分析》,《统计教育》, 2002年06期

Jiawei Han,Micheline Kambr:《数据挖掘——概念与技术》,北京:高等教育出版社,2001年