首页 > 范文大全 > 正文

数据挖掘取样方法研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇数据挖掘取样方法研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

【摘要】本文阐述了数据挖掘的概念,数据挖掘的本质和特征,从而进一步的深入分析了数据挖掘取样方法,最后,本文还对SAS数据挖掘的方法 (SEMMA)进行了简要的分析。

【关键词】数据;挖掘;取样方法;研究

中图分类号:C37文献标识码: A 文章编号:

一、前言

随着数据库技术的发展和使用,数据库的存储数据变得日益的庞大,这就需要我们在数据挖掘的领域里,使用科学有效的方式来降低挖掘算法的工作量,使得数据挖掘的更加的具有效率。

二、数据挖掘概述

数据挖掘(Data Mining,DM)又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。

知识发现过程由以下三个阶段组成:(1)数据准备,(2)数据挖掘,(3)结果表达和解释。数据挖掘可以与用户或知识库交互。

数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。

数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析,等等。

三、数据挖掘的本质和特征

一般来说,比较狭义的观点认为数据挖掘区别于常规数据分析的关键点在

于:数据挖掘主要侧重解决四类问题:分类、聚类、关联、预测,而常规数据分析则侧重于解决除此之外的其他数据分析问题:如描述性统计、交叉报表、假设检验等。广义上说,任何从数据库中挖掘信息的过程都叫做数据挖掘。从这点看来,数据挖掘就是 BI(商业智能)。但从技术术语上说,数据挖掘特指的是:源数据经过清洗和转换等成为适合于挖掘的数据集。数据挖掘在这种具有固定形式的数据集上完成知识的提炼,最后以合适的知识模式用于进一步分析决策工作。从这种狭义的观点上,我们可以定义:数据挖掘是从特定形式的数据集中提炼知识的过程。

四、数据挖掘取样方法

抽样是一种经典的统计技术,已被研究了过百年的历史,尤其是随机抽样技术,已有许多基本原理(诸如中心极限定理、Chernoff、Hoeffding和Chebyshev界等描述了随机抽样的有效性。在数据管理领域,取样通过抽取能捕捉数据基本特征的小部分数据子集来代表总数据集,并根据该样本集获得近似查询结果,或基于该样本集进行数据挖掘等工作。近年从VLDB,SIGKDD,SIGMOD和ICDE中出现的论文均采用了取样技术,验证了取样技术应用的流行。

取样方法的分类

图1是数据挖掘领域中代表性取样方法的分类图。根据各数据项被选中的概率是否相同,取样方法可以分成均匀取样和偏倚取样两种。顾名思义,在均匀取样中各数据项以相同的概率被选中,而在偏倚取样中,不同元素的入选概率可能不同。一个取样设计被称为均匀取样设计,如果在这个取样设计内由数据集D产生的任一取样集S的概率为(S;D),当时,会满足(S;D)=(S′;D)。也就是说,所有相同尺寸的取样能以相同的取样概率产生并且是相互雷同的。均匀取样方法有两种经典的取样设计:伯努利取样(Bernoulli sampling)和水库取样(reservoirsampling),它们是所有其他取样方法的基础。在Bernoulli取样设计过程中,用概率q∈(0,1)包含每个到达的数据元素,用概率1-q独立排除其他的数据元素。在这类Bernoulli设计中的相关取样概率为,可见伯努利取样是均匀的,其主要优点是取样过程简单和时间成本低。水库取样单遍扫描数据集,生成均匀取样集。令样本集大小为K,当第n个元素到达时(n>K),数据流中的元素都以K/n的概率被选取。如果样本集大小超出K,则从中随机去除一个样本,各元素的入选概率相同。Vitter推荐了一个技巧来提高算法效率。在原算法中,对于流中的每个元素都需要“扔骰子”,判断该元素是否以K/n概率被选中,改

进的算法转而判断一次可略过多少个后续元素,减少了扔骰子次数,降低了时间复杂度。水库取样是重要的随机均匀取样方法,使传统的取样技术拓展到了数据库领域,其时间复杂度仅为Ο(n(1+log(N/n))),空间大小固定,尤其适合于数据流挖掘环境。确保取样质量通常被认为是取样技术成功的关键(Levy)。从提高取样质量的角度,传统的取样策略一般可分为3类:第1类是Progressive Sampling(渐进取样),办法是从一个小的取样开始,逐渐加大取样尺寸或取样率直到模型的正确性不再随之改善为止;第2类的取样策略是先从一个实验样本集(通常尺寸较小)中获取数据集的预评估或特征假定,然后在此基础上进行取样。采用这种策略的取样算法包括Stratified Sampling(分层取样),ClusterSampling, Two-Phase Sampling和AdaptiveSampling;第3类策略是为具体的应用抽取特定的数据特征,而不是产生一个能用于多种应用的取样集,这类应用包括频繁项ε-误差概要(Manku)、近似查询(Gibbons)和查询尺寸评估(Haas)。

五、SAS数据挖掘的方法 (SEMMA)

SAS/EM可实现同数据仓库和数据集市、商务智能及报表工具的无缝集成,它内含完整的数据获取工具、数据取样工具、数据筛选工具、数据变量转换工具、数据挖掘数据库、数据挖掘过程以及数据挖掘评价工具。

1 Sample──数据取样

当进行数据挖掘时,首先要从企业大量数据中取出一个与你要探索问题相关的样板数据子集,而不是动用全部企业数据。通过数据取样,要把好数据的质量关,一定要保证取样的代表性、真实性、完整性和有效性。这样才能通过此后的分析研究得出反映本质规律性的结果。

2 Explore──数据特征探索、分析和予处理分析和予处理

当我们拿到了一个样本数据集后,它是否达到我们原来设想的要求;其中有没有什么明显的规律和趋势;有没有出现你所从未设想过的数据状态;因素之间有什么相关性;它们可区分成怎样一些类别……这都是要首先探索的内容。进行数据特征的探索、分析,最好是能进行可视化的操作,如SAS的SAS/INSIGHT和SAS/SPECTRAVIEW。这两个产品给你提供了可视化数据操作的最强有力的工具、方法和图形。

3 Modify──问题明确化、数据调整和技术选择

通过Sample和explore两步之后,对原来要解决的问题可能会有了进一步的明确,这时要尽可能对问题解决的要求能进一步的量化。在问题进一步明确化的基础上,你就可以按照问题的具体要求来审视你的数据集了,看它是否适应你的问题的需要。针对问题的需要,可能要对数据进行增删,也可能按照你对整个数据挖掘过程的新认识,要组合或者生成一些新的变量,以体现对状态的有效的描述。SAS对数据强有力的存取、管理和操作的能力保证了对数据的调整、修改和变动的可能性。

六、结束语

通过本文的分析,我们得出结论,数据挖掘的取样方法可以有效的提高数据挖掘的工作效率,对于庞大的数据库的资料处理,使用取样的方式进行计算将能更好的完善计算的流程。

参考文献

[1]杨雪梅,董逸生,徐宏炳,刘学军,钱江波,王永利。高维数据流的在线相关性分析[J].计算机研究与发展. 2006(10)

[2]贾彩燕,陆汝钤.关联规则挖掘的取样误差量化模型和快速估计算法[J].计算机学报. 2006(04)