首页 > 范文大全 > 正文

数据挖掘技术的综述

开篇:润墨网以专业的文秘视角,为您筛选了一篇数据挖掘技术的综述范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要

数据挖掘技术是当前数据库和人工智能领域研究的热点课题, 本文首先对数据挖掘技术的国内外总体研究情况进行概略介绍,包括数据挖掘技术产生背景、应用领域、分类;然后详细阐述了数据挖掘的各种技术方法,并对数据挖掘的应用领域做了相关介绍。

【关键词】数据挖掘 决策支持 关联规则 模式

1 前言

数据挖掘含义是指从大量、模糊、随机的实际应用数据中,提取隐藏在其内部中、人

们原先不知晓的、却潜在有用的信息和知识的过程。我们把提取出的信息和知识表示为规律、概念、模式、规则等形式。数据挖掘被认为是一门跨多知识领域和学科的新兴课题,它为我们使用数据从简单查询将变为在数据里挖掘与发现知识从而产生对决策行为提供支持。为了能够满足人们从大量数据里发现知识的需求,来自不同领域的专家学者,都致力于研究这个热点课题――数据挖掘,不断研究和产生出新的研究成果。自从加拿大蒙特利尔在1995年召开了首届KDD&Data Mining国际学术会议,此后每年举办一次。通过数年努力, 数据挖掘技术研究取得了丰硕的成果,不少数据挖掘的软件产品,已在欧洲、北美等国家得到广泛的应用。目前,应用广泛的数据挖掘系统有:IBM公司的Intelligent Miner、SGI公司的SetMiner、SPSS公司的Clementine、SAS公司的Enterprise Miner、Sybase公司的Warehouse Studio、RuleQuest Research公司的See5、还有CoverStory、EXPLORA、Knowledge Discovery Workbench、DBMiner、Quest等。在我国,数据挖掘技术的研究也取得了相当客观的成果。

2 数据挖掘的技术方法

通常情况下,我们把数据挖掘方法分为两大方面,一是统计类型,有概率分析、相

关性、聚类分析和判别分析等常用技术;二是人工智能领域中的机器学习型,通过训练和学量的样品集获得需要的模式或参数。

2.1 遗传算法

遗传算法是基于生物进化过程组合优化方法,它是和计算机科学与生物学结合的产物,由美国密西根大学教授D.J.Holland和他的同事们在1975年首次提出。人们总结的遗传算法基本思想分为两点:第一,将物种进化理论用于求解问题,物种进化又分为变异和遗传两个方面;第二,只有最能适应环境的物种才能生存下来,所以需要反复求解后才可以获得最佳解。遗传算法按照规则产生经过基因编码最初群体,然后从代表问题可能潜在答案的初始群体出发,选择适应度强的个体进行交换和变异,目的是发现适应度更佳的个体,这样一代代地演化,得到最优个体,解码,该最佳个体编码就是对应的问题最佳解或近似最佳解。在遗传算法的使用上,它的优点是对问题要求信息较少,比较高效性和灵活性。在数据挖掘中,经常用于估测其它算法的适合度,同时遗传算法擅长于数据聚类,通过和空间上类比和时间上类比,能够使大量复杂数据系统化、条理化,从而找出他们之间的内在联系,获得有用概念和模式。

2.2 关联分析

在大型数据库中,关联规则挖掘是最常见的数据挖掘任务之一。关联规则挖掘就是从大量数据中发现项集之间的相关联系。最著名的关联规则挖掘算法是由Agrawal等于1994年提出的 Apriori算法,其基本思想是:第一找出所有频繁1-项集集合Ll,使用L1查找频繁2-项集集合L2,继而用L2用于L3,反复迭代,一直到不能找到频繁k-项集。并利用事先设定好的最小支持度阈值进行筛选,将小于最小支持度的候选项集删除,再进行下一次的合并生成该层的频繁项集。经过筛选可减少候选项集数,从而加快关联规则挖掘的速度。

2.3 决策树

决策树算法之所以在数据分析挖掘应用中如此流行,主要原因在于决策树的构造不需要任何领域的知识,很适合探索式的知识发掘,并且可以处理高维度的数据。在众多的数据挖掘、统计分析算法中,决策树最大的优点在于它所产生的一系列从树根到树枝(或树叶)的规则,可以很容易地被分析师和业务人员理解,而且这些典型的规则甚至不用整理(或稍加整理),就是现成的可以应用的业务优化策略和业务优化路径。另外,决策树技术对数据的分布甚至缺失非常宽容,不容易受到极值的影响。

国际上最有影响的决策树方法是由Quinlan 研制的ID3方法。ID3(Iterative Dichotomiser)算法其最大的特点在于自变量的挑选标准是:基于信息增益的度量选择具有最高信息增益的属性作为结点的分裂(分割)属性,其结果就是对分割后的结点进行分类所需的信息量最小,这也是一种划分纯度的思想。

决策树技术在数据化运营中的主要用途体现在:作为分类、预测问题的典型支持技术,它在用户划分、行为预测、规则梳理等方面具有广泛的应用前景,决策树甚至可以作为其他建模技术前期进行变量筛选的一种方法,即通过决策树的分割来筛选有效地输入自变量。

2.4 粗糙集方法

粗糙集理论定位为一种刻划不确定性和不完整性的数学工具,可以有效地分析和处理不一致、不精确、不完整等信息,以从中发现隐藏的不为所知的知识,揭示潜在的规律。该理论是由波兰学者Z.Pawlak教授在1982年提出的,从1992年至今,每年召开以RS为主题的国际会议,推动了RS理论的拓展和应用。

粗糙集是处理模糊数据的有力工具,而要达到这样的目的需要有两个重要的步骤来进行处理―属性约简和值约简,属性约简是对粗糙集合(那些不能区分的集合)进行纵向的简化,把不必要的属性去掉,即去掉这些属性也不会影响对象的区分能力,这样便于以后进一步的简约处理

由于粗糙集理论创建的目的和研究的出发点就是直接对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律,因此是一种天然的数据挖掘或者知识发现手段,与基于证据理论的数据挖掘方法、基于模糊理论的数据挖掘方法、基于概率论的数据挖掘方法等其他处理不确定性问题理论的方法相比较,最显著的区别是它不需要提供问题所需处理的数据集合之外的任何先验知识,而且与处理其他不确定性问题的理论有很强的互补性。

2.5 神经网络

人工神经网络(Artificial Neural Networks)是指能够模仿人脑神经元联接结构特征并且进行分布式并行信息处理的数学模型。根据人脑的神经元的原理所产生的人工神经网络能够通过不断修正其内部的节点间相互连接的关系达到处理信息的目的。BP(Back Propagation)网络,也称为误差反向传播算法,是目前使用较多也比较成熟的神经网络算法, 1985 年Rumelhart 等人提出,它的实质是通过误差反向传播算法训练数据的多层前馈神经网络,是目前应用最为广泛的神经网络模型。BP 神经网络能够学习和存储大量输入-输出模式映射关系,而且还并不需要预先揭示表现此种映射关系数学模型。它采用的学习规则是最速下降法,主要利用反向传播不断修订网络的权值和阈值,达到建立的神经网络误差的平方和最小。在数据挖掘中,神经网络主要用于获取分类模式。BP 神经网络能够用来聚类、分类和预测等,通常只需要一定历史数据,即把训练样本作设为输入,便能够对训练样本训练,通过学习与存储该数据样本中隐含的知识信息后,能够为后面的数据分析提供必要有用的知识。但是神经网络分类方法获得的模式常常隐藏在网络结构中,不能够显示地表达成为一定的规则,所以不容易被人们理解和解释;而且还需要多次扫描训练数据,网络需要的训练时间较长。所以与其他数据挖掘方法相比较,神经网络用于数据挖掘,要解决好两个关键点:降低不必要的训练时间,增强挖掘结果的可理解性。

2.6 模糊技术

模糊数据挖掘技术是通过利用原有数据挖掘技术同时,与模糊理论相结合,以期从大量数据中发现更为广泛的内容,其挖掘结果将会使用户更容易理解。由于现实生活中,数据之间的关系往往表现为模糊性,因此将模糊理论与数据挖掘技术结合从海量的、不完全的、随机的、含噪声的模糊数据中提取潜在的、未知即通过模糊集合理论对问题模糊评判、模糊决策、模糊模式识别和模糊聚类分析。因为模糊性是客观存在,而且系的复杂性越高,模糊性就越强,通常模糊集合理论是用隶属度来描述模糊事物,所以它为数据挖掘提供了概念和知识的表达、定性定量的转换、概念综合和分解方法。

2.7 可视化技术

可视化技术是指采用计算机图形学和图像处理技术,把数据转换成图形或图像并且在屏幕上显示出来,从而进行交互处理技术。它将信息的模式、数据关联和趋势展示给决策者,决策者能够通过可视化的技术来交互分析数据之间的关系。可视化技术实现过程由四个步骤组成:数据预处理、映射、绘制和显示。数据预处理阶段,针对各不相同的可视化方法和内容,要求对最初数据进行变换处理,设置数据格式和标准,并且要数据压缩和解压缩;在映射阶段,针对不同类型的应用数据,使用不同的映射技术把数值数据转换成几何数据;在绘制阶段将几何数据绘制成目标图像;在显示阶段,将图像数据按用户要求进行输出。在整个过程中,映射功能完成数据的建模功能,是核心。模型可视化的具体方法则与数据挖掘采用算法相关联,如,决策树算法用树形表示;过程可视化可以用数据流图来描述知识发现过程。

3 数据挖掘应用

数据挖掘技术是面向应用的。数据挖掘的研究有利地促进了数据挖掘技术应用的发展与推广。随着研究的深入,数据挖掘技术的应用越来越广泛。主要集中在以下几方面:

3.1 金融业

数据挖掘技术用于银行行业的存/贷款趋势预测,优化存/贷款策略和投资组合。

3.2 生物信息

在基因工程中的染色体、基因序列的识别分析、基因表达路径分析、基因表达相似性分析、以及制药、生物信息和科学研究等。

3.3 零售业

数据挖掘技术被用来进行分析购物篮来协助货架设置,安排促销商品组合和促销时间商业活动。

3.4 客户关系管理

数据挖掘技术被用于分析客户的行为,分类客户,以此进一步针对客户流失、客户利润、客户响应等方面进行分析,最终改善客户关系管理。

3.5 电子商务

数据挖掘技术被用于在线交互式营销系统的经营模式、市场策略、Web广告效果分析以及在线购物的消费者行为分析,从而优化网站结构,改善网页推荐和商品推荐内容等。

4 结语

综上, 数据挖掘涵盖多种理论和技术,有着广泛应用前景。深入分析研究数据挖掘,应用数据挖掘技术将是我们未来努力的方向。

参考文献

[1]Fayyad U M,Piatet sky- shapiro G,Smyth P.Advances in knowledge discovery and data mining.California:AAAI/ MITPress, 1996.

[2]Chen Lei-da et al.Date mining methods,applications,tools[J].Information Systems Management, 2000;17(1):65-70.

[3]H Mannila,H Toivonen et al.Efficient algorithms for discovering as sociation rules[C].In :Knowledge Discovery in Databases(KDD’94),AAAI Press,1994:181-192.

[4]陆汝钤.人工智能.北京:科学出版社, 1996:823-844.

[5]曾黄麟.粗集理论及其应用[M].重庆:重庆大学出版社,1996.

[6]Michie D,Spiegelhalter D J.Machine Learning,Neural an Stastical Classification.London:Ellis Horwood Press,1994.

[7]何新贵.数据采掘中的模糊技术[J].计算机科学,1998,25(专刊):129-131.

[8]万家华,刘冰,江早.知识发现中的可视化技术[J].计算机科学,2000,27(增刊):131-134.

作者简介

王雅轩(1969-),女,研究生学历。现为大连外国语大学教授。主要研究方向为软件理论与应用。

顼聪(1977-)男,研究生学历。现为大连外国语大学讲师。主要研究方向为智能软件。

作者单位

大连外国语大学 辽宁省大连市 116044