首页 > 范文大全 > 正文

数学在数据挖掘中的应用

开篇:润墨网以专业的文秘视角,为您筛选了一篇数学在数据挖掘中的应用范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:挖掘数据中对暗示的、未知的可能有用的信息进行全面的取出。,在数据挖掘中用到统计模型,参数分析和统计。因此,数学数据挖掘中有着广泛应用

关键词:数学;数据挖掘;统计

中图分类号: TP311 文献标识码:A文章编号:1673-9795(2014)01(b)-0000-00

1.引言

数据挖掘可以通过侧重点不同而用不同的方法定义。最早的定义包括:对数据中暗示的、未知的可能有用的信息进行全面的取出[1][2]。(Fravley 等人, 1991)。由于数据挖掘已经发展成为了一种专业活动,所以把它由于早期的统计模型技术和更广层面的知识发现区分开始很必要的。考虑到本指南的目的,我们将会使用下面的工作定义:统计模型:根据预测程序的变化,对整体的参数统计算法或预测结果或事件的运用。数据挖掘:用机器学习算法在大量的、有噪声的、混乱的数据集合中寻找数据元素间的模糊的模式关系,可以带来使某些形式更方便的活动。-知识发现:数据存储、数据探究、数据准备、模型、模型调度、模型监控的全部过程。这个过程包括数据挖掘活动,一些数据挖掘工程的主要挑战包括:为数据挖掘服务的事务处理数据库的数据使用:数据简化、数据转化、数据清理、数据稀疏性、稀有数据[3][4]。数据挖掘技术可以在任何做决定的地方被应用,根据一系列证据。过去应用的多样性包括以下几点:销售预测:最早的数据挖掘应用技术之一;机架管理:销售预测逻辑上的后续产品;科学探索:一种在五十亿颗星球中确定哪些值得关注的方法(空气推进实验室/帕洛玛天文台);赌博:一种预测哪位客户消费最具潜力的方法;体育:一种探寻哪位运动员/比赛环境最有潜力拿到高分;客户关系管理:保留、交叉/追加销售倾向*客户获得:一种确认最有可能的预测,来响应成员关系示意图,因此数学在数据挖掘中应用非常广泛。

2.数据挖掘理论框架

数据挖掘的定义以及强调的重点的不同变化主要是根据实践经验和必要性而发生变化的,这样发展的存在的主要问题是缺乏理论的一致性,它包含了所有方面,包括信息是什么,信息从哪里来,如何使用等.这种逻辑概念有时被称作模型理论. 模型理论用逻辑代数表达式来描述一个系统或复杂的过程,提供一个一致的语法和它们之间的关系(语义学)。 大多数的数据挖掘表达式功能包括不一致的术语(例如属性和预报因子),可以表示被使用的数据元素之间的不同的逻辑语义关系.

Mannila(2000)总结了一些适合与发展数据挖掘模型理论的方法的标准。这些标准包括以下能力:

*模拟典型数据挖掘工作(聚集、规则发现、分类)

*描述数据并归纳来自数据的一般分析

*在多种形式的数据中表达信息(相关数据、序列、文本、网络)

*支持交互、迭代的过程

*表达可理解的关系

*过程中合并用户

*结合多种标准来定义什么是有趣的发现.

马尼拉介绍许多方法来发展一个可接受的模型理论,但结论是,没有一个满足上述所有条件的。最近我们得到的模型是将微观经济学方法与归纳数据库方法的结合的方法.

3.数学在数据挖掘的应用

1)探索数据分析:这些数据探索活动包括交互及可视技术,可以让你通过简易统计参数以)及图形演示来观察数据集,以此感受数据集中所有的模式和趋势。2)描述模型:这个活动可以对数据集进行更高级的观察,包括以下几点:a.鉴定所有数据分配的可能性(有时叫做密度估算);b.描述变量关系的模型(有时叫做从属模型);c.把数据分割成几部分,通过聚类分析或割断。聚类分析有一点不同,因为聚类算法试图在很多“群”或者一种群算法中找到“自然组”,用户可以指定所有事件必须放到x个群中(例如,假设三个群)。对于分割来说,目标是找到与变量相关的均匀的组来进行模式化(例如,把客户分成大客户)。3)预测模型:分类和复原:这里的目标是构建一个可以通过其他变量价值推断一个变量价值的模型。分类使用在绝对变量中(例如,Yes/No变量;或者变量的多选答案,像是“最喜欢”和“最不喜欢”中间分成1-5级)。复原使用在连续变量中(例如,变量的价值可以使两个数之间的任何数;一个人的年龄是一个例子,或者血压,或者商品进行装配的次数)。4)发现模式和规则:这个活动包括来自寻找在交易数据库中经常发生的条款的组合这个过程的所有事(例如,商品通常被顾客在同一个商店同时购买),或者好像寻找一群星星,可能是新星,在宇宙中,寻找DNA微列阵分析的遗传模式。这样的分析可以被用来形成关联规则;例如,如果一个人去商店买牛奶,他也会买橙汁。关联规则的发展是被很多商业数据挖掘软件产品的算法支持的。一个高级的关联方法是顺序、关联、连接(SAL)分析。SAL分析不止发展了关联,还有相关条款的顺序。在这些顺序的关联中,连接可以被计算,并让网络连接和规则用图表表示(看NTSB文本挖掘指导,包括这本书,里面有规则表和SAL表的精美制图)。

对于那些不熟悉的数据挖掘活动,它们的操作可能出现魔法或者引出巫师的图像。与魔术师的数据挖掘图像相反,它们的活动大体上都很简单[5]。它们通过原始的模拟人类大脑学习的过程来表现它们的活动。机器学习算法按照我们做事的方法一件一件事学。对我们感觉的数据输入是存在电脑里的,不是以个人输入的形式而是以模式的形式。这些模式是由我们大脑联系的神经信号力量以及过去已知的输入组成的。除了构建和储存模式的能力,我们的大脑还是一个非常复杂的模式识别工具。我们可能花费一生的时间一件事接一件事、越来越开心的构建一个概念上的“好生活”模式。当我们和外国人比较生活时,我们会不知不觉的把我们对于他们生活的了解(数据输入)通我们好生活的模式相比较。类似的,机器学习算法在数据集中构建了“感觉”的模式。这个模式是通过数学重量、常量、分组保留的。被挖掘的模式可以被用来和其他数据集的数学模式比较,来评价它的质量。尽管如此,数据挖掘器不得不表现出我们工具的限制所要求的细节上数字的操作。但是这些操作背后的原则和我们大脑工作的方法是极为相似的,数据挖掘历史发展如下所示

3.结论

数据挖掘是对数据中暗示的、未知的可能有用的信息进行全面的取出,已经发展成为了一种专业活动,在数据挖掘中用到统计模型,参数分析和统计,数学在数据挖掘中有着广泛应用。

参考文献

[1]Jiawei Han,Micheline Kamber,Jian Pei.数据挖掘概念与技术[M].北京:机械工业出版社,2012:288-375

[2]Zhaohui Tang,Jamie Maclennan.数据挖掘原理与应用[M].北京:清华大学出版社,2007:175-189