首页 > 范文大全 > 正文

数据挖掘常用分类算法研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇数据挖掘常用分类算法研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:数据库、数据仓库以及其他存储信息库中潜藏着很多与商业、科学研究等活动的决策有关的数据和知识。对于数据挖掘中的数据分析,通常有两种常见的方法,即分类和预测,首先对数据库中的数据进行分类归纳,然后根据分类规则可以得到比较有价值的数据,然后我们可以根据这个数据来预测得到一些包含未来趋势的信息。在常见的分类算法中,决策树算法是一个有着很好扩展性的算法,可以应用到大型数据库中,可以对多种数据类型进行处理,分类模式容易转化为分类规则,结果也十分的浅显易懂易于理解。该文主要先介绍了几种常用分类算法,然后具体介绍决策树算法的过程以及在分类算法实际应用中的优缺点。

关键词:数据挖掘;分类算法;人工智能;决策树

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)34-7667-03

1 数据挖掘基本分类算法简要介绍

数据分类技术在日常很多领域都有过应用,譬如银行经常要使用分类模型来进行相应的商业评估;学校的教务系统要使用分类模型对学生的成绩以及各种评价来进行评估;研究生、博士生等,使用数据挖掘分类模型来对各种期刊进行细致的分类,这样才能有效的评价科研能力的好坏;还有例如百度、谷歌这样的大型搜索引擎,提供的推荐功能,分类技术已经融入了我们日常生活的方方面面,各个领域也提出了很多分类算法理论。

最开始的数据挖掘分类算法都是基于内存的算法。经过长时间的发展,数据挖掘算法也由使用内存开始逐步地使用外存以获得处理大数据的能力,以下对一些经典的分类算法进行介绍。

1)决策树分类算法

决策树分类算法是数据挖掘十分经典的分类算法。它使用自顶向下递归的方式构造决策树模型。决策树上的每一个结点都采用信息增益度量来选择所要测试的属性。也可以从已经生成的决策树上提取出分类规则。

2) 向量空间模型VSM算法

VSM的概念十分简单,就是把对文本内容的处理转化为对空间向量中的向量运算,

而且可以使用空间中的相似度参数来表示文本中语义的相似度,非常的直观简单。在向量空间模型中,文本包含了各种机器可以读取的记录信息。不妨用D表示,文本的特征集合可以表示为D(T1,T2,…,Tn),其中Tk是特征项,1

VSM方法在预处理阶段需要进行大量的特征类别向量的计算,而特征类别向量的建立由依靠类别向量所包含的特征项。当所包含的非零特征向量越多,则每个特征向量的对于类别的表达能力越弱,所以VSM向量空间模型算法适合进行文献的分类工作。

3) K最近邻分类算法

K最近邻分类算法是一种理论上成熟的方法。这个算法实现的思路很简单:假设一个样本在其特征空间中的K个最相似的样本均属于同一个类别,则这个样本也属于该类别。这个算法只根据相邻最近的一个或者几个样本的所属类别来决定待分类样本的类别。

K最近邻分类算法虽然从原理上来说基于极限定理,但在类别决策的时候,却只与少量有限的样本有关。因此,使用这种方法可以避免样本选择失衡的问题。另外,由于K最近邻算法不是根据类域来确定样本的类别,而是根据相邻的少量的样本来确定,故对于样本类域的重合或相交的比较多的待分类样本集来说,K最近邻分类算法较其他算法更为适合。

K最近邻分类算法的应用范围十分的广泛,包含分类和回归。对一个数据集样本进行分析得到该样本集的K个最近邻的样本,然后将这些近邻样本的属性的平均值分配给该样本,得到该样本的属性。

该算法一个比较大的缺点是,当所选样本失衡时,例如一个类域的样本容量非常大,而其他类域样本容量又比较小时,这就有可能导致当输入一个新样本时,该样本的K个邻居中大容量类域的样本占多数。故而可以采用计算各个类域权值的方法(和该样本距离小的邻居权值大)来改进。该方法的另一个缺点是计算量比较大,因为对每一个待分类的样本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。现在的解决方法是,对已知样本进行预处理,对已知样本点进行剪切,事先除去对分类作用不大的样本。该算法比较适合样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。

4)支持向量机SVM算法

支持向量机SVM分类算法具有良好的性能。该算法是一个建立在数学统计学基础上的机器学习算法。通过该算法,可以自动找到那些对于分类有比较好的区分能力的向量,通过使用该算法生成的构造器可以很好的提高分类的适应能力和分类的准确率。该算法需要通过各个类域的边界样本的类别来决定最后样本的分类结果。

SVM算法的重点是在数据集样本中确定一个超平面,使得能够将数据集样本进行分类后分开,因此,SVM算法又名最大边缘化算法。待分数据集样本中的大部分样本并不是支持向量,所以,减少或者除去这些样本对分类结果没有影响。当样本数据集的规模比较小时,使用SVM支持向量机算法可以很好的得到分类结果,效果很好。

2 决策树算法实例实现

决策树分类算法是数据挖掘分类算法中最先介绍的算法。决策树,顾名思义就是用来做决定的树,一个分支就是一个决策过程。每个决策过程中涉及一个数据的属性,而且只涉及一个。然后递归地,贪心地满足决策条件(即可以得到明确的决策结果)。

实现决策树算法首先需要有一些有价值的数据样本集(能够通过该数据集预测出结果)做训练,通过分析样本数据得到每个属性对结果的影响大小。

我们通过使用信息增益的理论去描述它,期间也涉及到熵的概念。

下面结合实例说一下决策树实现过程中的上述关键概念。

假设我们有如下数据:

1)我们首先要通过计算找到哪个属性的所有属性值能更好地表达class字段的不同。通过计算,我们发现house的属性值最能表现class字段的不同。这个衡量标准其实就是信息增益。计算方法是:首先计算全部数据的熵,然后除class之外的其他属性逐个遍历,找到熵最小的那个属性(house),然后将全部数据的熵减去按照house属性划分数据之后的数据的熵。

这个值如果满足条件假如(>0.1),我们认为数据应该按照这个节点进行分裂,也就是说这个属性(house)构成了我们的一次决策过程。

2)再按照house分裂的每个数据集上,针对其他属性(house除外)进行与1)相同的过程,直到信息增益不足以满足数据分裂的条件。这样,我们就得到了一个关于属性数据划分的一棵树。可以作为class字段未知的数据的决策依据。

3) 经过编码运行后得到实验结果如下图:

根据该决策树的输出,我们可以得到如下的挖掘规则:首先根据house属性判断,当house属性为1时,走到索引为2的节点,此时该节点是叶子节点,预测值class为1.

4) 决策树算法的评价

根据上面实验的分析,我们可以发现决策树的一些优缺点:决策树算法所产生的分类规则十分的易于人理解,准确率很高;但是在构建决策树的过程中,需要对数据集进行多次的扫描排序,效率还有待进一步提高。

3 总结

本文主要先详细介绍了数据挖掘分类技术目前的常用经典算法,后面部分主要描述了决策树算法的实现,决策树算法是一个基于信息熵理论的具有良好性能的分类算法。该文通过对数据的分析,然后通过编程实现决策树算法对该数据进行处理,得到一个决策树的结构,根据该树可以归纳得到分类规则,最后可以得到评价结果。决策树算法对数据无任何前置要求,应用在金融和教育产业中效果也比较好,故发展前景十分良好,可以继续深入研究。

参考文献:

[1] 郭超峰,李梅莲.基于ID3算法的决策树研究与应用[J].许昌学院学报,2007(2).

[2] Pang-Ning Tan,SteinBach M,Kumar V.数据挖掘导论[M].范明,范宏建,译.北京:人民邮电出版社,2007.

[3] 刘惟一,李维华.智能数据分析[M].北京:科学出版社,2007.