首页 > 范文大全 > 正文

基于分类的机器学习方法中的决策树算法探讨

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于分类的机器学习方法中的决策树算法探讨范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

[摘 要]自21世纪我国信息化时代的发展以来,数据库中的数据也在随着时代的发展不断增加,目前人们对数据的分析能力早已达不到时展的要求。数据库目前所拥有的功能只够作为数据的快速储存和搜索,并不能计算出数据与数据之间的差距,也不能通过现有的数据推算出发展的方向。其只是单纯的具备丰富完整的数据,但所包含的信息量太少。因此,为了改进这一情况,需要相关技术人员研发出能够将所有数据分析转化成有利用价值信息的工具,其代表着数据挖掘技术的产生。数据挖掘是一个可以将数据转化成有用信息,并将信息进行归纳总结的数据整理工具,这一措施的出现,极大程度上促进了企业的发展。因此,笔者就分类的机器学习方法中的决策树算法进行论述。

[关键词]机器学习方法决策树算法 分类

中图分类号:TM86 文献标识码:A 文章编号:1009-914X(2017)10-0283-01

1.分类的定义

数据挖掘中的分类就是指对一系列相关数据加以汇总分类的数据集,合集中的数据都是根据它们的不同属性来决定的,在合集之中只有一种属性是个例的。利用相应的模型表达合集,根据属性不同而变换的量的数据库便称之为合集,合集中的数据包含连续属性、离散属性,通过一个字符表示这种类别的属性,再用一个字母表示合集中数据的数量,从而推算出计算模型,以便数据的挖掘。

2、分类的目的

通过对数据库中大量的数据进行数据整合分析,并根据每项数据不同的概念进行分类,其分类的目的是利用某种例如模型的方法,将隐藏在数据中的函数经过数据整理分析而推算出来,目前被运用较多的地方是商业发展方面。根据输入数据的特性,进行细致分析,利用一种适合的模型进行描述,将这些分析过的数据进行整理归纳后放入特定的数据库中,这些数据有助于未来新数据类型的预测,也可以通过这些数据推测出将来的发展趋势。预测的用意就是通过数据库中已获得的数据推算出所需的未知数据,但这类数据只可算作预测数据,并不是确定的数据,也可能会因为意外而产生改变。

3、分类器的构造方法

3.1 统计方法

统计方法包括准确数据的整理和推测数据的整理,利用判别函数和原型事例进行数据分析的方法。

3.2 机器学习方法

机器学习的方法是一种利用决策树和归纳的方式进行数据分析的方法,先由决策树分析得出数据,再进行数据的归纳总结。其中决策树是目前被使用较多的一种计算方式,方便对数据进行深入研究。

3.3 神经网络方法

神经网络方法主要使用的是误差反向传播的计算方式,即是一种利用非线性判别函数分析数据的方法。通过逆向反应的方法分析数据,再由点和边组成新的结构体系,从而推导出函数模型,以达到数据整理分析的目的。

3.4 粗糙集方法

粗糙集方法是最新产生的一种挖掘数据的方法,通过规则性的方式归纳计算数据,以达到数据分析的目的。

4、决策树算法

在分类器算法中决策树具有如下特征:有向以及无环,这也就暗示了其在分类、预测等领域的广泛应用,研究决策树算法不仅仅有助于数据分析以及挖掘,对于人工智能的发展也有这不可言喻的作用。简单来说,句册书的每个内部节点都为属性的集合,节点所具备的属性也被成为测试属性,利用决策树进行分类首先需要具备决策树模型,而决策树模型的构建则需要通过以下两个环节。第一个环节为决策树的构建,在建立过程中需要基于广度优先递归算法而展开,最终建立的决策树需要使得每个叶子节点都可以划分到相同的类别当中,第二个环节为决策树的修剪,这一阶段的目的在于利用剩余数据对决策树模型检验,以保障决策树模型分类的准确性。

4.1 Q策树构建

决策树在构建过程中应当本着“从上至下、分而治之”的原则,构建时应当先从根结点开始,随后逐渐扩充到下属的非叶结点,对其测试属性进行了解,根据不同属性再将样本集划分为子样本集,而这些子样本集又构成了新叶结点,随后不断重复以上划分操作,直到达到特定的条件。基于决策树的学习算法所具备的优势与劣势都为,不要求使用者对此有充足的了解。

4.2 决策树修剪

正确性是决策树学习算法中所需要考虑的因素之一,并且这一因素应当摆在考虑的首位,但是,决策树算法的复杂性也应当唤起人们的关注。倘若决策树的构造较为复杂,人们在理解过程中就很产生极大的困难,与此同时,构造过于复杂对于数据存储也会产生极大的影响,所需要花费的代价也会随之提高。因此,如何在保证正确率的情况下,使决策树不断的趋于简单成为了广大学者所努力的方向。根据笔者对当前的参考文献分析,发现现如今修剪决策树的方式主要有以下两种,即预剪枝与后剪枝。简单来说,预剪枝即在完全正确分类训练集之前,使得树停止生长,这种方式尽管可以起到使决策树趋于简洁的作用,但也会造成视野效果方面的问题,值得注意的一点是,预剪枝不需要生成整棵决策树,算法与后剪枝相比很简单,其次,预剪枝在解决大型问题方面往往具备更高的效率,是当前较为常用的一种方式。

而关于后剪枝的方法有很多,举例来说:MCCP、PEP、MEP以及REP等都属于后剪枝方法,每种方法都提出者不同,也具备这不同的特点。

5、结束语

随着互联网技术的飞速发展,人们已经进入了一个大数据时代,这就对数据的存储、收集有了更高的要求,在对相关数据进行处理时,由于数据数量过多,往往需要花费大量的时间与精力,大大降低了数据分析的效率。为了能够在当前的大数据时代,从诸多的数据中挖掘出所需的信息,将信息进行分类是一项尤为重要的工作。

分类是指把数据项映射到一个事先定义的类中的学习过程。当前所采用的分类方式有很多,如:决策树、遗传算法以及贝叶斯分类等,通过对众多分类方法进行分析,笔者发现大多数人都愿意采用决策树分类,究其原因,决策树分类模型在构建时相对简单,人们在理解起来也非常容易,即使在没有掌握大量知识背景的情况下,还可以进行使用。

参考文献

[1] 罗芳,李志亮.基于分类的机器学习方法中的决策树算法[J].宁德师范学院学报(自然科学版),2009,21(1):40-42.

[2] 姚潍.入侵检测中基于决策树与朴素贝叶斯的混合分类算法研究[D].深圳大学,2015.

[3] 王h.基于决策树统合方法的最小最大模块化网络及其在专利分类中的运用[D].上海交通大学,2010.

[4] 刘勇洪,牛铮,王长耀.基于MODIS数据的决策树分类方法研究与应用[J].遥感学报,2005,9(4):405-412.