首页 > 范文大全 > 正文

基于决策树的耕地质量评价研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于决策树的耕地质量评价研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:本文介绍了决策树的基本概念以及决策树在耕地质量评价中的意义,并以汕尾市陆河县为例,用决策树建立了陆河县耕地质量评价模型,耕地质量模型的建立为陆河县的耕地质量评价以及改进陆河县的耕地质量、提高耕地质量水平具有一定的现实指导意义。

关键词:耕地;评价;决策树

中图分类号:F301.21文献标识码: A 文章编号:

决策树是一树状结构,它从根结点开始,对数据样本进行测试,根据不同的结果将数据样本划分成不同的数据样本子集,每个数据样本子集构成一子节点。在决策树的生成过程中包含了下列思想:在构造树的每层时,选择一个具有最高信息增益的属性,使得依据该属性的值,将对象集被剖分成几个不相交的子集。每个子集表示为树的一个子节点,以该属性的相应值标识到这些子节点的弧。

耕地质量评价是对区域耕地资源质量的综合评定,其评价过程不仅复杂,而且具有很强的技术性。针对不同耕地区域,各个评价属性权重确定大多掺入了人为因素,从而影响了评价结果的准确性。基于决策树耕地质量评价,将克服传统的耕地评价方法中人为因素过多的缺点,提高耕地评价的效率和准确性;另外将决策树模型用在耕地评价中也具有鲜明的生产实践意义。

一、本地区的决策树耕地质量的控制

1.目标数据集的创建

目标数据集的创建工作主要包括:耕地评价单元的划分、确定评价因素和建立评价数据库,目标数据集是从评价数据库中导出的耕地属性数据。

评价单元的划分是依据陆河县2004年土地利用现状分幅图(1:10000)的土地利用现状图,在MAPGIS系统环境下从土地利用现状图中分离提取出县耕地图斑,作为工作底图,将选定的参评因素图与工作底图进行叠加,得出的最小图斑即为评价单元,最终确定30281个图斑为陆河县耕地评价单元。

在采集数据后,需要对图形数据和属性数据输入建库,形成图形数据库和属性数据库,并对其分别管理,其中图形数据库采用层次型管理方法;属性数据和统计数据则采用关系模型管理。利用地理信息系统的空间叠加功能,将评价工作底图分别与各评价因素图进行叠置分析,提取各评价单元因素属性值,构架耕地评价单元空间数据库。

2.基于决策树模型耕地质量评价模型的建立

(1)评价样本集的构成

本次决策树学习样本的选择是运用试验的方式从聚类方法得到的500、1000、2000、4000、6000和8000个样本空间中进行选择,当满足一定的预测精度时,此时最小的样本空间就是最合适的模型学习样本;测试样本采用全部的评价单元,来验证模型的准确性。

(2)决策树属性选择

在决策树建立过程的每个选择点上,在C5.0算法中,采用增益率最大的属性是用来进一步细分树结构而选取的属性。下面介绍计算耕地评价属性以A为代表的增益率的公式如2.1:

(2.1)

对于一组I实例,计算Gain(A)公式如2.2:

(2.2)

其中:Info(I)为包含在当前被检查实例集合中的信息,Info(I,A)为根据属性A的可能结果划分I中的实例之后的信息。

对于n个可能的类,计算Info(I)的公式如2.3:

(2.3)

在I被划分为k个输出结果后,Info(I,A)计算公式如2.4:

(2.4)

最后,SplitInfo(A)标准化增益的计算如2.5,从而消除具有许多输出结果的属性选择偏差。

(2.5)

(3)决策树模型的建立

本次决策树模型建立的目的明确,是对耕地的质量进行等级评价即质量等级的划分,确定质量等级是决策树模型的主属性,作为模型的输出属性。它是一个独立的数据变量,属于离散型数据,分为一级、二级、三级、四级。地形,田面坡度,地下水位,有效土层厚度,土壤表层质地,剖面构型,表层有机质含量,pH值,灌溉保证率,排水条件10个评价指标为模型的输入属性,并且在数据输入过程中已将10个评价指标进行了离散化处理。

本次决策树算法采用C5.0算法,训练开始时,为所有实例指定相同的权重,在建立最后一个模型后,那些被模型正确分类的实例的权重减少了,被错误分类的实例的权重增加了。一旦建立好所有模型,每个模型被赋予一个权重,其值基于模型对训练数据的性能。所以执行较好的模型在分类过程中有较多的权力。对未正确的分类的样本被更频繁的取样,使决策树模型在分类训练数据的能力上彼此补充。

为了提高决策树模型的学习精度,本次研究引入决策误差代价,在进行质量等级的判读时,设置当判别发生错误的时候,所花费的代价不同。当质量等级为一级,误判为二级、三级和四级其代价权重为0.3,0.6,1;当质量等级为二级,误判为一级、三级和四级其代价权重为0.3,0.3,0.6。根据等级距离的不同赋予不同的代价权重。

运用Clementine8.1数据挖掘软件,采用C5.0算法生成耕地质量评价的决策树,将学习样本迭代20次学习,完成决策树模型的建立,运用决策树工作流模型,可以快速建立6个决策树模型(根据不同学习样本)。当选用500个学习样本建立评价模型,测试样本为30281个全部的评价单元,其测试的准确率为82.09%,模型准确率较低,得到的预测结果误差较大,不能正确的反映实际陆河县的耕地质量分布情况,用500学习样本建立模型试验失败。分析可能原因是500个聚类中各个聚类的数据之间距离过大,导致500个样本不能有效的代表耕地质量数据分布。

现分别采用1000、2000、4000、6000和8000个学习样本来训练评价模型,选择1000个学习样本时的预测准确率为86.01%;选择2000个学习样本时的预测准确率为90.66%;;选择4000个学习样本的预测准确率为94.92%;6000个样本的预测准确率为95.31%;8000个样本的模型准确率为95.65%。

(4)决策树评价模型分析

为了检验决策树模型对陆河县的耕地评价的有效性,使用测试样本检验决策树模型,得到模型测试的准确率是94.92%,已经满足了实际工作的需要,可知决策树模型能有效地对陆河县的耕地进行质量评价。

二、改善本地区的耕地质量措施

根据决策树模型进行陆河县耕地质量评价的结果,从决策树评价规则集中,可知影响陆河县耕地开发潜力的限制因素如pH值、有机质含量和田面坡度等,因而可以对评价区内质量等级较低的耕地进行改良,具体措施如下:

1.增加灌溉系统,提高农田灌溉保证率

通过开挖、建设灌溉水渠等措施,增加灌溉水田、水浇地的面积,减少旱地、望天田的比例。

2.积极进行土壤改良

通过增施磷肥和使用石灰,解决普遍存在的农田缺磷、土壤偏酸及养分含量不平衡的问题。对其中的低产耕地注意增施有机质肥,冬种专用或兼用绿肥,改良土壤性状,培肥土壤。

3.加强水土保持

陆河县域内年降水量大,且季节分配不均,降水集中在夏季,这对农田侵蚀较大。因此,在坡耕地改造为梯田的条件下,应重视水土保持工程的建设,例如:栽种护坡灌木篱笆,增设导流渠等措施。

参考文献:

[1]王海起,王劲峰.空间数据挖掘技术研究进展.地理与地理信息科学,2005

[2]刘洋,谭文兵,陈传波等.土地整理模糊数学评价模型及其应用.农业工程学报,2005

[3]刘耀林,焦利民.基于计算智能的土地适宜性评价模型.武汉大学学报信息科学版,2005