首页 > 范文大全 > 正文

基于C4.5算法的学生成绩的研究与分析

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于C4.5算法的学生成绩的研究与分析范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:该文探索研究应用C4.5决策树算法来分析高等职业院校的学生成绩的新方法,同时建立起一个学生成绩分析决策树模型,完整地展现了学生成绩分类挖掘的全过程;并以广州工程技术职业学院的学生成绩管理系统的学生成绩数据为实例,运用Java编程语言开发了一个基于c4.5算法学生成绩分析系统,以合理调整教学服务过程中出现的问题,提高管理效率与教学质量,全面促进学生的素质发展,提高高等职业院校的综合办学能力和核心竞争力。

关键词:G4.5算法;Java;高等职业院校;学生成绩分析系统

中图分类号:TP311文献标识码:A文章编号:1009-3044(2011)14-3405-05

Research and Analysis on Students' Scores Based on C4.5 Algorithm

HUANG Hai-xia1, XU Xiang-lin2

(1.Academy of Adult Education, Guangzhou Institute of Technology, Guangzhou 510075, China; 2.Information Center, Guangzhou Institute of Technology, Guangzhou 510075, China)

Abstract: The article mainly studies a new method to analyze students' scores in Higher Vocational Institute,with the help of C4.5 decision tree algorithm. Serving as an illustration, a decision tree model is built up to show the process of the analysis. And it is a C4.5 analysis system developed by Java, based on the data in student grade system of Guangzhou Institute of Technology, Which successfully helps to solve problems in the teaching process, to improve the teaching quality and managerial effectiveness, to boost the all-around development of students, and to enhance Higher Vocational Institute’s integrative education capability and their core competitiveness.

Key words: G4.5 algorithm; Java; higher vocational institute; student grade system

1 高等职业院校学生成绩的研究现状

目前,高等职业院校在纷纷加大力度开展校园信息化建设过程中,其数字化管理系统中日益膨胀的信息资源为他们积累了非常宝贵的教学财富。广州工程技术职业学院与大多数高等职业院校一样,学生人数大幅度增长和教学管理模式的变化(如学分制的实行)等为学校的信息化管理系统积累了大量的信息资源,但是,如果管理者仅仅简单地查询与统计这些数据,而不充分地挖掘数据里面潜在的高价值数据,难以对学校教育做出更大的参考价值与应用价值。现在,数据仓库和数据挖掘作为新型的数据库管理技术,已经成功地应用于许多企业中,为提高企业管理效率和经济效益等方面取得了明显效果,将它们引入学生成绩管理系统的研究分析工作中,能够为师生们提供优质的教学服务,为各层级管理者提供科学的决策依据,才能为学校在激烈的竞争中赢得主动权。

2 C4.5算法简介

数据挖掘是一个从大规模数据库的数据中抽取有效的、隐含的、未知的、有潜在使用价值的知识的过程,简单来说,数据挖掘就是从大量数据中提取或“挖掘"出知识。分类作为数据挖掘的方法之一,它根据带类标号的历史数据建立模型,进而使用该模型来预测类标号未知的数据所属的类。最知名的分类算法是决策树方法,决策树是用于分类的一种树结构。决策树方法的起源是概念学习系统,发展到ID3方法为高潮,最后又演化为能处理连续属性的C4.5。本文设计并实现用C4.5分类算法来挖掘学生成绩,通过分类方法较全面地分析学生成绩与各种因素之间隐藏的内在联系,从大量数据中发现潜在规律,找出隐含的模式,准确掌握学生的学习动态,为教学工作提供更多有价值的信息。

J.R Quinlan在1993年提出了C4.5算法,他针对基于ID3算法利用信息增益作为分类评价函数来选取最优属性而导致容易倾向于选择取值较多的属性的缺陷,适当地修改了分类评价函数,用信息增益率(Information GainRatio)取代信息增益作为分类评价函数。其中,信息增益率定义为:

Gainratio(x)=(定义1)

其中,SplitInfo(x)=,它表示把T分成n部分而生成的潜在信息。

C4.5算法的主要思想为:假设T为训练集,为T构造决策树时,根据选择Gainratio(x)值最大的属性作为分裂节点,按照此标准将T分成n个子集。若第i个子集Ti含有的元组的类别一致,该节点就成为决策树的叶子结点并停止分裂。而对于不满足此条件的T的其它子集,按照上述方法递归的生成树,直至所有子集所含元组都属于一个类别为止。算法描述为:

1)输入:R:候选属性的集合(可以是连续值的);C:分类属性;S:训练集。

2)输出:一棵决策树。

具体实现方法的流程图如图1所示。

3 数据库挖掘的方法

数据挖掘可以通过令人感兴趣的模式来发现可以帮助人们的大量原始数据。模式定义如下:给定一个事实(数据)集F,一个语言L,以及一些可信度C的量度,一个模式S就是L中的一个陈述,S以可信度C来描述F的一个子集Fs中的关系,并使得S要易于对Fs中所有事实的简单枚举。对于应用来说,事实(数据)集F通常都是特别巨大的,而发现的结果只有在统计学的意义上是有效的,用户主要寻找有意义的相对数据部分成立的知识,而非一定要考虑所有的数据。由于令人感兴趣的模式因人而异,各取所需;在挖掘海量的数据量中,为了避免“人工智能”中的组合爆炸问题,大多数系统开发都有某种程度的用户参与,所以信息分析员也成为数据挖掘系统的重要组成部分。

数据挖掘系统由一组构件联合组成(见图2)。挖掘系统中的输入是数据仓库或数据库的数据。选择数据在挖掘引擎中处理,以生成辅助模式和关系。通过评价来发现令人感趣的模式。有的发现还要加入知识库中,以便后继的抽取和评价。

目前,数据挖掘的方法和技术主要包括统计分析方法、关联规则方法、决策树方法、神经网络法、粗糙集理论方法、遗传算法、可视化技术等。其中,决策树(Decision Tree)方法是从机器学习中引申出来的,它以实例为基础的一种归纳学习方法,它能够简易地实现数据规则的可视化,输出结果也易于理解,最有影响力的是Quinlan研制的ID3算法,及其后发展的各种决策树算法(如C4.5、CART等)。