首页 > 范文大全 > 正文

数据挖掘技术在网络课程管理中的应用研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇数据挖掘技术在网络课程管理中的应用研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:针对传统的网络课程管理方法的不足,提出了一种基于C4.5算法的成绩决策树数据挖掘方法,首先简要介绍了数据挖掘技术,然后分析了数据挖掘技术在网络课程管理中的应用,最后以学生成绩数据为对象,使用决策树中C4.5算法分析了数据挖掘技术的应用。

关键词:数据挖掘;网络课程;决策树;C4.5算法;关联规则;聚类分析

中图分类号:TP311文献标识码:A文章编号:1009-3044(2011)23-5561-03

Research on Application of Data Mining Technology in Network Curriculum Teaching Platform

LIU Yan-qing

(Center of Computer Network, Ningxia University, Yinchuan 750021, China)

Abstract: Aiming at the deficiency of the traditional network management method, a new scheme of data mining based on the C4.5 algorithm of decision tree are proposed,Firstly, In this paper it introduced the Data Mining Technology,Secondly, it analyzed the Application of Data Mining Technology in Network curriculum teaching platform,In the end ,With the application of students’ scores as example, it analyzed the Application of Data Mining Technology in Network curriculum teaching platform.

Key words: data mining; network curriculum; decision tree; C4.5 algorithm; Related regulation; clustering analysis

由于Internet技术的快速发展,远程网络教育获得了飞速的发展,网络学习逐渐成为人们关注的热点, 网络课程作为网络教育的载体,是决定网络教育质量的一个关键要素,每学期随着班级、专业以及课程的不同,所有课程信息必须更新,管理系统形成的海量数据为课程管理决策应用的效率并不高,难以适应远程网络教育的发展需要,因此,为了实现科学、高效的课程管理,文中将数据挖掘技术应用到网络课程管理中,通过对日常教学管理中的数据进行分类挖掘,找出隐藏在数据后面的信息,这些信息可以帮助学校更好地对学生的培养管理,可以帮助教师更加有效地开展教学活动,进而进一步提高教学质量。

1 数据挖掘技术在网络课程管理中的应用

网络课程管理系统通常由以下几部分组成:信息录入(含课程信息、院系部信息、教师教辅人员信息、学生信息)、信息查询(含院系部信息、教师教辅人员信息、课程信息)、统计分析(含部门统计、课程统计、学生学习情况统计、成绩统计)、导出数据(课程信息导出、学生成绩导出)、资源下载、课程展示、课程检索、师生互动、学生评价和系统管理。

网络课程管理系统中存放着大量的数据,根据各种需要,可以对这些数据进行不同的组合分析,从这些数据中发现隐含的、有用的模式或关系用于指导教学与管理。在网络课程管理系统中,数据挖掘技术可以应用在以下几个方面:

1)关联分析:如学习资料之间的关联及课程之间的关联,将这些关联分析应用于课程设置中,可以帮助教学管理人员合理安排课程,还可以根据学生查阅资料的特点将经常一起查阅的资料归类在一起,从而节省学生在课程网站上查找资料的时间;

2)聚类分析:通过聚类分析,把学生分组组成协作学习小组, 找出他们具有共同特点,针对不同的聚类,教师可以采用不同的教学方法;

3)分类与预测:可以利用C4.5分类算法构造综合素质测评分类器,评价指标有学习成绩、思想品德、参加活动、学习实践情况等,得出学习成绩与教师职称、教师学历、学生生源地及学生性别之间的关系,以改进综合测评的方法,促进学生全面发展。

4)时序模式:通过对学生访问数据统计,利用WEB挖掘技术,使用数据挖掘的序列模式挖掘方法对文档进行分类,提高学生检索信息的速度,可依据学生访问的数据进行挖掘分析,对访问数据进行聚类分析,了解学生感兴趣的内容,访问站点之间的关联,分析学生访问习惯及兴趣点,并在有关联关系的页面之间设置超链接等来改善网站的结构。

2 学生成绩数据挖掘过程

学生成绩是评估教学质量的重要依据,是评价学生对所学知识掌握程度的重要标志,通过对现有学生成绩数据库中的成绩数据进行数据挖掘,根据决策树的结果来判断各门课程的成绩与外在因素的关系,以及对发现的关系进一步量化,并把决策结果通过可视化软件显示给教辅人员查阅,以便他们根据这些问题对教学做出相应的调整,从而提高学生学习质量。

2.1 确定挖掘任务

传统的成绩统计方法,通常是计算均值、方差、信度、效度和区别显著性检验等,对成绩的分析处理方法通常是统计成绩为优、良、及格、不及格等级别的人数及比分比,而很少对影响学生成绩的因素进行全面的了解分析,这样不利于进一步提高学生的成绩, 因此,为了进一步提高成绩,需要对这些数据信息进一步挖掘分析,从而得出结论,供教学使用,而按照学生成绩属性的特征进行分类,采用决策树方法可以从一组无次序、无规则的数据记录中推理出决策树表示形式的分类规则;对于教师来说,了解学生的学习兴趣与差异对教学很重要,因此,本文将决策树分析应用在学生成绩分析中,通过挖掘分析,找出影响学生成绩的主要因素,以便在以后的教学活动中采取相应的改进措施。

2.2 准备数据

在学校每学期结束时,网络课程管理系统中,保存了学生所参与课程的成绩信息,而成绩是与学生关联最大的数据,每学期都有新的成绩数据产生,且随着时间推移,成绩数据库中的数据量将越来越大。因此,为了从学生成绩中提取有用的信息供教学参考,本文以历年来的学生成绩作为要分析的数据,希望从学生成绩信息中发现与提高学生学习成绩有关系的一些因素。如学生的性别,教师的学历高低,教师职称的高低,学生生源地是城镇还是农村等与学生成绩密切相关的属性。

2.3 C4.5算法设计

本文主要是对学生成绩进行分析,而成绩是数值型的数据,因此在分析时所用的算法是基于信息熵的决策树分类算法C4.5,C4.5是在ID3算法基础上改进的,其特点主要是根据属性集的取值选择实例的类别及各级决策树,C4.5主算法描述如下:

1)在训练集T中,使用计算方法选取属性作为子集T={T1,T2,T3,T4,……};

2)用C4.5 “建树算法”对子集分裂T={T1,T2,T3,T4,……}进行信息增益(嫡)计算,生成决策,并得到测试子集T1,Ti的信息增益,“建树算法”为:首先对当前训练集T数据计算每个样本子集的信息增益S={S1,S2,S3,S4,……},然后, 选择互信息S={S1,S2,S3,S4,……}中最大的特征属性Smax作为树(或子树)的根结点Tboot,接着将那些嫡值大于平均值的样本子集合并成一个临时的复合样本子集归于同一子集,该取值作为树的分支Tos={Tos1, Tos2, Tos3, Tos4,……},最后,对树的分支Tos={Tos1, Tos2, Tos3, Tos4,……}中分类结果不为同一类的子集递归调用建树算法, 若子集仅属于同一类分类结果,对应分支结束作为树的叶结点,返回调用处;

3)对训练集T1,Ti中所有属性进行类别判定,找出类别的分类;

4)若分类结果为同一类, 转到步骤2)进行,否则对子集T1,T2,T3,T4,……再分别进行属性分裂,取其子集T={Ti1,Ti2,Ti3,Ti4,……},转到步骤2)进行;

5)判定此决策树为最后结果。

2.4 属性选择度量

属性选择度量又称分裂规则,其是将给定的类标记的训练集元组的数据“最好”地划分成各种个体类的启发式方法,其中具有最好度量的属性被选作给定元组的分裂属性,其相关计算公式如下:

原来信息: (1)

期望信息: (2)

信息增益: G(B)=f(B)-E(B)(3)

分裂信息: (4)

增益率: GR(B)=G(B)/sf(B)(5)

上式中, 假设类标号属性具有k个不同值,定义了k个不同类集合U={U1,U2,U3,U4,……},Bi是Ui中的样本数, B 是 Bi个训练集的集合, Q(Bi)是Ui的概率。

3 算法实现

为了验证上述算法的正确性,文中从英语专业的专业课成绩中随机抽取400名学生的成绩组成训练集进行试验, 把其中的连续属性平均成绩经过分类转换为离散属性:S1=[85,100];S2=[70,85]:S3=[60,70];S4=[0,60],并将训练集中的数据进行简化如下:学生性别={男,女},教师学历:{ 博士研究生,硕士研究生,本科,专科 },教师职称={教授,副教授,讲师,助教},学生生源地性质:{ 农村,城镇},学生成绩={S1,S2,S3,S4},其中, S1有160个, S2有80个, S3有80个, S4有80个,

3.1 属性计算

学生的成绩期望信息为:

下面以性别属性计算为例:在400个数据中, 一共有220个女同学, 分别是:S1有80个, S2有40个, S3有60个, S4有40个,有180个男同学,分别是S1有80个, S2有40个, S3有20个, S4有40个;按照公式⑵计算期望信息,

于是,性别的信息增益为:G(B)=1.922-1.891=0.031;

按照公式⑷计算性别属性的分裂信息为:

按照公式⑸计算性别属性的增益率是; GR(B)=G(B)/sf(B)=0.031/0.993=0.0312;

按照此方法依次可以计算出,

教师职称增益率为 GR(B)=G(B)/sf(B) =0.0435;

教师学历的增益率为 GR(B)=G(B)/sf(B)=0.0403;

学生生源地的增益率GR(B)=G(B)/sf(B)=0.0278。

3.2 决策规则的生成

利用决策树形成的各种分类模型, 利用IF.THEN语法形成分类规则, 在IF.THEN分类规则中,从根到树叶的每一条路径都创建一条规则,THEN部分用该决策树中叶点所标记的类别表示,IF部分用决策树中一条路径所形成的属性值表示;决策树从一种表示形式到另一种表示形式的转换是非常简单直接的,就可以得到相应的THEN部分结论,就可以得知这个学生成绩是属性哪个分类。

从上面的学生成绩系统中抽取教师的学历、学生所学的专业、教师的职称、学生的性别、学生生源地性质和平均成绩进行建树分析,从构造的学生成绩的决策树中,可分析得知影响学生成绩的最重要的因素是教师职称,其次是教师学历,学生性别和学生生源地性质,这棵树的构成是很符合现实要求的。

4 结束语

数据挖掘技术已在多个领域得到很好的应用,学校各部门多年来积累了大量的数据,但这些数据只是简单的存储在数据库中,没有得到深层次地分析与利用。本文对数据挖掘技术在分析高校网络课程相关数据中的应用进行了讨论,并通过C4.5算法在分析学生成绩中的应用, 揭示了成绩背后的深层意义,找出了隐藏着的教学信息与规律,通过加强对这些教学信息与规律的教学管理,提高学生的学习成绩,有助于网络教学质量的动态管理。

参考文献:

[1] 周曦.数据挖掘技术在网络营销中的作用[J].电脑知识与技术,2011(11).

[2] 施晓华.数据挖掘技术在图书馆学科数据馆藏分析中的应用[J].情报杂志,2011(1).

[3] 廖燕玲.数据挖掘在学生职业能力分析中的应用[J].电脑知识与技术,2010(33).

[4] 李D琳.数据挖掘技术在教务信息挖掘系统中的应用[J].制造业自动化,2010(4).

[5] 吴英.计算机考试数据分析中数据挖掘技术的应用[J].制造业自动化,2010(9).

注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文