首页 > 范文大全 > 正文

高校学生上网行为分析与数据挖掘研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇高校学生上网行为分析与数据挖掘研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要】

W络对于学生的学习既有正面作用,又有负面作用。为了制定合理、有效的网络管理措施,本研究以学生上网数据和学生成绩数据为研究对象,采用决策树、关联规则、逻辑回归三种数据挖掘方法对学生上网行为相关属性与学生学习质量之间的关系进行了研究。研究结果表明,学生上网行为的相关属性如“上网时长”“入流量”“出流量”“总流量”“上网次数”等均对学生的学习质量有不同程度的影响,且均呈现负相关关系。其中,“上网时长”是影响学习质量的主要因素,可以根据数据挖掘发现的关键数据节点,制定相应的网络管理措施限制学生过度上网。三种数据挖掘方法都较好地实现了预期效果,得出的结论基本一致,其中关联规则挖掘算法的总体性能最好,决策树算法的总体性能略好于逻辑回归算法。

【关键词】 高校学生上网行为分析数据挖掘;决策树;关联规则;逻辑回归

【中图分类号】 G40-057 【文献标识码】 A 【文章编号】 1009-458x(2017)02-0026-07

一、引言

在信息技术时代,网络的普及一方面给高校学生的学习和生活带来了极大的便利,另一方面也导致了一些学生出现过度上网甚至沉迷网络的问题。可以说,网络是把双刃剑,利用好了可以充分借助网络教育资源拓展学习时空,促进学习交流;利用不好则会使学生沉迷于网络虚拟世界,浪费宝贵的学习时间,影响正常学习。对网络的管理,高校既不能放任不管,也不能简单地限制上网。由于学生在校上网都要通过学校的网关,因此学生上网数据能够真实地反映学生的上网行为。利用学生上网数据对学生的上网行为进行分析研究具有可行性,可以为制定合理、有效的网络管理措施提供决策支持。

教育数据内涵广泛,学生上网数据和课程考试成绩数据都属于教育数据。上网数据中蕴含了学生上网行为的客观事实属性,成绩数据中蕴含了学生学习质量的客观事实属性。根据一般经验,学生过度上网会影响学习质量。这一论断是否正确,学生上网行为与学习质量之间是否存在更多的关联,这些问题都需要利用数据挖掘技术对学生上网数据和成绩数据进行综合分析,这正是本研究的意义所在。

二、教育数据挖掘相关研究

教育数据挖掘(Educational Data Mining,简称“EDM”)是运用数据挖掘方法从来自教育系统的原始数据中提取出有意义信息的过程,这些信息可以为教育者、学习者、教育管理者、教育软件开发者和教育研究者等提供服务(李婷, 等, 2010)。教育数据挖掘是计算机科学、教育学和统计学相结合而形成的一个交叉学科,如图1所示(Romero & Ventura, 2013)。

从图1中可以看到,三个学科两两交叉形成了数字化学习、学习分析、数据挖掘与人工智能等研究领域。这些研究领域与教育数据挖掘密切相关,且在一定程度上体现了教育数据挖掘的内涵(Bousbia & Belamri, 2014)。

教育活动与教育数据密切关联,教育活动必然产生教育数据。在出现教育数据挖掘之前,教育活动与教育数据之间的联系是单向的,教育数据中蕴含的信息没有得到有效利用。教育数据挖掘与应用的过程就是从教育活动所产生的数据中发现知识,再利用这些知识来改善教育活动的循环过程(周庆, 等, 2015)。这个循环过程使得教育活动与教育数据之间建立起双向循环反馈,有助于不断改进教育活动,提高教育质量。教育数据挖掘模型如图2所示(García, Romero, Ventura, & Castro, 2011)。

由图2可见,教育数据挖掘的主要流程包括数据采集、数据预处理、数据挖掘和结果分析四个步骤。数据采集是从教育环境中获取数据并按照数据标准进行初步转换、存储的过程。数据采集解决数据来源的问题,是数据挖掘的基础。数据预处理是采用数据清理、数据合并、数据变换、数据归约等方法将原始数据处理成适用于数据挖掘或有益于提高数据挖掘效果的数据形式。数据挖掘是整个模型的核心,是运用统计分析、人工智能、机器学习等方法,从大量数据中挖掘出隐含的、有价值的信息的过程。常用的数据挖掘方法有决策树、聚类分析、关联规则、回归分析、神经网络、时序分析等。结果分析是采用评价指标对数据挖掘结果进行评价和分析,具体评价指标包括查准率、查全率、正确率、显著性等。

由于教育数据挖掘具有重要意义,因此,教育数据挖掘与应用已经成为一个研究热点。早在2008年,来自美国、德国、加拿大、澳大利亚、荷兰等国的研究人员就成立了国际教育数据挖掘工作组。在该组织的大力推动下,2008年在加拿大召开了第一届教育数据挖掘国际学术会议,至今已举办了九届。同时,该组织于2011年设立了国际教育数据挖掘网站,并成功创办了专门的电子期刊――教育数据挖掘杂志(Journal of Educational Data Mining,简称“JEDM”)。该组织给出了教育数据挖掘的定义:教育数据挖掘是一个新兴的学科,该学科专注于研究用于探索来自教育系统独特的和不断增长的大规模数据的数据挖掘方法(Pechenizkiy et al., 2011)。Antonenko等(2012)使用聚类分析方法对Web服务器日志数据进行了研究,分析了学生的在线学习行为,并对利用聚类分析作为教育数据挖掘技术的优势和局限性进行了探讨。Guruler等(2014)使用决策树方法对高校学生成绩的影响因素进行了研究,并基于微软的数据分析服务技术构建了一个名为“学生知识发现”的教育数据挖掘系统。Agarwal等(2012)使用支持向量机、线性回归、逻辑回归、决策树等多种数据挖掘方法对学生数据进行了分析,并对分析结果进行了比较。Parack等(2012)使用Apriori关联规则算法和K-means聚类分析算法对学生的学术成果数据进行了研究,分析了考试成绩、考勤、实践环节等因素对学术成果的影响。舒忠梅等(2014)采用回归分析和决策树方法对大学生满意度调查数据进行了分析,研究学生特征和学习经历与满意度之间的关系。施绲龋2016)使用关联规则和聚类分析方法对学生网络学习行为数据进行了研究,并提出了网络学习过程监管的教育数据挖掘模型。陈益均等(2013)使用K-means聚类分析算法对学生上网行为与英语四级通过率之间的关系进行了研究,发现学生英语四级通过率与上网行为中的下载流量、在线时长、使用费用等有明显关联。吴淑苹(2013)在对教师网络学习行为特征、表现形式和学习过程等进行分析的基础上,采用时序分析方法对教师网络学习行为进行了分析和预测。吴青等(2014)运用J48决策树算法对不同风格网络学习者的网络学习行为特征进行了研究,并构建了学习风格模型。基于教育数据挖掘的在线学习预警研究已经成功应用于实践,包括美国普渡大学的课程警示系统、Desire2Learn公司的学生成功系统、可汗学院的学习仪表盘等(王林丽, 等, 2016)。

教育数据挖掘具有际应用价值,政府、高校和企业都很重视教育数据挖掘。2012年美国教育部教育技术办公室了一份《通过教育数据挖掘和学习分析促进教与学》的研究报告,对美国国内教育数据挖掘和学习分析的研究及应用情况进行了总结,并提出了进一步发展的意见建议(Bienkowski, Feng, & Means, 2012)。哈佛大学、斯坦福大学、耶鲁大学等世界知名高校都启动了教育数据挖掘相关研究计划。一些企业已经开发出了教育数据挖掘相关产品,如美国Knewton公司、英国Pearson公司、加拿大Desire2Learn公司等。国内很多高校也开始关注教育数据挖掘研究与应用。2014年5月,电子科技大学成立了教育大数据研究所,并已经完成了数据一体化平台、学生画像系统等多个研究。2015年9月,中国统计信息服务中心和曲阜师范大学共同成立了中国教育大数据研究院,并联合十余所高校和教育研究机构发起“中国教育大数据发展促进计划”,提出了推动中国教育大数据发展的路线图。

三、数据挖掘模型构建

1. 数据采集

本研究以高校学生上网数据和课程考试成绩数据为研究对象。从学生管理系统中提取某年级在籍本科学生数据6,725条记录,从教务管理系统中提取相应学生成绩数据401,278条记录,从网络管理系统中提取相应学生某月上网数据506,361条记录。

2. 数据预处理

(1)成绩数据。由于每个学生选修的课程和学分不一样,因此,为了准确衡量每个学生的综合学习质量,引入GPA(Grade Point Average,平均绩点)进行成绩评定。首先将百分制和等级成绩都折算成绩点,考试成绩与绩点的关系如表1所示。

然后对每个学生的所有课程绩点和学分进行加权平均运算得到平均绩点:

(1)经过计算平均绩点,每个学生只有1条成绩数据记录。这样成绩数据的记录总数就由原来的401,278条记录减少为6,725条记录,与学生数据记录总数一致,成绩数据量大大减少。根据数据挖掘需要,采用等频分箱法进一步对成绩数据进行离散化处理,即按照平均绩点由小到大进行排序,取中间值将学生综合学习质量等分为“成绩较差”和“成绩较好”两个成绩类别。

(2)上网数据。首先利用数据库分组查询,按学号汇总得到每个学生的“在线时长”“入流量”“出流量”“总流量”“上网次数”。这样处理后得到的上网数据汇总记录总数小于学生数据记录总数,因为每个学生最多有1条上网汇总记录,但是客观上存在部分学生一个月都不在校上网的情况。学生不在校上网的原因可能是因病请假或外出实习,具体原因可由院系管理人员作进一步了解。

(3)学生数据。保留学生数据中的主要字段,如“学号”“姓名”“院系”“专业”“班级”等,去除不必要字段,减少数据量。然后以学生数据为基础,将预处理后的学生上网数据和课程成绩平均绩点数据通过“学号”进行关联,得到学生数据、上网数据和课程成绩平均绩点数据三者的合并数据集。合并后的数据集作为样本数据,以“学号”为关键字段,唯一标识每条记录。

3. 相关分析

在进行数据挖掘之前,首先采用相关分析来研究上网与学习两者之间的关系。相关分析是研究两个变量之间相关性强弱及方向的一种统计方法。通常使用相关系数来定量描述两个变量之间的线性关系,取值范围为-1~1,相关系数大于0为正相关,相关系数小于0为负相关。

根据不同数据的特点,通常采用3个相关系数来描述相关性,分别为Pearson相关系数、Spearman等级相关系数和Kendall等级相关系数。使用SPSS作为数据分析工具,分别以“上网时长”“入流量”“出流量”“总流量”“上网次数”作为统计变量与“平均绩点”作相关分析,计算两者的相关系数,结果如表2所示。

从表2可以看出,3个相关系数虽然数值不同,但是得出的结论是一致的。由此可以看到:①“上网时长”“入流量”“出流量”“总流量”“上网次数”与“平均绩点”之间的相关系数均为负值,即均呈负相关关系;②显著性均为0,在0.01的置信度上,相关性不显著;③与其他指标相比,“上网时长”与“平均绩点”的相关系数绝对值最大,表明其与“平均绩点”的相关性最强,即“上网时长”是影响学习质量的主要因素。由此可见,过度上网会影响学习这个论断是成立的。但如何区分合理上网与过度上网,具体的尺度如何把握,还需要进行数据挖掘。

4. 数据挖掘

根据数据预处理结果,样本数据被分为“成绩较好”和“成绩较差”两个类别。将“上网时长”“入流量”“出流量”“总流量”“上网次数”作为属性,通过数据挖掘研究各个属性对样本成绩分类的影响。本研究使用SSAS作为数据挖掘工具,采用决策树、关联规则和逻辑回归三种方法来进行数据挖掘。

(1)决策树

决策树作为一种监督学习算法,主要用于分类和预测建模。决策树通过不断细化的分支,将错综复杂的数据分为若干类型(牟冬梅, 等, 2016)。通过决策树分析,最终可形成一个树形结构,每个内部节点表示一个属性上的测试,每个分支代表一个输出,每个叶子节点代表一种类别。将“上网时长”“入流量”“出流量”“总流量”“上网次数”作为输入值,“成绩类别”既作为输入值又作为预测值。将样本总数的70%作为训练集,剩余的30%作为测试集。为避免决策树分支过多,出现过拟合现象,将算法复杂度参数Complexity_Penalty设为0.8,以抑制决策树的生长,达到剪枝的目的。决策树分析结果如图3所示。

从图3可以看出,“上网时长”被作为决策树每个节点的最优分支属性,最佳分割点分别为238.987、191.192、159.328。在根节点中,全部学生样本按照成绩类别被等分为两个部分,灰色表示成绩较好类别,白色表示成绩较差类别。从图中所有节点的图例可以直观地看出,上网时长越长,成绩较好学生的比例越小,成绩较差学生的比例越大,反之亦然。如在上网时长大于等于238.987的节点中,成绩较差学生的比例达到79.82%。由此可以得出结论: ①“上网时长”是影响学习质量的主要因素;②上网时长与学习质量呈现负相关关系,即上网时长越长,成绩越差;③上网时长的关键分割点是238.987、191.192、159.328,可以考虑采取上网时长阶梯计费等措施限制过度上网。

(2)关联规则

关联规则挖掘算法用于发现事物属性特征之间的关联关系。关联规则是形如X->Y的蕴涵式,其中X称为前件,Y称为后件。关联规则挖掘中有几个重要的概念:项集、频繁项集、支持度、置信度、重要性。项集为事物属性特征的集合,如“成绩类别=1”“总流量>=56.01”等。频繁项集是在数据集中出现频率较高的项集。对于规则X->Y,支持度为(X,Y)/T,置信度为(X,Y)/X。其中,T表示项集的事务集合,(X,Y)表示T中同时包含X和Y的事务的个数,X表示T中包含X的事务的个数。支持度表示规则的可能性大小,置信度表示规则的条件概率,也称为概率。重要性用于衡量规则的有效性,重要性值越大,规则前件和后件的相关性越强。关联规则挖掘是从事务集合中挖掘出满足支持度和置信度最低阈值要求的所有关联规则。关联规则挖掘可以大致分为两步:第一步是基于事务集合生成频繁项目集,第二步是基于频繁项目集生成满足最低置信度的关联规则。将“上网时长”“入流量”“出流量”“总流量”“上网次数”作为输入值,“成绩类别”既作为输入值又作为预测值。由于关联规则挖掘要求数据为离散型数据,因此将连续型输入值的数据类型设置为“Discretized”,以自动进行离散化。将样本总数的70%作为训练集,剩余的30%作为测试集。为保证关联规则挖掘效果,将算法的最大项集大小参数Maximum_Itemset_Size设置为2,最小概率参数Minimum_Probability设置为0.6。关联规则挖掘结果如图4所示。

根据图4关联规则挖掘结果,整理得到详细的关联规则如表3所示。

从图4和表3可以看出,影响学习质量的因素有“上网时长”“出流量”“总流量”“入流量”,如规则1中学生上网时长大于等于255.84小时,其成绩有84.0%的概率属于“成绩较差”类别;规则5中学生上网出流量小于1.01GB,其成绩有62.5%的概率属于“成绩较好”类别;规则6中学生上网总流量大于等于56.01GB,其成绩有62.5%的概率属于“成绩较差”类别;规则7中学生上网入流量大于等于48.34GB,其成绩有61.9%的概率属于“成绩较差”类别。与其他属性相比,“上网时长”的置信度和重要性最高,因此,“上网时长”仍然是影响学习质量的主要因素。上网时长的关键分割点为255.84、190.44、150.14、69.85。可以看出,关联规则挖掘的结果与决策树分析结果大体一致。

(3)逻辑回归

回归分析是通过建立回归模型来确定两种或两种以上变量间的因果关系。逻辑回归是对线性回归模型的扩展,可用于分类与预测分析。设因变量为y,影响y的n个自变量为x1,x2,...,xn,p为事件发生的概率,1-p为事件不发生的概率, p/(1-p)取自然对数ln(p/(1-p)),得到逻辑回归模型为:

由式(2)可得:

式中为常数,(i=1,…, n)为逻辑回归系数。

将“上网时长”“入流量”“出流量”“总流量”“上网次数”作为输入值,“成绩类别”既作为输入值又作为预测值。将样本总数的70%作为训练集,剩余的30%作为测试集。逻辑回归分析结果如表4所示。

从表4可以看出,影响学习质量的因素有“上网时长”“出流量”“总流量”,如上网出流量在46.334GB到178.196GB之间的学生,其倾向于“成绩较差”类别的概率为80%,上网时长在190.133小时到361.467小时之间的学生,其倾向于“成绩较差”类别的概率为76.92%。分数表示自变量与因变量之间因果关系的强度。表4中的分析结果显示,“上网时长”仍然是影响学习质量的主要因素。上网时长的关键分割点为190.133、140.440、90.746,这与前两种分析方法得到的结论基本一致。此外,“出流量”也成为一个影响学习质量的重要因素,这与前两种分析方法的结论不一致,这个结论的有效性可以通过对相关学生进行抽样调查分析进行验证。

四、结果评价

首先对三种数据挖掘方法进行评价,评价指标包括查准率、查全率、正确率、F值等。查准率为算法识别正确的正面样本数与所有识别为正面的样本数的比值,用于衡量算法的精密度。查全率为算法识别正确的正面样本数与样本中所有正面样本数的比值,反映算法的灵敏度,也称为召回率。正确率为算法识别正确的观点数与样本总数的比值,反映算法的准确度。F值为查准率与查全率的调和平均值,其取值范围在0到1之间,用于衡量算法的总体性能。查准率所描述的精密度与正确率所描述的准确度具有不同的含义。精密度是指多次重复测定同一输入值时各测定值之间彼此相符合的程度,用来表示随机误差的大小。准确度是指在一定条件下多次测定的平均值与其真值相符合的程度,用来表示系统误差的大小。

在本研究中,设TP(Ture Positive)为实际成绩较好而分类预测结果也为成绩较好的样本数,FP(False Positive)为实际成绩较好但分类预测结果为成绩较差的样本数,TN(True Negative)为实际成绩较差而分类预测结果也为成绩较差的样本数,FN(False Negative)为实际成绩较差但分类预测结果为成绩较好的样本数,则有如下定义(Wikipedia, 2016):

榱烁准确地衡量算法的总体性能,有必要将正确率考虑在内,借鉴F值的调和平均值计算方法,定义精确度为正确率与F值的调和平均值,即:

精确度可以全面反映算法的精密度、灵敏度、准确度,更准确地描述算法的总体性能好坏。

根据决策树、关联规则、逻辑回归三种方法的数据挖掘建模结果,采用样本总体的30%测试集进行测试,分别计算相应的评价指标值。计算结果如表5所示。

从表5可以看出,查准率:关联规则>决策树>逻辑回归;查全率:逻辑回归>决策树>关联规则;正确率:逻辑回归>决策树>关联规则,F值和精确度的计算结果均为:关联规则>决策树>逻辑回归。三种算法都较好地实现了数据挖掘和分类预测效果,得出的结论基本一致,各项指标都接近或超过60%,尤其是关联规则的查准率超过了80%。综合考虑算法的总体性能,关联规则挖掘算法的总体性能最好,决策树算法的总体性能略好于逻辑回归,两者相差不大。

五、Y论

在大数据时代,数据是宝贵的资源,充分挖掘和利用教育数据中蕴含的信息,有助于改善教育活动。本研究首先对学生上网数据和成绩数据进行相关分析,然后采用三种数据挖掘方法对学生上网行为的相关属性与学生成绩的内在关系进行研究,得出了以下结论:①学生上网行为的相关属性“上网时长”“入流量”“出流量”“总流量”“上网次数”对学习质量都有不同程度的影响,且均呈现负相关关系,适度上网有利于学习,过度上网影响学习;②“上网时长”是影响学习质量的主要因素,即两者负相关关系强度最强,应予以重点关注;③综合三种算法的挖掘结果,“上网时长”的关键分割点为248、190、150、90、70,其中“上网时长”超过190小时会对学习质量产生显著负面影响,超过248小时会产生严重负面影响,应据此制定合理的网络管理措施,引导学生健康上网;④不同的数据挖掘方法在算法性能和挖掘结论上可能存在差异,需要根据实际情况选择合适的算法,并合理设置算法参数,保证结论的正确性和有效性。网络环境是教育环境的重要组成部分。通过上网行为分析和数据挖掘,可以为制定合理、有效的网络管理策略提供决策支持服务,让网络真正成为学生学习的良好辅助工具。

[参考文献]

陈益均,殷莉. 2013. 基于数据挖掘的学生成绩影响模型的研究[J]. 现代教育技术,23(1):94-96.

李婷,傅钢善. 2010. 国内外教育数据挖掘研究现状及趋势分析[J]. 现代教育技术(10):21-25.

牟冬梅,任珂. 2016. 三种数据挖掘算法在电子病历知识发现中的比较[J]. 现代图书情报技术,32(6):102-109.

舒忠梅,徐晓东. 2014. 学习分析视域下的大学生满意度教育数据挖掘及分析[J]. 电化教育研究(5):39-44.

施纾钱源,孙玲. 2016. 基于教育数据挖掘的网络学习过程监管研究[J]. 现代教育技术,26(6):87-93.

吴淑苹. 2013. 基于数据挖掘的教师网络学习行为分析与研究[J]. 教师教育研究,25(3):47-55.

吴青,罗儒国. 2014. 基于网络学习行为的学习风格挖掘[J]. 现代远距离教育,(1):54-62.

王林丽,叶洋,杨现民. 2016. 基于大数据的在线学习预警模型设计――“教育大数据研究与实践专栏”之学习预警篇[J]. 现代教育技术,26(7):5-11.

周庆,牟超,杨丹. 2015. 教育数据挖掘研究进展综述[J]. 软件学报(11):3026-3042.

Agarwal, S., Pandey, G. N. & Tiwari, M. D. (2012). Data Mining in Education: Data Classification and Decision Tree Approach. International Journal of e-Education, e-Business, e-Management and e-Learning, 2(2), 140-144.

Antonenko, P. D., Toy, S. & Niederhauser, D. S. (2012). Using Cluster Analysis for Data Mining in Educational Technology Research. Educational Technology Research and Development, 60(3), 383-398.

Bienkowski, M., Feng, M. & Means, B. (2012). Enhancing Teaching and Learning Through Educational Data Mining and Learning Analytics: An Issue Brief. Washington:U.S. Department of Education, Office of Educational Technology.

Bousbia, N. & Belamri, I. (2014). Which Contribution Does EDM Provide to Computer-Based Learning Environments. Educational Data Mining, 524, 3-28.

García, E., Romero, C., Ventura, S. & Castro, C. D. (2011). A Collaborative Educational Association Rule Mining Tool. Internet and Higher Education, 14(2), 77-88.

Guruler, H. & Istanbullu, A. (2014). Modeling Student Performance in Higher Education Using Data Mining. Educational Data Mining, 524, 105-124.

Pechenizkiy, M., et al. (2011 July). International Educational Data Mining Society. from http://.

Parack, S., Zahid, Z. & Merchant, F. (2012). Application of Data Mining in Educational Databases for Predicting Academic Trends and Patterns. IEEE International Conference on Technology Enhanced Education,1-4.

Romero, C. & Ventura, S. (2013). Data mining in education. Wiley Interdisciplinary Reviews:Data Mining and Knowledge Discovery, 3(1), 12-27.

Wikipedia. (2016, August 6). Precision and recall. from https:///wiki/Precision_and_recall.