首页 > 范文大全 > 正文

数据挖掘技术在学生信息中的应用

开篇:润墨网以专业的文秘视角,为您筛选了一篇数据挖掘技术在学生信息中的应用范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

【摘要】随着我国教育信息化进程不断推进,信息技术和数据挖掘技术在教育领域得到广泛的应用。在“以学习者为中心”的思想指导下,利用数据挖掘技术对学生的成绩信息进行数据分析和预测,应用Apriori关联规则算法挖掘出影响学生成绩的潜在的规律,为学校对学生的管理决策提供依据。

【关键词】数据挖掘;关联规则;Apriori算法;学生信息;数据

1.引言

当今,我国的教育信息化水平在不断的推进和提高,国内的很多高校和高职学校都积累了非常多的、信息量非常大的学生信息。面对如此多的海量数据,高校的工作人员往往只是获取其中的表面信息,而隐藏在海量数据中的大量有用信息都没被挖掘出来,从而失去了发挥其真正价值的机会。在科技发展迅速和竞争越来越白热化的今天,如何提高学生的学习能力和学习成绩,从而为国家培养出更多的、优秀的优秀毕业生是国内很多高校都非常关注的重点。国内的高校需要适应社会的发展,引入新的信息化手段,采用数据挖掘技术来对已有的海量数据资源进行充分合理的利用,找出高校学生信息中潜在的有价值的信息,为学校的教育教学工作的开展提供足够的理论和事实依据。

2.数据挖掘技术概述

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,也被人们称为知识挖掘、知识发现等。

数据挖掘技术是人们在长时间对数据库技术进行分析和研究,并进行开发的结果,它是一类对数据库中的信息进行深层次的数据分析的方法。它将用户对数据库的信息的应用才能够较低层次的简单查询操作,提高到了从信息中挖掘规则、提供分析、预测、决策支持等高级应用。它和传统意义上的数据分析是有较大的区别的,是在缺乏较明确的假设前提情况下进行数据挖掘和发现规则的,所以通过数据挖掘技术挖掘到的信息和知识往往是预先没有预料到的,不能靠直觉来发现。一般而言,通过数据挖掘技术挖掘出的信息越是出乎意料,就越有效,越具有实用价值。

2.1 关联规则挖掘

关联分析又称为关联规则,是数据挖掘一个重要的研究分支,是指从给定数据项中发现频繁出现的模式知识。通过关联分析,能表述并反映出研究数据和其他数据之间依赖或关联,找到他们中隐藏的关联网。关联规则是形如X--->Y的规则,表示满足X的数据库元祖也很可能会满足Y。

基于关联规则的挖掘过程实质上寻找强关联规则的过程,首先迭代识别所有的频繁项集,依据数据可信度和数据支持度挑选对用户要求有现实意义的关联规则,即不被其他任何项集包含的最大频繁项集集合,丢弃无用的关联规则。然后由频繁集产生强关联规则,产生的这些规则必须满足最小的数据可信度与支持度。

关联分为简单关联、因果关联和时序关联三种类型。关联规则的挖掘一直都是研究的热点,广泛应用于事务分析和市场营销等应用领域,经典的算法如APriori算法、Fp-tree算法等。

2.2 Apriori算法

APriori算法是关联规则中提取的经典算法,是一种广度优先算法,通过对数据库D的所有事务数据项的多次扫描来计算项集的支持度,发现所有的频繁项目集后,进一步生产关联规则。在每次扫描中只考虑所含项个数相同的所有项集。

Apriori算法按项目集从小到大的顺序寻找频繁项目集,算法的核心思想是:频繁项集的任何非空真子集都是频繁项集,非频繁项集的所有超集都是非频繁项集,必定不是频繁的。利用该性质,可以用来有效地修剪候选项目集,减少算法的搜索空间,提高频繁项集逐层搜索的效率。

用Lk表示频繁k项集,通过Lk-1找到Lk的过程由连接和剪枝两步组成。

(1)连接:Lk自连接,自连接产生候选k-项集的集合,记作Ck。将Lk中具有相同(k-1)-前缀的项集连接成长度为k的候选项集。

(2)剪枝:如果项集的所有长度为k的子集都在Lk中,该项集才能作为候选项集被加入Ck+1中。扫描数据库确定Ck中每个候选的支持度,依据用户设定的最小支持度阀值进行验证,去除小于支持最小支持度阀值的非频繁k-项集,进而找到Lk。

Apriori算法是逐层搜索的迭代方法,需要重复的扫描数据库以确定各个候选项集的支持度计数,同时会产生大量候选项集。在找到了事务数据库中的所有频繁项集后,利用这些频繁项集可以产生关联规则。

3.基于数据挖掘的高校学生成绩分析

3.1 数据挖掘的问题定义

文章针对的数据挖掘对象主要是学校中的学生,通过对学生信息的研究,采用数据挖掘技术对学生的相关信息,如高考录取分数、单科分数,学生饿出勤率,不及格科目的数量、重修的学期等信息,找出有价值的关联规则,为以后学校的教学工作进行指导。

3.2 数据采集

高质量的输入数据,是保证数据挖掘成功的前提条件。

(1)学生基础数据信息,包括学号、姓名、性别、出生日期、所属院系、专业、班级、高考录取分数,通过本校学生学籍信息管理系统获取。

(2)考试成绩信息,包括科目名称、考试分数、总评、挂科数,通过本校教学管理部门的学生成绩管理系统获取。

(3)学生调查信息,主要是指学生的学习态度和教学硬件环境等,包括出勤率、作业完成情况、上机机器状态、上课座位位置、业余兴趣等,信息的获取主要通过由学生填写问卷调查的形式得到,将调查结果统计生成数据库表。

3.3 数据预处理

(1)数据集成

利用数据库技术将采集得到的多个数据库文件整理建立成高校学生成绩分析数据库。

(2)数据消减

由于高校学生成绩分析数据库中存储的数据信息繁多,以四年为界将数据库中数据进行分块,提取最近四年的数据块中相关数据信息,建立新的数据表用于数据分析处理。

此外,并不是所有属性的数据都需要进行挖掘。为了缩小所挖掘数据的规模但却不影响最终的知识获取,必须根据实际需要在其间挑选出有价值的、适用于数据挖掘应用的数据。例如学生姓名、籍贯、出生日期、所属院系、专业、班级属性字段,对于数据挖掘来说没有丝毫价值,对之进行删除,建立新的数据表。

(3)数据清理

由于学生成绩分析数据特别是学生调查信息在记录收集的过程中,并不是所有的属性值都是完整,可能某些属性存在空缺值,属于不合格的数据,这对数据挖掘会造成很大的影响,需要进行数据清洗,补充其缺失数据。对于少数统计不全的空缺值,空缺的属性值用同一类样本的平均值进行替换。例如,学生调查信息表中某条记录“上机机器状态”、“上课座位位置”、“出勤率”等属性值为空时,取该班其他学生记录的该项平均值进行人工填补;对于那些无法补缺的、含有空缺值或存在错误内容的记录,则直接删除不用,比如少数学生没有考试的空数据、学生填写的调查数据中有大量空缺项的记录。

(4)数据转换

数据清洗后,将数据转换以构成一个适合数据挖掘的描述形式。大部分的学生成绩分析数据都是具体的数值,如高考录取分数、出勤率等,对于挖掘过程来说工作量过大,需要对数值型属性进行泛化处理、属性离散化处理等。

①高考录取分数、考试分数、总评

由于每年录取线不同,没有可比性,所以设置同年度的录取最高分为100分对高考录取分数进行百分制转换,转换的公式为:转换得分=(高考录取分数/同年度最高分)*100

然后,对高考录取分数、考试分数、总评属性进行离散化处理,将成绩属性划分为5类:0-40属于极差,40-60属于较差,60-75属于中,75-90属于良,90以上属于优秀。

②出勤率、作业完成情况、上课座位位置

对以百分数值表示的属性如出勤率、作业完成情况进行离散化处理,划分成四个等级:0-60%属于差,60%-80%属于中,80%-90%属于良,90%以上属于好。我院教室座位一般不超过12排,用“等区间装箱”的方法将上课座位位置划分为3个位置段:座位排数1-4属于前排、5-8属于中间、9-12属于后排。

③业余兴趣

业余兴趣类型为字典项,由于分类过细,有十几种类型。对该项进行泛化处理,取其五大类,即电影文学、球类运动、社团活动、歌舞艺术、上网。

3.4 数据挖掘

数据的分析过程采用SPSS Clementine数据挖掘工具。以Apriori算法为基础,根据成绩数据的特点,针对那些成绩极差但出现频率较小的事务,为了不将其忽略,在关联规则挖掘阶段引入权值参数λx。设置最小支持度为3%,取最小置信度为70%,使用加权支持度计算函数f(x)=λx*support(x)/|D|。由于考试分数的特性,设定λ(极差)为6,其他权值均设为3执行挖掘分析,生成相关的频繁项集和关联规则,部分关联规则如下:

数据项 支持度 置信度

A5,E1->C5 5.7% 88.6%

A2,E3->C2 5.7% 89.6%

E3,F5->C1 5.8% 91.3%

3.5 评价与结论

通过所有的关联规则可以表明,虽然学生信息复杂差异较大,但是成绩极差的学生结构极其类似,座次靠后、出勤率差且爱上网。高考录取分数对成绩影响不大;上课座位位置对成绩影响大,在前排成绩优秀率高;业余爱好电影文学以及出勤率好的学生优秀率高。

4.结束语

通过已获取的关联规则,学校的管理部门和教师可以对学生进行有效地教学管理和监督,如可以通过加强学生宿舍的管理,避免学生上课时间逃课沉迷于游戏;可以检查学生的出勤情况,对学生的到课情况进行管理;在课堂教学中有意识的加强学生座次的重要性,让学生树立积极健康的学习态度。因此,采用数据挖掘技术对高校的学生信息进行分析,可以提高高校的教学质量和水平,对高校教学的各个方面都具有很好的现实意义。

参考文献

[1]张斌.高校招生录取数据分析研究[J].计算机时代, 2010(11).

[2]张俊溪,罗增强.基于主成分聚类算法的陕西省环境协调性分析[J].微处理机,2010(05).

[3]杨春霞,王建民,陈菁,陈今润.武器生物损伤效应实验数据库的研制[J].微计算机信息,2010(33).

[4]姜理源,卫志农,王成亮,于峰.基于B/S模式的发电机进相的管理数据库开发[J].江苏电机工程,2010(06).

[5]陈晓云,马良斋.基于属性权重的局部离群点挖掘算法研究[J].微计算机信息,2010(33).

基金项目:湖南省教育厅科学研究项目(12C64)。

作者简介:冯燕(1982―),女,湖南津市人,硕士,讲师,主要研究方向:空间数据库和大型网络研究。