首页 > 范文大全 > 正文

基于Apriori的高效关联规则挖掘算法在教育考试系统中的应用研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于Apriori的高效关联规则挖掘算法在教育考试系统中的应用研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要:从历史考试数据中提出有用的信息具有重要的意义。使用关联规则挖掘是有效的手段之一。然而,传统的Apriori关联规则挖掘算法存在不足之处。为此,本文应用一种改进的、基于apriori的关联规则挖掘算法,在高考考试数据上进行了尝试,得出了有益的结果。为进一步构建针对教育考试的实际数据挖掘应用系统奠定了基础。

关键字:教育考试信息;关联规则;数据挖掘

中图分类号:TP391.6 文献标识码:A DOI:10.3969/j.issn.1003-6970.2013.07.029

本文著录格式:[1]冯璐妹,赵建宁.教育考试系统中的应用研究[J].软件,2013,34(7):81-83

0 引言

省级教育考试部门是全省各类教育考试的主管部门,具体负责普通高校招生考试、研究生招生考试、自学考试、成人高考、高中学业水平测试、各类证书考试的组织管理工作。多年来,我省教育考试部门负责的考试类型、服务对象、考试模式、管理模式、录取模式以及服务模式日益复杂,已经积累了海量的历史数据。如何从这些数据中找出其中隐藏的知识和规律,有针对性地修改完善现有的政策和规定,使成绩能够真实地反映学生的学习水平和学校的教学水平,是一个迫切需要解决的问题。

本文针对教育考试的特点,应用一种改进的关联规则挖掘算法,对我省历年高考数据进行挖掘,得到一些关联规则。分析发现,挖掘得到的规则符合实际情形,对后续考试政策或是规定的指定具有积极的意义。

1 关联规则简介

如何从海量的历史数据中获取有价值的知识是一项艰巨但非常有意义的任务。为了解决这一任务,知识发现[1]、数据挖掘[2, 3]成为研究的热点问题。数据挖掘是指从大量数据中,使用某种技术手段,提取出隐含的、先前未知的、对决策有潜在价值的知识[2, 3]。通常,知识可以用规则进行有效地表达。随着各种数据的海量累积,数据挖掘已经逐步成为当前的研究热点问题,起了学术界和工业界的广泛关注。各种面向数据挖掘的理论、方法和工具不断呈现,以支持从大量数据中提取有价化的知识和模式。在事务数据库中挖掘关联规则是数据挖掘领域中的一个非常重要的研究课题,它是由R. Agrawal 等人于1993年提出的。关联规则的一个典型例子就是:“90%的客户在购买面包的同时也会购买牛奶”,其直观意义为顾客在购买某些商品的时候有多大的倾向会购买另外一些商品[4]。关联规则挖掘用来发现大量数据中项之间有趣的关联或相关联系。Apriori算法是数据挖掘中被频繁使用的一个挖掘算法。然而,传统的关联规则提取算法Apriori存在不足之处[5]:

首先,在算法的初期所使用的候选数据项集过于庞大。会导致算法在初期的计算量太大,效率降低。这一点在待挖掘数据量大时尤其成为突触问题,甚至会导致算法无法运行,成为Apriori算法进行实用化的一个重要瓶颈。

其次,在Apriori算法频繁数据项集生成的过程中,由于没有考虑到对原始数据的缩减,为了判断某一候选数据项集是否频繁,无论该事务是否含有该数据项集,都必须遍历数据库中的所有事务,阻碍了Apriori算法效率的提升。

再者,在Apriori算法中仅采用唯一支持度,而未考虑各个属性之间的差异性。

上述几个问题,使得直接应用Apriori在海量数据集上提取关联规则成为困难。为此,本文中将应用一种改进的Apriori算法来进行关联规则挖掘。

2 关联规则挖掘算法Apriori的改进

针对上述经典Apriori算法的不足,颜雪松等[4]提出了一种改进的关联规则挖掘算法AprioriTid。在AprioriTid 算法中,寻找最大项目集的基本思路是:算法需要对数据集进行多步处理。第一步,简单统计所有含一个元素项目集出现的频率,并找出那些不小于最小支持度的项目集,即一维频繁项目集。从第二步开始循环处理直到再没有频繁项目集生成。

从AprioriTid 算法寻找频繁项目集的思路中,可以知道该算法的优点:即仅在第一次扫描时用事务数据库D 计算候选频繁项目集的支持度,其它各次扫描用其上一次扫描生成的候选事务数据库D' 来计算候选频繁项目集的支持度。在最后的几次扫描中,D' 的大小要远远小于D,减少了I / 0 操作时间,提高了算法的效率[4]。

3 实验结果与分析

高考作为一种选拔性考试,旨在选拔适合高等学校培养要求的优秀新生。高考是一种导向性考试,高考是中学教学的指挥棒,起着对中学教学的引导作用,这是高考的引导性质。高考成绩也是评价教育教学质量的科学依据。通过对近十年来高考数据进行数据挖掘,找出其中隐藏的知识和规律,有针对性地修改完善现有的政策和规定,使高考成绩能够真实地反映学生的学习水平和学校的教学水平。

图1给出了本文使用上述改进的关联规则挖掘算法进行挖掘的流程图。

首先,为了便于挖掘算法的运行,我们需要对原始的数据进行预处理。数据预处理包含三个基本步骤:数据清理、数据归纳以及数据转换。

数据清理主要是对原始数据进行清理,去掉异常数据,如空值、不合理的值;还需要对原始数据进行简化,删除与挖掘主题无关的数据信息。

数据归纳就是以数据库中关系表为基础,查询收集任务相关数据,形成任务相关基础表,然后在基础表的基础上,对各属性进行分析和泛化,找出与决策规则有关联的属性,构造出分类样本模型。此时的数据样本模型就是一个有效的、通过压缩或泛化了的数据集合。这样做的目的是设法减小数据规模,使之只与属性值有关系,而与原始的数据量无关,为更有效地产生决策树提供方便。

数据转换是将数据变成统一的格式,以适合数据挖掘的需要。

其次,在完成上述的数据预处理后,使用文[4]所述的该进关联规则挖掘算法进行挖掘。

4 结论

本文基于改进的Apriori关联规则挖掘算法,对高考数据挖掘进行了初步尝试,得到了一些有意义的关联规则。后续,我们将在本文的基础上,针对教育考试系统,进一步研发出实用的关联规则挖掘应用系统,从历史考试数据中找出隐藏的知识和规律,以有助于修改完善现有的政策和规定。

参考文献

[1] 杨炳儒, “知识发现系统框架及其理论体系的构造方法论,” 中国工程科学 vol. 13, pp. 83-90, 2011.

[2] 王光宏,蒋平, “数据挖掘综述,” 同济大学学报(自然科学版), vol. 32, pp. 246-262, 2004.

[3] 王爱平, 王占凤,陶嗣干,等, “数据挖掘中常用关联规则挖掘算法,”计算机技术与发展, vol.20, pp. 105-108, 2010.

[4] 颜雪松,蔡之华, “一种基于Apriori 的高效关联规则挖掘算法的研究,”计算机工程与应用,vol.38, pp.209-211,2002.

[5] 周珺,数据挖掘技术在考试数据再利用中的应用研究,2010. 北京工业大学硕士学位论文