首页 > 范文大全 > 正文

浅谈Web挖掘技术在教育网站中的应用

开篇:润墨网以专业的文秘视角,为您筛选了一篇浅谈Web挖掘技术在教育网站中的应用范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要:本文介绍了数据挖掘的新技术。通过对基于web挖掘技术教育网站的模型介绍,对在Web服务器端和客户端进行学生浏览路径模式采集的各种方法进行了分析,探讨了如何将Web使用挖掘技术应用到教育网站。

关键词:数据挖掘 浏览路径采集 教育网站

Web使用挖掘是将数据挖掘技术应用在大型Web资源中以分析Web站点的使用。通过Web使用挖掘,对用户的访问内容、停留时间和频度等进行分析,可以得到关于用户访问行为和方式的普遍知识,用以改进Web站点服务设计。更重要的是,通过对这些用户特征的理解和分析,可以开展有针对性的个性化教育网站的建设。不同类型的教育网站针对的用户主次不同。虽然有的网站内容主要针对的是老师,有的主要针对的是学生,还有的针对其他教育人士等,但在笔者看来,所有访问教育网站的用户,我们都可以称作学生。通过对学生访问行为、频度、内容等的分析,给出每个学生的特征,进而给每个学生个性化的界面,提供个性化的服务。

目前,我们可以将一些新的数据挖掘技术应用到教育网站中。其中文本挖掘、网络挖掘和可视化挖掘就是其中比较重要的三种。文本挖掘(Text mining),顾名思义,就是从非结构化的文本中发现潜在的概念以及概念间的相互关系。在这项技术中,最关键的是分词技术,建立词典。只有让计算机依据词典完成正确断词之后,才可以实现将非结构化信息转化为结构化信息,然后就可以进一步研究文本之间的关系。比如通过分析网站中的内容来建立教育信息预处理机制,其实既利用了文本挖掘技术,也利用了网络挖掘技术。具体来讲,网络挖掘还可以细分为三种挖掘,(1)前面提到的文本挖掘;(2)结构挖掘(Structure mining),主要解决网页与网页之间的链接关系;(3)点击挖掘(Hit mining),是针对点击率的挖掘分析。总体而言,要实现网络挖掘,从技术上讲并没有难度,大部分的问题都可以用成熟方法来解决。在文本挖掘和网络挖掘之外,可视化挖掘(Visual Data Mining)因为和工具的易用性联系在一起,因而也颇为重要。简单来讲,可视化包括了数据预处理和结果呈现两个方面。比如StatSoft一直强调的完整的图表工具库以及高质量的图表呈现效果就是其优势所在。但是总体情况来看,可视化的内含和标准近几年一直没有更新的内容,而且,即便工具厂商自认为做得再“可视化”,对于用户来说,仍有难以理解和掌握的地方。下面是对基于Web使用挖掘技术的教育网站的模型分析,并进行了一些数据挖掘新技术的注入。

在教育网站中,Web服务器为客户浏览器端提供H′I′TP服务等功能,应用服务器内存放学生的个人注册和相关课程等信息。与传统的网站结构相比,多了两个重要部分:(1)要采集学生的浏览路径;(2)它有一个控制模块,负责将采集到的学生浏览路径信息进行预处理和相关数据的挖掘。然后将动态地生成学习建议信息返回给Web服务器,并添加到学生浏览的页面中,或者对应用服务器中的学生相关知识信息和学习情况进行修改,在学生学习时进行针对性比较强的训练。

那么,如何尽可能准确地获得学生浏览路径信息?

一、服务器端的采集

1.Web服务器日志

它清楚地记录了学生访问站点的数据,每当站点上的页面被访问一次,Web服务器就在日志中增加一条相应的记录。常见Web服务器日志一般采用ECLM日志模式。大致结构如表所示:

2.网络监视器

它称作“包检测技术”,实际上是一个可替换服务器日志进行使用学生浏览路径采集的方法。它一般直接放在Web服务器外,监视和分析学生向Web服务器的请求,它直接从TCP/IP包抽取功能数据进行分析,可以检测HTTP头之外的信息,可扩展性比较好。对于Web日志而言,如果学生请求是通过Post方法来传送的,那么参数在日志相应栏中就不可见,但通过网络监视器就可以直接获取参数来进行分析。

二、客户端采集

客户端数据收集可以通过使用远程的(如JavaScript,Java Applet或PLUGIN)或通过修改浏览器的源码来提高数据收集的能力。客户端的数据收集需要学生的协作:要么使JavaScript或Java Applet生效,要么安装PLUGIN,要么使用修改过的浏览器。客户端的收集比服务器端的收集更具优越性,因为它是建立在学生的行为源上的,它可以准确地捕捉学生的行为,学生的浏览路径和浏览时间的测量可以很精确。

每个学生在开始使用网站时先在应用服务器上进行注册。控制模块对学生浏览路径进行预处理和相关数据挖掘。灵活地使用Web挖掘技术,可以建立个性化的教育网站。

1.如果发现学生的某些知识兴趣点之间的相关性,就动态提供给学生之间的超链接,使学生在网上学习更加方便。例如我们发现学生在学习某一篇课文时大多会浏览该篇文章的相关知识,我们就在此网页下面动态产生超链接连到与该篇文章相关的信息,如作者介绍、发生背景等等。

2.利用序列模式的发现来进行学生在学习过程中的事件序列关系来找出“一些项跟随另一个项”这样的内部事务模式。从而再从其他学生的学习情况预测出下一步学生学习的内容后,在学生的学习过程中进行下一步学习知识建议。

3.通过分类算法对学生的知识水平进行分类、进行不同级别的训练。如可以根据学生学习英语的知识水平分成入门级、初级、中级和高级进行相应的适应性训练。再比如根据学生感兴趣的页面对学生分类,使某类学生一进入就可到达他感兴趣的内容。

4.利用聚类算法从Web访问信息数据中聚类出具有相似性的那些学生。把这些聚类结果提供给学生改善学习或网络管理员以改善服务。如当我们发现关注英语的学生比较多,我们就可精选一些网上的文章作为课外读物,促使学生看原文,学有文化背景的英语,把与之相关的内容推荐给学生。另外学生也可以知道其他学生的学习情况进行知识探讨。

总之,在比较全面地扩充了教育网站的数据库后,对Web数据进行进一步的数据挖掘是非常有意义的。它可以解决以下问题:(1)对网站的修改更加有目的、有依据,稳步地提高用户满意度。根据用户访问模式修改网页之间的链接,把用户想要的信息,以更快、更有效的方式提供给用户。(2)查看网站流量模式。发现用户的需要和兴趣,对需求强烈的地方提供优化,用服务器预先存储的方法来解决下载缓慢的问题。(3)提供个性化网站。针对不同的用户完全按照其个人的兴趣和爱好(数据挖掘算法得到的用户访问模式),向用户动态提供浏览的建议,自动提供个性化的网站。(4)发现系统性能瓶颈,找到安全漏洞。(5)为教师、教育管理者等提供重要的、有价值的信息、通过对每个学生所做的试题进行分析,得出题目之间的关联性及其他一些有用的信息,用来指导教学。修改试题难度系数,为进一步利用挖掘所获得的信息,指导教学工作奠定基础。

伴随着先进的数据挖掘技术发展,Web使用挖掘技术在教育网站中的具体应用也有着很大的发展前景。教师根据群体分类进行有针对性的教学,那么教育网站的设计者则根据情况对网站设计布局进行调整分析,从而为系统管理者和决策者提供数据库中的隐含模式,以达到提高学校的工作效率以及增强科研能力的目的,使教学组织更加合理规范,使用户更加满意,使学习者收到更好的效果。

作者单位:江苏省泰州市教育局电教馆