首页 > 范文大全 > 正文

垂直式网络教学资源采集系统研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇垂直式网络教学资源采集系统研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要:研究一种垂直网络教学资源采集系统,从提高采集效率和及时有效性出发,通过网页聚类的方法垂直式地采集网络教学资源。有策略地选择少量样本网页,并提取必要的样本信息。通过信息评估模块筛选样本,过滤无效样本或者重复样本。根据重复区域对网页进行分类,采集包含有价值信息的网页。基于Hypertree构建数据模型,提高系统的重构能力。通过个性化的映射规则建立网页和第三方应用程序之间的沟通桥梁,提高系统的易用性和灵活性。最后通过实际应用对系统的有效性进行验证。

关键词:资源采集;网页聚类;Hypertree;映射规则

中图分类号:TP391.1 文献标志码:A 文章编号:1673-8454(2013)17-0028-04

一、引言

对于网络教学资源的建设,当前的主要方式是通过建立各种官方或非官方的教学资源网站,然后由网络参与者通过上传、转载等手段,将各种教学资源到网站上,以方便教学人员访问下载。以这种方式建设的网络教学资源优点是质量较高,用户访问方便,但数量相对有限,更新速度较慢,后续维护难度大,特别是网络上大量的间接教学资源在这种教学资源网站中无法检索到。[1]因此,利用现代信息检索技术和人工智能技术,以自动化方式采集各种教学资源,然后进行整合汇编,从而形成各类教学资源库,将是今后网络教学资源建设的发展方向,也是教学资源传统建设方式的重要补充。相关研究人员提出了许多网络教学资源建设方法:李慧等提出了知识管理视角下的网络教学资源管理策略。[2]对显性知识进行收集、加工、组织和存储,对隐性知识进行交流分享,实现知识的内化和创新。陈芳勤等提出了多元立体化网络教学资源体系的建设方法。[3]采用积木式、层次化的组织模式构建网络教学资源。丹等提出了基于社会性网络服务(Social Network Services,SNS)的网络教学资源自组织构建方法。[4]将自组织理论引入教学资源的构建过程中,促进教学资源的自增长,从而解决教学资源短缺的问题。徐新爱等基于面向服务体系结构(Service Oriented Architecture,SOA)的思想设计了网络教学数据资源集成共享平台,以解决网络教学资源数据异构等问题。[5]

上述研究工作的重点在于通过各种途径(例如知识管理、多元立体化模式、SNS以及SOA等)拓宽资源渠道,加强资源集成,提高网络教学资源的利用率和共享率。但是在网络教学资源的采集效率和及时有效性等方面的研究却较少涉及。因此本文试图研究一种基于网页聚类的垂直式网络教学资源采集系统(以下简称系统),把教学资源采集的范围限制在若干个网站以内,通过网页聚类的方法垂直式地进行资源采集,而不是水平式漫无目的地将大量教学资源都采集到本地,这无疑将提高教学资源的使用效率,避免无意义的资源消耗,从而提高教学资源的及时有效性,减少工作量。

二、系统工作流程

系统的工作流程如图1所示。

定义1:重复区域是指网页上包含多个形式统一的数据记录的模块。

定义2:重复模式是指一个重复区域内所有记录的抽象形式。反之,重复区域可理解为重复模式的具体实例。其中,网页的每一个重复模式都有一个ID。

定义3:链接表格特指记录链接相关信息的重复区域。

定义4:链接位置特指链接在链接表格中的具置。系统采用重复模式ID结合表格列ID来描述一个链接的具置。

从图中可以看出,系统工作流程主要由基于重复区域进行聚类、基于统一资源定位符(Uniform Resource Locator,URL)进行聚类、信息评估、选择遍历路径和查找遍历路径等五个模块组成。鉴于网页样本质量是整个系统的基础,系统采用深度优先和广度优先相结合的策略,从网站链接队列两端随机选择,以保证样本多样化。然后根据样本页面重复区域进行分类,类似的样本归为一个集合,由绿色椭圆标注。接着将各集合中的样本根据URL格式进一步细分,页面布局和URL格式类似的样本归为一个子集合,由红色透明椭圆标注。信息评估模块负责筛选样本,将无效样本或者重复样本过滤掉,包含有价值信息的样本子集合由红色半透明椭圆标注。在选择遍历路径模块中,系统选择最佳的遍历路径,扬弃其他多余的链接,最终选择的遍历路径以黑色箭头标注。系统运行过程中,当一张网页被下载的时候,它首先被送到查找遍历路径模块中。模块根据遍历路径和重复模式,对该网页进行归类,同时创建链接表格。通过查找遍历路径,模块决定链接表格中每一个链接是否加入链接队列。此外,模块还输出网页之间的关联关系,例如是否属于同一集合等,由此决定网页在数据库中的保存位置。

同其他网络资源采集系统相比,系统在有效性和效率等方面尤其突出。(1)大大减少了重复和无效的网页;(2)有策略地选择少量样本网页,以较小的成本提取必要的样本信息;(3)只下载包含有价值信息的网页,节省大量的网络带宽和磁盘存储空间;(4)同时存储网页之间的关联关系,可以将网页重新级联以重构网站,这给进一步的数据索引和数据挖掘带来很大的帮助。

三、系统关键技术

1.数据模型

系统的数据模型是以Hypertree为核心的。[6]Hypertree是一种由有序箭头标注的结构树,如图2所示。其中,箭头又分为内部箭头和外部箭头,前者表示结构化对象(节点),后者则表示对象之间的参考(链接)。箭头均带有标注,内部箭头的标注包括Tag、Source和Text三个属性,分别对应与网页中的HTML标签、代码段和文本;外部箭头的标注则包括Tag、Label和URL属性,对应与网页中的HTML标签、链接标注和链接地址,它指向其他Hypertree(网页)。Hypertree的所有节点没有类型,所以它可以包容异构的对象。

系统对查询结果的重构能力是其主要特色之一,包括将查询结果构造为Hypertree模式、将结果构造为新的URL、根据查询结果构建HTML文档以及将查询结果插入数据库等。

2.映射规则

系统的核心是一系列用于解析HTML文档的映射规则(提取规则),希望通过一系列的映射规则建立HTML文档和第三方应用程序之间的沟通桥梁。[7]

定义5:网页集合是指一个网站中语义内容相同、页面布局类似的网页的集合。如果两张网页满足以下条件,则同属于一个网页集合:(1)域名相同;(2)分别显示同一概念的两个实例;(3)使用相同的HTML框架。

定义6:网页组件,从语义上讲是指网页集合主要概念的一个主题属性;从语法上讲是指网页集合中常用的HTML模块。

定义7:映射规则是指网页组件特性值元组。该元组必须提供足够的信息来提取网页组件的特性值,并给它一个语义上相关的名称。

根据上述定义,系统映射规则建立过程如图3所示。

与其他网络资源采集系统相比,系统最大的特点是易用性和灵活性。从图3中可以看出,映射规则的建立,用户无须考虑HTML语法和映射规则机制,这极大地提高了用户友好性。此外,给定一个网页集合,不同用户可以根据各自的需求,建立个性化的映射规则,这是其他系统所不具备的。

四、系统应用

垂直式网络教学资源采集系统应用如图4所示。系统旨在最短的时间内,把最新的教学资源从用户定制的网站上采集下来,提取数据并保存在文件或数据库中。用户可以根据自身的需求设置不同的定制条件,将教学资源采集的范围限制在若干个网站以内,垂直式地进行资源采集。

系统操作步骤如下:

(1)设置网站初始URL。系统支持用户定制教学资源采集范围,例如中国教育资源网(http://.cn/)。

(2)设置网页保存路径。如果用户选择“下载到磁盘”方式,即将资源收集、提取之后,保存为文件格式,则需要设置保存路径,例如E:\download\。

(3)数据库相关设置。如果用户选择“下载到数据库”方式,即将资源收集、提取之后,保存到数据库中,则需要设置数据库驱动、地址、数据表格、用户、密码等。

(4)设置日志保存路径。此项为选填项。如果用户希望在资源采集的同时,保存采集日志,则需要设置日志保存路径,例如E:\ download\log\。

(5)设置网页更新时间。系统支持用户选择性地下载最新的网络教学资源。例如用户希望只采集2013年4月8日以后的信息,则此项设置为20130408。

(6)选择下载方式。系统提供两种下载方式:下载到磁盘和下载到数据库,用户可根据需要进行选择。

(7)相关设置。系统支持socket和http。

(8)开始采集。以上各项设置完毕以后,点击“开始”按钮,开始采集资源。

五、结束语

面对数量巨大、形式多样、分布广泛的网络教学资源,如何及时高效地采集所需的资源,使之更好地为教学系统服务,是当前网络教学资源建设的研究重点之一。本文主要研究了一种垂直式网络教学资源采集系统,通过基于重复区域进行聚类、基于URL进行聚类、信息评估、选择遍历路径和查找遍历路径等五个模块,有策略地选择少量样本网页并提取必要的样本信息,采集包含有价值信息的网页,避免无意义的资源消耗,从而提高了教学资源的及时有效性,减少了工作量。

参考文献:

[1]田俊华.基于本体知识库的教学资源自动采集技术研究[D].南京:南京师范大学,2011.

[2]李慧,张菊,刘莉莉.知识管理视角下的网络教学资源库管理策略研究[J].软件导刊,2013,12(2):192-194.

[3]陈芳勤,朱艳辉,刘强等.高校多元立体化网络教学资源建设构想[J].计算机教育,2013(2):40-42.

[4]丹,马文虎,刘友华.基于SNS的网络教学资源自组织构建方法及其应用研究[J].现代情报,2012,32(9):57-65,68.

[5]徐新爱,刘翌,万里勇.基于SOA的网络教学资源集成与共享平台的构建[J].江西科学,2012,30(6):815-818.

[6]Hypertree[EB/OL].[2013-05-11],http:///wiki/Hypertree.

[7]周应强.基于本体的Web非规范知识处理中采集技术研究[D].昆明:昆明理工大学,2005.