首页 > 范文大全 > 正文

谈数据挖掘技术在高校图书馆中的应用

开篇:润墨网以专业的文秘视角,为您筛选了一篇谈数据挖掘技术在高校图书馆中的应用范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:数据挖掘技术是计算机领域和人工智能领域中的一种关键技术,可以将表面上庞大杂乱的数据转换为有用的知识和信息,因此引起了信息产业界的广泛关注。近年来,图书馆的信息服务管理渐渐引入数据挖掘技术,高校图书馆作为图书馆中的特殊群体,是为高等学校教学、科研活动提供信息保障的学术性机构,作为综合性知识和信息的集散地与发源地,数据挖掘技术在高校图书馆管理中的应用显得更为必要。

关键词:数据挖掘;高校图书馆;技术应用

中图分类号:G640 文献标志码:A 文章编号:1674-9324(2013)20-0174-02

高校图书馆是图书馆中的特殊群体,兼具了图书馆的一般特性和自身独有的学术性,一方面,它拥有一般图书馆的两大基本职能,即:文献的收集、整合和保存;读者服务。另一方面,因其服务对象的具体性和学术性,要求其应具备更为针对性和学术性的读者服务。数据挖掘作为一种新兴的信息技术,可以从许多信息库中挖掘有用的知识和信息,这符合当前高校图书馆信息管理的发展趋势,满足其更好地为读者服务的要求,可以在图书馆的日常工作和各项信息服务中发挥极大的作用。同时,图书馆系统中除了存储在数据库中的数字化信息外,还有很多必须由馆员亲自去发掘的信息,比如读者的个人反馈,书架上的积灰程度,等等,如果能将这些分散的信息整合起来,找出联系并充分利用,就可以为图书馆管理者做出正确的决策提供帮助,这就要求图书馆的工作人员在日常工作中还应具备一定的“数据挖掘”意识。

一、数据挖掘技术概述

1.数据挖掘的概念。数据挖掘就是从大量的、不完全的、模糊的、随机的数据中,提取隐含在其中但又潜在有用的信息和知识的过程。数据挖掘借助了多年来数理统计技术和人工智能以及知识工程等领域的研究成果构建自己的理论体系,是一个交叉学科领域。它通过对查询内容进行模式的总结和内在规律的搜索,帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为,从而为决策行为提供有利的支持,很多人又称为“数据淘金”。

2.数据挖掘方法。数据挖掘的方法有多种,具体在图书馆管理中的应用主要有四种方法:(1)关联分析:关联分析是为挖掘出隐藏数据间的相互关系。(2)序列分析:序列模式分析技术主要用于发现一定时间间隔内接连发生的事件。它是基于分析数据间的前后关系和因果关系。(3)分类分析:就是通过分析具有类别的样本特点,得到决定样本属于各种类别的规则或方法。(4)聚类分析:就是将数据库中的记录化分为一系列有意义的子集,再对其进行描述即聚类分析。

3.数据挖掘的过程。数据挖掘过程可粗略地分为:问题定义、数据准备和预处理、数据挖掘以及结果的解释和评估等阶段。首先在问题定义过程中,数据挖掘人员必须与领域专家及最终用户紧密协作,一方面明确实际工作对数据挖掘的要求,另一方面通过对各种学习算法的对比进而确定可用的学习算法。有了具体的问题定位之后,便可以展开一定的数据挖掘,该阶段首先根据对问题的定义明确挖掘的任务或目的;之后要决定使用什么样的算法,针对用户的不同需求来选择适当的规则。最后,要对通过数据挖掘得出结果进行合理的解释和评估。

二、数据挖掘技术在高校图书馆中的应用

传统图书馆业务一般是按文献资料的加工处理过程,业务流程主要划分为采访、编目、典藏、流通、阅览、参考咨询等几部分。以下我们主要谈一下数据挖掘技术在高校图书馆的采访、编目、流通等三大业务中的应用。

1.采访部门。传统的采访工作主要包括选书、、定购、组织采购目录、验收、送交编目等。在高等学校中,图书馆面临的一个很大问题就是有限的购书经费与读者对图书品种需求之间的矛盾,只有极大地满足学校师生的阅读需求,才能保证学校学术研究与发展的有效进行。如何用有限的资金,购买借阅量和利用率较高的书,是采访部门需要解决的首要问题。我们将数据挖掘技术引入进来,根据流通数据库的集成数据,从而掌握读者对图书资源的使用频率表。根据这些使用频率的数据,进而可以同时实现对读者的分类和对适合不同类别的读者的图书资源的聚类,这样就可以快速而精确地得到一份订书单。以读者和学术的需求来选书,其图书的利用率得到极大的提高。

2.编目部门。图书的编目工作是一个揭示文献资源的过程,传统的编目工作主要是针对印刷型文献,具体主要包括图书的、分类、组织目录、入藏等工作。表面上看来似乎不需要进行某些数据挖掘,然而需要注意的是编目工作涉及了图书的馆藏分配,而馆藏书目数据库是图书馆中的重要数据库,它与公共查询系统的结合是用户最为熟知、使用最多的图书馆系统。用户在登陆系统和对书目的查询过程中会产生大量的数据,从中可以得到很多很多有价值的信息,比如用户对于哪一类型图书更感兴趣,在什么时间对图书馆的使用频率最高,等等,对于这些数据信息的挖掘,可以使图书馆的馆藏分配更加合理和科学化,馆藏分配的科学性有效地保证了图书的利用,不至于出现因为馆藏分配的原因,致使一些图书资源丧失了其本该有的利用率,同时也影响了学科服务职能的发挥。

3.流通部门。流通是指图书馆为读者提供的各种文献的外借服务,具体包括图书的借、还、预约、续借、查询、过期罚款、统计等。流通部门是图书馆的一线部门,与读者有着最直接的接触,高校图书馆的借阅管理系统已经有超过十年的时间,借阅系统数据库中也积累了几百万甚至上千万的读者借阅数据,通过对这些数据的挖掘和分析,不仅仅可以得到馆藏图书的总体利用情况,还可以通过一些关联性的分类得出更多的信息,比如,可以从学科角度来分析不同学科专业的师生借阅图书的情况,以有利于评价图书馆馆藏对学校主要学科的文献保障情况和利用情况;可以从读者类型角度来分析教师、本科生、硕士生、博士生对图书的借阅情况,这对评价图书馆满足教学和科研用书的保障和利用情况提供参考依据;可以从不同年级角度来查看借阅情况,这对于图书馆引导读者借阅、推出读书参考书目有重要借鉴作用。

三、数据挖掘理念在图书馆中的应用

图书馆中的很多信息是不能数字化的,要靠馆员的观察和思考,并随时留心平时工作中的各类现象,运用总结归纳的能力,从工作中所遇到的现象入手挖掘有用的信息,进而不断完善图书馆的服务。比如,图书的积灰度,在开架的图书中积灰程度是不同的,经常被借阅的图书积灰度自然很低,而那些借阅率很低的图书会随着时间积下不少灰尘,通过这一细微的现象,我们就可以粗略得到读者对于不同图书的需求程度。再如,通过分析图书馆电子阅览室的计算机访问日志,可以从中找出学生经常浏览的网络资源,包括图书馆内部的电子资源和各类网站,对这些信息进行数据挖掘,一方面可以为图书馆日后电子资源数据库的采购提供指导,另一方面,集中并筛选一些读者经常浏览的网站,可以为日后开展推荐优秀网站活动做充分准备。

大量的非数字化信息要求高校图书馆的馆员具备一定的数据挖掘意识,特别是进入“图书馆信息化”时代后,我们不能仅仅依靠电子技术,图书馆工作中的许多规律需要馆员亲身去留心去发现,真正让用户满意的图书馆不是机械的技术组合,而是以先进的技术为手段,以图书馆的专业知识为指导,同时还要贯穿着馆员们极大的工作热情和积极性,积极地进行细微处的数据挖掘,留心看似简单杂乱的现象,深入挖掘现象的内涵,才能进一步提升高校图书馆的学科服务职能。

参考文献:

[1]张尧庭.数据采掘入门及应用[M].北京:中国统计出版社,2001.

[2]张晓林.走向挑战,走向新生——国际图联第74届年会热点学术问题选评[J].大学图书馆学报,2009,(01).

[3]潘小枫.数据挖掘技术及其在数字图书馆建设中的运用[J].图书馆理论与实践,2006,(04).

[4]于彩云.数据挖掘原理在图书馆信息收集中的应用[J].图书情报工作,2005,(S1).