首页 > 范文大全 > 正文

数字图书馆的信息服务技术研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇数字图书馆的信息服务技术研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

随着Web的迅猛发展,社会信息资源的类型以及信息产生和的方式都发生了巨大的变化,图书馆信息服务环境也随之发生了根本性的变化,首先是信息资源空间的数字化,用户信息行为正从文献获取转为数字化网络化地获取信息,并逐步成为一种基本要求和行为习惯。那么,怎样合理、有效地对各类数字信息进行组织、检索、访问和利用;怎样有效利用互联网的优势向用户提供海量数字信息服务;这正是本文研究的重点。

一、数字图书馆信息服务技术的功能

1.可以优化服务资源。数字图书馆的文献资源将以电子化的馆藏为主,各种文献信息资源都转化成数字形式,存贮于一定的载体上。图书馆在资源共享的前提下,应优化开发电子信息资源。首先要使馆藏资源数字化。其次要大力开发网络资源,通过互联网把境外资源引进自己内部服务器,以节省用户上网费,通过网络机器人实现专题信息的自动抓取,以满足部分用户的特定需求。

2.可以转变信息服务模式。在数字图书馆环境下,用户查阅信息的模式将彻底改变,用户和信息服务人员将通过网络传递请求和信息,并以用户为中心,根据用户的需求,信息服务人员适时、主动地向用户提供知识化的信息咨询服务。要实现此模式(user-centered),首先要加强用户需求的调研和预测,以增强信息服务的针对性和时效性:其次要注重用户认知能力的培养,使用户树立信息意识激发信息需求。所谓用户信息认知能力是指用户对媒体的认知能力、计算机操作应用能力、网络认知能力以及传统的图书馆利用能力等。

3.可以改革信息工作体系。传统的信息工作是一种线性模式,文献信息经过采集、整理加工、流通传递、检索咨询等环节才能到达用户手中,而这些环节是彼此分离的,由不同的人员来完成,结果使工作始终停留在文献信息的表层,对信息内容难以有效揭示,从而限制了信息服务的水平。在数字图书馆环境下,信息的取得和加工都变得极为方便和迅速,既能使传统信息服务环节由一个人完成,更能使信息服务人员以信息内容为中心,并且可以对内容单元进行重组和研究,从而将信息服务的水平大幅度提高。信息机构将按知识体系来形成工作体系,每人以固定的知识类别为工作对象,采集加工、研究信息内容、提供信息咨询服务,总体上由综合协调人员来把握全局。这样可以进一步深化服务内容。

二、数字图书馆信息服务的关键技术

数字图书馆信息服务的信息推送和信息推送的所需元数据的主动抓取,主要应用技术包括:OAI协议、移动Agent技术、信息过滤技术和XML语言。本文重点介绍信息过滤技术。

1.信息过滤技术的分类

(1)基于内容的过滤。基于内容的过滤源于信息检索,采用了与信息检索相似的技术。信息对象(如文本文档)的过滤是建立在其内容与用户兴趣模型文件相比较的基础上的。基于内容过滤的系统的优点是简单、有效;缺点是:首先,基于内容的技术在碰到相同主题的文档时,很难区分质量的高低;第二个问题是不能为用户发现新的感兴趣的信息。由于系统只能将与用户兴趣文件相比较得分高的文档推荐给用户,用户将局限于看到那些与已评估过的文档相似的文档。

(2)协作过滤。协作过滤的出发点在于任何人的兴趣不是孤立的,而是处于某个群体中的。系统根据相同或相近兴趣的用户对相应信息做出的评价,向其他用户进行推送,与基于内容的过滤相比,协作过滤有下列优点:能够过滤难以进行机器自动内容分析的信息,像艺术品、音乐、电影等;能够基于一些复杂的,难以表述的概念(如质量、品味)进行过滤;具有推荐新信息的能力。但是,协作过滤也存在一定的局限性:其一,要想获得满意的效果,需要建立在拥有大量的用户评价信息的基础上,这很难做到(几乎都集中在音乐、电影等娱乐方面),使得协作过滤技术应用领域较为狭窄,在更广的领域(如在文本过滤相当成功的文本相关性领域)的应用还很不够;其二,系统的可扩展性较差,即随着系统用户和信息资源的增多,系统的性能会下降。

2.信息过滤的算法类型

信息过滤是个性化主动服务的重要环节。根据实现的原理不同,信息过滤分为基于内容的过滤和协作过滤以及把两者结合起来的混合过滤。我们根据数字图书馆信息服务的特点,设计了一种基于移动Agent的信息过滤算法。

(1)移动Agent的信息过滤算法。信息过滤Agent根据用户已有信息资源分析用户喜好,建立用户信息的兴趣库,并且可以根据用户Agent收集的信息的不断变换不断修正兴趣库。

(2)移动Agent的信息过滤算法的实现。信息过滤Agent采用向量空间法进行过滤的主要思想是按照信息中各个关键词的出现频率建立关键词向量,根据各关键词向量在向量空间中的夹角确定信息之间的相似度。系统将与用户原有信息相似度最大的信息推荐给用户。

3.关键词向量的计算方法

(1)信息预处理。原始信息中含有大量无意义的词汇,如冠词、连词等,必须首先通过一个stop word表把它们去掉。对于以英文为代表的西方文字,需要通过词的修剪(stemming)将同一个词的不同形式统一,例如动词的不同时态变原型,名词的复数变单数。对于中文,由于各个词之间缺少分隔符,需要进行切割词语工作。

(2)关键词向量映射。预先定义一个关键词词表,形成一个关键词空间。

(3)关键词向量合成。由于Agent中包含多条信息,为了提取这个Agent的整体特征,将Agent中所有信息映射后的关键词向量进行矢量合成,得到新的向量。

(4)关键词向量降维。由于关键词向量的维数较高,分类器采用阈值分界法提取向量的主要特征。

(5)得到代表Agent兴趣的关键词向量以后,采用其中出现频率最高的关键词,到信息数据库中查找相关信息。

在信息过滤的过程中,从文档中提取关键字是最为重要的一步。对于算法本身,不管采用多么好的模式匹配方法,系统只有接受高质量的关键字,模式匹配算法才能发挥它的应有效率。

当信息过滤Agent打开一个XML文档时,它读取文档的title,head,text等元标识对之间的内容。提取这些元标识对之间的信息后,再在这些信息中提取关键字。同时,对于有keywords或关键字字样的文档,可直接提取它们后面的几个短语关键字。对提出的所有词按其在文档中的每个位置打分,将各个位置的分数累计,按总分多少排序,总分最多的就认为是关键字了。

三、结束语

数字图书馆最重要也是最基本的职能是信息服务功能。现代信息服务是以信息技术为核心和动力发展起来的,信息技术的超速度发展必然要带动信息服务模式的转变。从“以资源为中心”的信息服务模式向“以用户为中心”的服务模式转变是数字图书馆发展的必然趋势。因此,在数字图书馆中构建自适应用户需求的信息服务系统成为数字图书馆信息服务的一个主要研究方向,该系统应能够主动分析用户需求、主动搜索、加工信息,并主动信息,变“人找信息”为“信息找人”以用户为中心,满足用户对信息的渴求。

(作者单位:西昌学院图书馆)