开篇:润墨网以专业的文秘视角,为您筛选了八篇信息检索范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!
【关键词】信息检索 信息检索应用 信息检索的意义 信息检索的设想场景 信息检索系统框架
随着整个社会的信息化发展,信息的发展处于高峰阶段,在生活节奏日益加快的当今,信息网络突显出它的优势。我们在工作学习或生活的时候,往往会遇到一些繁杂的问题,而这些繁杂的问题在现实中很难找到突破口加以解决,而想要解决这些问题就要开辟一种新途径,在如今的信息时代我最先想起的应该就是网络。信息检索是利用网络资源的一种方法。在科技是第一生产力的今天,创新人才的培养、科学研究的开展、信息资源的开发,还是科学决策的进行,都离不开信息检索技术的应用。如何在信息海洋中查寻到合适的信息成为目前人们遇到的难题之一,如果掌握了信息检索的方法便可以找到一条吸收和利用大量新知识的捷径,把大家引导到更广阔的知识领域中去,对未知世界进行探索。
1 信息检索的应用、意义及场景
1.1 应用
信息检索是指搜索信息的科学,在文件中搜索信息或是在数据库中进行搜索,无论是在相关的独立数据库或是超文本的网络数据库。信息检索技术就是指依照用户的信息需求从信息的集合中识别查询和获取信息的技术,利用这种技术可以有效地开发和利用各种信息资源,更广泛、更有效、更快捷、更全面地在信息海洋中吸收和获取我们所需要的信息。
1.2 意义
科学技术日新月异的发展,科技成果倍增,新的学科领域不断产生、研究和更新,科技文献数量、种类急剧增长,同时现代通讯技术、网络技术的广泛应用,又加速了文献信息的传递与使用,文献信息的传递、使用和交流又促使新的信息不断产生,人类社会已步入了知识、信息爆炸的时代。然而这种浩如烟海而又极其分散的文献信息给人们的学习、工作带来了许多的不便,特别是对于广大科研人员和工程技术人员,如何迅速准确的查获到自己所需文献资料,关系到科研项目的成败。信息检索的重要作用及意义在未来的社会中将会日益显现出来。
1.3 信息检索设计
1.3.1 场景设想
在软件机构建立一个软件文档信息检索库,软件文档库中存放软件工程过程中的所产生的所有文档,项目管理师负责上传文档到统一的软件文档库,项目的每个用户均有统一的搜索。
1.3.2 场景设想的合理性分析
为了进行搜索,用户先指定一个能反应信息需求的查询,接下来,对用户查询进行分析和扩展,扩展的查询与倒排索引进行匹配,检索出一个文档子集。对文档子集排序并把排在最前面的文档返回给用户。为了提高排序的性能,我们收集用户反馈信息,并使用这些信息对结果重新排序,最丰富的用户反馈形式是在返回结果上点击文档链接。
2 信息检索系统框架
根据场景的设想,从用户界面、文本处理、提问处理、搜索、排序这几个方面简要阐述软件文档信息检索的架构,信息检索框架如图1所示。
2.1 用户界面
用户界面的作用是帮助用户理解和表达信息需求,并帮助用户指定所需的查询,在可用的信息源中进行选择跟踪搜索结果。
查询输入 软件文档信息检索的输入为文本形式,用户表达自己的信息需求的主要方法是在搜索框中输入一些关键词如“空管系统 软件需求规格”等,输入查询的描述采用动态生成查询建议列表,当用户输入“空”子查询时,表单实施显示查询建议“空管系统”,自动填充或自动生成查询建议,以方便用户和节约用户时间。
查询输出 当显示查询结果时,界面输出的是相关文档,将文档的一些有代表性的内容提交给用户,如软件文档摘要、包含查询关键词的标题、标题组合、包含作为短语匹配的查询语句。
用户反馈是帮助我们进行查询重构,主要思想是让用户指出,对于查询哪些文档是相关的,哪些文档时不相关的。也能让用户指出从文章中抽取哪些索引项是相关的。软件文档信息检索系统通过这个信息,可以重构一个新的检索集合。
2.2 文本处理
文本处理时一个以产生排序函数为目标的复杂过程。构想出表示文档和查询的逻辑框架,该逻辑框架通常基于集合、向量或者概率分布,如图2所示。
输入 一个能反映用户信息需求的查询,对此查询进行与文档类似的分析与修改操作,典型的操作包括适当的拼写校对和禁用词消除等。
输出 文档和查询的逻辑框架,该逻辑框架通常基于集合、向量或者概率分布。
2.3 检索策略
假如已经有了倒排索引,给出信息检索策略,常用的信息检索策略模型有布尔逻辑模型、模糊逻辑模型和概率模型等几种方式。
(1)布尔逻辑模型。这是一种简单而常用的严格匹配模型。用户可以根据检索项在文档中的布尔逻辑关系提交查询,搜索工具根据事先建立的倒排文档结构确定查询结果。标准的布尔逻辑模型为二元逻辑,所搜索的文档要么与查询相关,要么与查询无关。利用这种模型进行查询,其查询结果一般没有按照内容的相关特性排序。
(2)模糊逻辑模型。它在查询结果处理中引进了模糊逻辑比较,并且按照相关的优先次序排列查询结果,这样就可以克服布尔逻辑模型信息查询结果的无序性。
(3)概率模型。它是基于贝叶斯概率原理而提出的,根据词条、文档间的内在联系,利用词条间和词条与文档间的概率相依性来进行信息检索。
3 信息检索带来的影响
3.1 促进生产实践
信息检索是人们开启知识宝库的金钥匙,是开发智力资源的有力工具,它能帮助人们传播知识和利用知识,使知识转化为社会物质财富和精神财富,在人类社会的科学技术和生产生活过程中发挥了重大作用。
3.2 资源管理
原来获得的信息传统途径,现在几乎全部可以通过信息检索得到,而且更快、更新、更准确。随着计算机、多媒体和现代通讯技术的飞速发展,以印刷型文献为主的学校图书馆开始向以电子信息和虚拟信息为主的数字图书馆转化,Internet创造了丰富和多元化的学习资源,实现了资源共享。随着学习社会化、终身学习体系的诞生和进一步推进,网络在中小学教育中的应用也日益广泛和深入起来。Internet为我们带来了丰富的学校综合教育信息资源,它是提供Internet上的可用于学校综合教育过程的,在学校教育系统中传递的信息。
3.3 消极影响
3.3.1 侵犯个人隐私
随着智能检索技术即可以模拟人脑的思维方式,分析用户以自然语言表达的检索请求,自动形成检索策略进行智能、快速、高效地检索,信息检索变得更加便捷,它的飞速发展在给我们带来效益、带来方面的同时,也把很多系统的漏洞和个人隐秘信息展示在大众面前,使得个人信息成为被侵犯的重要对象。通过网络信息检索,利用搜索引擎进行搜索,获取他人个人信息,甚至他人隐私。智能搜索引擎的发展,给我们的信息检索带来了很大的方便,但对网络信息安全的影响也很大,尤其是对个人信息安全构成了巨大的威胁,其中存在严重的侵权问题。没有经过当事人同意就将当事人的真实情况,比如姓名、单位、图片、以及生活细节等个人详细信息公布于众,打破了当事人的正常学习、工作和生活秩序,造成不必要的精神压力,特别是对方有可能只是个无辜者。
3.3.2 信息污染
一方面是信息急剧增长,另一方面是人们消耗了大量的时间却找不到有用的信息,信息的增长速度超出了人们的承受能力,导致信息泛滥的出现。一些错误信息,虚假信息,污秽信息等混杂在各种信息资源中,使人们对错难分,真假难辨;人们如果不加分析,便容易上当受骗,受其毒害。人们如果不具备一定的信息识别能力,就容易受到一些不良信息的影响的毒害,它导致了一些行为偏差。
4 结束语
科技发展使得人类社会生产的产业结构正处在急剧变化之中,大批知识密集型工业相继涌现,边缘科学大量出现,如果不懂得信息检索,要在浩如烟海的各种信息中寻找自己需要的信息,就如同大海捞针一般困难,掌握了信息检索的方法和技巧,就可以使信息的查询过程更有条理性、计划性,避繁就简,事半功倍,在未来的竞争中取得更大的主动权。所以,我们应充分利用信息资源,避免重复劳动。科学研究具有继承和创造两重性,纵观科学技术发展史,积累、继承和借鉴前人的研究成果是科技发展的重要前提。
参考文献
[1]刘惠.高校开设文献检索课浅议[J].晋中师范高等专科学校学报,2004(6).
[2]Ricardo Baeza-Yates,Berthier Ribeiro-Neto.现代信息检索[M].北京:机械工业出版社,2012.
[3]杨玫.文献检索课教学新模式初探[J].图书馆论坛,2004(03).
[4]严.谈谈开设文献检索课的必要性[J].广西财政高等专科学校学报,2004(09).
[5]孙长智.浅谈现代信息检索中个人隐私问题[J].IT技术与应用,2012(05).
当今社会,科技飞速发展,我们已经进入了信息网络化社会。快速、全面、准确地获取所需要的信息,是现代人才必备的素质。高校作为培养国家各种管理和科研人才的摇篮,必须上好信息检索课。信息检索课和其他课程既有共性,又有自身独特的规律。要想上好这门课程应解决好如下几个问题。
第一,要转变思想观念,给信息检索课以应有的地位。
很多学生,也有部分教师认为信息检索课对学生们是可有可无的,不开设此课学生照样写各种论文,照样毕业。这是一种把此课的意义和目的简单化的错误认识。
很多高校给信息检索课设定了不同的名称和地位,但多数都不能反映本课程的内在价值。现在已是信息网络时代了,这门课程同数学、语文、外语等学科一样,应是一门基础的必修课。信息检索是人人起码应具备的一种能力和手段,只不过不同专业的学生所检索的信息内容不同罢了。该课程地位不高,也是学生不重视的一个主要原因。
信息检索课应该是一门具有长远战略意义的课程,它关系到国家、民族的兴衰。
第二,加强专业教师的培养,建立一支专业教师队伍。
人是生产力中最活跃的因素,起决定作用。信息检索课对教师综合素质要求很高,不仅要有良好的信息及其检索素质,还要具备相应的计算机、图书馆学、外语知识,懂得更多其他的专业知识特别是懂自然科学各专业知识是非常重要的。
现在,很多大学都是由图书馆工作人员来承担这项任务的。图书馆人员讲此课程有其优势所在,但毕竟离专业教师水平还是有一定差距的。
教和学是教学过程中不可缺少的两个相关的方面。所以我们应大力培养专业教师,越多越好,以解决现在这方面人才的缺乏和综合素质不高的难题。要培养“复合型”人才,首先应有“复合型”的教师队伍,使信息检索课有质的飞跃。
第三,要明确信息检索课的最终目的。
教学目的明确与否,直接影响教学质量和效果。学校和教师不应该把通过此课的教学使学生获得相应的知识和能力来解决平时查资料、完成作业和写毕业论文等作为此课的最终目的,这样短视的目的势必削弱此课的重大意义和价值,降低其应有的地位。
信息检索这门课程培养的信息检索意识和能力应该是一种持久的、终身起作用的一种能力,即使学生毕业离开教师和学校到新的工作岗位时,依然能凭借这种能力及时更新、补充、获取新的信息知识,解决自学、科研、工作中的问题。
有了如此深刻的认识,必然激发教师的责任感和事业心,学生们也一定能重视起来,努力学好这门课程。
第四,正确处理理论课和实习课的关系。
每一门课程都是由特定的研究对象及其性质、特征等构成的完整理论体系,有其自身的规律和原则。如果不把这些最基本的东西讲给学生,他们就不能对本课程有一个宏观的掌握,没有此知识作为基础,学生们对实习课就心里没数,认识模糊,实习课将是盲目的,不会也不可能收到良好的效果。
我们强调理论知识的重要性,并不否定实习课的意义。这门课程实质就是让学生们在具备了一定信息知识和意识后,用其去指导实习活动,培养信息检索能力。能力是要通过实践锻炼培养出来的,本课程的最大特点之一就是实践性强,强调学生多动手,动手查找各种工具书,运用各种数据库及各种手段,去解决实际问题。因此,实习课也是此课程不可缺少的组成环节,而且有其重要的地位和作用。
我们反对因这门课程实践性强,而少传授或不传授必要的信息检索知识;也反对因传授必要的基础理论知识而轻视实践和实习。在有限的课时内,教师要根据本校实际状况和不同专业特点,灵活处理两者的关系,理论课和实习课都应有一定课时,不可偏废,这样才能获得良好的教学效果。
第五,解决好开课时机和教材问题。
开课时机的选择恰当与否,会影响教学效果。大学生在大一时忙于专业课学习,还没有必须通过信息检索来解决问题的需求。大一开设此课过早。过早开设,没有实习课做及时运用是容易忘掉理论的。我们在教学过程中发现大二是开设此课的最好时机,因为大一是基础积累阶段,到大二就产生了检索的客观需求了,这时开设,学生们会有雪中送炭的感觉,因此他们会有很大的兴趣去学习。过晚开设,不易在学校这几年里通过理论知识学习和相应的实习课培养出这种终身携带的能力。学生在高校环境中有利于培养信息检索能力的各种工具书、数据库和检索手段的帮助,走向社会后,很少有这样的机会和条件,所以在大学期间培养这种能力是必要的。
信息检索课教材五花八门,我们要根据学校的实际和培养目标来选取相应教材。我们对教材有如下要求:
第一,简明实用。教材要传授最基本的信息和检索知识及原理。作为学生的理论基础的教材,重点应放在各种工具书、数据库、联机检索、网络检索方面,这样有利于各专业学生快速掌握信息资源检索和利用的方法。
第二,全面新颖丰富。教材除了介绍传统检索方法外,还应全面细致地介绍当今国内外信息检索状况及发展趋势,提供本专业教师多年的经验与学术观点作为学生们学习此课的指导或导航,这样能快速培养学生的信息意识和相应能力,少走弯路,扩展视野。
第三,大力介绍国内外主要的信息服务机构和服务系统,使学生了解各种信息源及其质量,使教材更实用,保证学生们获得的信息全面、权威。
第四,教材应配备各种相应的多媒体。由于本课特点,如有各种多媒体的帮助,教学效果会更好。这些多媒体结合教材内容提供了大量的样例,并采取有利于学生思维方式和知识获取的相应结构设计,这种集文字、图像、音频、视频等于一体的教材,将直观和理论结合起来,充分调动了学生们的各种感官,有效提高了学生参与的兴趣和教学效果。
第五,与其他专业的关系。信息检索的速度、全面性和准确性,不仅仅取决于了解、掌握信息源和用什么方法去获取,而且还取决于对本专业知识的了解掌握情况,取决于对信息的表述语言的掌握。
世界上多数权威数据库是用英文完成的,很多学生经常跨学科进行信息检索,因此,从某种意义上说,信息检索是多学科知识的综合应用,信息检索需要多种知识和技能的支持。社会进步、科技飞速发展是用户信息变化、发展的直接动力。用户不仅仅需要本专业的学术信息,他们更需要全方位的综合信息。因此,信息检索能力和复合型人才、多学科知识是不矛盾的。
第六,与宣传、利用学校图书馆各种信息资源结合起来。
高校图书馆是学校的信息、科研中心,不仅有丰富的各种信息,更重要的是还有各种各样的信息检索工具、数据库和检索手段,是我们开设信息检索课的最好的实习基地。
首先让学生们了解、利用好本校各种信息资源是非常重要的。这些资源方便、实用,有针对性,使学生们省时省钱。教师在讲信息检索课时,有目的地让学生们了解图书馆方面的知识,让学生们知道本馆有哪些资源,在什么位置,用什么样检索工具和方法能获取。
这些不仅有利于学生们把理论与实践结合起来,有利于通过动手实践培养检索能力,达到了本课的最终目的,同时也提高了图书馆资源的利用率。
关键词:信息源;信息检索模型;可视化;智能化;一体化
中图分类号:TP391文献标识码:A文章编号:1007-9599 (2012) 01-0000-02
The Status and Trends of Information Retrieval Model
Tian Huan
(Lanzhou Voc-Tech College,Lanzhou730070,China)
Abstract:This article provides an overview of the classification of information sources,a simple description of the concept of information retrieval.For classic Boolean retrieval,vector space retrieval,the probability to retrieve a more detailed analysis,and the direction of development of information retrieval model introduction.
Keywords:Information Sources;Information retrieval model;Visualization;Intelligent;Integration
一、前言
当今世界已经进入了信息化社会,大量的信息渗透到工业生产,社会生活的方方面面。在这爆炸性信息增长中,数字信息占据了最主要的方面,而传统信息载体的贡献比例越来低。有关研究报告显示,2006年全球每年制造、复制出的数字信息量共计1610亿GB,中国数字信息量为127.1亿GB,占全球信息量的7.9%;而受“富媒体”、用户创建内容和16亿网民三大因素推动,到2010年,全球数字信息量预计为9880亿GB,而中国的数字信息量预计为900.5亿多GB,将占全球信息量的9.1%。面对几乎无限的信息量,人们如何快速准确的找到自己感兴趣或者需求的信息是需要解决的一个关键问题。我国电厂检修的分级及检修现状。
二、信息源的分类
信息源的分类形式主要有以下几种:
按载体类型划分:书写型、印刷型、缩微型、机读型、声像型和数字型。
按内容划分:一次信息源、二次信息源和三次信息源。
一次信息源:也叫原始文献或第一手资料。以作者本人的科学研究或研究成果为依据而创作的原始文献,均属于一次信息源。如:期刊论文、科技报告、专利文献、学位论文、会议文献等。
二次信息源:将一次信息源进行加工、整理、提炼、浓缩、标引、编序后所形成的各种目录、题录、索引、文摘等信息源。如:信息检索工具。
三次信息源:对某一专题的一次信息源和二次信息源的有关信息进行检索、筛选、分析、加工,并结合编者的实地调查研究,进行综合分析后重新编制的成果。如:书评、专题述平、学科年度总结、动态综述、字典、百科全书、年鉴、手册、指南等工具书。
三、信息检索模型的概念及经典模型
信息检索模型(IRM,Information Retrieval Model)就是运用数学的语言和工具,对信息检索中的信息及其处理过程加以翻译和抽象,表达为某种数学公式。它决定于三个方面:1.处理查询公式和文档的视角;2.处理查询公式与文档关系的理论;3.查询公式与文档之间的算法。图1表示了IRM的分类体系。
图1 信息检索模型的分类体系
图1所示的经典模型为目前最常用的模型,主要包括布尔模型、向量模型和概率模型。
(一)布尔模型
布尔模型出现于20实际50年代。简单的说它为基于集合论的布尔逻辑运算,是一种基于特征项的严格匹配模型。首先,它建立一个二值变量的集合,如果查询文本中有相应的特征项,则变量可取“True”,反之取“False”。查询由特征项和逻辑运算符(“AND”、“OR”、“NOT”)组成。文本查询的匹配规则遵循布尔运算的法则。布尔模型的主要特点是它实现简单,易于理解,能处理结构化的提问,容易表示统一关系和词组,检索速度快。但是它也具有明显的缺点,传统的布尔逻辑运算比较严格,刚性较强,查询的结果不容易控制,无法提供定量的比较,无法满足特殊的查询要求。目前大多数文献数据库或检索工具都提供布尔运算的检索,如中国期刊全文数据库,维普,baidu或google。
(二)向量空间模型
向量空间模型(Vector Space Model)由Salton等人于20世纪60年代末提出。VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。VSM的优点:具有广泛的适用性,检索基于聚类文档,结果可以采用排序输出方式。但其缺点也很没明显:相似度计算量较大,不能处理布尔表达等结构化的查询。
(三)概率模型
Maron与Kuhns最早在1960年提出了概率检索模型。它是一种估计文献与用户需求的相关性、并根据求得的相关性结果提供从高到低的文献排列模型。它的运用是基于四个相关原则:想关心独立原则;词的独立性;文献相关性;概率排序原则。
四、信息检索模型的发展趋势
为满足当今信息检索的需要,除了对传统的信息检索模型进行改进外,新出现的检索模型盖帘主要体现在如下几个方面:
(一)智能化
智能化不仅仅是电脑硬件的发展趋势,也是软件,网络信息检索的发展趋势。智能化的检索模型不在基于机器语言,而是基于接近人类自然语言的检索形式。
(二)可视化
可视化将传统数据库的文本检索模式转为可见的图像方式显示,并且可以表达用户的检索过程。它能使用户更直观的分析文献与检索式语义的关系,有助于用户判断检索过程中的相关文献。
(三)功能多样化
信息检索模型功能多样化主要体现在两个方面:
(1)可以进行多媒体式的检索,不仅能按照文本输入进行检索、更能进行图片、视屏其他输入形式的检索。
(2)检索工具的一体化。面对互联网的不同文化与语言差异,检索工具能提供一体化的检索模式,支持多语言,多语境,促进不同地区、不通语言的用户更加方便的交流。
参考文献:
[1]孙坦,周静怡.近几年来国外信息检索模型研究进展[J].图书馆建设,2008,5
[2]张艳.信息检索模型的比较研究[J].电脑知识与技术,2009,8,5
>> 医药文献信息检索中的医学主题词检索法研究 跨语言信息检索中的语义关联研究 信息素养中的检索技能构建研究 多智能Agent在Web信息检索中的研究 协作标签系统中的信息检索问题研究 信息检索过程中的用户交互行为及其影响因素 归因理论视角下信息检索行为失败研究 网络信息检索环境下的语义检索研究 网络信息检索中的图像检索技术 信息检索模型的比较研究 信息服务中的网络检索方法 体裁在信息检索中的应用 信息检索中的文档表示综述 信息检索中的同义词 汽车产业集群的跨企业协同行为信息管理研究 数学课堂中的学生情感行为研究 信息检索的嬗变 信息查寻与信息检索的整合研究 信息时代医学信息资源检索的研究 个性化信息检索中的相关反馈技术研究 常见问题解答 当前所在位置:l)的测试题,最后选取了得分最高的6名同学和得分最低的6名同学进行实验,并按每组3人将她们分成协同能力高低不同的4个协作小组,A组和B组为协同能力较强的小组,C组和D组为协同能力较弱的小组。
协同检索实验在具有良好的认知机制、便于用户协同检索的Coagmento系统[10]上进行。由于系统本身提供的聊天窗口不提供图片粘贴的功能,为了便于实验用户之间的交流与共享信息,我们以QQ聊天工具代替系统自带的聊天功能。实验者被要求在Coagmento系统上完成3个检索任务并得出最后的编辑结果,实验者需要在45分钟内进行每一个任务的检索和编辑,之后实验者接受一个10分钟的访谈,实验时间一共为3个小时。
2.2 检索任务
实验用户可以访问任何网络资源,需要检索和查找与任务要求相关的信息。当找到有用的信息,需突出显示和保存有关信息片段,还可以保存相关网页,每个小组检索和收集完信息后需要根据任务的具体问题进行编辑,最终形成文档。我们设计了信息类、事务类、导航类三类检索任务,具体任务及问题如下:
任务1是信息类任务,主题是国内微博的发展和使用情况。具体问题包括:(1)国内各个微博网站的受欢迎度,如它们有多少用户?这些用户在微博上所花的时间?用户在微博上创作了、分享了多少内容?(2)微博对学生、职业人员和商业带来的影响,如微博网站在营销中有什么作用?这些微博网站是如何盈利的?用户是如何通过这些微博网站赚钱的?
任务2是事务类任务,主题是从北京到欧洲4国(德国、法国、意大利、奥地利)的旅游线路设计。实验者需要设计在12天之内完成欧洲4国行(德国、法国、意大利、奥地利)的具体的旅游线路,包括每一站的时间安排、出行线路。最后需要列出至少2个以上的旅游方案,方案包括从北京—欧洲—北京的时间安排,每天的住宿城市、旅游景点、用餐标准、交通工具、总费用等。
任务3是导航类任务,主题是Web2.0在我国高校图书馆的应用调查。实验者需列出国内至少10所以上开展了Web2.0服务的高校图书馆的网址URL,并列出对应的Web2.0服务。
2.3 研究方法
在本研究中,我们采用了多种数据收集方法和数据分析方法。数据收集方法主要是用户交流记录数据收集和访谈。通过实验者的QQ聊天记录进行数据收集,获取用户交流的时间、频率信息和情感表达的词汇。同时,我们在访谈中考察了每个实验者在完成不同任务检索过程中的情感变化。访谈的具体问题是:请问在每一个任务的协同检索过程中(任务分工——执行检索——完成任务)的每一阶段您的情绪变化过程?
数据分析方法主要是内容分析法和统计方法。根据各小组在每个任务检索过程中的QQ聊天记录,我们用ROST情感倾向分析工具对聊天记录里代表情感的词汇进行提取,以此来分析各小组在各个任务协同信息检索过程中的情感变化过程,研究协同能力和任务差异在情感变化上的差异性。我们还采用了内容分析法对访谈收集到的数据进行了编码分析,先将访谈数据转录为文本,剔除重复和不重要的细节,通过ATLAS.ti内容分析软件对访谈数据进行编码,编码的方式主要是基于Strauss and Corbin[11]提出的动态编码进程,最终采用了开放编码、主轴编码和选择性编码的方式进行数据编码。
3 实验结果分析
3.1 用户交流行为分析
人际沟通的最终目标是减少所传达消息的不确定性和交流者之间的模糊关系[12-13]。小组成员之间交流越多,则彼此之间了解程度越高,对其他成员的认识越深,能减少小组间信息传递的不确定性,并最终影响用户的情绪表达。因此,尽管用户检索效果等数据的差异性能直接反映用户的协同检索行为,但协作得好坏并不只是通过这些数据来衡量,考察用户的交流行为和情感表达之间的关联性具有重要意义。通过对QQ聊天记录的分析,我们统计了小组成员间交流的时间。
表1揭示的是协同能力不同的4个小组在各类任务中交流的时间,以秒计时,每个任务的完成时间是2700秒,通过小组之间交流的时长可以反映用户协同信息检索过程中交流行为的特征。从表1中可以看出,从协同能力维度上看,在每一个任务的检索过程中,协同能力较强的A组和B组交流的时间都要多于协同能力较弱的C组和D组,这表明协同能力较强的用户更乐于交流和信息传递。从任务维度上看,无论是协同能力较强还是协同能力较弱的用户,均在任务2花费了最多的时间进行交流,任务3的交流时间最短,D组在完成任务3时交流时间最短,在很长的时间段内小组成员之间没有任何的交流,这可能是受任务本身特殊性的影响。任务1和任务3均是检索事实的任务,客观性较强,实验者只需要收集到足够的信息就可以完成任务。而任务2是事务类任务,主观性较强,三个成员一起设计旅游线路可能要花费更多的时间进行交流才能达成一致意见,并且任务涉及旅游路线的设计,各个部分的具体内容是紧密联系的,不能将其割裂开来,因此,小组成员之间需要保持紧密的联系和交流才能共同推动旅游线路有效连贯的设计。
3.2 用户情感变化过程分析
情感经历并不只是与人们的信息检索活动有关,随着时间的推移,还与小组工作任务进程和协同工作发展过程的变化有关。为了从更全面的角度了解信息行为,研究用户在信息行为过程中情感方面的复杂性具有重要意义[13]。
根据各小组在每个任务检索过程中的QQ聊天记录,我们用ROST情感倾向分析工具对聊天记录里代表情感的词汇进行提取。将情感主要划分为积极情绪、中性情绪和消极情绪,每种情绪又分为高度、中度、一般三个等级,以此来表示每种情绪的高低程度,例如:代表积极情绪的主要有“开心”、“满意”、“很好”等情感词汇(“很好”表示高度积极情绪,“好”表示中度积极情绪,“还可以”表示一般积极情绪);代表中性情绪的主要有“行”、“一般”等情感词汇;代表消极情绪主要有“不好”、“不要”、“郁闷”、“烦躁”等情感词汇。
表2揭示的是每个小组在完成三个任务过程中表达情感词汇的总体情况,从表2中可以看出:A组在三个任务的聊天记录中一共出现了77个情感词汇,B组65个,C组41个,D组31个,从A组到D组的情感词汇的数量呈递减趋势,协同能力较强的小组所表达的情感的个数要明显多于协同能力较弱的小组。我们还发现协同能力较强的A组无论是积极情绪、中性情绪还是消极情绪的数量都是最多的,相反,协同能力较弱的D组的各种情绪表达是最少的。尽管A组的积极情绪和消极情绪的数量都是最多的,但是并不能说明其是最消极的,由于其情感词汇的总量最多,消极情绪的百分比只占16.88%,相反,尽管D组的消极情绪是最少的,但由于其情感词汇的总量最少,其消极情绪的百分比却占到了22.58%,远大于A组。通过百分比统计我们可以发现,A组的积极情绪所占百分比最大,为63.64%;C组的积极情绪所占百分比最小,为48.78%;B组的消极情绪所占百分比最小,为15.38%,C组的消极情绪所占百分比最大,为26.83%。这表明:(1)协同能力较强的小组比协同能力较弱的小组更乐于交流,充分表达自己的情感。(2)协同能力较强的小组比协同能力较弱的小组在检索过程中表现出了更多的积极情绪,完成各个任务时心情比较愉悦。(3)协同能力较弱的小组不太乐于表现自己的情感,积极情绪表现得较少,尽管负面情绪的数量也不多,但所占比重较大。
为了揭示每个小组在各个具体任务中的情绪动态变化过程,我们画出了折线图以体现各小组在各个任务中随时间变化情绪的变化过程。由于每个任务的规定时间是45分钟,为了更好地显示在任务完成各个阶段的情绪变化,我们将45分钟划为9个阶段,每个阶段为5分钟,横坐标表示的是45分钟的时间刻度,纵坐标表示的是各个程度的情绪词汇的分值,由于在对情感词汇的提取中我们发现,中性情绪词汇的各个程度分布不明显,因此,我们将所有中性情绪的分值归为0,而1~3分别表示的是一般、中度、高度的积极情绪,-1~-3分别表示的是一般、中度、高度的消极情绪(见图1)。
从图1中可以发现:(1)A组情绪表达最为活跃,在整个过程中只有在12~14分之间没有表达情绪,而C组和D组的情绪表达较少,C组在20~40分之间沟通和交流较少,且没有任何的情绪表达,D组在20~30分之间沟通很少,几乎没有任何的情绪表达,这表明协同能力较强的小组更乐于交流,也更愿意向小组成员表现自己的真实情绪。(2)A组和B组这两个协同能力较强的小组积极情绪明显要比C组和D组这两个协同能力较弱的小组多,且只有A组和B组在任务完成的最后阶段表现出了高度的积极情绪,这表明了协同能力较强的小组在完成任务1时积极情绪更多,且她们对任务最后的检索结果较为满意。(3)在完成任务1时,4个小组都没有表现出中度和高度的消极情绪,且消极情绪较少。这表明,各个小组在完成任务1时并没有太多的负面情绪,对于任务1的完成还比较顺利。(4)A组和B组的情绪随着时间的变化越来越积极,C组在检索过程中随着时间的变化情绪变化不大,D组随着时间的变化表现出了更多的消极情绪。这表明在任务1的检索过程中协同能力较强的小组合作得越来越顺利,而协同能力较弱的小组则情绪较为紧张。
图2揭示的是任务2中各个小组随时间变化情绪的变化过程。从图中可以发现:(1) 在整个检索过程中各个小组都在不同的时间段没有表达任何情感,A组情绪表达最为活跃,只有在少数时间段没有沟通和表达情感,这表明协同能力较强的小组更乐于交流和表达自己的情感。(2)A组和B组这两个协同能力较强的小组的积极情绪明显要比C组和D组这两个协同能力较弱的小组要多,但只有A组在任务开始的阶段表现出了高度的积极情绪,这表明了协同能力较强的小组在完成任务2时积极情绪更多。(3)在完成任务2时,尽管4个小组都没有表现出中度和高度的消极情绪,但消极情绪较多,且4个小组都表现出了较多的消极情绪,特别是在任务开始的分工探索阶段(10~15分钟)各小组都表现出了较多的负面情绪。这表明,各个小组对于任务2的完成比较困难,情绪比较低落。(4)在完成任务2时各个小组的情绪波动较大,除了A组的情绪随着时间的变化越来越积极,且在任务完成阶段(40-45分)表现出了积极情绪以外,B组、C组和D组在检索过程中随着时间的变化表现出来了更多的消极情绪,在任务完成阶段都表现出了负面情绪。这表明任务2难度较大,除了A组对检索结果比较满意外, B组、C组和D组对检索结果都比较不满意。
图3揭示的是任务3中各个小组随时间变化情绪的变化过程。从图中可以发现:(1)在整个检索过程中各个小组的交流和表达情绪的数量明显要少于前两个任务,即便是A组和B组这两个协同能力较强的小组也在较长的时间段内没有表达任何情绪。QQ聊天记录中显示,C组和D组在完成任务3时均出现了大段时间的交流空白,交流的时间远比不交流的时间要少,其中D组在任务3中交流最少,只出现了三个表达情绪的词汇,尽管在任务3中各组表达的情感都较少,但是A组和B组这两个协同能力较强的小组表达的情感也要明显多于C组和D组。(2)A组和B组的积极情绪明显要比C组和D组这两个协同能力较弱的小组要多,且A组和B组在任务完成的最后阶段都表现出了高度积极情绪。(3)在完成任务3时,各小组所表达的积极情绪较多,消极情绪较少,积极情绪明显多于消极情绪,仅A组和C组表现出了少量的消极情绪,B组和D组在任务3中没有表现出任何的消极情绪,A组和B组的积极情绪明显要多于C组和D组。(4)在完成任务3时各个小组的情绪波动较为平缓,波动不大,B组在这个检索过程中基本保持了积极情绪,D组几乎没有任何的情绪波动,且A组、B组和D组在任务完成阶段(40-45分)都表现出了积极情绪,这可能是由于任务3难度较小,各组对检索结果都比较满意,也可能是由于任务3是最后一个任务,大家在临近实验完成阶段所表现出来的兴奋和放松情绪。
3.3 用户在各任务完成阶段的情感分析
Bystrom认为任务的实施过程可分为三个阶段: 计划阶段、实施阶段和完成阶段[14]。在每个任务开始0~15分是任务的计划阶段,15~30分是任务的实施阶段,30~45分是任务的完成阶段。从以上3个折线图中我们大致可以观测到用户在这三个阶段的动态情绪变化,为进一步考察用户在具体任务完成阶段的情绪表达,我们将任务的检索过程分为三个阶段,通过ATLAS.ti内容分析软件对访谈数据进行编码,揭示了用户在完成任务的不同阶段情感表达的特点(见表3)。
从表3中可以发现,总体而言,在任务的完成过程中,实验者在任务计划阶段和任务完成阶段的情绪表达明显要多于任务检索阶段,在任务分工阶段表达的情绪最多,这可能是由于在任务计划阶段,实验者需积极沟通以便达成一致的分工意见,因此,情绪表达较多,而任务检索阶段实验者的主要目的是进行自己所分到具体部分内容的检索,沟通和情绪表达较少。然而,有意思的是,实验者在任务2的任务检索阶段中却表现出了最多的情绪,且主要是表达消极情绪,这可能与任务本身的难度有关,任务2是事务类任务,难以进行明确分割,所以在检索阶段小组成员间冲突较多,所表现出的消极情绪明显多于任务1和任务3。尽管实验者在任务3表现出了最少的情绪,但在任务3的各个阶段的情绪表达也具有其特殊性,实验者在任务完成阶段的积极情绪表达最多,甚至多于任务分工阶段,这就印证了上文中的QQ聊天记录分析,这可能是由于任务3是最后一个检索任务,实验者对完成所有任务所表达的愉悦和放松的心情。
4 结论
4.1 协同能力对用户协同信息检索过程中情感的影响
协同能力不同对用户协同信息检索过程的影响较大,协同能力较强的小组在各个任务中更愿意表达自己的情绪。协同能力较强的小组比协同能力较弱的小组在每个任务中都表现出了更多的积极情绪,且只有协同能力较强的小组表达出了高度的积极情绪,协同能力较弱的小组更多地表达中性情绪和一般程度的积极情绪,没有表现出高度的积极情绪。协同能力较强的小组在各个协同检索过程中与队友相处更为愉快,合作更为顺利。协同能力较强的小组在任务完成阶段表达积极情绪的频率更高,由于认为任务完成的比较满意,所以表现出了更多的积极情绪。
4.2 任务类型对用户协同信息检索过程中情感的影响
工作任务的复杂性和情感经历似乎是相互关联的,当检索者面对复杂的任务时,个人因素如态度、动机和情绪等都会发挥作用,负面情绪往往因此而产生,并且从整体上影响检索效果[15]。即便是协同能力不同的小组,在完成某一个任务时的情绪变化都有一定的共性,这揭示了任务本身的差异对用户协同信息检索行为确实产生了影响。各小组在3个任务中表达情绪的数量从任务2—任务1—任务3呈递减状态,各小组在任务2表现出了最多的情感。在任务2中,各小组都表现出了最多的消极情绪,且情绪波动都比较大,在任务3都表现出了最少的消极情绪,且情绪波动都较小。
通过以上分析可以发现,各小组在任务计划阶段和任务完成阶段的情绪表达最多,且情绪波动较大。这也可以从访谈中反映出来,除了任务2在执行检索过程中也出现了较多的情绪以外,任务1和任务2在任务计划阶段和任务完成阶段均出现了较多的情绪表达,而任务2在执行检索阶段出现的主要是对于检索不顺利的消极情绪表达。这可能是由于在任务计划阶段,各小组主要进行任务的探索和分工,会出现更多的交流,从而出现更多表达情感的词汇,而在任务完成阶段,各小组处在答案的最后编辑和整理阶段,也会出现较多的交流和对于任务的一个总体评价,因此也可能出现较多的情感词汇。任务不同也对情感产生了较大影响。任务2是事务类任务,主观性较强、难度较大,由于任务2的交流不顺畅导致用户在完成过程中感觉时间匆忙,所以负面情绪较多。在解决复杂、困难的任务时,用户会经历较高水平的不确定性和压力,自我怀疑与负面情绪会增加[16-17]。相反,任务1和任务3检索的是事实性的任务,难度较低,用户表现出来了更多的积极情绪,且整个检索过程中情绪波动不大。
4.3 用户交流行为与情感表达的关联性
综合以上分析,我们发现,用户在协同信息检索过程中的交流行为与情感表达有直接的关联性。交流越频繁的小组成员更愿意真实表达自己的情绪,表达情绪的词汇数量明显多于交流较少的小组。交流的频率直接影响用户的积极情绪表达,用户之间交流越频繁,所表达的积极情绪越多,出现的高度积极情绪词语频率越高,且在任务完成阶段表现出来积极情绪的频率越高。
参考文献:
[1]McGrath J. Groups: Interaction and performance [M]. New Jersey: Prentice-Hall, Englewood Cliffs, 1984.
[2]Kuhlthau C C. Inside The Search Process- Information Seeking From The Users Perspective [J]. Journal of the American Society for Information Science, 1991, 42(5): 361-371.
[3]Bystr?m K,J?rvelin K. Task Complexity Affects Information Seeking And Use[J].Information Processing and Ma
nagement, 1995, 31(2): 191-213.
[4]Bilal D. Children’s Use of The Yahooligans! Web Search Engine: II. Cognitive And Physical Behaviors on Research Tasks[J]. Journal of the American Society for Information Science and Technology, 2001, 52(2): 118-136.
[5]Wang P, Hawk W B, Tenopir C. Users Interaction with World Wide Web Resources: An Exploratory Study Using A Holistic Approach[J]. Information Processing and Management, 2000, 36(2): 229-251.
[6]Hildegard J. Collaborative Information Behavior: Exploring Kuhlthau's Information Search Process Model in A Group-Based Educational Setting[J].Information Process
ing & Management, 2006, 42(1): 276-298.
[7]Shah C, Roberto G-I. Exploring Information Seeking Processes in Collaborative Search Tasks[C].Pittsburgh, PA, USA.2010.
[8]Nahl D. Measuring The Affective Information Environment of Web Searchers[C].Proceedings of the 67th ASIS&T annual meeting, 2004: 191-197.
[9]Nahl D. Affective and Cognitive Information Behavior: Interaction Effects in Internet Use[C].Proceedings of the 68th ASIS&T Annual Meeting,2005.
[10]Coagmento[EB/OL].[2012-09-20].http://.
[11]Strauss A, Corbin J. Basics of Qualitative Research: Techniques and Procedures for Developing Grounded Theory (2nd ed.) [M].London: Sage Publications,1998.
[12]Berger C R, Calabrese R. Some Explorations in Initial Interactions and Beyond: Towards A Developmental Theory of Interpersonal Communication[J].Human Communication Research,1975,(1): 99-112.
[13]Nahl D, Bilal D.(Eds.). Information and Emotion: The Emergent Affective Paradigm in Information Behavior Research and Theory[M].Medford,New Jersey:Information Today, 2007.
[14]Bystr?m K. Municipal Administrators at Work-Information Needs And Seeking (IN&S) in Relation to Task Complexity: A Case-Study Amongst Municipal Officials [A].P. Vakkari, R. Savolainen, & B. Dervin (Eds.), Information Seeking in Context[M].London: Taylor Graham, 1997: 125-146.
[15]Bystr?m K. The Effects of Task Complexity on The Relationship Between Information Types Acquired and Information Sources Used[J].The New Review of Information Behaviour Research: Studies of Information Seeking in Context, 2000,(1): 85-101.
[16]Carver C S, Lawrence J W, Scheier M F. A Control-Process Perspective on The Origins of Affect [A].L. L. Martin & A. Tesser(Eds.), Striving and Feeling: Interactions Among Goals, Affect And Self-Regulation[C]. Mahwah,NJ:Lawrence Earlbaum Associates,1996:11-52.
[关键词] 网络信息检索; 基于内容; 图像检索技术
[中图分类号] G354.47 [文献标识码] A [文章编号] 1673 - 0194(2013)03- 0073- 02
随着网络信息资源的迅速增加,信息多样化的程度不断加大,诸如图形、图像、音频、视频、动画等多媒体信息日渐丰富,其中图像信息的需求尤为大量,而当前主要以文本方式进行检索的技术已不能满足人们对信息的需求。
基于文本的检索是搜索引擎将网站、网页的内容索引为一系列的关键字,当用户输入相应关键字后,系统根据数据库中的倒排文档将关键字映射为网站或网页的地址。图像信息基于文本的检索技术,即根据图像信息的文件名、路径名、ALT标签等,将其标注为一系列关键字的描述,然后通过检索这些描述以达到检索图像信息的目的。这种检索技术很不实用。首先,由于目前的计算机视觉和人工智能技术都无法自动对图像进行标注,要由人工完整地标注网络上的所有图像,不但费时费力,而且往往是不准确或不完整的;其次,不同用户对于同一张图像的看法不尽相同,导致对图像的标注没有一个统一标准;再次,这种方法将注意力局限在图像的著录特征,即文字描述上,不能充分揭示和描述图像中有代表性的画面内容特征。所以基于内容的图像检索技术应用而生。
1 基于内容的图像检索技术
基于内容的图像检索一般是指静止图像的检索。这种图像检索技术通过分析图像的内容,提取其颜色、形状、纹理等可视特征,建立特征索引存储于特征库中,在检索时,用户只需把自己对图像的模糊印象描述出来(绘制的草图或通过扫描仪等在线输入的图像),就可以通过多次的近似匹配,在大容量图像库中查询到所需图像。基于内容的图像检索具有较强的客观性。
基于内容的图像检索算法涉及的相关技术比较多,主要有:图像的分析与特征向量的提取技术、特征向量数据的组织与存储技术、图像数据的组织与存储技术等。
1.1 基于颜色特征的图像检索
颜色特征是图像检索中最基础的一种检索依据,颜色是人识别图像的主要感知特征之一。在基于颜色特征的检索算法中,通常用颜色直方图来表示图像的颜色特征。直方图能较好地反映图像中各颜色的频率分布,横轴表示颜色等级,纵轴表示在一个颜色等级上,具有该颜色的像素在整幅图像中所占的比例。直方图可以对整幅图像进行最大匹配度检索。目前关于色彩的索引方法有两类:基于全局色彩的索引与基于局部色彩的索引。
全局色彩的索引就是按全局色彩的分布来索引图像,计算每种颜色的像素,检索出具有相同颜色内容的像素的图像。其中最为简单有用的工具是灰度直方图。利用图像的灰度直方图作为特征指标来描述图像,一般是利用二维直方图,如红—蓝直方图,它是红光图像的灰度值和蓝光图像的灰度值的函数。利用色彩直方图进行检索的方法有许多,如:比例直方图法、累加直方图法等。
色彩直方图还不能为像素在图像中的位置提供线索,为了尽可能少地丢失信息,提出了局部色彩方法。局部色彩的索引对象是局部相似的颜色区域,它考虑了颜色的分类和一些初级的颜色特征。用形状面积、圆度、离心率等来描述形状的特征矢量。
1.2 基于形状特征的检索
形状是刻划物体的本质特征之一,利用形状来检索可提高检索的准确性和效率。基于形状的检索不仅包括传统意义的基于二维形状的检索,还包括三维形状的检索。
基于图像内物体形状的检索,首要问题是采用合适的图像分割算法把不同对象从图像中分割出来,关键是寻找符合人眼感知特性的形状特征。目前,较好的方法是采用图像的自动分割方法结合识别目标的前景和背景模型来得到比较精确的形状特征。图像自动分割方法的具体思路是:将图像分块后,将每个块看成是一幅小图像,计算每个小图像的颜色直方图特征,则每个块间的直方图是不一样的,为分析边缘特征,将相邻两个块构成一个比较对,将每个块间的差值记录下来,同时记录差值在一定范围内的数目,这样就形成一个颜色特征差值表。图像对象空间位置发生变化,其特征差值表也就不同。
1.3 基于纹理特征的检索
纹理是指图像在局部区域内可能呈现出不规则性而在整体上却表现出某种规律性。纹理特征是图像中难以描述的特征,它是一种反映图像像素灰度级空间分布的属性。如果一个物体内部以灰度级变化明显而又不是简单的色调变化,那么该物体就有纹理。
纹理分析的方法基本可以分为统计法、结构法、模型法和空间法/频率域联合分析法等4类。基于统计的方法是对图像中的颜色强度的空间分布信息进行统计,主要用于分析像木纹、沙地、草坪等细致而不规则的物体;基于结构的方法将重点放在分析纹理元之间的相互关系和排列规则上,适用于像布料或砖瓦等一类元素组成的纹理以及排列比较规则的物体;基于模型的方法是假设纹理按某种类型分布,如Markov随机场模型、分形模型等。基于空间/频率域联合分析法主要包括Cabor变换法和小波变换法等。
1.4 基于知识的图像检索
基于知识的图像检索也是基于内容检索的重要方法之一。图像本身是一定数量的颜色像素点的集合,人类能够识别出像素点集合的含义是人类以自身的知识赋予图像意义的过程。基于知识的图像检索系统为用户提供知识库,针对一个图像需求,搜索引擎依次调入每一幅图像的内容描述,结合知识库中的相关知识,以图像需求为目标进行推理,如果需求目标得到满足,则确定这幅图像符合检索要求。
2 基于内容的图像信息检索系统
目前,基于内容的图像检索技术的研究取得了很大的突破,较有影响力的有以下几个:
2.1 QBIC系统
QBIC(Query By Image Content)是IBM公司于20世纪90年代研制的图像和动态影像检索系统,其含意是“根据图像的内容进行查询”。由IBM Almaden研究中心开发,是基于内容的检索系统的典型代表。QBIC在检索过程中用户无须提供文字检索词(它也提供关键词检索),只要输入以图像形式表达的检索要求,即可检索出一系列相似的图像。QBIC系统允许使用示例图像、用户构建的草图、选择的颜色与纹理模式、镜头与目标运动等,对大型图像和视频数据库进行查询。
2.2 Photobook系统
Photobook系统是由美国麻省理工学院(MIT)的媒体实验室于1994年开发研制的用于浏览和搜索图像的一套交互式工具,图像在存储时按人脸、形状或纹理特性自动分类,图像根据类别通过显著语义特征压缩编码。
2.3 Virage系统
Virage是由Virage公司开发的基于内容的图像搜索引擎。与QBIC相似,Virage支持基于颜色、颜色布局、纹理和结构(对象边界信息)的可视化查询,但Virage比QBIC更进一步,它也支持由4个原子查询的任意组合,用户可以根据他们自己的侧重调整4个原子查询的权重。
2.4 CORE系统
CORE是新加坡国立大学开发的一个基于内容的检索系统。其显著的技术特色包括:多种特征提取方法、多种基于内容检索方法、使用自组织神经网络对复杂特征度量、建立基于内容索引的新方法以及对多媒体信息进行模糊检索的新技术。
2.5 VisualSEEK系统
由美国哥伦比亚大学图像和高级电视实验室开发。它实现了互联网上基于内容的图像/视频检索系统,提供了一套工具供人们在Web上检索图像和视频信息。用户可以把顶部为红橙黄色区域、底部为蓝绿色区域,这样的图像作为查询“日出”的草图,使人们在Web上可以方便地搜索和检索图像和视频。
3 基于内容的图像检索体系结构
基于内容的图像检索系统与传统基于文本的检索系统完全不同。基于内容的检索系统一般通过可视化界面和用户进行频繁的交互,以便用户能够方便地构造查询和改进检索结果,用户通过选择具有代表性的一幅或多幅例子图像来构造查询,然后由系统查找与例子图像在视觉内容上较相似的图像,按相似度大小排列返回给用户,即所谓的通过例子图像的检索(Query By Image Example)。
基于内容的图像查询和检索是一个逐步求精的循环过程。其过程及各个模块如下:
3.1 图像的预处理
在特征抽象子模块里,首先要进行图像的预处理,包括图像格式的转换,尺寸的统一,图像的增强与去噪,图像的边缘提取,经过边缘提取获得图像的轮廓特征,对其进行进一步轮廓清晰化处理等功能,为图像的特征提取打下基础。
3.2 图像的目标标识
图像预处理后,要进行图像的目标标识。目标标识为用户提供一种工具,以全自动或半自动(需要用户干预)的方式标识图像中用户感兴趣的区域或目标对象,以便针对目标进行特征提取并查询。当进行整体内容检索时,利用全局特征,这时不用目标标识功能。目标标识是可选的。
3.3 图像的特征提取与表达
图像特征的提取与表达是基于内容的图像检索技术的基础。对图像数据库进行特征提取,提取用户感兴趣的、适合检索要求的特征。特征提取可以是全局性的,即整幅图像,也可以是针对某个目标的,即图像中的子区域,如人的面部特征或指纹特征等。
3.4 图像数据库
作为图像查询的后台基地,生成的数据库由图像库、特征库和知识库组成。图像库为数字化的图像信息,特征库包含用户输入的特征和预处理自动提取的内容特征。知识库包含专门和通用知识,有利于查询优化和快速匹配,知识库中知识表达可以更换以适用各种不同的应用领域。
3.5 图像的查询接口
在基于内容检索中,由于特征值为高维向量,不具有直观性,因此必须为其提供一个可视化的输入手段。友好的人机交互界面是一个成功检索系统不可缺少的条件,可采用的方式有3种:操纵交互输入方式、模板选择输入方式和用户提交特征样板的输入方式。另外,查询返回的结果需要浏览,应在用户界面提供浏览功能。
3.6 图像的检索引擎
检索是利用特征之间的距离函数进行相似性匹配,模仿人的认知过程,近似得到数据库的认知排队,存在一些不同的相似性测度算法,检索引擎中包括一个较为有效可靠的相似性测度函数集。
3.7 图像的索引/过滤
索引是用来提供快速、有选择性地存取数据库的一种机制,它相当于一种映射机制,将属性的值转换为相应数据地址域的地址集。过滤器作用于全部数据,过滤出的数据集合再用高维特征匹配来检索。索引用于低维特征,可以用R树来索引以加快检索速度。
基于内容的图像检索技术为用户提供了一个在网络上搜索感兴趣的图像信息资源的有效手段,但基于内容的图像检索技术目前还存在许多有待发掘的内容,因而,基于内容的图像检索技术也需要随着网络技术、信息技术的发展而发展。
主要参考文献
【关键词】多媒体信息;信息检索;信息检索实验平台
【Abstract】 with the rapid development of multimedia and multimedia in contemporary society, the amount and types of information are in the rapid growth of multimedia content and information presentation, rich and diversified. This article is for communication in the multimedia information retrieval project at present situation of multimedia information retrieval experiment platform to explore and analysis, the construction of multimedia retrieval experiment platform elements and the future development of multimedia information retrieval, the article puts forward some suggestions of constructing the platform, hoping to promote the construction and development of the experimental platform of multimedia information retrieval.
【Key words】multimedia information;retrieval information;retrieval experiment platform
随着时代的发展,多媒体的信息检索变成了当前的一个热门研究对象。传统的手工检索远远不能满足人们对多媒体信息检索的需求度。本文通过浅析多媒体信息检索实验平台的构建来突出多媒体信息检索在当今信息化社会中的重要性,以此来促进多媒体信息检索的发展。
1.多媒体信息检索的现状
1.1多媒体信息检索无法满足用户的需求
现代社会是信息化社会,必须与时俱进,顺应信息社会的需求,针对大量的信息流,多媒体信息检索是信息储存和传播的重要部分。但目前多媒体信息检索在一定程度上无法满足用户的需求问题,只有通过构建多媒体信息检索实验平台,可以对图像,视频等多媒体信息进行检索,提高多媒体信息的准确率和安全性,避免信息的互斥性,从而加强互联网的管理。
1.2多媒体信息检索实验平台未及时有效检索信息
多媒体信息的种类繁杂,数量巨大,比如视频音频,图像文本等多媒体种类太多,难以管理,传播影响复杂。多媒体信息内容可以跨平台传播,多媒体在信息内容录入,人工或计算机自动地建立好关键字、词、句和信息特征描述的检索表,检索表与多媒体数据分开存储,有利于多媒体信息的检索。也为了满足不同用户对多媒体信息的需求,互联网必须提高一个平台来检索各类多媒体信息,构建多媒体信息检索实验平台,以此来对多媒体信息进行有效的检索。
2.多媒体信息检索实验平台的构建实施方法
构建多媒体信息检索实验平台首先要了解多媒体信息检索的分类,其次再根据不同类型的多媒体内容提出相对应的构建实施方法。
2.1 多媒体信息检索的分类
多媒体信息检索所涉及的内容范围广,近几年,多媒体检索主要是基于文本的检索即基于关键字的检索,现在的多媒体检索多是文本检索与图像检索结果的合并,基于文本的多媒体信息检索和基于内容的多媒体信息检索是多媒体信息检索的两大主要形式,多媒体检索实验平台可以包括文本、图像、视频、音频等这些多媒体信息。
2.2实验平台中文本检索与内容检索结合
基于文本的多媒体信息检索是以文字为主体来检索,但是文字信息的检索比较简单易懂,而基于内容的多媒体信息检索又缺少一定的文本信息,对多媒体的易懂性这一特点有所阻碍。这二者单独进行检索的时候都存在着各自的优缺点,但如果将基于文本的检索和基于内容的检索相结合,就能让多媒体的内部检索互补,这样便能使多媒体的检索效果得到更好地发挥。
2.3实验平台中多媒体的储存和查询
针对多媒体的储存和查询,实验平台要设计出利于信息查询,并能扩大信息存储量的空间的同时要使信息的查询更加准确便捷。全文检索服务器支持海量信息的存储与管理,Web应用服务器则利用数据库技术和动态网页生成技术,对Web应用服务器进行扩展可以将全文检索数据库中的信息动态自动。
2.4多媒体索引构建
多媒体素材库定义为海量型多媒体素材资料库,是设计与建设多媒体资源库的核心部分。构建多媒体信息检索实验平台最关键的是设计与实现多媒体索引。建设多媒体索引,首先便是设计索引程序,并且索引程序的页面设计能够便于用户搜索查询信息,多媒体索引中的搜索引擎能够连接各种种类的信息,是信息之间具有相关性,索引程序与检索程序两个程序通过索引文件的联系才能构成搜索引擎,实现多媒体的信息检索过程。
2.5 跨平台检索构建
跨平台多媒体检索需要多媒体信息资源的转换、入库、管理和等环节。互联网的最大功能便是提供一个大平台供各类信息的交流,多媒体信息检索构建跨平台检索可以扩展信息检索所覆盖的范围。实现跨平台搜索引擎,需要引用关系型数据库搜索引擎使之从数据级别上将VOD视频点播系统和多媒体课件库系统的数据同步索引到专用数据库中,实现数据的检索和获取。
结 语
多媒体信息检索是互联网发展的产物,构建多媒体信息检索实验平台才能高效率的对多媒体信息进行检索过滤,让互联网上的信息能实现更好的共享,这种快捷方便的信息检索方式才能满足用户的需求,多媒体信息检索实验平台研究出好的检索软件来管理多媒体信息,使多媒体信息检索的效果更好,因此,多媒体信息检索在将来的互联网发展中将会越来越好,并且为更多的用户提供更好的多媒体信息检索。
【参考文献】
[1]林卫华.信息时代的档案管理及安全性考虑[J].科技资讯,2009,(35):123.
[2]孙吉红,刘伟成,焦玉英.多媒体信息检索研究与展望[J].计算机应用研究, 2008(3):87.
[3]杨焯砚.多媒体信息检索中的数据组织及搜索方法的研究[D].华南理工大学,2011:67.
关键词:网络 信息检索 趋势
Internet在全球范围内的迅速发展与成熟,促成社会各领域信息飞速膨胀,为人们查找、获取信息提供了丰富的信息源,越来越多
的人开始利用网络来查询信息。网络信息检索就是根据用户的需要,从大量的网络信息集合中查询出特定(即相关)的一小部分信息的过程。那么,面对网上大量纷繁复杂的信息资源,今后网络信息检索的发展会是怎样呢?笔者就这一问题进行了探讨。
1. 网络信息检索的起源
信息检索始于上世纪50年代,60年代已经实用化,70年代联机检索服务形成市场,80年代实现多元化、智能化,90年代信息检索系统与因特网结合,才出现了早期简单的网络检索。但由于Internet的迅猛发展使其所含的信息数量激增,在这样一个无限、无序、浩瀚无边的信息空间里,快速查找并获取所需的信息已成为人们最迫切的需要。
2. 网络信息检索的特征
2.1信息检索空间的拓宽 网络信息检索的空间比之传统的情报检索是大大地拓宽了,它可以检索因特网上的各类资源,而检索者不必预先知道某种资源的具体地址。其检索范围覆盖了整个因特网这一全球性的网络之网络,为访问和获取广泛分别在世界各地、成千上万台服务器和主机上的大量信息提供了可能。这一优势是任何其它信息检索方式所不具备的,如:国际商用联机检索也只能是检索某一台、某几台主机或某一局部网络内的若干数据库。
2.2交互式作业方式 所有的网络信息检索工具具有交互式作业的特点,能够从用户命令中获取指令,即时响应用户的要求,执行相应操作,并具有良好的信息反馈功能,用户可以在检索过程中及时地调整检索策略以获取良好的检索结果,并能就所遇到的问题获得联机帮助和指导。
2.3用户界面友好且操作方便 网络信息检索对用户屏蔽了各局部网络间物理差异,使用户在使用这些服务时感到明显的系统透明度。检索者使用自己所熟悉的检索界面和命令方式输入查询提问就可以实现对各种异构系统数据库的访问、检索。
3. 网络信息常用的检索方式
3.1链接法 是指用户在阅读超文本文档时,利用文档中的链接从一网页转向另一相关网页。有些类似于传统文献检索中的“追溯检索”,即根据文献后所附的参考文献追溯相关文献,一轮一轮地不断扩大检索范围。个人用户在网络浏览的过程中常常通过创建书签或热链表来将一些常用的、优秀的站点地址记录下来,组织成目录以备今后之需。但这种做法只能满足个别、一时之需,相对于这个网络信息的发展,其检索功能似乎是微不足道,谈不上真正意义上的网络信息检索。
3.2通过网络资源指南来查找信息 为了对因特网这个无序的信息世界加以组织、管理,使大量有价值的信息纳入一个有序的组织体系,专业人员做了许多努力和开发。也就是基于专业人员对网络信息资源的产生、传递与利用机制的广泛了解,和对网络信息资源分布状况的熟悉,以及对各种网络信息资源的采集、组织、评价、过滤、控制、检索等手段的全面把握而开发出的可供浏览和检索的网络资源主题指南。
3.3利用搜索引擎进行信息检索 这种方法是较为普遍、常规的网络信息检索方法。搜索引擎是提供给用户进行关键词、词组或自然语言检索的工具。这种方式用户可以用逻辑组合方式输入各种关键词,搜索引擎根据这些关键词寻找用户所需资源的地址,然后根据一定的顺序反馈给用户包含这些关键词信息的所有网址和指向这些网址的链接。利用搜索引擎进行信息检索具有:省时省力,简单方便,检索速度快、范围广,能及时获取新增信息,这才是真正意义上的网络信息检索。
4. 网络信息检索的发展趋势
4.1智能检索 近年来被称为智能搜索引擎的网络检索工具已经出现,智能搜索引擎有3个主要的特征:网络蜘蛛的智能化、为特定用户提供相关信息、搜索引擎人机接口的智能化。它可以在因特网中导引用户,不仅在用户搜索、浏览时给予直接的支持,而且能够提供具有独立搜索功能的智能体的幕后支持。
随着网络用户对检索的精度、检索效率要求的不断提高, 网络检索软件开发更重视开发检索工具在检索功能及检索服务上的智能化程度。
4.2可视化检索 网络检索的可视化是指将数据库中的不可见的语义关系用图像形式可视化显示并表达用户检索过程。可视化检索有许多优点,主要表现在:对文献或检索式内部语义关系的理解有助于用户判断一个检索中的相关文献;可视化的环境可以为用户提供更丰富和更直观的信息;相关性在传统的信息检索中只指检索结果、检索式相关,而在可视化检索中则指检索结果之间的相关度;使得用户可以进行交互式输入,允许在信息空间进行动态移动,允许用户修改数据的显示方式,使他们理解数据的个人偏好可视化;减少了理解检索结果的时间,可以对相关信息进行聚类分析,而聚类分析可帮助人们发现新的学科点,也可作为反馈的工具;操纵检索的内部过程;提高检索系统与人之间的交互性;检索结果可以模仿网络环境形成拓扑结构图,在拓扑结构图中所有相关文献或其他类型资源将被归为同类;一个透明的检索过程使检索更容易更有效。
4.3多媒体信息检索 目前,基于内容的多媒体信息检索是研究的热点。基于内容的多媒体信息检索是根据媒体和媒体对象的内容及上下文联系在大规模多媒体数据库中进行检索。多媒体信息检索是一项涉及多个学科的课题,因为它需要利用图像处理、模式识别、计算机视觉、图像理解等领域的知识作为基础,还需从认知科学、人工智能、数据库管理系统、人机交互、信息检索等领域引入新的媒体数据表示和数据模型,从而设计出可靠的、有效的检索算法、系统结构以及友好的人机界面。
4.4基于网格的信息检索 网格概念最早于20世纪90年代中期提出,是从电力网概念借鉴过来的。其主要特点是把整个因特网集成为一台巨大的超级计算机,以实现全球范围的计算资源、存储资源、数据资源、信息资源、知识资源、专家资源、设备资源的全面共享。互联网实现了计算机硬件的连通,wed实现了网页的连通,而网格试图实现互联网上所有资源的全面连通,在动态的、异构的虚拟组织间实现协同的资源共享以及协同解决问题。共享是网格强调的重点,但是这种共享又必须是高度可控的,需要在资源提供者和消费者之间详细定义哪些部分是可以被共享的,在什么条件下可以共享以及相应的管理机制、付费机制。
当前,随着计算机高科技的不断发展,网络检索就像当年的照相机一样,逐步超着简单化、人性化方向发展,检索界面越来越简单友好,越来越适用与普通用户。用户可以很容易地进行网上自动标引、自动文摘、自动跟踪、自动漫游、机器翻译、多媒体检索欣赏、动态连接、数据挖掘等操作,方便、 及时、准确地获得所需信息。
网络信息检索的发展永远滞后于用户的需求,这是个不争的事实,但也正是用户的需求推动着网络信息检索技术的不断完善。在网络信息检索不断发展壮大的今天来展望未来,人类信息需求究竟能够被满足到何种程度,我们拭目以待。■
参考文献
[1]柳群英 .网络信息检索技术现状及发展趋势.[J] 情报探索2005(5):66-68
[2]徐谦.网络信息检索的智能化趋势. [J]图书馆理论与实践2006(2):63-65
[3]黄如花,张春蕾. 网络信息检索的发展趋势.[J]图书情报知识,2002,(4):48-50,66
[4] 周宁.21世纪信息组织与检索的可视化、智能化发展方向[J].现代图书情报技术,2002(4):4,618
[5] 秦雪梅,高凡等.可视化情报检索.[J]图书情报工作,2002(4):89~9219
【关键词】慕课(MOOC)信息检索课程探讨
【中图分类号】G434;G252.7【文献标识码】A【文章编号】2095-3089(2017)04-0118-02
信息检索课是一门注重实践、操作性很强的课程,课程中设置的操作、演示环节较多,特别适合学生利用网络环境,反复观摩视频资料进行自主学习。而信息检索课要求学生利用文献来解决特定信息问题的教学思路也与MOOC的特点非常契合。MOOC教学中教师会将课程资料(课件、视频、问题等)放在教学平台上,供学生预习,学生带着问题学习,课堂上侧重学习分享、问题探讨和创新思考。
一、基于MOOC环境的校内信息检索课建设的可行性
1.个性化平台建设
除了利用国内外优秀的MOOC教学平台外,不少学校也独立建立了网络在线教学平台。平台分为教学管理(教师管理、学生管理、课表管理、考试管理、作业管理等)、课程内容管理课程编辑、课程学习进度管理)、教学互动(师生互动、学生之间、PBL教学)等功能模块。因此,MOOC不仅仅可以是名师名校开设的大规模网络公开课,其教学理念也可以延伸到校内信息检索课的日常课堂教学。
2.课程设计的可行性
基于MOOC环境的校内信息检索课建设,可以借鉴网络上现有的信息检索课MOOC的教学思路。如可以学习和借鉴中科大罗昭锋老师的“文献管理与信息分析”和武汉大学黄如花教授的“信息检索”MOOC。近两年石河子大学图书馆校内信息检索MOOC的实践和取得的成效,也给了我很大启迪。把传统的课堂教学与网络MOOC的精髓进行深度融合,通过翻转课堂的形式进行呈现,是校园信息检索课的设计思路。在课程设计时,不能盲目模仿,还必须保持本校的信息检索教学特色,满足本校学生的个性化需求。
二、基于MOOC环境下的本校信息检索课
1.教学内容安排
课程进度分四阶段进行,第一,课程引导,由教师向学生介绍课程内容、教学方法、课程安排、教学平台的使用方法及考核要求等。第二,理论知识学习阶段。以网络课程自学为主,面授教学为辅,教师在平台上教学课件、视频、学习要求等。学生通过阅读教材和观看课件、视频进行自学。第三,检索实习阶段,安排五次实习,教师指导学生联机实际操作,学生结合所学的专业及课程选择检索课题,完成实习作业与撰写文献综述。第四,联机考试阶段。统一考试,学生从试题库中随机抽取考题,在规定时间内完成答题。
2.教学思路
在MOOC教学内容设计中,引起注意是设计的关键。MOOC内容设计应注重短小精悍、生动有趣,适合学生“碎片化”学习。因此,就要把完整的教学内容拆分成干个知识点,每一个知识点制作成最多十几分钟的短视频、PPT、动画等来吸引学生,中间穿插问题和小测验,这样可抓住学生的注意力,有利于学生记忆与理解学习内容。建立关联是信息检索课教学的重要环节。把检索知识与日常生活、课程学习、专业学习、考试、考研、毕业论文写作建立关联,同样会激发学生们的学习动机和需求。
3.教学效果
通过课程内容由浅入深的设置和组成学习小组等方式来提升学生信心。教学内容从信息检索基础知识入手,接着介绍图书馆和网络搜索引擎、中文综合型数据库检索、外文综合型数据库检索、专业数据库检索、特种文献检索,最后介绍信息检索的综合应用。遵循由易到难、循序渐进的原则,让学生增加学习信心。同时多安排小组研讨课,鼓励学生按学科专业、课程、专题组成一起学习、交流,让学生感受到学习不再是单独的个体行为,可增加学生们的学习信心。
4.教学方法上的创新
缪静敏等认为,MOOC的兴起为高校教师实施翻转课堂提供了优质的教学资源,间接推动了实践的开展。翻转课堂教学法彻底改变了传统灌输式的课堂教学方式,让教师把更多的精力投入到培养学生自主学习、思考问题和解决问题的能力上,真正做到“授人以鱼,不如授之以渔”的教学实践。
实施慕课教学法,教师需提前布置下次课的学习任务,学生課下完成视频内容的学习、完成相关作业和测试,课堂上,教师不再长篇大论,而是以问题为导向,根据问题进行集中答疑和讲解。如果需要实际操作的内容,教师可在线进行操作演示。在此基础上,教师可引入PBL教学法,即基于问题的学习(Problem-BasedLearning,简称PBL)教学模式。通过提出问题、思考、检索、分析、讨论和交流等活动,学生找到了解决问题的办法,真正做到了知识内化,也大大提高了学生们的课堂学习积极性。
5.师生角色的转变
如何实现从“以教师为中心”到“以学生为中心”的角色转换,是长期以来教学改革的一大难题。基于MOOC环境的校内信息检索课,课堂教学可实施传统与翻转教学的有机结合,让教师和学生有时间去适应,在实践中实现真正的转变。教师不仅要熟练掌握信息检索的知识和技能,还应具备扎实的相关学科能力,并要具备提出问题、解决问题、应用知识的能力,以及具备严密的逻辑思维能力和良好的组织管理能力,善于调动学生学习积极性、调节课堂气氛、控制课堂节奏。因此,MOOC环境下的教师角色不再是单纯的授课者、课堂主宰者,而是引导者、组织者、观察者。教师只有多与同行交流,多听名师名校的课程,多学习课内课外的知识,才能快速接受角色的转变。
6.学生如何转变角色
相对传统课堂的授课方式,MOOC学习完全需要自觉,学与不学、怎么学完全取决于学生自己,如果没有严格的监督机制,学生可能会应付了事,甚至效果比传统的课堂教学更差。因此,如何让学生从被动接受者变成主动学习者,需要严格的考核机制和推动机制。首先,作业、考试、交流必不可少,都与最终成绩挂钩。其次,小组任务要层层分解到每个成员,让学生无路可退。最后,还是要培养和激发学生的学习需求和兴趣,关键点还在于课程设计、教师讲授、多媒体制作都要精良。
三、结论
MOOC的兴起使传统的课堂教学面临着巨大的挑战,但也带来了新的发展机遇。利用校园网络教学平台,把MOOC先进的教学理念和技术引入到传统的信息检索课课堂教学,探索新形势下信息检索课教学改革的新思路和新方法,必将对信息素养教育及图书馆服务带来一系列深刻的变化和影响。
参考文献:
[1]张园.文献检索课程慕课改革的初步研究——以石河子大学图书馆文献教研室为例[J].江苏科技信息,2015,(10):31-32.