首页 > 文章中心 > 全文检索

全文检索范文精选

开篇:润墨网以专业的文秘视角,为您筛选了十篇范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

全文检索系统分析论文

1相关工作

目前各行各业都开始意识到信息系统对于行业进步的影响,但是信息系统也存在着很多安全隐患。怎样才能够在文本查询以及网页的存储中达到安全高效的目的,一直是研究和关注的重点,这其中的全文检索技术和全文数据库技术成为了国内外学者研究的热点。我国信息的加密以及检索技术在目前的技术条件下发展十分迅速,并且也出现了诸多领先的技术产品,但是全密文高效检索系统的研究仍旧是当前难以解决的科题。这一问题的难点主要集中在如何才能够安全的实现在外包数据库中进行加密数据的检索以及存储。虽然原始数据具有相似性以及有序性,但是在数据加密后,很多原始特性就会失去,因而密文数据的检索难度便会加大。这也是一直困扰着我国检索系统研究技术人员的主要难点,也正是由于密文数据的这一特性,才提高了数据库的安全性。但是如何才能够在这一条件下,提高检索效率,仍旧需要进一步研究。

2系统比较

2.1传统全文索引

对于数据进行加密是一个很自然的趋势,而对密文检索技术的研究也是索引系统发展的一个趋势,其思路便是加密全文索引,从而实现密文检索。而该种加密方式依照加密粒度的不同可以将密文全文检索分成两种等级,即索引词级信息加密以及索引级信息加密。索引级信息索引直接加密密文信息的明文全文索引,在进行信息检索的过程中首先需要进行解密,即针对密文索引部分内容进行全文解密或部分内容的解密,继而在解密的基础上展开信息的检索。通过这种方式虽然能够达到密文全文检索的目的,但是需要解密后才能够检索,从本质分析仍旧是明文信息的检索,因此安全系数较低,存在隐患问题,并且为了实现索引的解密,需要增量构建,会付出较大的代价。而索引词级信息检索则是在原有检索结构的基础上通过相同的加密算法进行索引词的加密,在原有索引词级信息检索的基础上通过加密信息检索以及同一种加密算法,对原有明文索引结构进行加密,从而实现针对原有的明文检索信息进行加密的目的,实现密文全文检索。当前使用的IR模型大多都采用了索引词级密文索引,建立在Tlken词频信息构建以及便宜地址的基础之上,如果这些内容也被加密,那么在查询过程中的大量运算操作影响下,全文索引系统效率必然会大大降低,如果利用明文索引的形式,信息安全级别便会受到影响,因而传统的索引系统还需要进一步改善。

2.2Mimir密文全文索引

全文检索系统的文档资源都是海量的,全文索引都采用增量方式构建,因此采用一种稳定、高效的数据结构构建全文索引对于实现高效的密文全文检索是非常重要的。由于B+树当节点分裂时只影响原节点和父节点,因此对于全文索引的增量构建在插入索引词时可以有效地保持索引B+树的平衡性,保障全文检索效率。在明文全文检索系统中,基于明文索引中的索引词位置的递增关系,检索系统可以方便地判断一个较长的检索词是否出现在某个文档中,因此在全文检索系统中,索引词的位置信息对于较长检索词的判断是非常重要的。与直接加密索引词改造明文索引的方法不同,为了保证密文索引本身的高安全性,Mimir密文全文检索系统中并没有标识每个索引词的位置信息,因此如何实现较长检索词的匹配就成为了一个关键问题。如果能够在密文全文索引中存储文档所有可能出现的检索词,则就可以不需要索引词的位置信息。但是首先不可能穷举用户可能提出所有查询关键词,而且大量地插入较长的组合索引词也会极大地增加密文索引的空间规模,而导致密文全文检索效率的下降。同时由于被查询命中的概率很小,词长太长的索引词对于全文检索的贡献也比较小,因此必要针对Mimir系统特点设计一种不需要索引词位置信息支持的文档归档索引词提取策。

2.3系统排序算法

全文阅读

让MySQL支持中文全文检索

因为中文词间并没有明显的区隔,所以中文的分词是按照字典、词库的匹配和词的频度统计,或是基于句法、语法分析的分词,而MySQL并不具备此功能,所以MySQL对中文全文检索的支持几乎为零。

目前很多网站和系统都提供了全文搜索功能,用户可以输入词或者语句来定位匹配的记录。在后台,可以使用Select查询中的Like语句来执行这种查询,尽管这种方法可行,但对于全文查找而言,这是一种效率极端低下的方法,尤其在处理大量数据的时候。MySQL针对这一问题提供了一种基于内建的全文查找方式的解决方案。开发者只需要简单地标记出需要全文查找的字段,然后使用MySQL方法在那些字段运行搜索,这不仅仅提高了性能和效率(因为MySQL对这些字段做了索引来优化搜索),而且实现了更高质量的搜索,因为MySQL使用自然语言来智能地对结果评级,以去掉不相关的项目。这就是MySQL的全文检索功能。

到MySQL3.23.23时,MySQL开始支持全文索引和搜索。全文索引在MySQL中是一个 FullText类型索引。FullText索引用于MyISAM表,可以在Create Table时或之后使用Alter Table或Create Index在Char、VarChar或TEXT列上创建。对于大的数据库,将数据装载到一个没有FullText索引的表中,然后再使用Alter Table (或Create Index) 创建索引,这将是非常快的。

但是,众所周知,在英文排版时词间是以空格区分的,所以英文的分词是基于空格的。但是涉及到中文等东亚文字就没有这么简单了,因为中文词间并没有明显的区隔,所以中文的分词则是按照字典、词库的匹配和词的频度统计,或是基于句法、语法分析的分词,而MySQL并不具备此功能,所以MySQL对中文全文检索的支持几乎为零。

需求及设计思想

来自NetCraft统计的数据,截至2006年4月份全球网站数量超过8065万个,目前,Linux及Apache在网站操作系统及Web服务器软件市场的份额为62.7%。再来看一份来自中国互联网络信息中心(CNNIC)的调查报告,截至2006年1月1日,全国有69.4万个网站,在线数据库数为29万5400个。由于中国使用LAMP(Linux、Apache、MySQL、PHP)套件的数量没有达到世界平均份额,所以估计有15万左右的基于PHP/MySQL构架的网站,这不包括5万个WAP网站、企业管理系统、教学应用系统等信息管理系统。如果全都算上,在中国使用MySQL的站点(系统)数量应该在15万至18万之间。

MySQL有如此庞大的使用规模,中文全文检索在MySQL的实现将是相当迫切,加之笔者在做一个网站系统的时候也是由于租用服务器硬性环境,不能自由选择数据库或者添加组件,所以只能根据已有的条件进行适应性改良。一个偶然的思路使笔者产生了能否将中文和英文建立特定关联,然后再进行检索呢?答案是可以的。MySQL不支持中文全文检索,但是支持英文全文检索,可以将“中文全文检索”转变为“英文全文检索”,然后再变回“中文全文检索”。那么中文又如何转换成英文呢?思路可以是:中文全文检索拼音全文检索中文全文检索。所以转换的思路如图1所示。

图1 中文全文检索思路

全文阅读

SQL Server 2000 全文检索技术

1 全文检索及其发展状况

随着海量信息的出现以及计算机存储技术的发展,文献数据库正由书目数据库向全文数据库转变。这一转变使得全文检索技术得到空前的发展。

常用的实现全文检索的方法主要有以下两种:

第一种方法是不对数据库建立索引而直接对文章进行匹配的方法。这种方法由于没有建立索引库,因此所占空间较少,但同时正是因为它没有索引库,所以在进行全文匹配时要花费大量的时间。

第二种方法则是一种为全文建立倒排索引库的方法。这种方法可以大大节省检索的时间。但同时,这种方法需要占用一定的存储空间来建立索引库。目前,国内外对全文检索的研究可以说是达到一个高潮。许多研究机构和商业组织都在进行这方面的研究。国际最具影响力的全文检索评估机构当属TREC(Text Retrieval Conference)。它是由美国技术和标准研究所(NIST)和美国高级研究计划局(DARPA)共同举办、自1992年以来每年一次的全文检索评估会议,会议参加者带来研究的检索系统以供专家进行评估。传统的信息单位,图书馆等也开始建立全文数据库,引进各种全文检索技术。一些软件公司,也纷纷推出全文检索软件。国内比较有代表性的如TRS等,而国外比较著名的有下文将要介绍的Microsoft公司开发的SQL Server 2000。

2 在SQL Server 2000中配置全文检索服务

SQL Server是Microsoft公司在原来和Sybase公司合作的基础上推出的一款面向高端的数据库系统。而SQL Server 2000版本则是最新的、大型联机事务处理的新型数据库平台。它继承了SQL Server以前版本的一些强大的优势,如简单易用、具有良好的稳定性和高效性等等。同时,它的功能比以前的版本更加强大,界面更加友好。总之,无论是在功能、安全性、可维护性,还是在易操作性上都较以前版本有了长足的进步。它的全文检索功能配置简单,使用十分方便。我在建立关于信息检索的英文论文题名、文摘数据库的过程中,使用了SQLServer 2000。由于文摘文本单词量平均在500个左右,而且论文记录数量较多,如果不为文摘建立全文索引库,将严重影响检索效率。因此,我使用SQL Server2000的全文检索功能为这个数据库提供了全文检索服务。

2.1 建立全文检索服务的过程如下:

全文阅读

全文搜索引擎检索帮助的改进建议

关键词:全文搜索引擎;检索帮助;改进;建议

摘 要:针对目前全文搜索引擎的检索效率低,引擎提供的检索帮助不够完善的实际情况,结合并借鉴诸多检索网站的优点,提出了将检索帮助置于显见位置、普及和改进高级检索、在全文检索中引入分类体系、对搜索引擎的信息来源网站进行主题分类、增加同义词的检索帮助以及引导用户参与设计检索帮助等方面的改进建议。

中图分类号:G252.7 文献标识码:A 文章编号:1003-1588(2012)03-0031-03

收稿日期:2012-05-06

作者简介:冷玥(1990-),北京大学信息管理系学生。研究方向:信息管理与信息系统。 随着以百度、Google为代表的全文搜索引擎在人们生活中扮演愈加重要的角色,人们也提出了在使用全文搜索引擎进行检索过程中遇到的一些实际问题。其中,检索效率低,需要全文搜索引擎提供更加有效的检索帮助是一个突出的问题。

1 全文搜索引擎的工作原理

全文搜索引擎是真正意义上的搜索引擎,全文搜索引擎的数据库是通过一个叫“网络机器人(英文为Spider)”的软件,将网络上的各种链接自动获取大量的网页信息,并按一定的规则分析整理而形成的。全文搜索引擎的“网络机器人”是一种网络上的软件,遍布Web空间,能够扫描到一定IP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站再到另一个网站去收集网页资料。全文搜索引擎的“网络机器人”为保证收集到的信息资源最新、最全,还会再回访已抓取过的网页。“网络机器人”收集的网页,还要由其他程序进行分析,根据一定的相关度算法进行大量的计算建立起网页索引,这样才能添加到索引数据库中。平时看到的全文搜索引擎,实际上只是一个搜索引擎系统的检索界面,当用户输入关键词进行搜索时,搜索引擎会从庞大的数据库中找到符合该关键词的所有相关网页的索引,并按一定的排列规则返给用户。

综上所述,全文搜索引擎的原理主要分为三个部分:首先是从Internet上抓取网页。利用“网络机器人”系统程序从Internet上自动收集网页,自动访问Internet,并沿着任何网页中所有的统一资源定位符爬到其他网页,再经过多次过程重复,并把爬过的全部网页收集起来;其次是建立索引数据库。利用分析索引系统程序对收集起来的网页内容进行分析,并提取有关的网页信息,通过复杂大量的计算,算出每一个网页针对页面内容中及超链中每一个关键词的相关度,再由这些相关的信息建立起网页索引数据库;最后是在索引数据库中搜索排序。当用户输入关键词搜索后,利用搜索系统程序从网页索引数据库中找出符合所输入关键词的全部相关网页。因为全部的相关网页对所输入关键词的相关度已经计算出来,并对结果进行了优化,然后再由页面生成系统将搜索结果的链接地址和页面内容、摘要等有关内容呈现给用户\[1-3\]。

全文阅读

紧抓全文,检索局部

【考情综述】

“筛选并整合信息”是现代文阅读题中的一种常考题型。通观近年来的此类考场真题,我们不难发现,其命题有两种基本的形式:选择题(大多为5选2的格式)和简答题。如果是选择题,则要求选出分析概括正确的项或错误的项;如果是简答题,大多会用“有哪些……”、“表现在哪些……”、“概括……特点”、“……几种……”等等提问方式。凡是见到“哪些”、“几种”之类的提问字眼,我们马上要明白,回答的时候,决不能只回答一点,一定是多点(至少是两点,一般是三点或四点居多)。“筛选并整合信息”题,大多出现在文学类的文本阅读题中,当然,社科类、论述类、应用类文本阅读题中也会出现“筛选并整合信息”题。以上都是我们必须知晓的考情。

【考纲点击】

高考大纲中明确规定,现代文阅读要能够进行“分析综合”。具体要求是:

1.能够筛选并整合文中的信息。

2.能够分析语言特色,把握文章结构。

3.能够归纳内容要点,概括中心意思。

4.能够分析概括作者在文中的观点态度。

全文阅读

增强全文检索与搜索功能

2008年10月,专注于数据保护和归档领域的美国安腾普公司(Atempo)推出新版本的文件归档解决方案Atempo Digital Archive(ADA)2.0,并首次电子邮件归档解决方案Atempo Digital Archive for Messaging(ADAM)2.0。两款归档产品可紧密结合。至此,Atempo公司拥有了完整的数据长期保存解决方案。

搜索更简单

ADA 2.0可帮助大中型企业简化数据长期保存的流程,能够识别非活动及固定内容的数据,并对其归档,同时提供了重复数据删除功能。Atempo的重复数据删除技术是自己研发的,采用In-line模式。

此外,ADA 2.0还能提供全文索引和搜索功能。利用此功能,管理员可以轻松地在所有文件类型和所有归档介质中搜索特定的文件。此搜索功能对法规遵从和电子发现至关重要。通过全文索引和搜索,用户可以尽快定位并找出所需的归档信息。

“客户的需求是,既要符合法规遵从的要求,又可以快速、方便地获取数据。”ESG分析师Lauren Whitehouse表示,“ESG在最近的数字化归档研究中发现,全文索引和搜索被现有和潜在归档用户列为头号必备功能。ADA 2.0具有出色的全文索引和搜索功能。”

ADAM 2.0是Atempo公司首次的电子邮件归档解决方案。ADAM 2.0能与主流的邮件服务器无缝集成,例如Microsoft Exchange、Lotus Notes及SMTP。企业用户能够轻松地将关键电子邮件数据从主存储迁移到相对廉价的存储介质上。

ADAM 2.0具有的重复数据删除功能,简化了电子邮件的管理,为企业提供了一个容量无限的邮箱,大大提高了投资回报率。

此外,ADAM 2.0的嵌入式全文索引和搜索功能,方便用户快速搜索指定的电子邮件和附件。此搜索功能加上其他丰富的功能选项,使搜索更简单、更快捷。

全文阅读

Mimir全文检索服务系统分析

摘要:在数据检索系统中,基于越来越大的隐私数据量以及越来越高的安全检索要求,Mimir全文检索系统应时而生。Mimir是一种新型的安全索引结构,在B+树结构基础之上,其检索环境为全密文环境,从而保证了信息传递的私密性以及安全性。同传统的检索系统相比,该密文检索系统没有设置词频信息以及词汇位置信息。因而对于已知明文攻击具有良好的抵御性,并对词频统计攻击以及选择明文攻击进行良好的抵御。通过对该种全文检索系统的测试,可以表明其性能具有高度的安全性,并且在实验结果的分析中也进一步说明Mimir密文全文检索的储存空间以及检索时间都具有一定的优势。

关键词:Mimir 密文全文检索 信息安全

中图分类号:TP309 文献标识码:A 文章编号:1672-3791(2015)01(b)-0000-00

计算机网络规模的不断扩张以及各类信息技术不断向前发展,在我国党政机关以及科研单位、国防军工机构以及金融财政部门中,信息的交流量以及存储量都已经累积到了一定的程度,而如何能够在庞大的信息群中快速准确的寻找到自己所需要的信息,是当前数据检索系统建设的重点。并且在这些信息中,有大量信息涉及内容较为敏感,为机密信息,不允许随意的检索以及存储。我国的信息安全技术以及信息检索系统随着计算机网络技术的进步也有所提高,但是如何能够为信息的检索提供更加安全可靠的环境,并实现高效的海量信息安全检索,仍旧是目前科研人员所面临的一大难题。

1 相关工作

目前各行各业都开始意识到信息系统对于行业进步的影响力,但是信息系统也存在着很多安全隐患。怎样才能够在文本查询以及网页的存储中达到安全高效的目的,一直是研究和关注的重点,这其中的全文检索技术和全文数据库技术成为了国内外学者研究的热点。

我国信息的加密以及检索技术在目前的技术条件下发展十分迅速,并且也出现了诸多领先的技术产品,但是全密文高效检索系统的研究仍旧是当前难以解决的科题。这一问题的难点主要集中在如何才能够安全的实现在外包数据库中进行加密数据的检索以及存储。虽然原始数据具有相似性以及有序性,但是在数据加密后,很多原始特性就会失去,因而密文数据的检索难度便会加大。这也是一直困扰着我国检索系统研究技术人员的主要难点,也正式由于密文数据的这一特性,才提高了数据库的安全性。但是如何才能够在这一条件下,提高检索效率,仍旧需要进一步研究。

2系统比较

全文阅读

CSCD引文检索中提高查全率的方法探析

〔摘 要〕CSCD作为国内最具权威性的引文信息源,其引文检索的满意度直接影响了各种科学评价的结果。本文结合实例,就如何提高CSCD引文检索的查全率,从来源文献的完善、检索词的选取及检索词间的逻辑组配等多种角度,提出了探讨性意见。

〔关键词〕CSCD;中国科学引文索引;引文检索;查全率

1 CSCD概况

中国科学引文数据库(Chinese Science Citation Database,简称CSCD)创建于1989年,是我国第一个引文数据库。收录我国数学、物理、化学、天文学、地学、生物学、农林科学、医药卫生、工程技术、环境科学和管理科学等领域出版的中英文科技核心期刊和优秀期刊千余种,目前已积累从1989年到现在的论文记录300万条,引文记录近1 700万条[1]。

CSCD凭借其建库历史最为悠久、专业性强、数据准确规范、检索方式多样、完整、方便等特点,已经在我国科研院所、高等学校的课题查新、基金资助、项目评估、成果申报、人才选拔以及文献计量与评价研究等多方面作为权威文献检索工具获得广泛应用[2],深受用户好评,被誉为“中国的SCI[2]”。

CSCD检索系统除具备一般的检索功能外,还提供新型的索引关系——引文索引,使用该功能,用户可迅速从数百万条引文中查询到某篇科技文献(专著、期刊论文、会议文献、专利、学位论文等)被引用的详细情况,还可以从一篇早期的重要文献或著者姓名入手,检索到一批近期发表的相关文献,对交叉学科和新学科的发展研究具有十分重要的参考价值[3]。

学术论文的收录从论文产出的“量”的角度反映被评价对象的学术价值,而由于学术论文引用行为的目的性,使得引文从“质”的角度反映了被评价对象的学术价值[4]。因此,引文的计量与分析成为科学评价体系中最为重要的组成部分。CSCD作为国内上最具权威性的引文信息源,其引文检索的满意度也必然地成为关乎科研成果评价是否公正、准确的重要环节。

2 CSCD引文检索的基本流程

全文阅读

全文检索系统在网站中的应用研究

摘要:在分析全文检索原理及对比常见的全文检索系统的基础上,利用Java应用开发接口设计了一个文献资源检索系统,实现了准确快捷的分类信息资源及综合文献全文检索。

关键词:全文检索;全文数据库;搜索引擎;文献资源系统

中图分类号:TP391文献标识码:A文章编号:1009-3044(2012)04-0842-04

Application of Full Text Retrieval System on Website

LIANG Yuan-yuan1, HE Wan-wen1, WANG Jia2

(1.Guangdong Meteorological Information Center, Guangzhou 510080, China; 2.Guangdong Meteorological Service Training Center, Guangzhou 510080, China)

Abstract: On the basis of analyzing the Principle of Full Text Retrieval and comparing unusual structure of Full Text Retrieval system, a new design method of Literature Resources System is proposed, which uses Java application development interfaces, the system achieves fast and accurate classification of information resources and comprehensive literature Full Text Retrieval.

Key words: full text retrieval; TRS full text database; search engine; literature resources system

全文阅读

国内重要的全文检索系统功能比较

摘 要:随着信息技术的快速发展,尤其是近年来INTERNET的日益普及和网上信息的激增,大大扩展了人们可利用的信息空间。与此同时,信息检索系统无论从技术上还是服务方式上也都向网络化、可视化、便捷化等方向发展,信息检索的功能也更加丰富。中国知识基础设施工程(CNKI)和万方数据资源系统是目前国内主要的两大全文检索系统,通过深入的分析和比较这两大信息检索系统,对于研究全文检索系统的应用和发展具有一定的参考。

关键词:全文检索系统;功能比较

中图分类号:G633 文献标识码:A 文章编号:1003-2851(2012)-12-0189-01

一、CNKI数据资源系统的概述

CNKI是中国知识基础设施(China National Knowledge Infrastructure)工程,由清华大学中国学术期刊(光盘版)电子杂志社,光盘国家工程研究中心和清华同方光盘股份有限公司联合建立,从1999年3月正式开始实施。该系统为国内的各级政府职能部门、高等院校、科研院所、学术机构等出版的重要会议论文集,内容覆盖理工、农业、医药卫生、文史哲、经济政治法律、教育与社会科学综合等各方面。

KI全文数据库的种类

目前,中国的网络版数据库每日更新。其主要的数据库包括以下几种:

(1)中国期刊全文数据库。

全文阅读