首页 > 范文大全 > 正文

Mimir全文检索服务系统分析

开篇:润墨网以专业的文秘视角,为您筛选了一篇Mimir全文检索服务系统分析范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:在数据检索系统中,基于越来越大的隐私数据量以及越来越高的安全检索要求,mimir全文检索系统应时而生。Mimir是一种新型的安全索引结构,在B+树结构基础之上,其检索环境为全密文环境,从而保证了信息传递的私密性以及安全性。同传统的检索系统相比,该密文检索系统没有设置词频信息以及词汇位置信息。因而对于已知明文攻击具有良好的抵御性,并对词频统计攻击以及选择明文攻击进行良好的抵御。通过对该种全文检索系统的测试,可以表明其性能具有高度的安全性,并且在实验结果的分析中也进一步说明Mimir密文全文检索的储存空间以及检索时间都具有一定的优势。

关键词:Mimir 密文全文检索 信息安全

中图分类号:TP309 文献标识码:A 文章编号:1672-3791(2015)01(b)-0000-00

计算机网络规模的不断扩张以及各类信息技术不断向前发展,在我国党政机关以及科研单位、国防军工机构以及金融财政部门中,信息的交流量以及存储量都已经累积到了一定的程度,而如何能够在庞大的信息群中快速准确的寻找到自己所需要的信息,是当前数据检索系统建设的重点。并且在这些信息中,有大量信息涉及内容较为敏感,为机密信息,不允许随意的检索以及存储。我国的信息安全技术以及信息检索系统随着计算机网络技术的进步也有所提高,但是如何能够为信息的检索提供更加安全可靠的环境,并实现高效的海量信息安全检索,仍旧是目前科研人员所面临的一大难题。

1 相关工作

目前各行各业都开始意识到信息系统对于行业进步的影响力,但是信息系统也存在着很多安全隐患。怎样才能够在文本查询以及网页的存储中达到安全高效的目的,一直是研究和关注的重点,这其中的全文检索技术和全文数据库技术成为了国内外学者研究的热点。

我国信息的加密以及检索技术在目前的技术条件下发展十分迅速,并且也出现了诸多领先的技术产品,但是全密文高效检索系统的研究仍旧是当前难以解决的科题。这一问题的难点主要集中在如何才能够安全的实现在外包数据库中进行加密数据的检索以及存储。虽然原始数据具有相似性以及有序性,但是在数据加密后,很多原始特性就会失去,因而密文数据的检索难度便会加大。这也是一直困扰着我国检索系统研究技术人员的主要难点,也正式由于密文数据的这一特性,才提高了数据库的安全性。但是如何才能够在这一条件下,提高检索效率,仍旧需要进一步研究。

2系统比较

2.1传统全文索引

对于数据进行加密是一个很自然的趋势,而对密文检索技术的研究也是索引系统发展的一个趋势,其思路便是加密全文索引,从而实现密文检索。而该种加密方式依照加密粒度的不同可以将密文全文检索分成两种等级,即索引词级信息加密以及索引级信息加密。

索引级信息索引直接加密密文信息的明文全文索引,在进行信息检索的过程中首先需要需要进行解密,即针对密文索引部分内容进行全文解密或部分内容的解密,继而在解密的基础上展开信息的检索,通过这种方式虽然能够达到密文全文检索的目的,但是需要解密后才能够检索,从本质分析仍旧是明文信息的检索,因此安全系数较低,存在隐患问题,并且为了实现索引的解密,需要增量构建,会付出较大的代价。

而索引词级信息检索则是在原有检索结构的基础上通过相同的加密算法进行索引词的加密,在原有索引词级信息检索的基础上通过加密信息检索以及同一种加密算法,对原有明文索引结构进行加密,从而实现针对原有的明文检索信息进行加密的目的,实现密文全文检索。当前使用的IR模型大多都采用了索引词级密文索引,建立在Tlken词频信息构建以及便宜地址的基础之上,如果这些内容也被加密,那么在查询过程中的大量运算操作影响下,全文索引系统效率必然会大大降低,如果利用明文索引的形式,信息安全级别便会受到影响,因而传统的索引系统还需要被进一步改善。

2.2 mimir密文全文索引

全文检索系统的文档资源都是海量的,全文索引都采用增量方式构建,因此采用一种稳定、高效的数据结构构建全文索引对于实现高效的密文全文检索是非常重要的.由于B+树当节点分裂时只影响原节点和父节点,因此对于全文索引的增量构建在插入索引词时可以有效地保持索引B+树的平衡性,保障全文检索效率。

在明文全文检索系统中,基于明文索引中的索引词位置的递增关系,检索系统可以方便地判断一个较长的检索词是否出现在某个文档中,因此在全文检索系统中,索引词的位置信息对于较长检索词的判断是非常重要的。与直接加密索引词改造明文索引的方法不同,为了保证密文索引本身的高安全性,Mimir密文全文检索系统中并没有标识每个索引词的位置信息,因此如何实现较长检索词的匹配就成为了一个关键问题。

如果能够在密文全文索引中存储文档所有可能出现的检索词,则就可以不需要索引词的位置信息。但是首先不可能穷举用户可能提出所有查询关键词,而且大量地插入较长的组合索引词也会极大地增加密文索引的空间规模,而导致密文全文检索效率的下降。同时由于被查询命中的概率很小,词长太长的索引词对于全文检索的贡献也比较小,因此必要针对Mimir系统特点设计一种不需要索引词位置信息支持的文档归档索引词提取策。

2.3系统排序算法

全文检索系统大多都被应用与海量文档检索以及处理中,因而同一条查询条件相符的,全文检索系统中需要处理的文档都是海量的,对于一个查询条件来说命中的文档数量也非常大,结果排序就是将用户最感兴趣的内容优先呈现给用户,对于一个全文检索系统的可用性来说是非常重要的。目前的全文检索系统中通常都采用基于检索关键词词频的评分机制。

2.4系统效率以及安全性分析

Mimir实现不脱密的密文全文检索服务,其安全性和搜索效率都非常重要,本节对Mimir密文全文检索系统的检索效率和安全性进行理论分析。

Mimir系统有3种数据需要加密处理:索引词、索引指针和文档本身。为保障Mimir系统的安全性,以上都采用成熟的加密算法。Mimir对文档进行归档操作时,索引指针和密文文档的加密量相对很小,而密文全文索引中分词数量很大,因此会产生大量的索引词加密开销。

3 结语

在目前海量信息检索以及安全环境下,Mimir密文检索系统意义重大,尤其在密文检索系统效率提升方面具有跨越式的意义。该类系统的研究成果参考价值巨大,并且通过进一步的研究,针对系统中检索环境下的密钥管理以及密文检索功能下访问控制技术都会相应配置完善。并且Mimir还将进一步添加密文索引风险评估系统,从而提高索引系统的风险抗性,从而保证密文检索的安全度。

参考文献

1.黄汝维,桂小林,余思,庄威.云环境中支持隐私保护的可计算加密方法[J].计算机学报,2011,34(12)

2.宋伟,彭智勇,程芳权,李文海,胡文斌,任毅.可信数据库环境下面向服务的自适应密文数据查询方法[J].计算机学报,2010,33(8)