首页 > 范文大全 > 正文

基于Nutch和Solr的基础教育垂直搜索引擎的实现

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于Nutch和Solr的基础教育垂直搜索引擎的实现范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:该文描述了一个基于nutchsolr实现的基础教育垂直搜索引擎,给出了系统实现框架,其可以为中小学师生提供专业的资源检索服务。

关键词:Nutch;Solr;基础教育;搜索引擎;垂直搜索

中图分类号:TP393文献标识码:A文章编号:1009-3044(2012)04-0975-02

Implementation of Elementary Education Vertical Search Engine Based on Nutch and Solr

WANG Xiao-zheng, HOU Qing

(College of Mathematics & Information Technology, Nanjing Xiaozhuang University, Nanjing 211171, China)

Abstract: This paper describes the implementation of elementary education vertical search engine based on Nutch and Solr, and gives the system architecture, which can provide professional resources search service for the teachers and students of primary and secondary schools. Key words: Nutch; Solr; elementary education; search engine; vertical search

计算机和网络技术的发展使信息的与共享不再受时间、空间的限制,同时也给我们带来了“信息过载”的问题。面对信息的海洋,用户试图通过浏览器来发现信息已经变得非常困难,往往花费很多时间却所获甚少。Google、百度等综合性搜索引擎虽然强大,但人们在使用这些搜索引擎的时候,经常发现搜索出的资料也难以尽如人意,排在搜索结果前面的许多资源,根本不是自己所需要的。

本文从基础教育应用的需求考虑,实现了一个利用Nutch和Solr的建立面向基础教育领域的垂直搜索引擎,帮助广大中小学校师生及时获取基础教育领域相关知识。

1相关技术介绍

1.1 Nutch简介

Nutch是基于Lucene的开源搜索引擎,是一个完善的应用程序,实现了抓取、索引、检索的一体化。由于商业搜索引擎允许竞价排名,这样导致索引结果并不完全是和站点内容相关的,而Nutch搜索结果能够给出一个公平的排序结果,这使得Nutch对垂直搜索、学术搜索和政府类站点的搜索等领域来说是个好选择。

1.2 Solr简介

Solr现在是Lucene的一个子项目。Solr是一个开源的企业级搜索服务器,底层使用易于扩展和修改的Java来实现,服务器通信使用标准的HTTP和XML。主要特性有:强大的全文检索功能,高亮显示检索结果,动态集群,数据库接口和电子文档(Word,PDF等)的处理,具有高度的可扩展,支持分布搜索和索引的复制。

1.3 IKAnalyzer介绍

IKAnalyzer是一开源的、基于java开发的轻量级中文分词工具包。它是以开源项目Luence为应用主体,结合词典分词和文法分析算法的中文分词组件。采用了特有的“正向迭代最细粒度切分算法”,支持细粒度和最大词长两种切分模式。

1.4实现方案

在该搜索引擎实现方案中,虽然Nutch本身具有搜索功能,但把Solr作为处理搜索结果的源和入口,能够有效地减轻对Nutch的搜索负担,让Nutch负责它最擅长的工作:抓取(crawling)、提取(fetching)和解析(parsing)内容。使用Solr作为搜索后端,可以充分使用Solr Server的搜索特性:查询拼写检查(spell-check),搜索提醒(suggestion),数据复制(data-replication)及查询缓存等。由于Solr本身中文分词功能较弱,因此引入IKAnalyzer来增强其中文分词功能。该搜索引擎框架可概括为Nutch+ Solr+ IKAnalyzer。

2具体实现方法

系统环境:Ubuntu 10.04

所需软件及安装顺序:jdk-6u26-linux-i586.bin、tomcat-6.tar.gz、nutch-1.4.tar.gz apache-solr-core-3.5.0.jar、IKAnalyzer3.2.8.jar。

3结束语

由于该系统还处于试验阶段,很多地方还需不断完善。如单机爬行操作很耗时,需进一步构建分布式搜索引擎。Nutch的核心部分目前已经被重新用Map Reduce实现了。Map Reduce是一个分布式的处理模型,最先是从Google实验室提出来的。因此,基于Nutch构建分布式搜索引擎并不是一件很难的事。随着该基础教育垂直搜索引擎的不断完善,将能够提供强大的基础教育资源专业信息检索能力,有助于广大师生及时获取基础教育相关知识并为他们提供专业指导。

参考文献:

[1]张斌,周尔宁.基于Nutch的分布式纺织垂直搜索引擎研究[J].电脑知识与技术,2009,5(21):5785-5787.

[2]申晋.基于Lucene和Nutch的林业垂直搜索引擎的研建[J].农业网络信息,2008(4):16-19.

[3]杨晓江,李丽娟,田俊华等.面向基础教育的Web资源垂直服务体系研究[J].中国远程教育,2006(7):53-57.

[4]徐健,张智雄.基于Nutch的Web网站定向采集系统[J].现代图书情报技术,2009(4):1-6.