首页 > 范文大全 > 正文

主题搜索引擎中网络爬虫的搜索策略研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇主题搜索引擎中网络爬虫的搜索策略研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

【摘 要】以何种策略来访问网络资源是搜索引擎研究的热点之一。通过比较搜索引擎的搜索策略,总结提高搜索效率的因素,使人们对网络爬虫的搜索算法有所了解,,以便更快捷获取自己需要的信息。

【关键词】网络爬虫 搜索策略 搜索引擎

一、引言

信息时代的发展,让越来越多的高新技术应用到网络中去。随着网络信息数据的海量增长,传统的搜索引擎功能已与当前人们多元化的信息需求不匹配,人们对于搜索引擎的要求更加细致、精确,传统的搜索引擎已无法满足人们个性化信息检索服务的需求[1]。近年来,主题搜索引擎应运而生。所谓主题型搜索引擎,就是以构筑某一专题领域或学科领域的因特网信息资源库为目标,智能地在互联网上搜集符合设定专题或满足学科需要的信息资源[2]。在主题搜索引擎的研究中,网络爬虫搜索策略主要研究以何种搜索策略访问Web以提高效率,这是当前研究的热点问题之一。网络的动态性、异构性和复杂性需要网络爬虫有效地实现网页信息的读取,让用户及时获得所需要的信息。

二、网络爬虫的概念

网络爬虫的概念有广义和狭义之分。狭义上的概念是指根据超链接和W EB文档检索万维网信息空间;广义上的概念是利用标准的HTTP协议检索Web文档,使用HTTP协议的软件称之为网络爬虫。网络爬虫能够自动提取网页??程序,能够从万维网搜索引擎下载网页,是搜索引擎的重要组成部分。网络爬虫不依靠用户干预,即可实现自动“爬行”搜索。

三、聚焦搜索策略

网络爬虫的主题搜索引擎能够获取到的网页一般要多于100万面,同时获取网页用时较长,有时需要等待十秒以上的时间。随着人们对于搜索要求的提高,这些通用搜索引擎与人们的要求不相适应。因此,出现了聚焦爬虫策略,能够定向的获取主题网页,只挑出所需的特定主题页面来进行定向访问,图1即可显示聚焦爬虫的应用策略及规则。

图1 聚焦搜索策略

聚焦爬虫给下载页面分配一个分数,然后根据得分排序,放入到确定的队列中去。通过队列对页面进行分析,以寻找最佳的页面。网络爬虫搜索策略的关键是如何评价链接,以显示链接的“重要性”,从而确定不同的主题搜索策略。聚焦搜索策略主要包括基于内容评价的搜索策略、基于链接结构评价的搜索策略、基于巩固学习的聚焦搜索策略和基于语境图的聚焦搜索策略。基于巩固学习的聚焦搜索策略,是在强化学习的模型中,通过几个不相关页面的访问,获得主题页面的模式。把获得的主题相关页面称为未来的回报,未来回报的预测值表示未来回报的价值,用Q值来表示。这种方法的核心是要学会如何计算链路的Q值,根据未来的返回值,确定主题搜索目标的正确性。基于语境图的聚焦搜索策略,能够构建出WEB的语境图,来估算与目标页面的距离。但这种方式有一定的局限性,不能够表现出客观的WEB结构。

四、宽度和深度优先搜索策略

搜索引擎所用的第一代网络爬虫主要是基于传统的图算法,如宽度优先或深度优先算法来索引整个Web,一个核心的URL集被用来作为一个种子集合,这种算法超的最终的目标是跟踪覆盖整个Web。这种策略通常用在通用搜索引擎中,因为通用搜索引擎获得的网页越多越好,没有特定的要求.如图2所示。

图2传统的图算法

网络爬虫的搜索引擎主要是基于传统的图算法,通过索引整个Web,由一个核心的URL集被用来作为种子集合,算法递归地跟踪超链接到其他的页面,在运行中,通常不需要顾及页面的具体内容,因为最终的目标是要在整个W EB中实施跟踪策略,覆盖面通常是用在一般的搜索引擎中,因对一般的网页搜索引擎的要求是能够尽可能多的获得返回的页面,而没有相应的主题的要求,如图2为传统的图算法。其主要的方法包括宽度优先搜索算法和深度优先算法。在进行Web主题信息提取的实施过程中,所提取的URL已经通过了主题相关性判别。尽管如此,所提取的页面内容还是可能与设定的主题相差甚远。这种现象将影响主题页面信息的提取准确率。因此,在页面提取之后,需要对页面进行主题相关性判别,以滤掉主题无关页面。深度优先搜索所遵循的搜索策略是尽可能“深”地搜索图。搜索的过程一直进行到所有节点已发现并确定源节点是否是最新的。如果还有未被发现的节点,然后选择源节点之一,并重复上述过程,直到所有的节点都被发现。

五、小结

随着人们对个性化信息检索服务需求的日益增长,面向主题的搜索引擎应运而生。在主题搜索引擎中,网络爬虫以何种策略访问Web能提高搜索效率,是近年来主题搜索引擎研究中的主要问题之一。面对人们越来越高的信息检索要求,各种专业主题搜索引擎应运而生,以满足不同用户群体的个性化需求。基于主题的采集的核心问题就是采集时向主题页面群的引导和对无关页面的过滤问题,需要进一步研究出新算法。

参考文献:

[1]林彤,江志军.Internet的搜索引擎[J].计算机工程与应用,2000,36(15):160-163.

[2]李蕾.中文搜索引擎概念检索初探[J].计算机工程与应用,2000,36(6):1-11.

[3]戚欣.基于本体的主题网络爬虫设计[J].武汉理工大学学报,2009,31(2):138-141.

[4]乌岚. 基于多样约束模型的远程教育数据库优化查询算法[J].科技通报,2013, 29 (1):155-160.

作者简介:

徐晓琳(1985-),女,湖北荆州人,汉族,硕士研究生学历。