开篇:润墨网以专业的文秘视角,为您筛选了一篇在舆情监测中“网络爬虫”的应用探讨范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!
摘 要:互联网技术的迅速发展,使得其在当今社会中承载传递的信息日趋增大,在给人们的生活带来方便的同时,也给相关领域的网络舆情管理工作带来了一定压力。爬虫技术是互联网搜索引擎通过一定的指令性程序,对网页进行信息提取技术,是当前有针对性地进行舆情的基础要素。以网络爬虫技术在舆情分析中的应用为中心展开讨论,介绍了互联网舆情检索技术的基本构成,分析了爬虫技术的特点,提出了优化网络爬虫技术的相关方案,同时通过实例进行了验证,具有一定的借鉴价值。
关键词:网络舆情;网络爬虫;网络资源;爬虫测速;主题更改
中图分类号:TP391.3
21世纪是信息科学技术飞速发展的世纪,互联网在生活中的应用越来越广泛,尤其是随着智能手机逐渐普遍,人们能够通过移动互联网更加便捷地获得外部资讯。网络舆情是当前网民们针对热点社会事件以及社会政治经济状况等内容反映出的态度总和。“管中窥豹,时见一斑”,可以说网络舆情就是当前社会现状的放大镜,针对这些态度思想及政治倾向的社会舆论信息的收集整合,是分析社会动向、研究人民需求的重要手段。
互联网引擎搜索技术并未完全成熟,在很多具体环节仍旧存在着缺点,严重制约着网络舆情监测工作的全面展开。传统的网络爬虫技术在进行网络信息的获取时,对其内容的处理精确性和不足,存在着无用信息过多和部分关键信息缺失的情况。因而,针对网络爬虫技术进行研究,提出更为有效的优化措施是一项十分必要的工作。
1 互联网舆情检索技术
现阶段建设的网络舆情监测系统基本涵盖了所有互联网领域的基本技术,是一项复杂而庞大工程。但从系统的功能实现上看,舆情监测系统的关键技术是由互联网信息采集技术和文本信息抽取技术构成的。
1.1 互联网信息采集技术简介
作为互联网搜索引擎获得信息的基本技术,信息采集技术的实现方法包括元搜索和网络爬虫两种模式。这也是当前网络舆情监测信息获得的主要途径。
所谓元搜索技术,就是在检索过程中将多个网络搜索引擎以串联的方式运行,监测方提交的搜索条件被初步处理后,分送给这些串行的搜索引擎,由其各自完成对相应数据库信息的检索工作,在获得初步搜索结果后,再将这部分信息进行二次加工,通过去重、排序、过滤等方式完成冗余信息的处理。元搜索技术在检索信息全面性方面要明显优于单搜索引擎技术。同时,元搜索技术在进行信息检索时并不需要对所有互联网信息进行搜索,具有明显的效率优势。
1.2 网页信息抽取及预处理技术
作为网络信息获取的最终步骤,对检索程序获得的网页信息进行抽取和预处理是搜索信息全面的重要影响因素。所谓网页信息抽取及预处理技术是将网络信息中包含的自然语言根据检索条件进行提取,从中获得需要的实体、关系、事件等要素,最终并用易于理解接受的规范化形式对结果进行记录和展示。现阶段一个成熟的互联网网站,其页面通常包括导航栏、正文标题、正文内容、相关链接、推广信息、版权公告等。而在这些内容中,真正吸引用户的是正文标题和正文内容,也就是切合用户需求的主体信息。在获取网络信息的过程中尽量获得这些主体内容,对其他次要信息进行选择性忽略正是网页信息抽取及预处理技术重要的功能。
2 舆情监测网络爬虫技术简介
作为当前重要的互联网信息采集技术,网络爬虫(We-bCrawler)技术在实际应用中收到了较好的效果。当前各领域构件的舆情采集系统中广泛采用的是Heritrix网络爬虫,这一开源程序允许用户的自主修改移植。Heritrix主要有三大部件:范围部件、边界部件、处理器链。其中,范围部件控制抓取的URL入队过程;边界部件则对选定的URL的收集情况进行监测,进而选择下一个URL,排除已处理URL;处理器链则可视为URL处理器,其工作结果会反馈给边界部件。
网络爬虫的工作流程是从未访问URL队列中选取目标并开始爬行,通过URL的指向作用,引导程序识别目标网页,通过事先认可的网络协议将网页内容爬取抽取出来,然后解析内容其中包括目标网页内的新URL,并将这部分URL添加进未访问列表,完成爬取后获取的内容存放到本地网页库内。
3 提高网络爬虫在舆情监测应用水平的措施
网络爬虫的本质是能够使实现网络信息自动提取代码程序,是网络搜索引擎功能的主要实现手段。网络爬虫包括通用爬虫和面向主题爬虫两种,当前网络舆情监测使用的面向主题网络爬虫程序,会通过网页分析算法对非设定主题链接进行排除过滤,提高了搜索的精确性。当前,网络舆情监测中的面向主题爬虫技术的主要研究对象的行业领域的URL搜索策略问题。
3.1 改善爬虫网络利用率的解决方案
网络爬虫的利用率是当下舆情监测工作的重要限制因素,高效的爬虫利用能够更为便捷地获得全面而准确的信息。
为了准确掌握爬虫工作的效率,我们在爬虫中加入测速的方法,对爬虫抓取速度进行监测和工作特征数据进行分析。根据监测结果,在抓取速度较慢的阶段,采取相应措施进行修正,保证程序对网路资源的高效利用。这一解决方案的具体实现步骤如下:
(1)爬虫抓取速度监控。抓取速度是进行衡量信息获取水平的重要衡量因素,影响爬虫的网页抓取速度主要有两个因素,分别是抓取页面的大小和抓取这些页面所耗费的时间。因而,可以根据基本的换算关系定义网络爬虫抓取速度B:B=PT,式中:T为爬虫进行抓取的时间间隔;P代表该时间间隔内抓取页面的大小。
(2)爬行策略更改。40%正常水平的抓取速度是十分低效的,这时必须采取相应的措施进行解决。常见的措施主要包括:减少爬虫的线程数;暂停当前爬虫的运行,选择适当的时间继续爬行;更换爬行网站。
3.2 改善爬虫主题覆盖率的解决方案
当前的社会热点层出不穷,具有一定的突然性,同时在人们的讨论和交流中会进一步发酵,产生的信息量很大。为了保证网络舆情监测工作的顺利进行,就要求爬虫程序具有较高的抓取的覆盖率。另外,在进行网页内容的抓取过程中,爬虫程序需要执行网页与主题相关度的计算,会影响爬行速度。所以在进行网络爬虫抓取优化时,通常会使用在传统爬虫中加入主题更改模块的形式,即保证了抓取速度的同时也提高了主题覆盖率。
3.3 系统设计与测试
通过以上分析可知,提高爬虫系统工作效率的关键是在其内部添加测速模块和主体更改模块,由此可完成设计方案的优化。该爬虫在传统爬虫的基础上添加了爬虫测速模块和主题更改模块。
4 结束语
网络爬虫技术是当前舆情监测系统中使用的重要技术,在网页内容获取方面发挥了重要作用。限制这一技术进一步发挥作用的主要原因是爬虫程序的网络资源利用率的问题。同时,网络舆情监测检索突发性和大数据性特征,要求爬虫抓取信息的过程更为迅速,主体覆盖面也要更广。本文通过在传统爬虫中加入了爬虫测速监控模块和主题更改模块的形式,进行了抓取速度和覆盖率的监测实验,其结果表明,这一优化方案有效提高了爬虫程序的执行效率和信息获得的全面性,是一种值得认可的检索技术。
参考文献:
[1]王桂梅.主题网络爬虫关键技术研究[D].哈尔滨工业大学,2009.
[2]周巍巍.网络爬虫网页库智能更新策略分析与研究[J].电脑知识与技术,2010(31).
作者单位:湖南民族职业学院,湖南岳阳 414000