首页 > 文章中心 > 网络舆情监测

网络舆情监测范文精选

开篇:润墨网以专业的文秘视角,为您筛选了十篇范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

网络舆情监测系统研究

1研究现状

舆情监测工作由来已久,最早的网络舆情监测手段也是基于传统的手工模式。通过雇佣大量工作人员对指定的监测页面进行监测,使用人工方式,对某些重点监测词汇进行频率统计来寻找舆情动向。然而随着互联网的蓬勃发展,传统的方式已经落伍,要对网络舆情进行监测,就必然要依托于一个功能强大的互联网舆情监测系统进行。伴随着网络的发展,国内外已有一系列的网络舆情监测系统正式投入使用,这些系统通常是依托于政府部门、学术机构以及企业媒体建设的,分别基于不同的需求(行政决策的、学术研究的、商业开发的),从不同的角度对网络舆情进行监测。最早的相关研究始于TDT(TopicDetectionandTracking)项目[2],它是美国国防高级研究计划局主导的,旨在从新闻网页中找到未知话题并对话题进行追踪。该项目历经多年发展演变,其核心研究内容分为报道切分、话题追踪、话题监测、首次话题报告以及关联监测这5个方面的内容[3]。在我国,由于中西文在文本挖掘、分词方面的巨大差异,以及社会经济等方面的差异,基于汉语的网络舆情监测研究起步较晚[4]。目前,学院型的舆情研究机构主要有北京大学中国国情研究中心、中国人民大学舆论研究所、上海交通大学舆情研究实验室等[5]。

2网络舆情监测系统框架

从过程上看,网络舆情监测的本质是从网络上获取数据、分析数据以及按用户需求呈现分析结果的过程,因此在系统实现时,从数据流向的角度,可以把一个网络舆情监测系统划分为数据获取模块、数据预处理模块、数据分析模块以及结果呈现模块,整个系统的结构如图1所示。

2.1数据获取模块

数据获取模块的主要功能是全天候的、自动的从整个网络上,或者某些特定网络上获取进行舆情分析的原始数据。在自动获取数据的过程中,有两方面的要求。一方面,是获取的相关舆情数据相对于整个数据的覆盖率的要求,即要尽可能地获取尽量全面的原始数据;另一方面,则是对数据准确率的要求,即所需数据要尽可能贴近用户关心的舆情热点。只有在覆盖率和准确率全部达标的情况下,才能更好地对网络舆情进行分析预测。目前,常见的数据获取方式有两种:(1)网络爬虫方式。互联网的一项基本协议是HTML协议,基于该协议,网络中大量资源以统一资源定位符(URL)相互联系,构成一个有机整体。网络爬虫从一个预先定义好的URL列表开始,依次访问该列表上的所有页面进行数据抓取,并分析当前访问页面中的其他URL,选择符合要求的URL加入待访问队列,试图以深度或者广度的方式对限定范围的网络进行遍历式的访问,以获取该网络的所有信息。(2)元搜索采集技术。搜索引擎是大多数网民访问网络的入口,目前有众多的搜索引擎服务提供商,其检索过程有不同的侧重方向,检索结果也各不相同。可以在若干不同的搜索引擎上部署元搜索引擎,通过对下层引擎的调用返回多个搜索结果,并基于一定的算法对不同结果进行选择。使用该方法能够有效地提高数据获取的覆盖率和准确率,且系统构建较为简单。

2.2数据预处理模块

Web页面的数据有其自身特点,它是一种半结构化的数据,整个数据包括内容和描述两个部分,且两者混杂在一起。直接通过数据获取模块抓取的页面内容复杂,存在大量噪音,文本内容非结构化,无法直接进行下一步的分析工作,对这些原始页面必须进行一次数据预处理。预处理的过程大体上分为两步:(1)进行网页内容提取。将用户关心的内容(例如新闻的内容、对主题的讨论等)从噪音(如页面上的广告、导航以及其他超链接)中找出。将页面转化为一个HTML标签树,根据已有知识建立提取规则,最后依据规则对页面内容进行提取。如何建立一个合适的规则是提取工作的核心,可以针对某类特定的网站建立专属规则,也可以针对一般页面的结构特点建立一些通用规则。(2)进行中文文本分词。自然语言中,词是最小的独立活动的语言成分。要对页面提取获得的非结构化连续文本进行处理,首要的工作就是对其进行分词。分词是将输入的一段文本分解为符合逻辑的一组单词的过程,例如输入“羽毛球拍”时,依照某种分词算法就可以初步将其分解为羽毛、羽毛球、球拍3个单词。最简单的分词算法以词典为基础,通过对字符串匹配完成初步工作,之后辅以少量词法、语法和语义规则;另一种思路是基于统计进行分词,统计文本中相邻字同时出现的频率,频率越高就越可能构成一个词;还有一些基于规则的分词算法,通过模拟人对句子的理解过程,对当前句子的语法、句法、词法进行分析推理,能够自动补全未登录词条。

全文阅读

“网络水军”泛滥与网络舆情监测的完善

在“网络水军”操作舆论的背景下,目前的舆情监测机构很难甄别出哪些舆论热点话题是由“网络水军”制造出来的。诸如“贾君鹏”、罗玉凤等事件、人物均为有意炒作策划,是商业味道极浓的他生舆论,可无一例外地成为年度热点事件、人物,并荣登权威部门的舆情监测年度报告。然而这些都是与事实存在模糊关系甚至是与事实不相符的。

网络舆情监测以监测社会民生舆论为主,但“网络水军”往往将商业话题变相说成社会生活话题,以此来吸引眼球。这样,刻意制造的他生舆论就混杂在舆论阵营中,表达了大众的非本意舆论,掩盖了自然形成的社会舆论。如此一来,网络舆情监测统计的舆论数据就会失真,并对学术研究机构和政府造成误导。而所有这些,无疑也会降低网络舆情监测的公信力。

网络舆情监测作为一种严谨的科学体系,可以利用当今先进的计算机与网络技术,通过先期技术处理和后期操作对网络舆情进行追根溯源,通过考量舆论的来源甄别出网络舆论热点的真伪。鉴于当今网络水军广泛存在的现实,笔者提出以下几种方案完善网络舆情监测工作的舆情筛选功能。

1.情感词分析方法

“网络水军”在网上的帖子往往是非理性的、带有强烈感彩的,或是极力美化雇主的产品或服务,或是极力贬低雇主竞争对手的产品或服务,整体上倾向性比较强烈。因此,我们就可以通过对论坛或贴吧用户的帖子的文本分析,主要是对情感词的分析,来判断这个用户是不是“网络水军”,以及他所主导的舆论是不是有意制造的他生舆论。

通过倾向性分析可以明确网络传播者的意图和倾向,通俗地说,文本舆情描述的是文本所传递的情感。对文本舆情进行分析,实际上就是试图根据文本的内容提炼出作者的情感方向。网络文本的倾向性分析就是挖掘网络文本内容蕴涵的各种观点、喜好、态度、情感等非内容或非事实信息。①

此前已有研究制定了一套完整的方法和公式,其基本思路是:首先进行互联网信息采集获得数据,然后通过网页页面分析技术抽取元数据(比如信息者、信息时间、信息来源等)和正文信息,采用机器学习方法对正文信息进行情感分类,判断其为正面信息或为负面信息。经过统计后,在特定的一段时间内,当某人发表的正面或者负面信息比重超过预设阈值时,则认为其为“网络水军”。②

设定特定的时间段,信息者AN篇有关主题P的信息,其中正面信息X篇,负面信息Y篇(X+Y≤N)。设阈值为T(0

全文阅读

网络监测与网络舆情论文

1网络舆情信息主要包含的内容

1.1重大事件。所有的重大事件的发生都会在很短的时间内迅速在网络上传播开来,与事件发生有关的各个报道,新闻,各方面的消息和热点都会在各个网站上铺天而来,在短时间内就会出现大量的评论,跟贴和发帖等等。

1.2突发事件。量变到质变的过程是突发事件产生的一个重要阶段,例如“日本大地震后我国的抢盐事件”,在发生初期,并没有引起太多人的关注,只是在民间出现了许多的“谣言”,但其迅速扩散,就会影响到广大群众,并有可能造成整个社会的恐慌。

1.3国家的经济工作和重点工作。网络上的主流的意识形态还是需要各个新闻媒体来传播,需要政府和组织来引导,继而形成被大众所接受的健康向上的主流舆论,政府部门要引导人民群众,最大限度地在广大人民群众中形成共识,来统一不同领域,不同阶级中的意识和信念,形成了社会的主流言论。

1.4一些关系国际民生的重大政策的改革更容易引起人们的广泛关注,形成网络舆情热点事件。

1.5和大多数人民自身利益密切相关的事件。因为舆情的一个重要作用就是人民群众对自身利益的诉求表达的一个重要渠道。在群众利益受到伤害时,他自然需要一个平台来寻求帮助和进行诉求,网络就是这样一个很好的舆情平台。

2网络舆情监测系统的设计

网络舆情监测系统包含三个层次,自下而上分别为信息采集层、信息挖掘层、信息服务层。每一层为其上一层提供基础数据,以及为进一步分析奠定基础。

全文阅读

网络舆情监测技术研究及应用

摘 要:随着互联网的普及,中国已成为世界第一大网民国家,网络的重要性凸显,而网络舆论热点也层出不穷,“毒跑道”事件、魏则西事件、大学生裸贷事件……都是通过网络进行第一时间传播,互联网已经成为信息交流和知识共享的最好平台,被公认为是继报纸、广播、电视之后的“第四媒体”,成为反映社会舆情的主要载体之一 。网络舆论一旦被错误地控制和引导,将成为影响社会稳定的重大隐患。因此,如何应对网络舆情,目前正在考验各级党政机关及企事业单位。

关键词:互联网;网络舆论;舆情

中图分类号:G203 文献标识码:A 文章编号:1671-2064(2017)07-0195-01

1 引言

当前,互联网已成为汇集舆情、畅通民意的重要平台和渠道。政府可以通过对网络舆情的搜集与分析来判定民众的意愿,从而来帮助自己更好地决策,也可以更好地应对一些社会突发危机事件;企事业单位可以通过对网络舆情的分析来有效保护和提升公司品牌形象,消减负面信息对公司的影响。

2 网络舆情监测技术重要性及必要性

网络舆论的影响是巨大的,其中大部分是正面的影响,但是如果不对网络舆情加以监控与引导,一旦被错误利用,就可能产生严重的负面影响,以致危害个人安全,甚至是危害国家安全,如近年来娱乐圈频发的抑郁症自杀事件;互联网是完全开放的虚拟的公共空间,每个网民都可以成为网络信息的者,每个网民都有选择网络信息的自由,网络舆情是网络与一般社会舆情结合的产物,网络舆情除具有社会舆情的一般特征外,还具有其它的特点:如网民在网上信息是匿名的,网民会直接表达自己的观点,反映真实的情绪;网络舆论的形成往往非常迅速;网络舆情的主题是宽泛的、自发的、随意的;网民普遍表现出强烈的参与意识,网络舆情经常是互动的;网民由于各种因素影响,网络舆论可能是感性的、情绪化的甚至是非理性的。[1]因此,如何因势利导,及时掌握社会舆情动态,积极引导社会舆论,是各级政府部门及企事业单位所面临的严肃课题与严峻挑战。

3 网络舆情监测技术应用研究

全文阅读

质化方法在网络舆情监测中的应用

随着时代的发展,网络舆情的表达方式和内容诉求也日益多元化。如果对网络舆情引导不利,其负面内容将对社会公共安全形成较大威胁。因此,对网络舆情进行监测是非常必要的。这就需要选用科学合理的监测方法。

传统的基于对公众进行抽样调查的舆论把握手段遇到了一系列新的挑战。因此,网络舆情监测既要选择适合网络舆情研究的传统方法,又要探索新的研究方法及其应用方式。

从总体上讲,研究方法可以分为量化研究方法与质化研究方法。量化研究为决策层全面掌握舆情动态、做出正确舆论引导,提供了分析的依据。量化方法可以解决“有多少”的问题,但是对于“为什么”的问题则要依赖质化方法。质化研究可以分为两个不同的层次,一是无需量化分析数据作为支撑的纯定性研究,进行概括性和具有较浓思辨色彩的研究;二是建立在量化分析的基础上的、更高层次的质化研究。在网络舆情监测的实践过程中,两个层次都有应用,且质化方法与量化方法是配合使用的。网络舆情监测应用质化方法的主要目的在于对网络舆情事件进行评判,并解读量化数据,为网络危机管理的下一步――预警和应对提供思想基础。

由于重大网络舆情事件的判读具有相当强的专业性,因此在网络舆情监测中主要应用的质化方法是焦点小组访谈法,具体是通过组织专家会议的方式对网络舆情进行整体评价,形成系统性的认识。

一般来讲,专家会议是指根据既定规则抽选一定数量的专家,按照一定的方式召开专家会议,对研究对象作出判断或评价的方法。但是专家会议有着其固有的缺陷,主要有:会议参与人员容易屈从权威人士或大多数人的意见;或者不愿意轻易改变自己已经发表过的意见;或者不愿意发表与其他人不同的意见等。这些缺陷同样不适合网络舆情的评判。

因而,在实际操作中,网络舆情监测主要使用德尔菲法(或者叫专家意见法)。它的主要原则是根据既定规则组织专家,而专家只能与调查人员发生关系,专家之间互不讨论,并通过匿名发表意见的方式,多轮调查,反复征询、归纳、修改专家对所提问题的看法,汇总出专家基本一致的看法,作为评判的结果。德尔菲法能发挥专家会议法的优点,充分发挥各位专家的作用,集思广益,而且能把各位专家意见的分歧点表达出来,取长避短。因而,这种方法代表性好,准确性高,可靠性强。但过程较为复杂,花费时间较长。

全文阅读

对网络舆情监测系统框架的探究

[摘 要]21世纪以来,互联网在很大程度上改变着人们的日常生活,通过互联网传播信息,速度快,影响范围广,因此网络舆论的力量越来越强大,针对这一情况,相关政府部门应加大对网络舆情监测的重视程度,通过引进先进监测技术与理念,创新监测框架等方式,动态监测舆情变化,建立健全舆情监测体系,创建良好和谐的网络环境,更好地为人们服务。本文以网络舆情监测系统发展研究为基础,重点探究构建系统模块的框架,并详细阐述其关键技术。

[关键词]舆情监测;系统框架;网络环境;模板功能

中图分类号:TP391.1 文献标识码:A 文章编号:1009-914X(2016)15-0306-01

2016年1月22日,CNNIC(中国互联网信息中心)我国第37次《互联网发展状况统计报告》,该报告中指出,截止到2015年底,我国网民的总数量已经达到6.88亿,年增长率为6.1%,计算机、互联网在国内的普及率超过50.0%,数据表明我国互联网的普及速度较快,手机、电脑等移动终端已逐步覆盖于人们生活,只要在有网的情况下,人们接收、传播信息的速度将会变得更快。极大程度改变人们沟通交流方式的同时,也对网络舆情监测提出了更高要求。

1.网络舆情监测系统发展研究现状

互联网是一个全开放型的交流平台,与传统媒体相比,传播信息的速度更快,同时人们也可通过微博、论坛、贴吧等平台,成为传播信息的主体,这也加速了网络舆情的形成。受到网民素质、网络环境等因素的影响,网络中仍存在很多不良消息,如暴力、恐怖等,如果被某些不法分子利用,将会造成极大的网络动态,导致社会中存在不稳定因素。因此,相关政府必须加大对网络舆情监测的重视程度,采取针对性解决措施,为网民创建更安全的环境。

网络舆情监测工作在国际中发展历程较长,最为传统的监测手段一般采取手工操作,以人工方式为基础,通过员工监测指定页面的方式,检索出页面中重点监测词汇,从而寻找出最新的舆情动向。随着互联网的飞速发展,该种监测技术已经不能适应大量信息的需求,基于此,TDT研究项目产生,其核心内容包括话题追踪、监测、报告及关联监测等。

2.构建系统模块框架

全文阅读

网络舆情监测及指标建设

摘 要:介绍网络舆情监测的来源范围,提出网络监测指标的构建原则与监测指标体系,分析了其中的问题与实现方法,并探讨了舆情工作中的一些具体做法,以期推动网络舆情监测工作的研究与实践。

关键词:网络舆情;舆情监测;指标体系

有效加强网络舆情监测分析,才能实时掌握网络舆情动态。网络舆情监测分析工作重要环节包括采集、整理和分析舆情信息,需要构建一定的指标体系,评价揭示网络舆情信息的特征与变化规律。指标是在评价某些研究对象所确定的依据和标准,包括指标名称和数值。网络舆情指标体系是由相互联系、相互补充的指标组成的统一整体,用于反映网络舆情的综合状况,揭示其中的各个方面。本文首先介绍舆情监测的来源范围,接着阐述网络舆情监测指标的构建原则与内容,提出从主题汇聚、热度、内容倾向性、预警等方面构建网络舆情监测指标体系。

1 网络舆情监测来源

网络信息的来源不断趋于多样化,从传统的新闻网站、博客论坛,发展到微博、微信等社会化网络应用[2]。准确把握舆情态势,防止监测分析片面化,需要增加信息来源范围。然而,舆情监测难以捕获所有网络信息,网络舆情的来源选择就显得非常重要。在网络上,表现为围绕新闻、事件、问题与个案等产生的网络信息。网络舆情的信息来源选择主要包括:

(1)主流媒体新闻网站。网络新闻是民众获取信息的重要来源,特别是主流媒体的新闻。重大性与突发性舆情都会及时出现在主流媒体,聚集大量网民跟帖评论,是舆情的重要来源与传播源头。(2)论坛。在网络社区中,网民会发出具有个人观点看法的各类信息。在舆情监测工作中,接触到的近半信息都来自于各种论坛。(3)博客。博客是个人分享、交流思想知识的空间,会对热点和新闻事件、特定话题和现象发表个人评论,是舆情信息的重要载体之一。博客数量众多,主要采集专家、知名人物的博客及网民回复。(4)视频网站。视频网站是社会生活和事件的记录与者,并且大多视频网站提供给留言功能,比如优酷、爱奇艺等。视频信息鲜活,网民会分享观感看法与态度,视频标题与描述信息为舆情数据的整理分析提供了可能和便利。以往工作容易忽视这类舆情载体,而实际中一些舆情事件会较早通过视频网站传播。舆情监测工作需要重视视频信息的价值,及时采集抽取其中的有价值信息。(5)社交媒体。在社交媒体应用上,国内主要是微博和微信。微博相对数据开放,数据量巨大,很难在较短的轮询时间窗口完成采集遍历。所以,与传统博客类似,选择其中的部分微博。微信主要限制在个人通讯范畴,主要将微信公众号作为舆情信息来源。另外,一些网站由于赢利、点击量等原因,有意甚至恶意炒作负面信息。所以,要区分标识这类信息来源。同时,在采集器设置上进行一定限制和过滤,避免采集处理过多无效无关数据。

2 监测指标构建原则

网络舆情指标体系的构建原则应包括:(1)主题性。具体的舆情工作具有明确的服务对象,其舆情内容具有鲜明的主题、行业或领域性质。舆情监测的目的是及时识别问题与风险。因此,舆情指标应对各类信息做出灵敏响应。(2)可靠性。指标的选取要有相对可靠性与稳定性,确保指标的使用在时间上有延续性[1]。(3)系统性。网络舆情监测分析工作是一项十分复杂的过程,涉及内容众多。指标体系一定要尽量全面完整形成整体,覆盖舆情工作流程,从多层次多角度揭示网络舆情特征。(4)实用性。舆情监测指标必须反映舆情演化趋势与客观规律,符合网络舆情工作需求与相关流程,便于分析和引导舆情。同时,指标的计算分析结果要尽量便于理解与解释说明,为舆情简报等工作提供必备的数据支持。

全文阅读

网络舆情分析与监测研究

摘要:本文主要分析了我国网络舆情的现状,以及网络舆情信息包括的主要内容,并对网络舆情监测系统的系统结构进行了设计。

关键词:网络舆情 网络舆情分析与监测

当前,网络已成为反映社会舆情的重要途径。网络舆情已渗透到社会的各个层面,成为了一股强大的、不容忽视的舆论力量。因此,如何识别和分析网络舆情信息,如何对舆情进行监测和有效引导,对于维护当今社会的稳定和发展具有重要的现实意义。

1 我国网络舆情现状

由于当前我国正处于社会变革和转型的关键时期,各种社会矛盾日益凸现,各种社会问题日益受到人们的关注,越来越多的人们愿意通过各类信息渠道表达自己的个人观点和想法。随着移动互联时代到来,借助移动终端和各种网络互动软件,人们可以随时随地的发表观点,报道事件,尤其在突发公共事件中,任何一个人都可以对事件进行现场报道,社会舆论的生成机制发生了深刻的变革。

当前我国网络舆论场的强度,在世界居首。2011年,我国网络舆论力度骤然增强,上网发声的阶层越来越广泛,网民高度警觉和关注着现实社会的各种热点事件。特别是“7・23”动车追尾事故和郭美美事件等敏感事件,造成网上网下人声鼎沸,成为当时最大的网络热点。

因此,在当前复杂的社会环境下,加强舆情信息工作,及时掌握舆情动态,积极引导社会舆论,是维护社会稳定和安全的重要举措。而研究和分析网络舆情信息,明确舆情信息的来源是前提和基础。目前,微博、微信、即时通讯软件、博客、跟帖与网络留言、网络社群和网络社区等是传播网络舆情信息的最主要途径。

2 网络舆情信息主要包含的内容

全文阅读

大陆研拟藏维文网络舆情监测系统

中国网最终还是放弃了开通藏文博客的打算。网站的藏族编辑娜科告诉记者由于内容监管方面的压力,藏文博客必须采取先审核后的管理方式,如果处理不及时,或者处理不好,网友会有很大意见。目前,藏文网站的内容监管仍处于人工阶段,开通藏文博客需要付出很大的人力成本。综合考虑之后,中国网决定将这一计划暂缓。

作为国家重点新闻网站,同时也是大陆最大的涉藏网站,中国网的担心并非多余。2012年2月以来,受到一系列藏人自焚事件的影响,大陆地区一些颇具人气的藏文博客被关闭。青海湖网的藏文博客一度发出公告称:“由于部分用户不按照此博客宗旨发表日志,暂时关闭此博客,敬请广大博友谅解。”

此前亦有境外媒体报道称,著名的藏文博客网站也曾被关停,“原因是该网站发表的诗歌《哀痛》描述了发生在的自焚事件。”

目前,内地基于中文的网络舆情监测系统已经有较为成熟的研究成果,但由于少数民族语言文字信息化处理水平整体相对滞后,监管部门尚没有成熟的软件系统对少数民族文字的网站进行舆情监测,于是,在一些敏感事件发生之后,不得不关闭网站以应对日益复杂的网络舆情。

中央民族大学等机构正在进行《藏、维文网络敏感信息自动发现和预警技术》的课题研究,或许可以从一定程度上改变这种简单化的管理方式,也将缓解娜科等网站编辑在内容监管方面的工作压力。

藏文、维文网站是管理重点

中国互联网络信中心(CNNIC)的《第28次中国互联网络发展状况统计报告》显示,截至2011年6月底,大陆网民数量已达4.85亿。在公众对中文网络的使用越来越熟练的同时,少数民族文字网站也提上官方管理日程。

赵小兵是中央民族大学信息工程学院教授,同时担任国家语言资源监测与研究中心少数民族语言分中心副主任。据他介绍,目前直接使用少数民族语言文字的网站并不多,主要有蒙古文、藏文、维吾尔文、哈萨克文、柯尔克孜文、朝鲜文、彝文、壮文、傣文等9个民族10种文字(傣文包含新傣文和老傣文两种文字)。根据该中心2011年的调查,大陆少数民族语言文字的网站总量在389个左右,其中维吾尔文网站175个、藏文网站109个。

全文阅读

在舆情监测中“网络爬虫”的应用探讨

摘 要:互联网技术的迅速发展,使得其在当今社会中承载传递的信息日趋增大,在给人们的生活带来方便的同时,也给相关领域的网络舆情管理工作带来了一定压力。爬虫技术是互联网搜索引擎通过一定的指令性程序,对网页进行信息提取技术,是当前有针对性地进行舆情的基础要素。以网络爬虫技术在舆情分析中的应用为中心展开讨论,介绍了互联网舆情检索技术的基本构成,分析了爬虫技术的特点,提出了优化网络爬虫技术的相关方案,同时通过实例进行了验证,具有一定的借鉴价值。

关键词:网络舆情;网络爬虫;网络资源;爬虫测速;主题更改

中图分类号:TP391.3

21世纪是信息科学技术飞速发展的世纪,互联网在生活中的应用越来越广泛,尤其是随着智能手机逐渐普遍,人们能够通过移动互联网更加便捷地获得外部资讯。网络舆情是当前网民们针对热点社会事件以及社会政治经济状况等内容反映出的态度总和。“管中窥豹,时见一斑”,可以说网络舆情就是当前社会现状的放大镜,针对这些态度思想及政治倾向的社会舆论信息的收集整合,是分析社会动向、研究人民需求的重要手段。

互联网引擎搜索技术并未完全成熟,在很多具体环节仍旧存在着缺点,严重制约着网络舆情监测工作的全面展开。传统的网络爬虫技术在进行网络信息的获取时,对其内容的处理精确性和不足,存在着无用信息过多和部分关键信息缺失的情况。因而,针对网络爬虫技术进行研究,提出更为有效的优化措施是一项十分必要的工作。

1 互联网舆情检索技术

现阶段建设的网络舆情监测系统基本涵盖了所有互联网领域的基本技术,是一项复杂而庞大工程。但从系统的功能实现上看,舆情监测系统的关键技术是由互联网信息采集技术和文本信息抽取技术构成的。

1.1 互联网信息采集技术简介

全文阅读