首页 > 范文大全 > 正文

基于电视传媒热点的网络舆情分析系统研究与设计

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于电视传媒热点的网络舆情分析系统研究与设计范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:网络的发展是对电视传媒机遇也是挑战。在国家推行 “三网合一”的大背景下,电视台在发挥传统优势的前提下,充分利用网络信息来源广泛、传递迅速和网络舆情分析技术强大的信息提取能力来提升自身的核心竞争力是一个有着十分重大实用价值的研究课题,可以帮助电视台快速正确应对来自网络的危机、维护正面形象、防止恶性竞争,将危机带来的负面影响减到最低,进而为电视台带来大量的经济与社会效益。

关键词:电视传媒 网络舆情 设计

中图分类号:TP393.09 文献标识码:A 文章编号:1007-9416(2013)09-0166-02

目前,网络舆情监测与分析技术与媒体传播理论与实践技术相结合的应用尚处于起步阶段,舆情分析技术还处于兴起期,专门针对电视台关心信息的解决方案还没有,已有研究人员提出的多种分析技术还有待改进。

本文针对电视传媒热点,进行了基于电视传媒热点网络舆情监测系统的研究,主要研究内容包括以下两个方面:一是获取技术的研究,保障信息获取的快捷性和准确性,从而适应网络舆情监测的分析和需要;二是进行了话题层次上进行互联网舆情信息监控的发现模型的研究改进,该模型应能高效获取电视台所关心的网络信息,具有较高的分类准确性、较高的效率和较高的智能化程度,能将热点话题进行自动分类,使得对网络新闻、网络舆情信息进行及时的跟踪和关注十分方便。

本文的研究实验基于以下框架进行(图1)。

本文以红网、华声论坛等为监测对象,2013年7-9月期间进行了关于电视传媒热点相关信息的监测与分析。

1 数据采集阶段

在数据采集阶段,采用垂直搜索引擎,使用WEB挖掘技术,利用主题爬虫对网站进行监控和采集,采集得到的网页存入数据库中。本文分别根据不同网站和论坛的特点,以栏目为出发点,递归向下获取文章列表、子栏目列表,再获取相应的回复。本文利用论坛在主帖列表页面中提供的回复数与点击数,结合Web信息提取模块的功能,将回复信息数进行提取,与曾经提取过的信息数量进行比对,通过差值可以获得上次的采集断点所在的页数,然后直接转移至含有未采集新数据的页面,对主帖与回帖进行增量的采集。这种智能更新策略避免了带宽与计算资源的浪费(表1)。

在信息提取功能模块,本文对爬取的网站数据,随机抽取300条信息,分别提取标题、内容、回复数、点击数、作者、日期等信息,并经过人工查看提取字段内容的正确性。Web信息提取功能测试结果见(表2)。

在本次测试过程中,论坛采集部分可以做到100%的采集率,新闻部分,有部分提取失败。主要因为网页和数据本身错误,导致页面无法访问。

本系统的爬虫模块与一些全自动识别与提取Web信息的爬虫系统相比,具有灵活高效的特点。本文通过人工识别网站结构,灵活的增加或减少提取种类,使得本系统的提取程序较自动识别的提取方式准确度更高。缺点是不能智能解析未知结构网站,需要首先进行爬取网站的人工分析,因此不适合所有网站的网络爬取。

2 分析处理阶段

在分析处理阶段,系统从数据库中读取数据并送入分析流水线进行分析。本文根据文章、话题、词汇之间的关系(文本选择话题服从Dirichlet分布,话题选择词汇服从多项分布)建立潜在语义模型,再通过辩分推断,结合吉布斯推断技术手段,确定语义模型参数,将模型参数学习出来,从而确定文章所讨论的话题,以及话题所包含的词汇,从而实现在话题层面对文章的分类分析,分析结果将存入Oracle数据库,并传递给下一个分析引擎(或人工判读),直至全部处理,得到归类舆情与监控信息。

其中,为发现舆情热点,本文基于信息指纹提取功能计算文章转载的情况。信息指纹功能测试结果如(表3)所示。

通过对事件文章在各个媒体中转载次数的对比观察,我们能非常直观了解该信息内容的热度。通过运行测试的出的结果与实际情况进行比较,系统的功能是令人满意的。系统以电视台关心的节目、主持人、新闻事件等信息内容为中心而设计,能够达到平均80%的准确率,满足用户的要求。

3 结语

本文主要针对华声论坛、金鹰微博、红网论坛等有名的网站进行了实验研究,通过对湖南电视台所关心的特定信息的抓取,并结合湖南电视台对网络舆情信息的需求进行数据的挖掘处理,以直观数据及界面形式,为用户提供准确、快速的新闻素材、网络舆情情感分析、倾向性分析、节目反馈信息和公众人物的舆论信息等(图2)。

系统运行情况良好稳定,系统测试的结果令人满意,在7到9月期间的众多舆情热点均被准确提取和分析,通过测试,本文得到了较为完整的电视节目相关舆情数据,更是获取了大量电视台节目相关意见建议信息。