首页 > 范文大全 > 正文

电商产品质量网络舆情监测系统的设计与实现

开篇:润墨网以专业的文秘视角,为您筛选了一篇电商产品质量网络舆情监测系统的设计与实现范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要微博是网络舆情产生和传播的主要途径,如何分析微博用户对热门话题和突发事件的观点,及时有效地发现电子商务产品质量的舆情信息,已成为促进我国电子商务产业健康发展迫切需要解决的问题。本文利用中文分词情感词库、网络爬虫等技术设计并实现了一个面向微博平台的舆情数据分析平台,通过爬取新浪、腾讯上热门话题的相关数据,分析公众对相关话题的情感倾向,掌握电子商务产品质量的舆情信息。

【关键词】微博话题 舆情分析 情感词典 观点识别

随着电子商务的快速发展,越来越多的人通过电子商务网站来了解产品信息、购买商品,并且通过评价表达自己购买商品过程中的感受、对购买商品的满意程度和相关建议要求。评价和打分等商品舆情信息是买家了解电子商务网站产品和商家服务的一种重要渠道和表达方式。文本情感分析是对给出的文本的感彩进行分析、归纳的过程,即判断一篇文本中观点持有者对某个事件或商品持有的正向、负向或中立的态度。它属于信息检索或者自然语言处理的范畴。目前,国内已有许多专家、学者就舆情分析技术根据实现的方法分为基于词的倾向性分析和基于机器学习的倾向性分析,如杨震等人在网络舆情内容分析中,提出基于字符串相似性聚类的网络短文本舆情热点发现技术。Kouloumpis等利用微博中的口语和网络语言来提高情感倾向分析的准确性。

基于以上需求,本文设计实现了一个基于舆情获取、舆情分析等功能的微博话题电商产品质量网络舆情监测系统。通过对各类BBS论坛、博客和微博中带有倾向性的舆情内容进行热度、情感分析,了解公众对该话题的关注度,及时掌握公众对该热门话题的态度;并对其进行扩散情况统计,了解该话题在哪些地区先产生影响并逐渐扩散到其他地区。

1 舆情信息分析关键技术

1.1 舆情获取模块

舆情获取(网络爬虫)模块是通过用户指定话题、微博平台及话题起始时间、结束时间的方式从网络中爬取相关数据。数据内容包括微博用户ID、用户所在地区、微博文本内容(由于微博文字有长度限制,微博文本内容可以用MySQL表中的一列来存储)、微博发送时间、转发数、评论数等重要信息。虽然各个微博网站都有开放的API,但由于微博API存在IP访问次数、单用户访问次数等诸多限制,使用API来爬取大量微博数据并不高效,会造成微博账户或者IP地址被封禁的后果。因此根据不同微博网页的特性,使用Python语言编写各个网站的爬虫程序,以多线程的方式来爬取微博数据。这样不仅快速高效,而且通过在程序中设置定时休眠,来避免爬虫程序因长时间高频率地访问微博网站而导致账户或IP被禁用。

舆情获取是通过网络爬虫从微博网站获取相关数据并保存至MySQL数据库中,当用户最终在舆情获取界面中选择不同的数据来源时,后台将去调用对应的微博网站的爬虫程序,而用户不会感受到不同网站、不同程序之间的差异。

1.2 中科院ICTCLAS分词系统

中文分词(Chinese Word Segmentation) 指的是将连续的汉字串切分为带有分割标记的一个一个的词串。中国科学院计算技术研究所在多年研究工作积累的基础上,研制了汉语词法分析系统ICTCLAS,主要功能包括中文分词、词性标注、命名实体识别、新词识别等。ICTCLAS 分词速度单机500KB/S,分词精度98.45%,API不超过100KB,各种词典数据压缩后不到3M。系统采用中科院的ICTCLAS 分词系统,分词后根据得到的词性标注将介词、助词、叹词、语气词、拟声词、标点符号、停用词去掉,得到该文档中的特征词。

1.3 舆情分析模块

舆情分析模块是系统的核心模块,在舆情分析过程中包含两个重要模块:Core Module和Luence Module,主要是基于舆情获取模块所下载的数据,对指定时间内该舆情事件话题进行持续追踪和溯源。Luence是一个全文检索引擎的架构,所以Luence Module可以实现全文检索功能,解决互联网舆情监控分析问题。它采用增量式索引策略,对MySQL数据及其他形式数据建立小索引small index;为防止在索引合并时又有搜索请求,备份大索引backup index,将小索引与备份大索引合并成new index;最后将索引接口从index切换到此索引new index上。Core Module的功能是计算记录权重值weight以及记录情绪值emotion,为之后的情感倾向性分析提供支持,如图1所示。

2 舆情信息分析系统实现系统描述

基于微博话题的电商产品质量网络舆情监测系统利用网页舆情信息提取、关键词提取、文本倾向性分析等关键技术对网络舆情进行分析,对用户感兴趣的特定内容进行动态发现与跟踪。该系统根据上述分析模型,采用Java Strust2.0,SQL SERVER数据库实现B/S结构系统软件。该系统主要包含3个部分:舆情获取、舆情分析和词库管理,具体功能界面部分如图2所示。

针对“各类鼠标产品质量舆情信息”,用户自己在舆情获取模块输入框中选择数据来源(新浪、腾讯微博等)、话题关键字、开始时间和结束时间来下载需要的微博数据,选择完后点击“开始爬虫”,后台就会执行爬虫程序,将所下载到的数据保存到本地的数据库中。通过WEB文本预处理模块将采集、净化后的纯文本作进一步的信息处理,包括中文分词、特征提取、降维处理等,获得舆情分析准备阶段的相关数据,如图3所示。

本系统实现网络舆情分析中的主题发现技术,包括舆情信息预处理和舆情信息主题发现。系统除爬取舆情数据获取微博内容的相关信息,还获得微博用户的个人主页获取其所在地区的信息,分别统计关于某事件的微博每天在不同地区的数目,根据数目大小着以不同颜色,得到每天的分布情况。实现网络舆情信息的主题发现,进行话题热度走势分析、情感倾向性分析、话题相关度分析、话题扩散情况分析等,并以图表形式直观地展示给用户。

3 结语

本文提出一个基于情感分析的电子商务产品质量舆情分析模型,并从舆情获取(使用一种多线程的爬虫方式)、舆情分析(包括情感倾向性分析、话题相关度分析、话题扩散情况分析)等关键技术加以详细讨论,最终设计实现了一个面向微博话题的舆情数据服务平台。下一步工作是将该系统试运行在国家电子商务产品质量风险监测中心相关监管部门,通过测试分析将对系统存在的问题做进一步的改进和完善。

参考文献

[1]胡学钢,董学春,谢飞.基于词向量空间模型的中文文本分类方法[J].合肥工业大学学报(自然科学版),2007(10),30:1261-1264.

作者简介

柳毅,博士学位。现为杭州电子科技大学管理学院副教授。研究方向为网络舆情分析。

钱枫,硕士学位。现为杭州市质量技术监督检测院教授级高级工程师。研究方向为质量体系管理。

陈育旺,硕士学位。现为杭州市质量技术监督检测院教授级高级工程师。研究方向为电子商务产品质量风险监测。

作者单位

1.杭州电子科技大学管理学院 浙江省杭州市 310018

2.杭州市质量技术监督检测院 浙江省杭州市 310018