首页 > 范文大全 > 正文

从微博中挖掘有用信息

开篇:润墨网以专业的文秘视角,为您筛选了一篇从微博中挖掘有用信息范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:微博上的信息包罗万象,为研究人类的思维、情绪、社会行为提供了一个海量的信息库,其中大部分都是噪音,如何从中提取有用信息来分析大众情绪,跟踪政治动态,预防疾病爆发成为了当前研究的一个热点。

关键词:微博;twitter;信息提取

1 什么是微博

埃文・威廉斯等人联合创建了Twitter。2006年,该公司推出了Twitter服务,Twitter的含义为:

(鸟等)吱吱叫,啁啾地唱出;

唧唧喳喳地讲述,引申为每个人的表达欲和分享欲。

Twitter是微博中最早的一个,从twitter的含义中可以大概理解了什么是微博,微博是一种服务,它能让你与朋友、家人、同事保持紧密的联系。通过这种联系与交流,你能随时随地并且快速地获得一个问题的答案。这个问题是我们在生活中最常出现的问题之一,又往往是我们最为关心、最急于获得答案的问题。

2 微博的特征

任何用户向微博上传每条不超过140个字的消息,该用户相应的“跟随者”(followers)就能及时查看该信息并发表评论。所谓“跟随者”,就是指关注某一账号所内容的其他微博用户。当然用户也可以主动“追随”(following)别人。它通过限制信息字数、即时抵达、用户自主收发和鉴别真伪的方式,实现了一种自主、互动、简洁、快速的信息传播方式。微博的三大特征:

(1)低门槛

140字的限制将平民和莎士比亚拉到了同一水平线上,每个人都可以随时随地写出自己的思想,写作成了几乎没有门槛的事,这一点导致大量原创内容爆发性地被生产出来。

(2)创新的交互方式

与博客上面对面的表演不同,微博上是背对脸的交流,就好比你在电脑前打游戏,路过的人从你背后看着你怎么玩,而你并不需要主动和背后的人交流。可以点对多,也可以点对点。

(3)原创性

只要能联网,有电脑或者有手机也可即时更新自己的内容,哪怕你就在事发现场。类例于一些大的突发事件或引起全球关注的大事,如果有微博客在场,利用各种手段在微博客上发表出来,其实时性、现场感以及快捷性,超过所有媒体。

3 从微博中提取有用信息

信息总是在流动,而且是迅速、自由地流动。微博给我们带来了前所未有的信息获取方式。但我们如何从海量的信息中,剔除无关信息,从而获得我们想到的信息呢?怎样在不影响信息的准确性和相关度的情况下实现信息过滤呢?

(1)信誉度

信誉度是筛选信息的核心依据,它将成为我们处理很多事情的衡量标准,所以如何判别信誉度就成了信息筛选的核心问题。

一种方式可以通过授权,官方对博主进行授权,官方授权的博主信誉度高。通过官方对所有的博主进行授权显然是不可能的。

另一种方式是通过衡量一个博主以前信息的可靠性来计算他累计的信誉。在信誉系统里,一旦判定了一个消息源是否值得信任,这个判定可以用作将来的参考。用户和内容来源都可以赋予信誉度。

也可以通过用户打分来影响信誉度,如果一个博主了一条错误信息,那么大部分其他用户就会给他打低分,如果他的信息是准确的而且对另外一个人很有用,那么他就会得到高分。

消息源的位置也会影响信誉度。当一个人在微博上说北京的“天上人间”被查封了,当时他在北京吗?如果是的话,我们很可能对那个人接下来发的信息感兴趣。而对于上海的人发出的同样信息,我们可能还不会那么感兴趣,即使他的消息来自东方卫视。这是为什么呢?难道东方卫视的信誉还不及一个普通人吗?

(2)微博信息传递和消化的速度

信息传递以及它被消化的速度也是一个值得关注的地方。实时工作过程中速度非常重要,消息要尽可能地和事情的发生时间接近。毕竟,“突发性新闻”在事件发生一周后或其他人已经报道的情况下就不“突发”了。它的“突发”在于它刚发生。例如日本发生9.0级大地震,引发了巨大海啸。在事件刚发生的那一个时间,这是一个突发性新闻。而在一段时间内也可以作为一般的新闻,但这个时候实时报道这个事件已经不那么重要了,它已经发生了一段时间了。

时间是实时信息的死敌。通过微博发送一条信息需要多长时间呢?如果微博的服务器运行正常,整个过程可能几秒钟就足够了。但实际操作上,这个时间确比这长得多。如果信息只是现在才重要的,或现在是最重要的,必须尽快地把这个信息送到关注它的人那里。例如海啸十几分钟后将要到达,这条信息半个小时之后受灾人群才能收到,那么信息本身就失去了他的意义。

(3)结构化数据

对于不同的信息需要不同的处理。例如在日本地震时,我们需要从不同类型的媒介寻找信息。我们在微博中会发现各种各样关于地震的信息,很难找到你想要的信息。通过信息结构化来集中一些相似的信息流,这样便于我们找到想要的信息。首先构造结构的数据集,然后通过多种流程对这些数据进行改造,把它们集中到数据库,通过滤掉重复的内容、对数据进行结构化改造,变成统一的对象模型后再提取关键字和打上标签。当用户登录微博时他们所接收到的已经是结构化的数据。这使得用户可以集中精力去处理更重要的事情,例如这些信息告诉他们什么,以及需要怎样去回应。

4.微博信息的价值

由于微博信息来源很广,反映了大部分人的思维、情绪、社会行为,所以微博信息具有巨大的价值。例如,如果某一时段北京有很多人的了关于感冒的信息,那么医学家就可以从这些信息中了解到主要的症状,和大概感染人数,从而制定感冒预防办法。商家可以微博信息中得到用户的喜好,从而推出受欢迎的产品等等,微博信息的价值巨大,还有待我们进一步开发和利用。

参考文献

[1]刘晖.Twitter:微博客时代的到来.2009.

[2]喻国明.微博价值:核心功能、延伸功能与附加功能.2010.