社交挖掘:谁是下一个Google(全文)

开篇：润墨网以专业的文秘视角，为您筛选了一篇社交挖掘:谁是下一个Google范文，如需获取更多写作素材，在线客服老师一对一协助。欢迎您的阅读与分享！

Pagerank是google排名运算法则（排名公式）的一部分，是Google用来标识网页的等级/重要性的一种方法，也是Google衡量一个网站好坏的唯一标准。在糅合了诸如Title标识和Keywords标识等所有其他因素之后，Google通过pagerank来调整结果，使那些更具“等级/重要性”的网页在搜索结果中的排名获得提升，从而提高搜索结果的相关性和质量。

见到袁雨来的时候，他正在和团队完善产品。他们总共十几个人，在中关村租了一套Loft结构的公寓，专心开发基于社交网络的应用。

从表面看，他们和其他互联网团队无异，但在袁雨来眼里，他们做的事情门槛很高：通过社交网络，利用高效的算法获知用户的喜好，从而为其荐歌。形象地说，他们知道你喜欢听什么样的歌曲，也知道你喜欢的歌曲在哪里，然后基于社交关系把音乐推荐给你。

走出象牙塔

袁雨来的产品叫音贝网，新版在8月24日上线后已经有了20万用户。音贝不判断歌曲的舒缓、摇滚等属性，而是根据一些原则为歌曲编织一个网络——在用户关系网和歌曲组织网之间相互映射，最终圈定用户喜欢的歌曲。

要实现这个目的，就需要过硬的算法。在这方面，音贝具有自己的优势，袁雨来两年前毕业于清华大学，获有高性能计算博士学位。他的团队中有4个人研究算法，其中包括一个他在清华的同学。

面对《创业家》，袁雨来更愿意用“社交数据挖掘”来形容自己的项目，这是一个专业性极强的工作。国内一些高校在对此进行研究，因此很多团队都和他们的母校有着天然的联系。

以清华大学为例，计算机科学与技术系的唐杰和陈文光教授都是社交网络的研究者，袁雨来正是毕业于这个系。此外，在电子科技大学计算机学院，29岁的博导周涛也是这方面的专家，这位本科就开始“带”博士生的牛人精于数据算法，同时也是电商营销公司百分点的首席科学家。周涛的学生黄宇于去年创办了“唯朋友”，这是一个基于微博，促进你和好友之间的互动，以加深社交关系的数据挖掘项目。

此外，北大、北航、上海交大、哈工大都有师生研究社交网络，他们为国内的社交数据挖掘提供了学术支持和项目储备。但另一方面，这也促成了这个群体的小众特征，毕竟一个复杂的算法不是随便哪个人都能做的。

某种程度上，这些项目还带有实验性质。比如哈工大博士于霄创办的知微，就脱胎于哈工大的社会网络与数据挖掘联合实验室。清华大学计算机副主任陈文光教授带了一个项目，叫社会化网络分析平台，他们和海银资本共同搭建了一个数据池，陈教授的研究成果可以直接为海银资本孵化的项目调用。

“社交网络在全世界都是个新兴科学，社交网络这个词都没几年的历史”，海银资本创始合伙人王煜全近几年一直在研究社交网络，坚信这是互联网的发展趋势。他认为，互联网自诞生那天起就是一个社交网络，只不过是基于物理性质的连接，Google的pagerank本质上就是个社会化算法，只不过是用这个社会化算法处理文本和网页，用社会化算法去处理人和人背后的信息，原理其实都是一样的。

乐荐网络创始人戴虎宁建了一个专门讨论社交数据挖掘的QQ群，里面大约有300人，基本囊括了中国研究社交数据的高手，里面好多人没有创业，好多还是学生。“出来创业的估计30支团队到头儿了”，王煜全说，“我觉得他们是未来的比尔.盖茨，具体是谁我不知道，但一定在这堆人里。”

新的颠覆者？

Twitter、Facebook、Foursquare等的出现，真正把人们带入了社交网络时代。“社交网络在科技上有巨大的提升空间，比如对一个人的精确分析，没有社交网络就永远达不到那种精度。”王煜全说这句话的背景是：数据挖掘早已有之，但社交网络的数据挖掘还是个新课题。

随着用户的疯狂增长，社交网络产生的数据量是惊人的。每过一分钟，Flicker上会有3125张照片上传，Facebook上新70万条信息，YouTube上则有200万次点击观赏。图片、声音、文字以及背后的用户习惯和轨迹构成了互联网上的数据资源，社交网络与大数据是天生的亲密伙伴。

这些数据价值密度不高，要挖掘出有用的那部分是个力气活。以Zynga为例，这是一家寄生在Facebook上的社交游戏公司，它的游戏强调好友之间的合作。为了黏住用户，Zynga每天大约要收集600亿个数据点，包括人们一般玩多久游戏，什么时候玩，喜欢购买什么游戏物品等。从某种意义上说，Zynga可能比你自己还清楚地知道你的潜意识决策。

在清华大学陈文光教授看来，社交网络是下一代应用层面的互联网。“第一代是雅虎、新闻门户等，第二代是搜索引擎，第三代就是社交网络，它不仅是连接信息，更是连接人，会和社会学、心理学、经济学有很多交互的地方，从研究的角度来讲是非常有意思的事儿。”

今年上半年，美国曼彻斯特大学的研究团队做了一个实验，他们通过分析Twitter上的数据，提前8天预报了流感的爆发。在一个月内，研究小组收集了440万个Twitter留言的地理定位数据标签，使用一种特殊的算法进行处理（类似语义分析），从而预测不同地区的流感发病率。

这似乎印证了《爆发》一书作者、全球复杂网络研究权威巴拉巴西教授的观点。他基于社会化大数据基础，认为人类行为有93%是可以预测的。如果确实如此，那么社交网络中无疑蕴藏着巨大的商业价值。

在《创业家》采访的团队中，新影数讯（iFilm+）擅长预测。他们通过对微博和过往资料数据的分析来预测电影票房，同时给影片提供营销建议。创始人刘晗透露，其票房预测准确度可达85%。他们的做法是首先确定影响票房的变量，如演员、档期、上映时间、首映地等，一些看似与数字无关的事项都被按规则加以量化；然后，他们从统计年鉴中查到了1990年以来上映的四五百部电影数据，让计算机逆向推导出定量，从而确定公式。预测时把社交网络中反映出的演员热度、电影关注度以及预定的上映时间等变量填入公式，进行测算。

真实的算法远比上面的描述更复杂。刘晗演示时，笔记本屏幕上密密麻麻布满了数学符号，但电脑要精确计算出人类的行为，仍需继续探索。“预测准确度提升1%，都需要做大量复杂的工作，必须找到并引入新的变量才行。”刘晗说。

社交挖掘:谁是下一个Google

常用范文

优秀范文

精选范文