开篇:润墨网以专业的文秘视角,为您筛选了一篇风越大,越要出门卖蛋挞范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!
沃尔玛的历史交易记录是个非常庞大的数据库,这个数据库不仅记录了顾客的购物清单,还包括购物篮中的物品、具体购买时间甚至购买当日的天气。2004年,沃尔玛的员工通过对这个数据库的研究,发现每当季节性飓风来临之前,手电筒的销量当然会增加,但居然蛋挞的销量也大为增加。因此,飓风来临前,沃尔玛的员工会把库存的蛋挞放在靠近飓风用品的位置,方便行色匆匆的顾客取用,从而卖出了无数蛋挞。
那么,接着你肯定要问“为什么飓风期间待在家里的人最想吃蛋挞”了。事实上,你需要改变你的想法—在大数据时代,爱问“为什么”可不是什么好表现。
因为,大数据只能告诉你谁和谁有关,却不能告诉你为什么。这种建立在相关关系分析法基础上的预测正是大数据的核心。正如亚马逊最有效的个性化推荐一样,机器在梳理了所有数据之后,会向购买了海明威作品的顾客推荐菲茨杰拉德的书,没有人知道海明威和菲茨杰拉德的受众为何相对一致,但这并不重要,重要的是销量。如今,据说亚马逊销售额的1/3都来自于它的个性化推荐系统。
当你适应了大数据式的思维方式以后,就能抛弃寻找因果关系的“假设—实验—因为先有假设,可能会有偏见—证实或者假设”这样的麻烦过程,直接寻找相关关系,而不再问“为什么”。
维克托·迈尔-舍恩伯格的《大数据时代》还讲了另一个没有“为什么”的故事。纽约每年都有很多沙井盖会因为内部失火而发生爆炸—重达300磅的沙井盖冲出几层楼高,非常危险。但纽约的地下电缆就有15万公里长,光是曼哈顿就有大约51000个沙井盖和服务设施,所以,爱迪生电力公司每年只能对沙井盖进行抽样检查和维修。但事实上,每一个沙井盖都有爆炸的可能,抽样检查并不可靠。
负责这个项目的统计学家辛西娅·鲁丁抱怨,关于沙井盖的数据库非常巨大且杂乱,你要从这海量数据中找出“为什么沙井盖会内部失火从而爆炸”,这是完全不可能的。
但相比“为什么”,鲁丁更关心“是什么”。她不再寻找原因,而是总结出了沙井盖爆炸的106种预警情况,也就是爆炸的“相关物”—在沙井盖爆炸之前,会出现什么情况,然后找到了出现这些情况的沙井盖。这种做法很有效,在统计学家列出的高危沙井盖中,有将近一半的确发生了严重的问题。