大数据,大冲击(全文)

开篇：润墨网以专业的文秘视角，为您筛选了一篇大数据,大冲击范文，如需获取更多写作素材，在线客服老师一对一协助。欢迎您的阅读与分享！

大数据，大科学

LSST（大型综合巡天望远镜），是一台还在研制中的巨型望远镜。无论是直径8.36米（将近3层楼高）的巨大主镜，还是囊括近紫外、可见光、红外线（320～1060纳米）的广谱感光元件，还是9.6平方度的超宽广视场（满月的49倍大），以及历史上最大的数码相机（小汽车般大小、重2.8吨），都令人叹为观止。最后，这些零件还要被拖到南半球，在智利北部海拔2663米的山顶上重新组装起来，以获得最佳的观测条件。

在工程师们看来，这些都是小意思。那么，什么才是他们最发愁的呢？

你大概想不到，竟然是数据。

LSST的那台超级相机，核心感光元件直径为64厘米（快赶上直径77厘米的标准井盖了），上面分布着1600万个像素，每个像素的动态范围是4字节（byte，1字节等于8比特，本文以下的数据单位均为字节）。在观测时，每秒最多可以产生3吉以上的数据。而相机内的计算机平均每秒要完成2万亿次运算，才能将这些在15秒曝光时间内获取的数据整合为一张32亿像素的照片。每个夜晚，它可以拍下数百张这样的照片，全年则可以拍摄大约20万张。

至此，细节中的魔鬼终于出现了。每个夜晚，LSST能够生成约20～30太的原始数据，每年则能生成1.28拍或者说1280万亿字节数据。项目方估计，为了储存这些数据，初期需要15拍的空间。这相当于15000块常见的1太硬盘的总容量，这些硬盘的总体积大约为50立方米，足够塞满一个小房间。

问题是，如何从这一房间的硬盘中快速查找到所需的某项数据呢？比如，这个天区的某个天体与那个天区的某个天体是不是同类？这类天体还有多少，都在哪里？

对于这样的问题，常规服务器的硬件和软件就只能望洋兴叹了。

在大西洋彼岸欧洲核子中心（CERN）的LHC（大型强子对撞机）内，分布着约1.5亿个传感器，它们每秒能够传送4000万次数据。当LHC工作时，每秒约产生6亿次粒子碰撞，其中99.999%都会被滤除，只留下约100次碰撞事件供进一步分析。就是这不起眼的0.001%的数据，每年仍可以汇成25拍的数据海洋。为此，人们不得不构建了一个复杂得令人咋舌的LHC计算网格（LHC ComputingGrid），它由170个计算设施组成，分布在36个国家。

而LSST和LHC，其实只不过是类似问题的一个缩影。

大数据，大爆炸

说到能够感受到的数据量暴增，可能莫过于我们每天都接触的互联网了。十几年前，网站还以静态页面的展示为主。如今，各种社交网站、电商网站等大量兴起后，情况已经不一样了。

根据中国互联网中心（CNNIC）披露的数据，截止到2013年12月，我国微博用户规模达到了2.81亿。而据新浪官方2012年5月的数据，新浪微博用户每天平均超过1亿条微博内容。在晚上高峰期，服务器集群每秒要接受100万次以上的响应请求。据中科院院士李国杰在《大数据的研究现状与科学思考》一文中披露，谷歌通过大规模集群和MaPReduce软件，每月处理的数据量超过400拍；百度每天大约要处理几十拍数据；淘宝网会员超过3.7亿，在线商品超过8.8亿，每天交易数千万笔，产生约20太数据。

而这，只是全球“数据爆炸”的一个缩影而已。人类记录和储存下的数据，可以分为模拟数据（使用模拟方式记录的数据，包括书刊报纸、信札、录像带、录音带等）和数字数据（使用数字方式记录的数据，包括磁盘、光盘等）两大类。两大数据之和，就是最近20多年来全球信息储存容量的爆炸式发展情况。

1986年，人类的模拟数据（绿色部分）约有2.6艾，新生事物的数字数据（棕色部分）只有0.02艾（20拍），二者比例为130：1。到2002年，二者已经等量，比例变为l：1，被称为“数字时代元年”。到 2007年，二者比例己经倒置为1：15。较之1986年，模拟数据增长了6.3倍，达到了19艾；但数字数据更是增长了约14000倍，达到了280艾。事实上，相比于数字数据，模拟数据在全部数据中所占的比重已经越来越低（从1986年的99%一路降到2007年的6%），按照这个趋势，它很快就会变得可以忽略不计。

这个令人目眩的大逆转，仅仅发生在21年间。数据越来越“大”、数字数据越来越膨胀，已经是一个不争的事实。

根据IDC（国际数据公司）在2012年3月的《世界大数据技术和服务2012～2015预测》，这个高速扩张的趋势仍在持续。2012年人类的数字数据约有2.5泽，到2015年时将暴增到8泽。这意味着，在这3年中，平均每年都将新生一份总量相当于2012年人类已有全部数据规模的新数据，而要生成一份总量相当于1986年时全部数据规模的新数据的话，算下来只要不到8个半小时。

在飞速发展的物联网的助力下，各种传感器（包括监视摄像头、RFID读取器、遥感设备、无线传感器等）也在不停顿地生成着新的数据。

按照中国人民大学信息学院孟小峰和慈祥的观点，这些数据可以分为三类，即被动产生的运营系统数据（如销售记录）、主动产生的用户原创数据（如微博内容）和自动产生的感知系统数据（如监控录像）等。从被动、主动到自动，数据量的增幅快速扩大，其中自动产生的数据正是大数据产生的最根本原因。

大数据，新定义

量变会带来质变，暴增的数据终究会引发一系列变革。相应地，它也需要一个不同的名字和清晰的定义，来跟传统意义上的“海量数据”（massive data）或“超大规模数据”（very lafge data）做个切割。

2001年，美国分析师道格・莱尼（Doug Laney）试图用3个以V开头的单词来概括这类数据的特征，那就是数量（Volume，指数据的量）、速度（Velocity，指数据的吞吐速度）和多样性（Variety，指数据类型的多样性），合称3V。后来又加了一个V，对这第4个V的意义，IDC认为是价值（Value），而国际商业机器公司（IBM）则认为是真实性（Veracity）。这个3V或4V的概括，由于界定清晰、明白好记，很快就在业内流传开来。

2011年，美国咨询业巨头麦肯锡公司（McKinsey）了《大数据：竞争、创新和生产力的下一个前沿》的报告，其中提出，所谓“大数据”（big data），就是那些“规模已经超出典型数据库软件所能获取、存储、管理和分析能力之外的数据集”，它将推动5个领域的全面转型，并提出了若干建议。报告里说，不打算为大数据设定具体的数值标准，而更希望将它设定为一个动态的、能够随着数据规模和处理能力增长而不断变化的概念。按当时的情况，这个“门槛”大约在几十太字节到几十拍字节之间。

可以说，这份长达146页的报告，就是现今我们所说的“大数据”这个概念的出生证明。人们早就认识到，数据量的暴增会让情况发生重大变化，但一直没有清晰有力的表述，也没有明确的研究讨论和针对性的建议。因此，报告以后，“大数据”概念迅速风靡全球，得到了学术界和产业界的一致公认。

按照维基百科的介绍，大数据就是“指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集”。不难看出，这与前述的定义非常类似，采用的也是相对的标准。

那么，与传统上意味着海量数据的“数据库”概念相比，大数据有什么根本性的不同呢？孟小峰等人用池塘和大海打比方来说明它们之间的5个不同，即数据规模不同（“池塘”和“大海”）、数据类型不同（“池鱼种类单一”和“海鱼种类繁多”）、模式和数据关系不同（“先挖池塘后投放鱼”和“海鱼的繁衍改变大海的构成”）、处理对象不同（“池塘里只能捕鱼”和“海鱼还可以作为其他生物存在的判断根据”）、处理工具不同（“一种或少数几种渔网足够应付池塘捕鱼”和“没有一种渔网能够捕获全部海鱼”）。

这5个比方，其实已经足够说明量变带来的质变了。

大数据，大挑战

对于这些“超出典型数据库软件所能获取、存储、管理和分析能力之外的数据集”，现成方案早已捉襟见肘。下面，我们就来看看大数据的“处理框架”和“关键技术问题”这两个方面吧。

第一个方面是处理框架，它又可以细分为处理模式和处理流程两部分。

处理模式，主要分为流处理（直接处理）和批处理（先存储再处理）两大类。流处理将数据看成流，主要在内存中完成，适合对付那些持续到达、急需处理的即时数据，如推特的storm和雅虎的S4等，使用的都是流处理模式。与之相对，谷歌提出的MapReduce则属于最有代表性的批处理模式。它将原始数据集分块后，分别交给不同的MaP任务区处理，并通过Map函数计算出中间结果，再写入本地硬盘。这个“将计算推到数据”的思路非常新颖，模型简单、操作性强，因而很受欢迎。流处理和批处理各有优缺点，拿手的数据对象也不同，因此Linkedln（一家社交网站）使用的就是二者混合的模式。

处理流程，主要包括数据抽取与集成、数据分析和数据解释。在数据抽取和集成时，需要对种类繁杂的数据进行预先清洗，保证数据质量和可信性。数据分析则是大数据处理流程的核心。至于数据解释，则是用户最关心的事情，文本之外，可视化处理也不失为一个好的选择。

第二个方面是关键技术问题。数据处理存在着4个层次，即文件系统、数据库系统、索引与查询技术、数据分析技术，我们不妨逐个来看它们面对的挑战和对策。

首先是文件系统。由于数据量太大、来源太多，要想及时响应，必须存放在成千上万甚至几十万、上百万台服务器上。可在这样参差不齐的超大服务器阵列中，传统的文件系统根本无法保证可靠工作，更谈不上扩展了。此外，社交网站的海量小文件（图片、文档等），门户网站的海量内容搜索等，也都需要新型文件系统的鼎力支撑。

对策：针对需求，开发不同的全新文件系统。如构建在大量廉价服务器上，可扩展、分布式的谷歌文件系统GFS；针对海量小文件的脸书文件系统Haystack；支持搜索和广告业务的微软文件系统Cosmos等。

其次是数据库系统。传统的数据库一般都是关系数据库，具有4个特点，即数据量小、数据类型少、适应性强（以统一的数据存储方式应对各种用途）、事务特性强调“数据一致性”（关系数据库的ACID特性，即原子性、一致性、隔离性和持久性，对应CAP理论”中的“C”，即一致性）。而在数量大、类型多、无法以统一方式应对各种用途、追求可用性（特性变为BASE，即基本可用、柔性状态、最终一致，对应CAP理论中的“A”，即可用性）的大数据面前，也就力不从心了。

对策：不再拘泥于关系数据库，转而研发不基于关系模型的数据库（统称为NOSQL数据库），共同特点是模式自由、支持简易备份、最终一致性（支持BASE而不支持ACID）、支持海量数据。谷歌最新的Spanner数据库系统，其目标是控制100万～1000万台服务器，最多包含约10万亿个目录和1000万亿字节的容量。

第三是索引与查询技术。为库中的数据建立索引（index）是需要时间的，而数据更新后，索引更新也是需要时间的。当数据规模暴增后，通过既有技术生成索引的耗时已经无法接受（有人估算，采用传统的GADDI算法为脸书生成索引，时间将长于40万年）。

对策：利用MapReduce并行技术优化多值查询，开发索引技术优化多值查询技术（例如ITHbase、IHbase、CCindex等实现方案）。

第四是数据分析技术。传统的数据分析技术着眼于小规模数据，比如数据挖掘（data mining）、机器学习和统计分析等，在用来分析大数据时，必须因应大数据的特点进行调整，在算法的实时性和准确率之间进行平衡，设法适应云计算的框架并淘汰不适用的算法等。

对策：开发新的分析技术，如谷歌的Pregel图计算模型和Dremel数据分析系统等。

大数据，新未来

正如我们亲身所感的那样，大数据早已不是什么理论概念，而是每天都在影响着我们的现实了。

目前，最引人注意的大数据应用往往分布在IT行业或与IT行业“沾亲带故”的产业界，毕竟这里是大数据概念的发源地，也是相关技术发展最快、人才最集中的行业，转化起来更得心应手。但是，大千世界中，诸如交通、能源、商业、医疗、教育、金融、环境、农业……哪个不能产生大数据？而这些行业现在刚开始试水，深思之下，其中的发展前景简直不可限量。而从行业的“条”转到地区的“块”来看，每个省（市、区）、县（市）、乡（镇），都可以产生近乎无穷的数据。可以想象，有朝一日各行各业、各个地区都“张开”大数据的“翅膀”后，社会的运转一定会变得更加灵巧而高效。

数据不是可有可无的数字和符号，而是宝贵的财富，更多的数据意味着更大的价值。这一观念已被越来越多的人所接受和认同。因此我们相信，在解决了大数据的安全隐忧的前提下，我们所有人都将从中受益。

大数据,大冲击

常用范文

优秀范文

精选范文