开篇:润墨网以专业的文秘视角,为您筛选了一篇别被物联网数据洪流淹没范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!
随着物联网(IOT)的普及应用,我们开始进入万物互联的世界。借助供热系统、生产控制系统和几乎无所不在的RFID,企业收集了大量数据。虽然具体到不同企业程度不同,但是大家都在向这个目标迈进,这一点确定无疑。
这有好有坏。好的是,有了这些数据,公司得以运营得更有效率,员工更聪明地工作,企业营收也会增加。不好的是,很少有公司已经为处理这么庞大的数据量做好了准备。幸好,在这条路上已经有不少公司做出了大胆探索,并且已经取得了不错的效果,比如物联网的先驱GE、英特尔等。接下来我们来看看他们是如何做的。
问题之所在
在正式开始之前,我们先看看数据量的问题有多严重。根据销售大数据分析平台的公司Datameer提供的数据,到2019年将有高达350亿的设备会连接到互联网,这些设备中内嵌的传感器将产生大约4万EB的数据。这是关于数据量的。
而在数据类型方面,情况同样异常复杂,因为涉及的数据可以是任何东西产生的。例如,制造企业可以使用传感器来检查他们的工厂和设备,以确保一切运行顺利或者用以改善制造工艺;零售商可以使用它来更好地跟踪销售,了解供应链的情况;甚至我们日常使用的家用设备也会收集数据来进一步方便我们的生活。
因此,当我们看到埃森哲和GE发起的一项联合调查显示,大数据是企业当下最关注的事情也就不足为奇了。88%的受访高管说,大数据是它们的三大重点工作之一。82%的受访人还表示,在未来三年内他们将新建或在现有的数据处理和分析平台中新增大数据能力。
GE的IOT之路
从各方面来看,GE都堪称物联网和大数据应用的先驱。GE将物联网和大数据技术应用到其自己的企业中,并为那些希望充分利用物联网数据的公司提供服务。GE公司的业务范围很广,从航空到能源管理,到医疗保健、石油和天然气、交通运输等,随着其工厂分布到世界各地,它不得不比大多数其他公司更早地面对物联网的数据洪流。
GE将自己处理物联网数据的经验进行了总结,形成了针对物联网和大数据的可供销售的产品和服务,这个业务归属于GE智能平台事业部。GE智能平台软件首席软件架构师Rich Carpenter认为,大多数希望利用物联网数据的企业面临的第一个挑战是收集数据,这个任务的艰巨程度要远远超过你的想象。
“GE面临这样的问题就很多。”他说,“我们有400工厂分布在全球,还有数量惊人的未连接进来的设备,因为很多设备在互联网开始流行之前就已经安装了。”
他介绍说,GE将设备分为三类,即完全无需连接的设备、能够连接但需要做一些工作来完成连接的设备,以及已连接或很容易就可以连接的设备,然后针对不同类型的设备分别制定了数据收集策略。
但是,仅仅只是从物联网设备收集数据还是不够的,还需要对它们进行一些转换。因为物联网数据可以有许多不同的格式,它们可能彼此互不兼容或与数据分析软件不兼容。
在工业生产现场GE安装了数据收集装置,称其为现场(Field Agent),它们可以安全地连接到公共云或私有云,把数据存储在云中。这些设备不仅要保证发送数据的安全,同时还要确定收集什么类型的数据、使用什么协议来收集它们,以及该数据应该如何被存储。
在数据被收集上来后,企业还需要理解它,并挖掘它蕴含的有用信息。这本身就是非常困难的,然而更大的挑战是要利用发现的这些信息来进行指导工作,比如建立一个更高效的制造工厂。
Carpenter警告说,许多公司就被阻挡在这个阶段。他对这些公司提出了自己的建议:“有些公司选择先从一个制造工厂作为试点,希望在解决所有数据采集和分析有关的问题之后再推进到第二个、第三个。这里的挑战是往往需要很久才能解决所有的问题,即使只是一个工厂。根据我们的经验还可以有更好的解决方案,就是在试点工厂70%的问题解决了之后,就可以扩展到整个企业,这能更迅速地给企业带来更多的价值。”
Carpenter还表示,几乎所有企业最终都必须将物联网数据纳入到处理和分析范畴,成为真正的数据驱动型企业。“这不仅是对制造企业或那些已经知道必须部署物联网的企业而言,所有的公司都需要,无论是资产管理和维护、ERP、供应链或提高移动工作人员的工作效率等。”
先理清公司业务目标
英特尔数据中心集团大数据分析战略总监Vin Sharma同意Carpenter的说法,认为几乎所有企业最终都需要利用物联网的数据。
“农业、制造业、医疗保健等,这些行业需要利用物联网数据的原因很容易理解。”他说,“但我们认为,每个企业都应该充分利用所有能得到的数据,包括来自物联网的数据。我很难想象某个行业不需要这些数据。以零售为例,通过利用RFID来监测商品的库存,能给企业带来明显价值。还有,许多公司都希望获得客户的360度视角,比如医疗行业中病人、农业行业中的农民或者零售行业中的消费者。”
Sharma说大多数企业在物联网应用上犯的一个最大错误不是技术上的,而是对自己的业务目标了解不足。
“一个常见的问题是,公司在正式部署物联网之前没有一个清晰的业务目标,对此没有非常明确的定义,并不清楚他们要解决哪些问题。”他说,“如果这方面不明确,就会影响物联网的部署。相反,如果企业对自己需要达到的目的非常清晰和明确,往往就能非常迅速采取行动。”
Sharma以服装行业为例,解释了在实施物联网项目之前明确定义业务目标的重要性。比如,公司库存不准导致服装积压,产生浪费,降低了企业的利润。同时,库存不准还会波及供应链上的其他车间。为此,企业准备改善商品库存的准确率来提高企业的利润,这就意味着企业对想要解决的问题有了一个非常明确的目标。带着这个目标,公司可以设计一个系统,在系统中使用RFID来获得有关商品库存更精确的信息,从而提高数据的准确性。
企业在物联网应用上常犯的第二个错误与物联网项目所涉及的范围有关。通常,这些项目过大,很难部署和管理。
“我们看到很多企业之所以取得成功,就是因为它们从一开始就会列出一个非常具体的项目内容或者范围做概念验证,然后进行小规模的试点,接下来再分别在水平方向和垂直方向扩展项目范围和所涉及的业务内容。”他说。
就上面提到改善商品库存的例子,他建议,首先在某个地方的一个店做试点,解决遇到的所有问题。在此之后,再扩展到其他所有的店,最后再增加收集数据类型的种类,扩大效果。
利用基于云的Hadoop平台
在明确了要解决的问题之后,接下来就需要建立一个数据处理的平台。因为离开了数据分析和处理平台,企业收集的物联网数据仍然无法为企业所用。近年来,越来越多的企业倾向于选择开源的Hadoop作为首选的数据处理平台。原因是:它能利用便宜的通用硬件来建立计算机集群,然后在集群之上提供分布式存储来处理庞大的数据集。
这里的挑战是部署Hadoop并不容易,许多企业并没有这样的专业人员。此外,很多企业也没有那么大的投入来为处理海量的物联网数据建立这样一个平台。因此,那些提供基于云的Hadoop服务的公司就如雨后春笋般涌现。这些Hadoop平台能提供处理大数据(也包括物联网的数据)的服务。这样,其他企业就可以专注于数据分析,而不用考虑构建、部署和管理平台的问题。
前面提到的Datameer就提供这些平台之一。Datameer的平台2009年正式对外提供服务。不过,公司技术产品营销高级主管安德鲁・布鲁斯特提醒企业千万不要被物联网的炒作所误导。
他说:“目前,物联网还处于概念普及期,听起来似乎企业面临的数据问题都是全新的。而实际上并非如此,这些问题本质上还是数据流的分析和处理。而与过去不同的是,今天我们从中所能获得的数据无论是种类、数量还是获取数据的频率都有了大幅增加。”
他说,物联网数据处理最大的难题是,它们来自使用不同协议的不同设备,使用彼此并不兼容的数据标准,有时候数据是高度结构化,而有时候又不是。
“对关注物联网的企业我最想提的建议是,最好能找到一种技术或者工具让它们能在所有物联网数据之上创建一个抽象层。这样,当企业得到很多不同类型的数据仍然可以处理它。因为该平台能够实现不同标准的兼容。另外,最好还有一个产品,能够尽可能多地将来自不同数据源的数据实现集成。”
Brust还表示,雇用拥有合适分析技能的人也非常重要。他承认数据科学家都供不应求,但他认为没有必要一定要雇用数据科学家这个职位的人。
“关于数据科学家人们对其认识还有一些神秘感。总体上,你不应该认为一定要有这样技能的人才能进行数据处理和分析。”他说,“如果你有训练有素的技术人员,他们熟练掌握数据仓库和相关的IT技能,你完全可以为他们提供完成工作所需的培训和专业知识,让他们胜任这项工作。这样,你不仅有了合适的人才资源完成了项目,还通过为IT人员提供机会,而让更多的人能继续留在你的企业中。”
Altiscale也有一个基于云的Hadoop平台。Altiscale首席运营官Mike Maciag认为,物联网数据的分析和处理和以往大数据明显不同。
“在很多情况下,物联网数据是许多小数据汇集而成的庞大的数据集合。”他说,“这些数据源源不断地产生,从几百MB到数百TB再到PB级。此外,这些数据经常是非结构化的,因此在分析它们之前需要大量的处理工作。还有一个独特之处是,许多数据在云中生成,通过云汇集到你这里来。”
他说,在某种程度上要求企业改变考虑数据的方式。比如,过去数据的标准处理方式是ETL,即提取数据,转换数据、然后将其存储到数据库中。随着物联网的兴起,处理方式改变为提取它、存储它,然后再转换它。
正因为如此,他建议,要确保存储所有收集进来的数据,不要轻易把它扔掉,即使你还不知道用它来做什么。也许有一天公司有了新的战略和商业模式,那时候它们就可能会成为宝贝。
而实际上,帮助企业推出新的战略和新的经营方式正是企业现在就需要开始制定和改进物联网大数据战略的重要原因。正如GE的Carpenter所说,“这是竞争的需要。企业需要基于真实数据来开展业务,而不是想象中的东西。竞争对手正在这么做,如果你不这样做,你就会被抛在后面。”