中文 英语

重新思考大数据

要想通过数十亿个传感器准确地挖掘数据,就需要一种不同的方法来处理这些数据。

受欢迎程度

你不得不惊叹于现代边缘营销计划所能实现的纯粹天才。例如,诸如的术语物联网,(也被称为物云,或万物互联,甚至互联互联网)已经成为相当沉闷的M2M行业的性感、有趣、令人兴奋的伪装层。

同样的事情也将发生在分析领域。它买了一套新西装,刮了胡子,剪了头发,还被称为“大数据”。根据Ian Morris,射频连接解决方案的首席应用工程师NXP半导体,“大数据是当今世界最流行的话题之一。”

有很多关于物联网和大数据的声音。从零售到医药、国防、国土安全、旅游和物流。这只是表面现象。莫里斯表示,许多供应商对物联网感兴趣,因为它有可能销售从软件到网络再到芯片的所有产品。“这不仅仅是一个垂直市场,从传感器的角度来看,大数据代表着巨大的机会。”

随着大量的数据收集设备,一旦物联网真的存在,虚拟宇宙中的数据量将是天文数字——保守地说,到2020年将达到40泽字节。而获取这些数据的传感器数量也是天文数字。没有人愿意猜测传感器的数量,但物联网设备的数量在500亿到2000亿之间。而且大多数设备都充满了传感器。仅智能手机就集成了加速度计、指南针、GPS、光和声音传感器、高度计等传感器。如果有人想找到一个典型的物联网设备,这就是它。

智能手机被设想为一个智能监听站,可以监控我们的健康状况、我们在哪里、我们的速度有多快、我们的触觉、汽车的速度、地震的震级,以及数不清的其他东西,这些在几年前甚至还没有出现在雷达屏幕上。智能手机只是众多智能物联网设备中的一种。

由此推断,如果每个智能设备只有5个传感器,如果2000亿个传感器接近现实,那么传感器的数量最终将达到数万亿。有了这些传感器收集的所有数据,人们就能理解为什么分析学需要一场革命了。

picbigdata

大数据vs.传统分析
大数据与传统分析的不同之处在于如何看待数据,以及预期的结果是什么。这实际上是一个可信的例子。由于产生了大量的数据,传统的分析没有合适的工具,也不能有效地处理数据,即使有泰坦和天河2号这样的下一代超级计算机。需要分析的大量数据将阻塞现有的分析方法,主要是因为分析需要实时和透明。

在大数据的保护伞下,“每个应用程序都需要是一个分析应用程序,”Gartner研究员David Cearley说。“每个从事任何类型数据分析的人都必须找到一种方法来管理如何最好地过滤来自物联网、社交媒体和可穿戴设备的大量数据,然后在正确的时间将正确的信息传递给正确的人。分析将深入而无形地嵌入到任何地方。”

对于统计学家来说,大数据挑战了一些基本的范式。一个例子是“大p,小n”问题(在这种情况下,我们将“p”定义为变量的数量,而不是一个值)。传统的统计分析通常通过对大量数据使用少量变量来进行数据分析。在这种情况下,变量的数量p很小,而数据点的数量n很大。一个典型的例子可能是在销售中,冰箱有许多不同的选择,包括颜色、制冰机、门设备、抽屉、大小、门等等。虽然与用户的数据相比,变量的数量仍然相当可观,但与消费者的样本量相比,变量的数量仍然很小。

大数据则从另一个角度看待这个问题。比如医学,比如癌症。将其应用到大数据应用中,情况正好相反。在一项使用基因组学的癌症研究中,研究人员可能会收集100名癌症患者的数据,以确定哪些基因会导致这种癌症的风险。挑战在于,人类基因组中有2万个基因,甚至更多的基因变体。全基因组关联研究通常着眼于50万个“snp”,即基因组上可能发生变异的位置。变量的数量(p = 500,000)远远大于样本量(n = 100)。

这种大数据方法是一种范式转变。在传统的分析中,当p大于n时,参数的数量相对于数据中关于它们的信息是巨大的。当使用这种方法时,会有大量不相关的参数显示为统计显著性。在经典统计分析中,如果数据中包含有百万分之一的概率发生的事情。但如果你分析来自50万个地方的数据,(大数据)百万分之一的发现会更频繁地出现。诀窍在于确定它的相关性和偶然性。

这就是统计学家所说的“无处不在”效应,也是困扰大数据的问题之一,因为与传统的假设驱动方法相比,数据驱动分析能产生更多、更广泛的结果。

人们已经开发了许多解决方案来缓解这种影响。在现实中,大多数数据集,无论多么庞大,都只有少数强关系。其余的都是噪音。因此,通过过滤掉这些重要的参数,其余的可以被认为是不相关的。如果百万分之一的数据点在重要过滤器之外,那么它们是偶然的,可以被丢弃。

如何做到这一点是相当简单的和一个标准的数学方法,各种分析-设置一些参数为零。这工作得很好,但是需要大量的数据迭代。通过改变设置为零的参数,并运行冗余分析,最终将发现有意义的“微量”数据。

这样做的问题在于,它需要大量的计算,并且需要大量的时间来编译经典的统计硬件/软件。但幸运的是,技术来拯救了我们。今天,由于硬件和软件的技术进步,这种方法是可行的。

其中一项进步被称为l1最小化,或LASSO,由Robert Tibshirani在1996年发明。它工作得很好的一个地方是在图像处理领域,它可以从大量模糊或有噪声的数据中提取出焦点清晰的图像。还有其他的,比如Yoav Benjamini和Yosi Hochberg在1995年提出的错误发现率(FDR),它假设一定比例的数据是错误的。可以对数据进行后续分析,以确定假设的错误数据的有效性,以确定随机分配为错误的数据是否有效。

第三维度
到目前为止,大多数统计分析都是二维的——n和p,而大数据则一次性地增加了第三维。物联网内的大数据分析,将是实时的。数据必须在飞行中进行分析,决策必须在飞行中做出。而且,这些数据将是一种全新的类型——图像、声音、信号、时间相对测量和无限空间测量。这些数据不仅是无限的,而且是复杂的。它们可能需要在几何或拓扑平面或三维悖论中进行分析。

这个新维度的一个更有趣的应用是Web分析。网络公司必须向客户提供有意义的结果,这样他们才能“销售”他们的服务,这种压力是一个无情的驱动力。这些公司通过准确预测用户反应来产生特定的用户行为(例如,点击客户赞助的广告)而受益匪浅。

这是一个完美的大数据分析案例。n的数量非常大(例如一百万次点击)。p也可能很大(成千上万或更多的变量——哪个广告,在哪里,多长时间,等等)。现在,由于n远大于p,理论上可以使用经典分析——除了时间因素。在许多情况下,算法可能只有几毫秒的时间来响应点击,而第一次点击之后又会有另一次点击,等等。因此,这些算法必须不断更改来自用户的输入变量(例如旋转广告)。

针对这一挑战,在Web上有一种优雅的解决方案,那就是在多组计算机之间使用大规模并行处理。这里有趣的情况是,这种方法是计算的圣杯——速度和统计的圣杯——分析的结合。最后,这样的解决方案实际上运行得相当好。这种方法不是每次都能给出正确答案,但耗时太长,而是在大多数情况下都能快速给出正确答案。

隐私——痛处
了解本网站的读者都很清楚物联网迫在眉睫的安全问题。最近数据泄露事件的深度和广度充分提醒我们,我们的数据是多么脆弱。保护大数据的方法有很多种,传统的数据安全手段并不总是有效。因此,正在开发各种方法。

ChaoLogix业务发展高级副总裁乔德里•亚纳玛达拉表示:“保护大数据至关重要的一个例子是石油管道监控。“每隔几英尺(随着管道的不同),他们就有一个流量监控器,可以检测油流的一些参数,比如压力、密度、流速。来自所有传感器的庞大数据量令人震惊,保护这些数据至关重要。但由于这些“大数据”的规模,保护数据本身就变得很棘手。大量的安全性意味着大量的开销,这可能会阻碍这种类型的M2M数据收集。我们发现一种行之有效的方法是确保身份验证的安全,并使用验证技术来确保数据没有被泄露。”

实时保护海量的大数据需要一些新颖的解决方案。在传统意义上,匿名化n和p不能随着变量的增加而很好地扩展。类网络数据对隐私提出了特别的挑战,因为很多信息都与个人之间的关系有关,这些关系在动态变化,内容也是动态的。

地平线上有一些亮点。一项正在发展的技术是“差别隐私”,这是一种将安全性商品化的方法,用户可以根据自己的需要为自己的数据购买尽可能多的安全性。但总的来说,保护大数据的尝试仍处于起步阶段。

结论
毫无疑问,大数据将成为物联网的信息支柱。大数据对很多行业来说都是新鲜事物。不是数据,也不是收集,而是分析。此外,新的数据类型正在出现,需要新的方法来分析它。

最大的挑战之一将是能够同时从多个向量实时挖掘有意义的统计数据。要做到这一点,就需要将科学、分析、计算和数学实践相结合。我们需要新的方法,以及对所分析内容的不同观点。

统计分析是一种强大的工具,可以在一定程度上确定地窥见未来。有了大数据、物联网和下一代统计数据,我们可以了解和指导物流、药品、天气、基础设施、经济、环境、金融……等等的影响。统计和分析将有能力拯救和改善生命,增加可靠性和降低成本,并改善无限的事物和过程。



留下回复


(注:此名称将公开显示)

Baidu