大数据与小数据
Esri中国 卢萌
开始文章之前,先声明一下,文章的内容有的是大虾自己的理解,也有是网络上的内容,但是尽量不会去做大段的复制,如果实在有雷同得太厉害的,纯粹巧合。另外文章中的观点仅代表我个人想法,不对正确与否负责,希望有自我辨识能力的朋友有选择性的阅读。
本文的部分思想观点出自 Jules Berman 博士的著作《PRINCIPLES OF BIG DATA》。
———————————— 我是万恶的分割线 ——————————
大数据这个词一出现,就变得炙手可热,它本身的含义已经远远超过了IT圈子,可以说从来没有任何一个IT界的热门词汇,有如此之大的影响力。不管你是做什么的,只要你不把大数据挂在嘴边,马上就显得落伍了。
但是“大数据”这个“大”字,到底是多大?如果说这个“大”字是一个形容词的话,那是不是还有“小数据”、“中数据”,“次大数据”……呢?其实大数据这个词的出现,并不是仅仅用来形容数据很大(当然,现在有各种V来解释大数据,现在都已经到了11个V了),这里我通过翻译和解读Jules Berman博士的著作《PRINCIPLES OF BIG DATA》来对大数据和小数据做一个简单的对比。
在著作中,鲍曼博士认为大数据和小数据(又称为:小规模的数据、传统的数据,在下面的文本中,直接称为小数据)又如下10个方面的不同。
1、目标(Goals)
2、位置(Location)(这里主要指存储位置)
3、数据结构和内容(Data structure and content)
4、数据准备(Data preparation)
5、数据生命周期(Longevity)
6、衡量(Measurements)
7、可重复性(Reproducibility)
8、成本(Stakes)
9、内省(Introspection :一种计算机技术,表示通过内部的一种机制,能够查询到数据中的各种上下文)
10、分析(Analysis)
下面,我就逐个展开来说说。
1、目标
大数据和小数据的本身存在的目标是不一样的。
小数据通常是为了回答特定的问题而存在,或者是为了满足特定的目标。也就说,我们是为了解决特定的问题才去收集、分析、处理指定的,相关的数据,如果某一些数据与我当前的目的无关,那么我就不会去管他。通常在收集这些数据之前,基本上都对数据的大致内容有所了解了,只不过是去收集具体的数据信息而已。就像我们在设计数据库的时候,字段名称、含义、约束条件,都固定了,在属性填入之前,基本上已经知道这个字段里面大致是一个什么内容,只不过以后是填入具体信息而已。
但是大数据不同,大数据收集的时候只是去考虑一个整体的目标,而这些目标可是很灵活的,针对这个目标,我们会提出各种各样的问题,所以没有人可以完全的说明大数据资源到底包含了些什么内容,因为一切可能都是没有被指定的。
2、位置
原文中用的是Location这个单词,我一看见就觉得有种冲动,可爱的LBS啊……好吧,后来发现他说的是存储位置。
作者认为,小数据,一般都是存放或者被包含在一个机构中,通常存储在一台计算机中(或者是一个集群、一个局域网),有时候也存储在一个(或者多个)文件以及一个数据库(或者数据库集群)中。
而大数据通常遍及整个电子空间,只有IT基础架构存在的地方,都有可能作为存放位置,他可能存放在地球的任何一个角落。
3、数据结构和内容
小数据通常都是高度结构化的数据,数据域被限制在一个单一的学科或者分支学科。这些数据往往来自于统一的形式记录的,一个有序的电子表格中。
大数据就必须包含各种非结构化数据(比如任意的文本文档、图像、视频、音频,甚至是物理实体)。这些资源的主题可以跨越多个学科,并在这些资源中,有各种以URL的方式,关联到其他的各种看似不相关的大数据资源。
4、数据准备
小数据在很多情况下,是由数据的使用者为自己的目的准备的数据。
大数据,有许多不同的来源,可能经过了许多人,准备数据的人基本上不是最终使用数据的人。
5、生命周期
在小数据中,当相关的项目结束时,数据保留的时间很有限(传统的学术研究数据的寿命通常为7年),然后就被丢弃了。
在大数据项目中,数据通常会被永久性的存储。在理想的情况下,存储在大数据资源中的原始数据,一直要被吸收到另外一个资源中,这样它的生命周期才宣告结束。许多大数据的项目,都会延伸到未来和过去(包含和收集大量的传统数据),包含和累积各种前瞻性和回顾性的数据。
6、衡量
小数据的质量和结果,可以用一组经过试验的方案来进行测量,也就是说小数据的内容可以通过标准的方法来解析和读,一般来说,都是通过一种标准的协议来进行的,也可以通过标准单位来进行表示。
大数据中,各种不同类型的数据提供了各种不同的电子格式,所以也要不同的协议来进行解析。如何验证大数据的质量也是数据管理中最困难的任务之一。
7、可重复性
小数据项目中,各种技术或者思想通常是可以重用的。比如关于数据的质量检测方式,数据的重用性,数据的有效性验证,数据中得出结论等。而且整个项目也可以重复,从而产生新的数据集。
大数据项目的重用性很少有可行的。在大多数情况下,人们都希望在一个大数据中出现的错误被发现后,能够被标记出来。但是大数据的情况下就算一个项目从数据中发现了错误,也没有办法被标示出来,下一个项目要使用这些数据进行分析,依然会出现这些错误。
8、成本
小数据项目的成本和代价是有限的,如果发现了问题,无论是重新启动项目还是放弃,代价都有限。
但是大数据项目的成本和代价确相当的高昂。大数据项目的失败可能导致企业破产、体制崩溃和大规模的裁员,并且所有资源中的数据都可能突然解体。比如2004年度至2010年度美国国立卫生研究院的成为高达3.5亿美元的大数据项目“NCI癌症生物信息网格”(NCI cancer Biomedical Informatics Grid)。专家委员会审阅发现,尽管经过数百研究人员和专家的努力,项目已经完成了一些,但是代价极其之高昂,之后只能被暂停,并且不就是和被终止。
9、内省
小数据(这里我实在忍不住一定要用“传统数据”这个词了)的各个数据坐标,都是数据在电子表格和数据库中的行和列来定位。如果知道行和列,那么就可以很容易的寻找到相应的所有数据。
在大数据中,除非数据的组织经过精心的设计,不然资源的内容和组织都是让人觉得高深莫测,甚至对于资源管理器本身都无法定位精确的数据信息。而对于数据组织内部信息的完全访问方式,可以通过一种称之为“内省”的技术来实现。()。
10、分析
在小数据中,大多数情况下,整个项目中的数据,都可以一次性全部参与到分析中。
但是在大数据中,除了少数例外,比如使用超级计算机,或者在多台计算机上同时进行,大数据通常是是在通过分布式的方式进行分析(比如使用MapReduce)。这些数据会经过提取、评估、聚合,归一化、转换,可视化,诠释,等不同的方法进行分析。