多大的数据量才算是大数据?这是从存储角度来界定的,1TB或者是1PB还是更多?大数据库有哪些基本特征?大数据永远是大数据吗?10几年前我们觉得1GB的数据很大,20多年前,100MB也很大,30多年前,在一次计算机展会上,Bill Gates (比尔·盖茨)曾经说过当时刚推出的IBM PC的640KB的可用RAM限制应该是“ought to be enough for everyboby”(640个kb(千字节)对任何人来说都应该足够了。),不过后来其极力否认当年说过此话。
我们来看看更直观的量化比较数据吧:
1 Byte = 一粒沙子
1 KB = 一小撮沙子
1 MB=一小碗沙子
1 GB = 一盒沙子
1 TB = 一个沙箱(1000盒沙子)
1 PB= 一个1千米长的海滩上的沙粒总数
1 EB = 北京到上海之间距离的沙粒总和
1 ZB = 几乎全世界所有海滩上得沙粒综合
从数据的生成速度来看,根据国际数据公司IDC的监测数据显示:
2013年,全球大数据库储量为4.3ZB(相当于47.24亿个1TB容量的移动硬盘);
2014年是6.6ZB;
2015年是8.6ZB;
2016年是16.1ZB;
2017年是21.6ZB;
2018年是33.0ZB
……
尤其是COVID-19以来,数据生成速度更为惊人!(暂略)
从数据产生的渠道来看:
·人类活动生成的数据:
网页浏览
移动设备使用
·机器产生的数据:
生产线设备
物联网设备、传感器等
无线网络等
对于大数据,不同人有不同的定义,最流行的是早在2001年的 Meta Group,现在叫Garther的分析师Doug Lanley定义的“3V”,也就是用3个特点来定义大数据库:
数量(Volume)—— 庞大容量 (2010—2020年,数据量增长44倍)
种类(Variety)—— 种类丰富 (结构化、半结构化、准结构化、非结构化)
速度(Velocity)—— 极快速度 (Twitter每秒产生120万的推文;Google每秒能处理100万个 搜索;facebook每天新生成2.5亿张照片……)
当然,后来又增加了其他几个“V”,如数据真实性(Veracity)、数据价值(Velue)等,最多的时候有人提出过11个“V”,不过笔者认为“4V”即可 ,也就是处以上的“3V”外,再加上真实性(Veracity)(数据的噪声、处理上的错误)。
数据的完整生命周期就是从杂乱无章的数据到整理而成的信息,再到提炼而成的知识,进而升华为智慧,最后演变成可以赋予机器的智能!
数据的完整生命周期