多大的数据量才算是大数据?这是从存储角度来界定的,1TB或者是1PB还是更多?大数据库有哪些基本特征?大数据永远是大数据吗?10几年前我们觉得1GB的数据很大,20多年前,100MB也很大,30多年前,在一次计算机展会上,Bill Gates (比尔·盖茨)曾经说过当时刚推出的IBM PC的640KB的可用RAM限制应该是“ought to be enough for everyboby”(640个kb(千字节)对任何人来说都应该足够了。),不过后来其极力否认当年说过此话。

我们来看看更直观的量化比较数据吧:

1 Byte = 一粒沙子

1 KB = 一小撮沙子

1 MB=一小碗沙子

1 GB = 一盒沙子

1 TB = 一个沙箱(1000盒沙子)

1 PB= 一个1千米长的海滩上的沙粒总数

1 EB = 北京到上海之间距离的沙粒总和

1 ZB = 几乎全世界所有海滩上得沙粒综合

从数据的生成速度来看,根据国际数据公司IDC的监测数据显示:

2013年,全球大数据库储量为4.3ZB(相当于47.24亿个1TB容量的移动硬盘);

2014年是6.6ZB;

2015年是8.6ZB;

2016年是16.1ZB;

2017年是21.6ZB;

2018年是33.0ZB

……

尤其是COVID-19以来,数据生成速度更为惊人!(暂略)

从数据产生的渠道来看:

·人类活动生成的数据:

网页浏览

移动设备使用

·机器产生的数据:

生产线设备

物联网设备、传感器等

无线网络等

对于大数据,不同人有不同的定义,最流行的是早在2001年的 Meta Group,现在叫Garther的分析师Doug Lanley定义的“3V”,也就是用3个特点来定义大数据库:

数量(Volume)—— 庞大容量 (2010—2020年,数据量增长44倍)

种类(Variety)—— 种类丰富 (结构化、半结构化、准结构化、非结构化)

速度(Velocity)—— 极快速度 (Twitter每秒产生120万的推文;Google每秒能处理100万个                                     搜索;facebook每天新生成2.5亿张照片……)

当然,后来又增加了其他几个“V”,如数据真实性(Veracity)、数据价值(Velue)等,最多的时候有人提出过11个“V”,不过笔者认为“4V”即可 ,也就是处以上的“3V”外,再加上真实性(Veracity)(数据的噪声、处理上的错误)。

数据的完整生命周期就是从杂乱无章的数据到整理而成的信息,再到提炼而成的知识,进而升华为智慧,最后演变成可以赋予机器的智能!


一亿数据索引多大 1亿条数据有多大空间_一亿数据索引多大

数据的完整生命周期