数据的存储一直是一个很热门的话题和技术,数据的存储不但要持久化存储,还要有更优的存储技术。有些人会想能把数据存起来就好了干嘛还有更优的存储呢?我现在这里说明一下,这里所指的更优化的存储指的是:数据写入和读取的速度、数据存储的安全、数据存储的备份和容灾、数据存取的事务性。在这四项里面数据写入和读取的速度与数据存储的安全就一直是一个痛点也可以说是你死我活的点。
一般的比较体积比较小的数据只需要少则500GB多则2~3TB的存储空间即可存储,一般个人的数据在500GB-1TB的就已经足够使用,企业级别的在2TB-3TB的也基本够用。但是在大数据中1~2TB的基本上算是起步数据量,一般为10~30TB的数据量,再高点的就到50TB-10PB,甚至可以达到上百PB以及EB级别。有些人会问大数据怎么会需要这么大的数据存储量呢?其实,在大数据中数据的存储只是解决的了最基本的功能而最重要的是数据的备份和容灾。
数据的备份和容灾是解决大数据数据安全存储和数据存储健全很重要的步骤。以百度网盘为例,一个用户上传1GB大小的数据,那么百度在存储的时候它会把这1GB的数据变成3GB的或者其他大小的数据(反正比1GB大的多),而多余出来的数据大小就是备份,当然在大数据存储的时候备份远不止这么简单。说到这里就不得不提到大数据经典三篇论文。具体的网址在这:者三篇是大数据的经典论文,在此三篇论文的基础之上,谷歌先后实现了GFS、MapReduce等技术。这些技术我会在日后的探讨中慢慢给大家讲述。