普通火车为什么没有高铁快?--分布式概念入门

原创

大数据面试宝典 2021-12-29 15:33:29 博主文章分类：大数据基础 ©著作权

©著作权归作者所有：来自51CTO博客作者大数据面试宝典的原创作品，请联系作者获取转载授权，否则将追究法律责任

先说一下火车与动车

先来说一下我们来对比一下他们的最高速度:

普通火车为什么没有高铁快?--分布式概念入门_服务器

同上,我么画一张图来看一下:

这样图表示:普通火车的动力全部都压在了车头一个人身上,就像我们平时所说:**要想火车跑的快,全凭车头带!**但是火车头的动力再足,拉着几十个车厢跑,也是很费力的!

普通火车为什么没有高铁快?--分布式概念入门_大数据_03
高铁的动力分布在了多个车厢中,也就是多个车厢一起发力!
这样设计有什么好处呢?

再来回到我们编程上面的分布式

大数据具有分布式存储,分布式计算等功能

大数据分布式存储就犹如高铁

是一种计算方法，是将该应用分解成许多小的部分，分配给多台计算机进行处理。这样可以节约整体计算时间，大大提高计算效率。

是一种数据存储技术，通过网络使用企业中的每台机器上的磁盘空间，并将这些分散的存储资源构成一个虚拟的存储设备，数据分散的存储在企业的各个角落，多台服务器。
普通火车为什么没有高铁快?--分布式概念入门_分布式_05

总结一下:

一台服务器的算力,磁盘大小是有限的,一群服务器的算力磁盘是可变的,不论你给的文件是1个G还是1个T还是一个PB,只要有服务器,我就可以给你存进去,这既是大数据的牛逼之处!
大数据文件存储是多副本机制存储的,也就是一个文件会分成N个块,每个块会存放在多个节点(服务器)中,如果一台服务器坏掉了,还要别的两个节点中存放着这个块文件,这样就大大的提高了容错率