分布式开源容器管理界面开源分布式存储

转载

智能开发艺术家 2024-03-27 11:20:50

文章标签 分布式开源容器管理界面分布式开源架构数据 文章分类 云原生云计算

文章目录

概述
什么是ceph？
ceph的架构

Ceph OSD
Ceph Monitor

OSD Map
PG Map

CRUSH算法
Ceph的文件存储

Ceph的MDS

ceph的不足
Ceph命令和使用

ceph部署
Ceph集群网络拓扑图
ceph 命令
Ceph 块存储的挂载

分布式存储架构

基本的原理
Master如何高可用？
数据如何保持高可靠？
数据如何分布？
故障如何恢复？

概述

k8s的后端存储中ceph应用较为广泛，当前的存储市场仍然是由一些行业巨头垄断，但在开源市场还是有一些不错的分布式存储，其中包括了Ceph、Swift、sheepdog、glusterfs等

分布式开源容器管理界面开源分布式存储_开源

什么是ceph？

Ceph需要具有可靠性（reliability）、可扩展性（scalability）、统一性（unified）和可分布式（distributed）存储特性。

可靠性主要分为两点，

第一，写入数据的强一致性，它并非是最终一致性，必须完成多副本的成功写入才能提交
第二，通过多副本保证数据不丢失，避免因为单个服务器或者单个机架的故障导致数据丢失。

可扩展性

主要指通过增加系统节点数，扩大系统规模的同时，系统的存储容量也相应提高，当然在理想情况下应该成线性关系，Ceph的OSD支持动态添加，
当集群容量不足时，通过增加OSD节点便可以扩展集群的容量，并且Ceph能够自动完成数据重新分配。

统一性

Ceph能够同时支持文件存储、对象存储和块存储。这些特点最终都得利用Ceph分布式的架构设计和去中心化的设计思想

回想当时Sage博士的论文，在传统的通过HA保障高可用的大众方案里面，Ceph超前地使用了CRUSH和Hash环的方案，极具创意

ceph的架构

分布式存储可以搭建在普通x86服务器集群之上，主要依靠多副本完成数据高可靠性，它提供了Ceph FS（Ceph File System）文件存储系统和POSIX接口、RADOSGW（Reliable Antonomic Distributed Object Storage Gateway）的对象存储，以及最常用的块存储RDB（Rados Block Device）。

分布式开源容器管理界面开源分布式存储_数据_02

整个Ceph存储模块，最底层是RODOS对象存储系统，上面分别通过四种接口对外暴露不同的服务。

1）通过RADOSGW实现AWS的S3接口和OpenStack的Swift接口，提供对象存储服务；

2）通过LIBRADOS提供编程调用的API，支持C++、Python、Java等编程接口；

3）实现POSIX协议的文件存储；

4）通过Librbd块存储库提供块存储接口，可以为虚拟机或者物理机提供虚拟块存储服务。

Ceph OSD

Ceph OSD：Ceph的OSD（Object Storage Device）守护进程。主要功能包括：存储数据、副本数据处理、数据恢复、数据回补、平衡数据分布，并将数据相关的监控信息提供给Ceph Moniter，以便Ceph Moniter来检查其他OSD的心跳状态。一个Ceph存储集群，要求至少有两个Ceph OSD，才能有效地保存两份数据。注意，这里两个Ceph OSD是指运行在两台物理服务器上的，并不是在一台物理服务器上开两个Ceph OSD的守护进程。

Ceph的数据并非直接保存在OSD节点上，需要一定组织形式，这里引入三个概念，既然是对象存储，

第一个概念当然是对象（Object），Ceph最底层的存储单元是对象，默认4MB的存储大小，每个Object包含唯一标识ID、元数据和对象内容。但Ceph并不直接维护object，而是将它们分成逻辑组，这就引出了第二个概念PG（Placement Group，放置组），PG是一个逻辑概念，引入PG这一层其实是为了更好地分配和定位数据，它是数据迁移的最小单位，从图中可以看出一个文件会拆分出很多Object对象，每个对象都有一个ID，称为oid。通过Hash取模确定所属PG，每个对象只属于一个PG，然后将PG分配到一个OSD中，如果对象的副本数是3个，那么这个PG会通CRUSH算法分布到三个OSD中，其中一个OSD的PG是Primary PG（主副本），另外两个OSD上面的是Replicated PG（从副本），Primary PG负责PG中对象读写操作，而Replicated PG是只读的。每个OSD上面都会承载多个PG。整个分布流程图如图

分布式开源容器管理界面开源分布式存储_数据_03

当一个OSD设备发生故障时（主机宕机或者存储设备损坏），这个OSD所有的PG都会处于Degraded（降级）状态，此时数据是可以继续读写的。如果OSD长时间（默认5分钟）无法启动，该OSD会被“踢出”Ceph集群，这些PG会被Monitor根据Crush算法重新分配到其他OSD上。

第三个概念是Pool。Pool是Ceph存储数据时的逻辑分区，它定义了数据的冗余方式（差错码、副本）和副本的分布策略，如下图所示。不同的Pool可以定义不同的数据处理方式，如Replicated Size（副本数）、PG个数、Crush规则等。

分布式开源容器管理界面开源分布式存储_架构_04

Ceph Monitor

Ceph的Monitor是一个守护进程，主要功能是维护集群状态的表，主要是Monitor Map、OSD Map、PG Map等。这些表记录了整个集群的信息。

OSD Map

OSD Map负责记录Ceph集群中所有OSD的信息。OSD节点的变化如节点的加入和退出、OSD运行状态，以及节点权重的变化都会被定时上报到Monitor，并记录到OSD Map里。当新的OSD启动时，此时OSD Map并没有该OSD的情况，OSD会向Monitor申请加入，Monitor在验证其信息后会将其加入到OSD Map中，这里还涉及多个Monitor之间通过Paxos一致性协议保持OSD Map数据在多个Monitor之间数据的一致性。

PG Map

PG Map是由Monitor维护所有PG的状态，每个OSD都会掌握自己所拥有的PG状态。PG迁移需要Monitor通过CRUSH算法做出决定后修改PG Map，相关OSD会得到通知去改变其PG状态。在一个新的OSD启动并加入OSD Map后，Monitor会通知这个OSD需要创建和维护PG。当存在多个副本时，PG的Primary OSD会主动与Replicated角色的PG通信，并且沟通PG的状态。

CRUSH算法

CRUSH可译为可控的、可扩展的、分布式的副本数据放置算法。

通过CRUSH算法计算数据存储位置来确定如何存储和检索，从而Ceph客户端可以直接连接OSD读写数据，而非通过一个中央服务器或代理。数据存储、检索算法的使用，使Ceph避免了单点故障、性能瓶颈和伸缩的物理限制。

CRUSH算法决策需要两个因素

第一个因素是需要集群的完整拓扑结构Cluster Map，如图，定义整个OSD层次结构和静态拓扑。一方面CRUSH算法把数据伪随机、尽量平均地分布到整个集群的OSD上；另一方面，OSD层级使CRUSH算法在选择OSD时实现了机架感知能力，也就是通过规则定义，使得副本可以分布在不同的机架、不同的机房中，提供数据的可靠性。
第二个因素是放置规则列表，放置规则（CRUSH Rule）定义了从哪个节点开始查找，以及定义查找的方式。

分布式开源容器管理界面开源分布式存储_数据_05

Ceph的文件存储

Ceph的文件存储是建立在底层RADOS存储之上的，它是通过Ceph的Metadata Server （MDS）管理的。

Ceph的MDS

MDS：Ceph的MDS（Metadata Server）守护进程，主要保存的是Ceph FileSystem的元数据。注意，对于Ceph的块设备和Ceph对象存储都不需要Ceph MDS守护进程。只有使用Ceph FS的时候才需要安装。Ceph MDS基于POSIX文件系统的用户提供了一些基础命令的执行，比如ls、find等。Ceph FS读写数据示意图如图所示。

分布式开源容器管理界面开源分布式存储_分布式开源容器管理界面_06

当客户端打开一个文件时，客户端向MDS发送请求，这里需要注意MDS只是负责接受用户的元数据请求，不是文件内容，然后MDS从OSD中把元数据取出来映射进自己的内存中供客户访问。

所以，MDS其实类似一个代理缓存服务器，在这个缓存服务器里面构建了一个目录树，并且可以获取目录下面文件的inode信息。当客户端获取MDS返回的文件后就可以直接与OSD交换了，真正完成数据的读写操作，这样就可以分担用户对OSD的访问压力。

ceph的不足

Ceph本身也存在自身缺陷，开源版本的Ceph部署和维护成本比较高，

Ceph的底层是对象存储，而对象又通过文件系统保存，这样过长地读写I/O路径对性能造成很大影响，并且一致Hash算法并不能保证数据完全均衡和负载。

所以，Ceph更建议在私有云的环境中，部署规模不要超过百台的场景中使用。

Ceph命令和使用

ceph部署

官方建议的机种部署方式

分布式开源容器管理界面开源分布式存储_架构_07

Ceph集群网络拓扑图

分布式开源容器管理界面开源分布式存储_分布式开源容器管理界面_08

ceph 命令

分布式开源容器管理界面开源分布式存储_开源_09

Ceph 块存储的挂载

Ceph最常用的场景是它的RBD块存储。RBD块存储的使用有两种挂载方式，一种是通过nbd，再经过用户态的librbd挂载；另一种是通过内核模块的krdb，这种方式对内核版本有一定要求。Ceph RDB示意图如图

分布式开源容器管理界面开源分布式存储_开源_10

分布式存储架构

基本的原理

基本的原理的都是将文件拆分很多小块，成为条带化，然后将这些数据块通过多副本的方式保存到不同机器上，并记录这些块和文件的对应关系，以及块和机器的对应关系。

分布式开源容器管理界面开源分布式存储_分布式_11

Master如何高可用？

为了保持数据的一致性，通常只有一个活动的Master，但单点的Master可靠性会大大降低，所以通常的做法是借助Zookeeper或者etcd，在Master宕机后，备用的Master成为活动的Master并接管之前Master的任务。例如，在HDFS存储中，Master叫作NameNode，分为Active NameNode和Standby NameNode，之间形成互备。其中有一个NameNode处于Active状态，为主NameNode，另外的处于Standby状态，为备NameNode，只有主NameNode才能对外提供读写服务，通过Zookeeper完成主备切换。

数据如何保持高可靠？

在分布式存储中，数据的高可靠通常不依赖底层的RAID，通过多副本或者erasure code的方式保证数据的可靠性。如果一个副本丢失，会拷贝一份其他节点的副本，通常是3副本的方式保存，一个主副本可读可写，而从副本只读。所有分布式系统都不能违背CAP定理，C（Consistency）的一致性，在这里指多副本数据的一致性；A（Availability）即可用性，这里指能够随时读写数据；P（Partition tolerance）即分区容错性，这里指能够容忍网络中断出现分区的情况。

在分布式系统中，P通常是必须要保证的，所以基本是在C和A中权衡。如果选择C则放弃可用性，当集群数据出现一致性问题后则停止对外提供数据写服务；如果是选择A，则可能会出现多副本数据不一致情况。但CAP现在已经有点过时了，因为A并不是绝对的可用或者不可用，而C也并不是一直保持强一致性。通常在一些要求不高的场景下，保证基本可用和弱一致即可，对应的是eBay工程师提出的BASE理论。BASE指基本可用（Basically Available）、软状态（Soft State）和最终一致性（Eventual Consistency），放弃了强一致，保证高可用。

数据如何分布？

这里通常有两种方式，一种是通过元数据的方式标识数据的分布的，例如，在HDFS中，NameNode里面保存所有块的元数据，元数据记录了块的名称，副本数，副本分布DataNode存储路径。另一种是通过DHT等算法计算并得到数据的分布，例如Swift采用的一致性Hash环算法，还有Ceph采用的rados算法。他们各有利弊，通过元数据的方式，避免在添加节点时数据迁移，但需要额外维护一套元数据，而通过算法的方式可以避免使用元数据，但在增减节点的时候，整个算法需要重新计算，导致大量数据重新分布，不仅影响集群性能，还有可能造成集群暂时不可用。

故障如何恢复？

首先是故障检测，master的故障检测上面已经介绍了，如果采用Metadata服务，需要将Metadata保存在高可用的数据存储中，如MySQL或者etcd中，从而避免切换master导致数据的丢失情况。如果是存储节点的检测则分为两种情况，第一种是整个计算节点宕机，这种情况一般是通过心跳解决，存储节点定时上报自己的状态和节点上面副本的情况，如果超时上报则认为节点故障，需要恢复整个节点的数据副本；第二种情况是磁盘故障，如果读写I/O报错、磁盘检查工具检查磁盘故障等，这种情况通常需要将磁盘隔离，并复制故障盘的数据。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：销毁ActivatedRouteSnapshot 销毁照片的最好方法

下一篇：nginx conf 中文配置 nginx的conf文件

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯