hdfs 纠删码策略有哪些局限性 ceph纠删码与多副本选择

转载

码海舵手 2024-05-23 13:29:46

文章标签 hdfs 纠删码策略有哪些局限性 ceph 纠删码分布式存储纠删码支持 文章分类 架构后端开发

原理介绍

纠删码（Erasure Coding，EC）是一种编码容错技术，最早是在通信行业解决部分数据在传输中的损耗问题。其基本原理就是把传输的信号分段，加入一定的校验再让各段间发生相互关联，即使在传输过程中丢失部分信号，接收端仍然能通过算法将完整的信息计算出来。在数据存储中，纠删码将数据分割成片段，把冗余数据块扩展和编码，并将其存储在不同的位置，比如磁盘、存储节点或者其他地理位置。如果需要严格区分，实际上按照误码控制的不同功能，可分为检错、纠错和纠删3种类型。

检错码仅具备识别错码功能而无纠正错码功能。
纠错码不仅具备识别错码功能，同时具备纠正错码功能。
纠删码则不仅具备识别错码和纠正错码的功能，而且当错码超过纠正范围时，还可把无法纠错的信息删除。

从纠删码基本的形态看，它是k个数据块+m个校验块的结构，其中k和m值可以按照一定的规则设定，可以用公式：n=k+m来表示。变量k代表原始数据或符号的值。变量m代表故障后添加的提供保护的额外或冗余符号的值。变量n代表纠删码过程后创建的符号的总值。当小于m个存储块（数据块或校验块）损坏的情况下，整体数据块可以通过计算剩余存储块上的数据得到，整体数据不会丢失。

下面以k=2，m=1为例，介绍一下如何以纠删码的形式将一个名称为cat.jpg的对象存放在Ceph中，假定该对象的内容为ABCDEFGH。客户端在将cat.jpg上传到Ceph以后，会在主OSD中调用相应的纠删码算法对数据进行编码计算：将原来的ABCDEFGH拆分成两个分片，对应图11-2中的条带分片1（内容为ABCD）和条带分片2（内容为EFGH），之后再计算出另外一个校验条带分片3（内容为WXYZ）。按照crushmap所指定的规则，将这3个分片随机分布在3个不同的OSD上面，完成对这个对象的存储操作。如图所示。

hdfs 纠删码策略有哪些局限性 ceph纠删码与多副本选择_ceph

当然实际存储的过程中，还要经过ceph的pgp尽心归置，然后又pg管理对象内容，实际写入到osd上。

下面再看一下如何使用纠删码读取数据，同样还是以cat.jpg为例。客户端在发起读取cat.jpg请求以后，这个对象所在PG的主OSD会向其他关联的OSD发起读取请求，比如主OSD是图中的OSD1，当请求发送到了OSD2和OSD3，此时刚好OSD2出现故障无法回应请求，导致最终只能获取到OSD1（内容为ABCD）和OSD3（WXYZ）的条带分片，此时OSD1作为主OSD会对OSD1和OSD3的数据分片做纠删码解码操作，计算出OSD2上面的分片内容（即EFGH），之后重新组合出新的cat.jpg内容（ABCDEFGH），最终将该结果返回给客户端。整个过程如图所示。

hdfs 纠删码策略有哪些局限性 ceph纠删码与多副本选择_hdfs 纠删码策略有哪些局限性_02

纠删配置

常用命令

osd erasure-code-profile get <name>                                     get erasure code profile <name>
osd erasure-code-profile ls                                             list all erasure code profiles
osd erasure-code-profile rm <name>                                      remove erasure code profile <name>
osd erasure-code-profile set <name> {<profile> [<profile>...]} {--      create erasure code profile <name> with [<key[=value]> ...] pairs. Add 
force}                                                                  a --force at the end to override an existing profile (VERY DANGEROUS)
ceph osd pool create [pool_name] [pg_num] {pgp_num} erasure {profile}   使用已有的profile创建一个存储池。
                                                                        在M版本开始，pgp_num可以不指定，默认和pg_num一致。
                                                                        profiler如果不指定，则使用default
ceph osd pool set [pool_name] allow_ec_overwrites true                  设置存储池allow_ec_overwrites属性

查看本地纠删配置文件列表

osd erasure-code-profile ls

输出如下：

default

如果没有手动在集群上创建额外的配置文件，默认只有一个default配置项目。在使用ceph osd pool create命令创建存储池的时候，如果不指定profile，则使用它

创建配置文件

ceph osd erasure-code-profile set ec_profile \
    k=3 \
    m=2 \
    crush-failure-domain=osd \
    --force

ceph osd erasure-code-profile set命令可以创建一个新的profile（如果不存在的话），也可以修改已有的profile（如果已经存在），当然修改的时候，需要带上–force参数。

其中crush-failure-domain是故障域，这个参数非常重要。因为我们的是测试环境，只有三台hosts，所以设置的crush-failure-domain为osd。也就是说，数据块K和校验块M会被写到不同的osd上，我们的osd数量要满足大于等于k+m个。如果不满足，创建的存储池的pg状态会一直处于creating+incomplete状态，且无存储池无法读写。

查看profile配置信息

我们可以使用如下命令查看profile的配置信息：

ceph osd erasure-code-profile get ec_profile

输出如下：

crush-device-class=
crush-failure-domain=osd
crush-root=default
jerasure-per-chunk-alignment=false
k=3
m=2
plugin=jerasure
technique=reed_sol_van
w=8

创建存储池

我们使用刚才创建的ec_profile创建一个存储池：

ceph osd pool create china_ec 64 erasure ec_profile

查看存储池信息：

ceph osd dump | grep 'china_ec'

输出如下：

pool 15 'china_ec' erasure size 5 min_size 4 crush_rule 2 object_hash rjenkins pg_num 64 pgp_num 64 autoscale_mode warn last_change 9143 lfor 0/0/9138 flags hashpspool,selfmanaged_snaps stripe_width 12288

从输出信息中，我们可以获取如下信息：

erasure size：5；也就是3+2，一份数据会被分割成3份，同时计算出2份校验块。
min_size 4：4；因为我们的M=2，我理解的应该是容许损失2块osd。但实际上是只能损失一个osd，这个说明我们对M的理解还是有问题的
crush_rule：2；使用的profile的id，对应china_ec；
pg_num和pgp_num：64；我们使用的M版本，虽然我们在创建的时候，只制定了一个64，但是创建后的pg_num和pgp_num都为64。这可能是新版本的改动，老版本需要指定pg_num和pgp_num。
flags：hashpspool,selfmanaged_snaps

配置rbd

默认情况下，纠删存储池只能比较好的支持rgw。从L版本开始，纠删存储池支持开启allow_ec_overwrites属性，从而使得纠删存储池可以作为rbd或者cephfs的数据池。支持rbd需要有如下几个条件：

版本大于等于L
开启allow_ec_overwrites
bluestore存储引擎
纠删存储池不支持omap，需要一个副本存储池存储块设备的元数据等信息。该副本存储池可以初始化为rbd应用

开启allow_ec_overwrites：

ceph osd pool set ec_pool allow_ec_overwrites true

我们事先已经创建了一个叫china_re的三副本存储池，并初始化为rbd应用。我们可以使用如下命令创建对应的块设备：

rbd create --size 10G --data-pool china_ec china_re/test

注意：如果我们想让纠删存储池作为块设备的数据池，我们建议把该纠删池也初始化为rbd应用。这样不会有如下警示：

application not enabled on 1 pool(s)

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：目前可以上的 java版qq java版的qq还能用吗

下一篇：Android 按频率手机个人信息隐私政策安卓用户隐私

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯