Ceph使用学习之一

精选原创

Slaytanic 2023-11-21 11:40:52 博主文章分类：集群 ©著作权

文章标签 云存储 ceph 分布式存储块存储对象存储 文章分类 云服务云计算 私藏项目实操分享

©著作权归作者所有：来自51CTO博客作者Slaytanic的原创作品，谢绝转载，否则将追究法律责任

最近在某个外包项目上用到了ceph，迫不得已学习了一下安装部署和优化. 把学习使用过程总结一下。于ceph一路纯新手，不喜勿喷。

项目背景是一数据仿真项目，需要将实验数据导入到一个存储集群中，然后经过裁剪优化，以动画形式仿真还原导弹飞行过程和雷达扫描范围等。数据量较大，包含视频等内容，大约每次实验几百G到十几T不等。需求方将项目包给一国企，国企将项目包给一有资质私企，资质私企将项目中存储和仿真还原生成实时动画的部分包给了我们，大致就是这么个情况。国企那边定好了基础技术架构方案就是用ceph，挑好了软件，我们没得挑。让干啥干啥。为此我还专门跑了趟外地，劝说不要用ceph，效率低。但是国企不听，躺地上打滚那种就要就要。没辙，就只能开始学习ceph了。

以上为项目技术背景，下面是我的学习笔记，不一定都对，学个大概齐，前前后后加起来学了有一个月吧。其实我挺讨厌ceph的，太麻烦了，但挣钱么，不寒碜。

甲方要求使用ubuntu 20.04, ceph版本尽可能新一些，我使用18版本，官方deb安装包。

ceph-deploy是第三方开发的部署包，简化ceph部署过程，但是目前处于废弃状态，官方推荐使用cephadm替代，但经本人实测，ubuntu20.04上的ceph-deploy 2.0.1仍可用于ceph18部署。ceph-deploy网上资料很多，学起来相对容易。

前置条件是安装部署好操作系统，和ceph相关软件包，已经apt install ceph-mon ceph-mgr ceph-mds ceph-osd radosgw ceph-deploy等，然后hosts等也都设置好，跟hadoop一样。分布式集群都需要ip和主机名互通，做dns也行。

下面是我的整个部署过程，deb或rpm安装好ceph后，应会有/etc/ceph目录，进入该目录执行ceph-deploy才可以，ceph-deploy要求当前目录下必须有ceph.conf

ceph-deploy new hostname #初始化新节点, 需要创建初始keyring等

#如单节点，则编辑ceph.conf加入如下，多节点则不需要这步
osd crush chooseleaf type = 0
osd journal size = 1024
osd pool default size = 1
osd pool default min size = 1

#单节点多节点通用
ceph-deploy mon create-initial #初始化第一台mon角色
ceph-deploy admin hostname #在hostname主机上设置admin角色
ceph-deploy mgr create hostname # 在hostname上创建mgr角色

# 硬盘如已分区格式化，则执行
    sgdisk --zap-all /dev/sdx # 擦除整个硬盘，抹掉分区表等信息
# 或使用
    ceph-deploy disk zap hostname /dev/sdx #清理, 不太好用

ceph-deploy osd create --data /dev/sdx hostname # 创建osd, osd为ceph管理硬盘的角色，一般是一块硬盘是对应一个osd进程，此处为wal,db不分离的方式，有分离方式后面说。
ceph -s # 查看当前ceph状态

ceph-deploy rgw create hostname #在hostname上创建radosgw角色，简答理解就是s3协议网关
ceph osd pool set .rgw.root pg_num 128 #设置存储池
ceph osd pool set .rgw.root pgp_num 128 #pgp我还没学到是什么玩意
radosgw-admin user create --uid="admin" --display-name="admin" --system # 并记录access_key和secret_key
# 创建s3初始用户admin, 一定要把显示的access_key和secret_key记录下来
radosgw-admin  caps add --uid="admin" --caps="users=read,write; usage=read,write; buckets=read,write"
# 设置admin用户权限

#接下来创建cephfs, 就是要挂载成本地磁盘
#cephfs相关
ceph-deploy mds create hostname # 创建ceph fs 需要用到元数据服务
ceph osd pool create cephfs-metadata 128 128 # 创建fs的元数据存储池
ceph osd pool create cephfs-data 128 128 # 创建fs的数据存储池
ceph fs new cephfs cephfs-metadata cephfs-data # 创建fs namespace
ceph config set osd osd_pool_default_size 1 # 设置ceph默认副本数
ceph config set osd osd_pool_default_min_size 1 # ceph默认最小副本数
ceph osd pool set cephfs-data size 1 # 设置该存储池副本数
ceph osd pool set cephfs-metadata size 1 # 同上
ceph-fuse /cephfs # 使用fuse 挂载为本地磁盘

#删除cephfs的话，需要先停止元数据服务也就是mds
umount /cephfs
ceph fs rm cephfs
# 然后删除相关pool,ceph默认禁止删除pool，需要一些繁琐步骤
ceph osd pool set cephfs-metadata nodelete false
ceph osd pool set cephfs-data nodelete false
ceph tell mon.* injectargs --mon-allow-pool-delete=true
ceph osd pool rm cephfs-metadata cephfs-metadata --yes-i-really-really-mean-it
ceph osd pool rm cephfs-data cephfs-data --yes-i-really-really-mean-it

#ceph 更换硬盘，需要先将原osd踢出集群并从crushmap中删除
ceph osd out {id} # 踢出osd id
ceph osd crush remove osd.{id} # 从crush表中移除
ceph auth del osd.{id} # 删除osd
systemctl stop ceph-osd@{id}.service #停止osd服务
ceph osd rm osd.{id} #删除该osd

# 查看当前ceph全部配置
ceph --admin-daemon /var/lib/ceph/ceph-osd.0.asok config show | grep something

#如使用日志和数据分离, 则osd创建方式如下
#使用日志数据分离
ceph-deploy osd create --data /dev/sdc --block-db /dev/sdd --block-wal /dev/sde hostname

通过学习，我了解到几个点：

日志和数据分离可以提升一些效率，但也没有特别大的提升
ceph-deploy卸载后，需要用dmsetup remove去/dev/mapper里面移除设备，否则就要重启机器，然后清理/var/lib/ceph, /var/run/ceph, 然后重新装ceph
radosgw经常会出现没有7480端口的问题，这大概率是由于osd没有正确提供服务导致的，使用ceph -s查看pgs是否存在不可用情况。这块坑了我很久，因为不懂，ceph又没有相关的日志，非常坑。
ceph-fuse挂载本地磁盘方式效率非常低，通常用任何种类盘总并发累加都无法超过800MB/s，nvme也不行，尽量就别用了。800MB/s的时候，无论什么硬盘，ceph-fuse本身会跑到350%的cpu，基本就是4线程满载，我也没找到fuse怎么增加线程，所以，我放弃用这个挂载ceph，但项目上需要把ceph挂载为本地磁盘，所以我选择了用libcephfs2原生直接挂载本地磁盘，这在ceph官方文档里是推荐的方式，速度比fuse快好几倍。但貌似国内用的人不多吧，不清楚。

附带一个libcephfs2原生挂载的测速报告，当然这不太严谨，看个大概吧。

测试使用linux命令dd

dd if=/dev/zero bs=1M count=20480 status=progress of=/cephfs/z1-z5

中心测试在ceph-es-0001/10.0.9.11上进行，开5个终端，每个终端输入命令，输出文件为z1到z5

if=/dev/zero意思是从0设备中作为文件输入,输入内容全部为0

bs=1M意思是写入文件块大小为1M

count=20480为循环20480次，共计20GB

of=/cephfs/z1意思是输出文件为/cephfs/z1, 其中/cephfs为ceph挂载的本地磁盘目录

开5窗口同时写入5个20G文件，共计100G, 测试并发写入速度.每个终端测试5次.

5节点集群版单机写入速度测试，全机械sata3，每节点约28块

Ceph使用学习之一_分布式存储