大概看了下别的写得demo其实本质上就是靠cni 插件,然后通过定制的crd 接口,向k8s 得pod 设置入站(ingress)和出站(egress) 策略说白了,其实就是通过NetworkPolicy接口,向指定namespace空间里的pod 设置“iptables“,类似于给linux 系统设置防火墙指定pod 的是通过labels 来实现,允许的ip 地址池子,使用ipblock 字段,
关于几个坑1,ray-ml 的images 里的cuda 版本 和pytorch 版本 还有node 节点的驱动必须对应,否则在跑训练的时候,显卡驱动会提示,cuda 版本不匹配,导致无法启动,但是tesla 版本的显卡就不会有这样的问题,比如a6000和a100 但是我在3090上遇到了这个问题,具体原因,查看大牛文档,链接:https://zhuanlan.zhihu.com/p/361545
使用官方Cephadm 部署 集群,一共三个节点ceph 17版本,现在的版本部署起来非常简单1,只需要根据官方的文档,部署好第一个master 节点,剩下的添加好node 节点,整个部署过程都是由第一个主节点,进行引导部署,但是前提条件是,每个一个节点都必须提前安装好docker,不然服务无法启动2,安装好之后,osd 是ceph 存储的最小管理单位,ceph orch apply osd --
pg 数量设置公式pg 总量= OSD总量* (每个osd 中的pg 数量推荐100到100个)/osd 副本数或者纠删码然后取 大于 总数的2的幂次方数举例1 pg = 100 osd * 100pg(每个osd中的pg数量)/ 3副本 = 3333个pg 那么实际pg 最大数量就是4096举例1 pg = 100 osd * 100pg(每个osd中的pg数量)/ 4 +2 纠删码
1,软件存储开源工具2,不影响性能的情况下 横向无限扩展3,简单搭建 简单运维4,统一api 接口应用场景:(注意:ceph的设计原理导致对万兆网络和SSd硬盘有很大依赖,而且ceph 最小存储数据单元是2MB,如果是大量小文件,或者是字节级别,频繁读写会严重影响ceph 性能)1,数据分析:a,大数据分析 b,海量日志数据分析举例: 各个hadoop 集群共享同一份数据,
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号