超融合技术融合基础实施为企业用户提供虚拟化、容器等不同形态的服务。今天,浪潮数据超融合云原生工程师王永超带大家了解 Kata 虚拟化容器技术,及超融合产品为集成 Kata 容器而进行技术方案演进历程,也分享了超融合 Kata 容器技术设计与应用。以下为本次分享内容:

01 超融合产品介绍

  • 超融合一体机。
  • 整合虚拟机+容器双引擎。

T4卡 虚拟化化 kata虚拟化_云原生


 

02 Kata Containers 介绍

Kata Container 与传统容器对比:

  • Kata 容器具有独立的内核、CPU、内存虚拟机级别隔离。
  • 传统容器共享宿主机内核,CPU、内存通过 cgroup 与 namespace 进行限制。

T4卡 虚拟化化 kata虚拟化_虚拟磁盘_02


 

Kata 文件系统工作原理:

  • Kata 运行时,提供精简优化的虚拟机内核及文件系统,如 vmlinuz-5.10.25-87 和 kata-containers-initrd.img 用于创建轻量级虚拟机。
  • 容器镜像 rootfs 及容器卷通过 virtiofs 从宿主机绑定到轻量级虚拟机,方便内部容器进程读取 rootfs 系统文件。

T4卡 虚拟化化 kata虚拟化_运维_03


 

03 OCFS 共享存储下容器 Snap 管理

Containerd 组件调用关系:

  • Content 用于管理容器镜像 manifest 数据。
  • Image 存储容器镜像各层blob文件。
  • Snapshots 用于解压 Image 各层 blob 文件组装容器实例 rootfs 文件系统。
  • Diff 提供两个接口 Diff 与 Apply。

Devmapper Snapshotter 不足:

T4卡 虚拟化化 kata虚拟化_docker_04


 

采用 Containerd 社区 devmapper snapshotter 运行容器实例,主要问题如下:

  • Device Mapper 本身 IO 链路过长。
  • Device Mapper 依赖内核模块 dm-thin,在特殊场景下会造成存储池 IO 阻塞。
  • 社区本身不推荐 devmapper 应用于生产环境。

04 超融合下的 RAW Snapshotter

Devmapper VS RAW, InCloud Rail 超融合成熟的虚拟机系统盘管理方案:

  • 虚拟磁盘仅通过两层文件系统,IO 链路短且稳定。
  • 虚拟磁盘未引入 dm-thin 内核模块。
  • 虚拟机快照技术类似于容器镜像层结构,虚拟磁盘通过 reflink 进行快速复制为 Snapshot 服务创建 snap 提供技术支持。

T4卡 虚拟化化 kata虚拟化_虚拟磁盘_05

超融合 OCFS 存储运行容器:

  • OCFS 可以实现同一存储设备同时被多个节点访问。
  • 在超融合环境下,存储设备为统一管理,我们可以充分利用 OCFS 的特性,使用一个存储池为多个节点提供 Snapshotter 所需的存储空间。
  • RAW Snapshotter 在存储设备对容器镜像进行 unpack 等操作,生成一个虚拟机磁盘,容器系统 rootfs 文件系统做虚拟磁盘数据。
  • Kata 通过 virtiofs 将虚拟磁盘绑定到 Kata 虚拟机内部,用于启动容器进程。

T4卡 虚拟化化 kata虚拟化_T4卡 虚拟化化_06

RAW Snapshotter 工作流程:

步骤 1-2:下载容器镜像到本地。

步骤 3-4:创建根 snap 设备,通过 qemu-image 创建 raw 文件。

步骤 5-7:基于跟 snap,创建镜像层及对应的 reflink 文件。

步骤 8:为容器实例创建可写的 rootfs 系统盘。

步骤 9-12:创建 kata 虚拟机,kata 虚拟机通过 virtio-scsi 将 vdisk n+1 虚拟磁盘挂载至 kata 虚拟机内部。

T4卡 虚拟化化 kata虚拟化_docker_07

虚拟磁盘管理机制实现容器 Snaps 管理。

RAW Snapshotter 负责管理容器镜像快照与虚拟机磁盘,维护 snap 元数据:

  • 首先读取基础镜像层,创建 RAW 格式的虚拟机磁盘,并设置为只读。
  • 读取差异层,通过reflink,在 OCFS 存储设备快速创建一个虚拟磁盘快照。
  • 通过 Diff 服务将差异层内容写入磁盘快照,如图虚拟磁盘文件 2~N。
  • 启动容器实例,容器镜像最上层,如 N、reflink 一个新的磁盘,用于容器实例进行临时文件系统写操作。

T4卡 虚拟化化 kata虚拟化_T4卡 虚拟化化_08


—— 完 ——