专访阿里云：AI 时代服务器操作系统洗牌在即，生态合作重构未来

原创

龙蜥社区OpenAnolis 2024-09-09 11:10:33 ©著作权

文章标签 操作系统服务器操作系统开源操作系统 centos 云原生 文章分类 HarmonyOS 后端开发

©著作权归作者所有：来自51CTO博客作者龙蜥社区OpenAnolis的原创作品，请联系作者获取转载授权，否则将追究法律责任

编者按 ：近日， 2024 龙蜥操作系统大会已于北京圆满举办。大会期间，采访了阿里云基础软件部资深技术总监、龙蜥社区技术委员会主席杨勇，前瞻性宏观解读面向 AI 智算时代，服务器操作系统面临的挑战与机遇。以下为采访全文：

专访阿里云：AI 时代服务器操作系统洗牌在即，生态合作重构未来_开源操作系统

8 月 30 日，2024 龙蜥操作系统大会（OpenAnolis Conference，以下简称“龙蜥大会”）在北京召开，作为国内开源操作系统根社区，龙蜥社区 Anolis OS 及衍生版装机量已突破 800 万套，并在会上推出 Anolis OS 23 官方正式版，全面兼容国内外主流 CPU、GPU 架构。基于“云+AI”创新，龙蜥社区发布“Anolis OS 23 生态衍生计划”“CentOS 替代计划”“AI 应用推广计划”等三大计划，推动开源操作系统实现商业化的良性循环发展。

阿里云基础软件部资深技术总监、龙蜥社区技术委员会主席杨勇在大会期间接受采访时表示，大模型引领的 AI 算力基础设施创新需求，正在倒逼服务器操作系统从云原生系统向 AI 系统全面进化，市场或将重新洗牌，开源操作系统有望在未来智算体系中占据统治地位。

作为现代计算产业产业链重要的一环，服务器操作系统历经半个世纪的发展，从 UNIX 到商业 Windows Server 系列、开源 Linux 各类知名的发行版，在此前的互联网时代已经成熟。但随着 AI 时代的到来，阿里云结合通义、龙蜥社区的实践与发展，认识到了服务器操作系统在复杂 AI 基础设施体系中存在可靠性、稳定性、算力利用率、智能运维等新需求。杨勇希望通过龙蜥大会将这些趋势判断传递出去，壮大社区生态，携手布局智算未来。

AI算力猛增倒逼操作系统全链路优化

龙蜥社区成立于 2020 年，其发起龙蜥操作系统 Anolis OS 项目的首先要做的是平替当年宣布将停服的 CentOS。到今年 6 月 30 日，此前占据国内主流地位的 CentOS 7 的生命周期已正式画上句号，杨勇表示，结合现代云计算技术的发展，龙蜥社区已积累了完备的替换迁移技术，针对业务系统迁移的核心挑战，形成了平替、升级和安全接管三类方案，能够在保证业务连续性、稳定性的前提下护航企业顺利迁移。他透露，在阿里云平台上，龙蜥和阿里云版本操作系统的部署数量，已于 2023 年超过了 CentOS。

新兴业务通常基于 Java 与 Go 语言构建，较为容易基于社区服务实现自助迁移，而传统 C/C++ 业务迁移需要应用开发者配合，可能由于应用源代码遗失等原因需要更专业的服务，杨勇表示，龙蜥社区平台可以将这些需求导向到社区理事单位、合作伙伴提供的商业服务，这很好地保障了社区生态的健康发展和企业的成熟应用。

作为一个技术与产品并重的社区，龙蜥社区目前更为关注的是云原生、AI 技术趋势对服务器操作系统的冲击。AI 大模型的落地，需要构建 AI 智算集群，满足大模型开发、部署、训练和推理场景的需要，算力需求远超此前的 AI 技术。在杨勇看来，大模型算力集群规模猛增意味着新的稳定性挑战，这是 AI 基础设施面临的首要问题，需要管理软硬件资源的操作系统可和上层负责运维 AI 的平台协同解决。

同时，AI 基础设施还在操作系统之上架构了一个集群调度层和 AI 框架，形成一个复杂多层的软件栈，算力资源利用率的主要瓶颈便从芯片转移到了数据流动链路，即模型训练、推理时，数据如何在硬件和软件多层之间高效传递，这涉及异构硬件、操作系统和上层应用的协同，是一个全链路的优化工作。

此外，云原生分布式系统的可观测性、故障预警、问题诊断、故障自愈、智能运维以及结合 AI 技术的落地，如 OS Colpilot、AIOps，也是很大的挑战。

壮大社区生态，布局前沿技术

要完成上述技术突破，推进 AI 基础设施革命，杨勇认为，需要整个产业“疯狂地迭代”。事实上，在龙蜥社区，来自阿里云以外的贡献，目前在内核侧占到了 53%，在核外软件包侧占到了 34%。

作为龙蜥社区技术委员会主席，杨勇希望通过龙蜥大会这样的平台，以有效的组织将 AI、云等技术判断清晰传递给合作伙伴、用户和开发者，强化牵引作用，吸引更多志同道合的人参与龙蜥社区，加入到疯狂的迭代进程。

对于阿里云与龙蜥社区生态中的双重关系，杨勇总结为核心贡献者和受益者。“随着龙蜥社区生态的发展，各个参与者，也包括阿里云，从中获得越来越多的收益。”杨勇说。例如，浪潮信息在龙蜥社区硬件兼容性的贡献，使得阿里云系统能够更加顺利地部署到客户拥有的浪潮服务器上。

疯狂的迭代从何处着手？阿里云给出的答案，是能够提升 AI 算力性能和可靠性的前沿硬件技术，例如高速的互联总线、数据中心的网络带宽能力大幅提升，带来的系统层面的问题。此外，就是 AI 基础设施新场景下带来的不同的优化思路。从历史的观点来看，通用 CPU 的能力按照摩尔定律持续提升、虚拟化、容器化的应用生态发展等都已证明，操作系统的发展驱动力与创新节奏，与硬件或应用软件这两个因素息息相关。

另外的一个具体案例是 DPU，在一些厂商的方案里，高带宽 RDMA 高速网络就是由 DPU 管理的。而实现 CPU 和 GPU 高速互联支撑训练推理一体、成为技术护城河的高速互联技术（NVLink），也是这样一种硬件技术。

“AI 算力发展还处在早期，由先进的硬件技术驱动的服务操作系统创新尚未真正来临，”杨勇大胆预测说，未来这个领域将充满无数可能，包括在算力管理、运维管理中如何兼容乃至抽象屏蔽 AI 时代的各种新硬件。

—— 完 ——