近年来,随着各行业数智转型逐步深入以及人工智能大模型的蓬勃发展,气象分析、大模型训练、自动驾驶、石油勘探、EDA仿真、基因分析等高性能计算(HPC)场景和智算场景(AI)不仅对算力需求激增,也产生了图片、视频等大规模非结构性数据,企业在实践中面临着数据量大、存储性能不足等问题,导致训练阻塞、算力利用率低甚至训练中断现象频繁发生。在此背景下,企业需要不断创新和优化存储系统技术架构,以便实现更加高效、可靠和灵活的存储解决方案。
作为云服务国家队,天翼云坚持科技创新,不断加快推进数据存储基础设施建设,创新推出并行文件服务HPFS(CT-HPFS,High Performance File Storage),助力企业构建高性能存储底座。天翼云HPFS支持全NVMe闪存和InfiniBand高速网络,并融入RDMA技术,可提供最高千万IOPS和TBps吞吐,同时保证亚毫秒时延。该产品具有高性能、高可靠性、高可扩展性的特点,可充分满足企业在HPC和AI等场景下的存储需求。
天翼云HPFS具备共享访问、弹性扩展、安全可信、性能优越四大产品优势。
在共享访问方面
HPFS支持数千台客户端挂载同一文件系统,从而实现共享访问;无缝适配主流应用程序进行数据读写,满足多客户端并行计算场景需求。
在弹性扩展方面
HPFS元数据采用集群架构,单文件系统文件数量可达百亿级别,文件系统支持在线扩展。
在安全方面
HPFS采用多种EC纠删码方式、热备盘备份来保证数据的可靠性。同时,支持HA,故障时自动切换,服务可用性在99.90%以上,有效保障数据安全。
在性能方面
HPFS使用100G以太网或IB、RoCE网络,性能随文件系统容量增长呈线性提升,同时可保证亚毫秒时延。
天翼云HPFS在高性能并行文件存储方向持续突破,面向HPC/AI场景大规模非结构化数据及性能深度优化,保障用户数据安全、实现高效存储。
在HPC场景,天翼云HPFS支持并行计算MPI-I/O(Message Passing Interface)接口,在多客户端同一时间并发读写同一个文件时,通过字节粒度锁机制,保证文件一致性,大幅提高多客户端读写同一文件的性能。
在AI应用领域,天翼云HPFS支持万亿参数大模型,助力客户构建高速大模型训练平台,根据不同AI业务流程特点,灵活调用存储服务能力,满足数据预处理、训练、仿真等数据存储能力的要求,并大幅提升训练数据读取和checkpoint回写速度,降低企业AI训练成本投入,加速模型迭代。
未来,天翼云将继续加大数据存储产品技术创新,以扎实的数据存储能力,为客户打造高性能存储底座,持续推动技术创新与产业协同发展,为构建安全、高效的数据基础设施贡献力量。