在处理复杂计算任务场景中,高性能计算扮演者十分重要的角色,本次博客会介绍高性能计算的应用场景,组网架构,并从计算、存储和网络的角度分析高性能计算方案。

什么是HPC

HPC是高性能计算(High Performance Computing),高性能计算是专门为大规模并行运算设计的计算系统,往往以集群方式进行部署。
HPC指使用很多处理器(作为单个机器的一部分)或者某一集群中组织的几台计算机(作为单个计 算资源操作)的计算系统和环境, 通常是将大规模运算任务拆分并分发到各个服务器上进行并行运算再将计算结果汇总得到最终结果。

高性能计算的主要场景

如下图所示,是高性能计算的主要场景,

AIGC网络架构图 ai平台架构_AIGC网络架构图


使用高性能计算可以大大提升运算效率,不同的应用场景对计算的需求也是不同的,比如在涉及天体物理或分子动力模拟的计算场景中,需要处理大规模的计算任务,允许中间数据存储在内存中,CPU会直接从内存中获取,而不需要和硬盘交互数据,可以减少I/O交互,明显提高运算速度,在气象预报应用场景中,计算本身有时效性要求,应用的计算量大、并行要求高,所以强劲的节点计算能力有利于提升整体的计算效率。

在汽车、航空、芯片制造领域借助高性能计算进行产品的CAE仿真设计,需要对网格数量巨大的产品几何模型进行求解,各节点在计算过程中有频繁的通讯需求。为了避免CPU等待数据进行计算的情况,因此需要低时延、高带宽的网络来连接大量的计算节点间的数据传输,提升计算效率。

在基因分析场景,序列比对、拼接需要对海量、复杂、多变的数据进行分析计算,单次测序数据量的大幅度提升,在计算过程中会产生大量的数据,因此需要配置高带宽、大容量的共享存储,满足计算节点频繁的数据IO读写请求。

HPC解决方案架构

华为提供端到端的高性能计算解决方案,如下图所示,包括基础设施、硬件资源、系统环境、集群管理、服务平台、行业应用等。在基础设施上,华为可提供模块化数据中心和集装数据中心;在硬件资源上,华为可提供异构的服务器( 如GPGPU和PHI配合的刀片服务器和机架服务器)、存储设备可以提供Ocean star存储、网络设备中可以提供IB交换机和GE交换机。

AIGC网络架构图 ai平台架构_机器学习_02


在软件层面,华为除了提供自研的集群管理和设备管理软件外,还和众多的高性能集群软件厂家和应用软件厂商合作,对当前成熟的HPC商业产品和部件进行集成测试和调优,提供最适合用户业务特征的高性能解决方案。

同时,华为将在电信领域的服务能力迁移到高性能计算领域,提供了从咨询规划、建设部署、迁移整合、定制开发到灾备保障等建设全生命周期管理的专业服务能力。

GPGPU:通用图形处理器(英语:General-Purpose Computing On Graphics Processing Units,简称GPGPU或GP²U),是一种利用处理图形任务的图形处理器来计算原本由中央处理器处理的通用计算任务。

HPC硬件平台通用架构

HPC组网中,主要有以下三个计算节点:

1.传统MPI节点(瘦节点): 高性能刀片或者机架服务器;

2.胖服务器节点: SMP架构高性能服务器,具备多CPU和大内存容量;

3.GPU计算节点: 服务器中安装GPGPU卡,使用GPU进行运算加速。

HPC组网中需要三个网络平面,

计算网络: 用于计算过程中的消息传递;

管理网络: 用于集群系统管理;

存储网络: 用于存储或者数据传输;。

术语解释:

MPI:Message Passing Interface消息传递函数库接口。

性能指标

系统效率 = 𝑅𝑚𝑎𝑥(实测最大值)/𝑅𝑝𝑒𝑎𝑘(理论峰值)
华为Taishan的高密服务器X6000适用于HPC场景的计算节点,可以提供非常高的计算内容,

HPC组网采用数据中心的胖瘦组网结构,提高网络带宽,并保证高可靠性。

B存储解决方案概述

存储解决方案可以采用OceanStar NAS存储、OceanStar 9000分布式文件系统,Lustre并行文件系统,IBM GPFS并行文件系统,如下图所示

AIGC网络架构图 ai平台架构_深度学习_03

智能边缘概念

云计算是集中化的,离终端设备(如摄像头、传感器等)较远,对于实时性要求高的计算需求,把计算放在云上会引起网络延时变长、网络拥塞、服务质量下降等问题。而终端设备通常计算能力不足,无法与云端相比。在此情况下,边缘计算顺应而生,通过在靠近终端设备的地方建立边缘节点,将云端计算能力延伸到靠近终端设备的边缘节点,从而减轻数据中心的计算压力。
智能边缘通过纳管边缘节点,提供将云上应用延伸到边缘的能力,联动边缘和云端的数据,满足客户对边缘计算资源的远程管控、数据处理、分析决策、智能化的诉求,同时,在云端提供统一的设备/应用监控、日志采集等运维能力,为企业提供完整的边缘和云协同的一体化服务的边缘计算解决方案。

智能边缘的应用场景

AIGC网络架构图 ai平台架构_高性能计算_04

人工智能行业简介

什么是人工智能
人工智能的定义可以分为两部分,即“人工”和“智能”。“人工”就是人为创造或制造;“智能”则涉及诸如“意识、思维、自我、想象”等一系列问题,且人类很多自身的智能还在研究中。人工智能就是研究如何通过人为(或计算机)方式,创造达到或超过人类智能的工作方式。
机器学习是人工智能的一个重要分支,机器学习的本质就是在已知输入和输出的情况下,导出具有规律性的函数的过程
深度学习是机器学习的一个分支,深度学习具有自我学习的能力,可以大幅度的减少人工设计的工作量。
人工智能高度依赖于芯片的计算能力,在摩尔定律失效的情况下,芯片算力成为阻碍人工智能发展的最大障碍,为此,华为提出了AI全栈全场景的解决方案,自下而上包括以下几点,如下图所示

AIGC网络架构图 ai平台架构_运维_05


Ascend: 基于统一、可扩展架构的系列化AI IP和芯片,包括Max,Mini,Lite,Tiny和Nano等五个系列。

CANN: 芯片算子库和高度自动化算子开发工具。

MindSpore:支持端、边、云独立的和协同的统一训练和推理框架。

应用使能:提供全流程服务(ModelArts),分层API和预集成方案。