HPC,英文全称High Performance Computing,也叫超级计算机,又称超算,高性能计算等,在各大领域已经有了广泛的应用,例如在军事方面,在天气预测,在科研方面,在模拟仿真设计方面,在能源开发等方面,高性能计算越来越多的应用在商业领域。

为什么要做高性能计算?

人类对计算及性能的要求是无止境的,有了高性能计算,对上述领域的发展才能起到非常好的促进作用。

那么,HPC的通用架构是什么样的呢?如图:

替代Infiniband 交换机,星融元带来新一代HPC网络解决方案,优势明显_HPC

今天,这里我们主要讨论其网络层面。HPC 对网络的主要诉求是低时延、零丢包、高带宽。以往,在这种高性能承载网络的选择上,人们通常会选用IB网络或RoCEv2网络,但InfiniBand(IB)解决方案其实暴露出了很多问题:

  1. 厂商垄断:目前只有一家厂商有成熟的IB产品&方案,厂商锁定,方案价格非常昂贵
  2. 兼容性低:InfiniBand采用单独的通讯协议,非TCP/IP协议族,无法做到与其他网络设备互通互访
  3. 售后服务响应不理想:IB专网运维依赖原厂,故障定位困难,且解决问题时间较长
  4. 供货周期长:受各种因素影响,IB交换机供货周期长,且不确定性高,增加项目风险,影响业务扩展
  5. 扩展升级慢:网络的升级取决于原厂产品发布的进度,无法做到和业界统一升级

替代Infiniband 交换机,星融元带来新一代HPC网络解决方案,优势明显_HPC_02

为了解决掣肘客户已久的难题,星融元推出替代IB的新一代HPC高性能计算网络解决方案,同样的性能,更低的价格,为广大客户提供了更具优势的选择。

星融元HPC网络解决方案

星融元的HPC网络解决方案依托的是自研的CX-N系列低时延交换机,Port to Port 转发时延低至400ns。

  • 使用RoCEv2,降低传输协议延迟
  • 超低时延交换芯片,降低节点延迟
  • 使用ECN等拥塞控制算法,消除网络拥塞
  • 使用PFC高优先级队列,确保存储流量不丢包

替代Infiniband 交换机,星融元带来新一代HPC网络解决方案,优势明显_高性能计算_03

基于CX-N系列HPC组网

下图为基于CN-N系列低时延交换机HPC组网方案设计:

替代Infiniband 交换机,星融元带来新一代HPC网络解决方案,优势明显_超低时延_04

组网方案

CX564P-N(1:1收敛)

CX564P-N(3:1收敛)

64节点

1台

1台

128节点

6台

4台

256节点

12台

8台

看一组来自实验室的真实对比数据:

替代Infiniband 交换机,星融元带来新一代HPC网络解决方案,优势明显_高性能计算_05

星融元CX-N 100G交换机带宽92.25Gbps,单台时延480ns;IB交换机带宽96.58Gbps,单台时延150ns。相比较两款交换机CX-N交换机性价比更高,并且遍历全部字节时延波动较小,多次测试数据稳定在0.1us左右。

再看一组CX-N100G交换机和IB交换机进行相同应用并行计算,运行效率基本一致:

替代Infiniband 交换机,星融元带来新一代HPC网络解决方案,优势明显_高性能计算_06