HPC,英文全称High Performance Computing,也叫超级计算机,又称超算,高性能计算等,在各大领域已经有了广泛的应用,例如在军事方面,在天气预测,在科研方面,在模拟仿真设计方面,在能源开发等方面,高性能计算越来越多的应用在商业领域。
为什么要做高性能计算?
人类对计算及性能的要求是无止境的,有了高性能计算,对上述领域的发展才能起到非常好的促进作用。
那么,HPC的通用架构是什么样的呢?如图:
今天,这里我们主要讨论其网络层面。HPC 对网络的主要诉求是低时延、零丢包、高带宽。以往,在这种高性能承载网络的选择上,人们通常会选用IB网络或RoCEv2网络,但InfiniBand(IB)解决方案其实暴露出了很多问题:
- 厂商垄断:目前只有一家厂商有成熟的IB产品&方案,厂商锁定,方案价格非常昂贵
- 兼容性低:InfiniBand采用单独的通讯协议,非TCP/IP协议族,无法做到与其他网络设备互通互访
- 售后服务响应不理想:IB专网运维依赖原厂,故障定位困难,且解决问题时间较长
- 供货周期长:受各种因素影响,IB交换机供货周期长,且不确定性高,增加项目风险,影响业务扩展
- 扩展升级慢:网络的升级取决于原厂产品发布的进度,无法做到和业界统一升级
为了解决掣肘客户已久的难题,星融元推出替代IB的新一代HPC高性能计算网络解决方案,同样的性能,更低的价格,为广大客户提供了更具优势的选择。
星融元HPC网络解决方案
星融元的HPC网络解决方案依托的是自研的CX-N系列低时延交换机,Port to Port 转发时延低至400ns。
- 使用RoCEv2,降低传输协议延迟
- 超低时延交换芯片,降低节点延迟
- 使用ECN等拥塞控制算法,消除网络拥塞
- 使用PFC高优先级队列,确保存储流量不丢包
基于CX-N系列HPC组网
下图为基于CN-N系列低时延交换机HPC组网方案设计:
组网方案 | CX564P-N(1:1收敛) | CX564P-N(3:1收敛) |
64节点 | 1台 | 1台 |
128节点 | 6台 | 4台 |
256节点 | 12台 | 8台 |
看一组来自实验室的真实对比数据:
星融元CX-N 100G交换机带宽92.25Gbps,单台时延480ns;IB交换机带宽96.58Gbps,单台时延150ns。相比较两款交换机CX-N交换机性价比更高,并且遍历全部字节时延波动较小,多次测试数据稳定在0.1us左右。
再看一组CX-N100G交换机和IB交换机进行相同应用并行计算,运行效率基本一致: