华为鲲鹏处理器概述
华为鲲鹏处理器是基于我们的ARM架构,华为全自研的一款处理器,它包括五个方面:通用计算、存储、传输、管理和AI计算。
首先华为鲲鹏处理器是一种基于ARM架构的处理器
X86 | |
指令集 | CISC |
供应商 | 主要有Intel和AMD,Intel处于垄断阶段 |
产业链 | 成熟 |
ARM | |
指令集 | RISC |
供应商 | 开放的授权策略,众多供应商 |
产业链 | 成熟快速发展中 |
指令的作用,就像我们人和我们的计算机和我们的CPU沟通的一种语言。我们的CISC架构就像我们的古文,它追求把一件事情完整地传递给我们的芯片。而我们的RISC架构就像我们的白话文直接明了描述这件事情
华为鲲鹏处理器基于ARM架构。ARM是一种CPU架构,有别于Intel、AMD CPU采用的CISC复杂指令集,ARM CPU采用RISC精简指令集(reduced instruction set computer,精简指令集计算机)。
ARM架构处理器应用领域
去年5月份发布的我们的超算Top五百中夺冠的那一台超级计算机来自日本名叫“富岳”。那么这一台超算使用的就是我们的ARM架构了
华为鲲鹏处理器架构(ARM)特点
优点:
- 采用RISC指令集,指令长度固定,寻址方式灵活简单,执行效率高。
不足:
内核全自研,性能提升
鲲鹏处理器的性能跑分中比我们英特尔的金牌处理器平均都要高上一些的。它的集成度在于我一颗鲲鹏处理器等于4颗芯片,即网卡、SAS(硬盘控制器)、南桥、CPU
支持8通道DDR4内存控制器
总带宽等于通道数量乘以每通道速率。通道越多,我们鲲鹏920的总的带宽也就上去了
我们的泰山200系列服务器采用我们的鲲鹏920处理器,最多支持8通道4TB的我们的内存容量
网络端口& IO协议
Kunpeng 920集成了PCle4.0/CCIX,以及集成了100GE RoCEv2(延迟和同等带宽IB相当),为客户的网络/存储/加速卡等外围接口带来更高的效率。
不论是服务器,还是我们PC,速度运行最快的永远是我们的CPU,其次是我们的缓存,再次是我们的内存,再次是我们的硬盘,更慢的东西叫做别的主机上的内存。现在云计算架构下面分布式越来越应用的广泛,任何一个计算节点所用到的数据都有可能来源于另外一个计算节点,这种时候如何让另外一个节点上面的数据高速地传递到本节点上,这时诞生了一个技术叫做RDMA远程内存直接读取技术,它可以直接将远端服务器上的内存的数据,从网卡直接读取到本端的内存上面,而不需要我们CPU的参与。读取速度更快,提升我们的性能。
那么ROCE的R就代表RDMA他是把RDMA协议融合到我们的以太网协议当中来,使我们的这种架构设计更为灵活。因为更多的时候我们的网络传输还是通过我们的IP协议IP网络传输的。
V2代表这是他的第2个版本,V1仅仅支持2层网络,V2做了架构上的更新,使得它能够支持我们的三层网络,也就是我们的IP网络。可以在我们的IP网络内使用我们的ROCE协议。100G的ROCE网络可以为我们的客户带来更高的效率,提升我们业务的性能
制程工艺领先
Kunpeng 920处理器,采用业界领先的7nm工艺,是首款采用7nm工艺制作的数据中心ARM CPU。
采用业界领先的CoWoS封装技术,实现多Die合封,控制每Die面积提升良率,降低整体成本,乐高方式更加灵活。
Kunpeng 920加速器简介
加速器指现在有许多的应用,比如说我们的加解密的应用,我们的WEB服务器使用的是https协议,那这个security这个S,它在服务端与客户端传输的时候就要进行加解密。
在普通运算中,这些加解密的运算是由软件来实现的,用软件编写调用我们的CPU地电路实现。
鲲鹏920中,这些加速算法已经被刻到了我们的逻辑电路当中,只需要下载我们的加速提供的驱动包
目前加速引擎主要支持以下算法:
安装方式: Kunpeng 920加速器子系统提供RPM安装和源码安装两种方式。
不论我们的一众厂商出了各种各样的这种方法来解决我们CPU虚拟化的问题,最后还是比不上我们的英特尔自己在硬件上面改进才是核心。所以说硬件的效率是要比我们的软件高的,而鲲鹏920就是内置了我们这种高效率的一个加速器的功能