达芬奇架构是基于AI计算功能设计的,并基于高性能3D Cube计算引擎,极大地提高了计算能力和功耗比。
根据达芬奇架构,进行了以下优化:
多核堆栈用于并行计算能力扩展
通过设计片上存储器 on-chip memory(高速缓存/缓冲区Cache/Buffer)以缩短Cube操作和存储距离,减少了对DDR的访问,并减轻了冯·诺依曼的瓶颈问题。
在计算和外部存储之间设计了高带宽片外存储器(HBM),以克服计算资源共享存储器的访问速度限制。
为了支持大规模的云侧神经网络训练,设计了超高频段网状网络(LSU),以互连多个多维数据集扩展芯片。
总而言之,达芬奇体系结构具有以下三个features:
**
1. Unified Architecture
支持从tens of milliwatts to hundreds of watts 的全场景AI系列芯片。
2. Scalable Computing
- 每个AI内核可以在一个时钟周期内完成4096个MAC操作。
- 灵活的多核堆栈,可扩展的多维数据集:16 x 16 x N,N = 16/8/4/2/1
- 在训练和推理方案中支持多种混合精度(int8 / int32 / FP16 / FP32)和数据精度要求。
- 集成张量,矢量和标量计算单位。
3. 可扩展的片上互连Scalable Memory
用于特定和分布式,显式控制的内存分配设计
4 TByte / s L2缓冲区
1.2 TB / s HBM高带宽内存
4. 可扩展的片上互连******On-chip Interconnection
超高带宽片上网状网络[Ultra-high bandwidth on-chip mesh network (LSU)]
基于达芬奇的创新架构,华为首次发布了7 nm Ascend 910(Ascend-Max)和12 nm Ascend-Mini(Ascend 310)。 Ascend 910是世界上最大的单芯片计算密度。 支持在云端进行分布式大规模培训。 如果集成了1024个Ascend 910,则将创建全球最大的AI计算集群,提供256P的性能。 无论模型多么复杂,都可以轻松地对其进行训练。
基于达芬奇架构,华为还计划了适用于蓝牙耳机,智能手机和可穿戴设备的Ascend Ascend芯片系列(Nano,Tiny和Lite)。 将来,Ascend Ascend芯片系列将以IP模式与其他芯片集成在一起,以服务各种智能产品。
此外,达芬奇AI芯片架构还考虑了软件定义的AI芯片的功能。 CANN是用于芯片的高度自动化的操作员开发工具。 它是为神经网络定制的计算架构。 CANN将开发效率提高了三倍。 除效率外,还考虑了操作员绩效以适应AI应用程序的快速发展。