寒武纪芯片

产品中心>智能处理器IP

智能处理器IP

MLU智能芯片

软件开发环境


Cambricon-1A

高性能硬件架构及软件支持兼容Caffe、Tensorflow、MXnet等主流AI开发平台,已多次成功流片

国际上首个成功商用的深度学习处理器IP产品,可广泛应用于计算机视觉、语音识别、自然语言处理等智能处理关键领域。


Cambricon-1H8

低功耗版面向视觉应用

针对视觉领域设计的深度学习处理器IP产品。与寒武纪1A相比,在同样的处理能力下具有更低的功耗和面积,可广泛应用于安防监控、智能驾驶、无人机等领域。


Cambricon-1H16

更高性能版完备的通用性

1A的升级版本,能效比得到数倍提升,拥有更广泛的通用性,可广泛应用于计算机视觉、语音识别、自然语言处理等智能处理关键领域。

 

产品中心>软件开发环境

智能处理器IP

MLU智能芯片

软件开发环境

Cambricon NeuWare SDK ▼

CN-Lib高性能计算库 CN-Gen模型重训练和转换工具 CN-CC通用编译器 CN-Prof性能监控及调优工具 CN-GDB调试工具


支持主流编程框架 ▼

TensorFlow Caffe MXNet

难点:

作者:祖亚洲
链接:https://www.zhihu.com/question/41469046/answer/124179575

这个工作继续下去有潜力把一整套系统做出来, chip tape-out, compiler/language support, multi-chip interconnect, 等等,但是继续下去有很多 design consideration 需要讨论:

1. Accelerator 和 CPU 的通信怎么做,像 nvidia 对他的GPU有一整套通信机制,只是没有开源。这些CPU和accelerator的通信模型是很烦的,需要的支持团队也不小。他怎么从 CPU instruct accelerator 去load数据,怎么保持数据一致性,这些design很费脑子,退一步说,这一整套 API 的实现可不简单。

2. 这个编译器,还有programming model怎么做,是准备在C/C++里面加特定的pragma/library,还是让python自动compile某一部分代码到这个ISA,然后下面的runtime自己manage CPU-accelerator 通信。

3. 现在工业界搞的NN都巨大无比,你单个加速器就算是power8那么大的,全是SIMD lanes也不够。这个加速器怎么支持distributed计算,怎么和tensorflow/CNTK的framework融合。