https://basicmi.github.io/Deep-Learning-Processor-List/

获取更多深度学习最新资讯快速通道:

获取最新消息快速通道

Nvidia公司

GPU

· Nvidia的最新版GPU可以使用其最新的Tensor核心架构,即16位TF或120 TFlops,这是一款FP16乘法器,FP32可以累积或增加以适应ML。

· Nvidia正在将8个板卡包装到DGX-1中,用于960 Tensor TFlops。

· Nvidia Volta - 架构看点给出了一些关于Volta架构的深入见解。

SoC

· 为一些边缘需求,Nvidia提供NVIDIA DRIVE™PX,用于自主驾驶的AI车载计算机和JETSON TX1 / TX2模块“ 自主应用的嵌入式平台 ”

来自Nvidia的开源DLA

· Nvidia在GTC2017上推出了“XAVIER DLA NOW OPEN SOURCE”。我们还没有看到Early Access verion。希望在9月份可以看到一般的发行版本。对于更多的分析,您可能需要阅读:从Nvidia开源深度学习加速器说起

AMD

GPU

· 即将推出的AMD Radeon Instinct MI25是有前途的12.3 TFlop SP16或24.6 TFlops的FP16。如果您的计算适用于Nvidia的Tensors,则AMD无法竞争。与AMD的484 GB / s相比,Nvidia的带宽为900GB /秒。

英特尔

Nervana

· 英特尔收购了Nervana Systems,Nervana Systems除了开发Nervana Engine ASIC,还开发GPU /软件策略。可比性能不清楚。英特尔也计划通过Knights Crest项目整合到Phi平台。NextPlatform建议28nm 在2017年目标可能是一些OP的带宽达到55 TOPS / s。英特尔有一个NervanaCon计划,估计在今年12月份,也许我们会看到他们的第一批成果。

Mobileye EyeQ

Mobileye目前正在开发其第五代SoC,EyeQ®5,作为视觉中央计算机,处理用于全自动驾驶(5级)的传感器融合,将在2020年实际上路。为了满足功耗和性能目标,EyeQ ®SoC采用了先进的VLSI处理技术进行设计 - 在第5代下降到7nm的FinFET。

Movidius

· Movidius VPU基本上是一个矢量处理器阵列。

FPGA

· 英特尔FPGA OpenCL解决方案

Google TPU

· Google的原始TPU在GPU之上,占有重要地位,并帮助DeepMind的AlphaGo在“Go”锦标赛中赢了Lee Sedol。原来700MHz TPU被描述为具有用于8位计算95个TFlop或16位23个TFlop,而取只有40W。这比GPU快得多,但现在比Nvidia的V100慢,但不是每W基础上。新的TPU2被称为是具有四个芯片的TPU设备,并且可以实现大约180个TFlop。每个芯片的性能已经翻了一番,达到了16位45 TFlops。您可以看到与Nvidia的V100的差距正逐渐缩小。你不能买TPU或TPU2。Google正在通过TPU pod,使其可用于云端,TPU pod包含64个设备,最多可达11.5 PetaFlop的性能。

其他参考文献是:

· Google TPU揭密

· 谷歌的神经网络处理器专利

· 脉动阵列 - 因Google TPU获得新生

赛灵思(Xilinx)

Xilinx提供“ 边缘到云端的机器学习推理解决方案 ”,并且声称自己的FPGA最适用于INT8,并提供了white papers

虽然FPGA的在per Watt上表现出的性能令人印象深刻,但是长期以来,较大芯片的价格已经很高。找出价格和能力之间的平衡是FPGA的主要挑战。

微软FPGA

· 微软已经把精力放在了FPGA上,“ 微软全力投入使用FPGA来构建AI云”

· 在使用FPGA的MSFT方面取得不错的成绩,“ 微软将其未来应用于可重复编程的计算机芯片 ”

· 如果想了解微软对于云计算的FPGA设想,微软基于FPGA的可配置云也是很好的参考。

高通公司

高通公司一直围绕着ML,一直在与Zeroth SDK和Snapdragon神经处理引擎一起工作。NPE在高通使用的Hexagon DSP 上工作得非常好。该Hexagon DSP 是远非一个高度并行平台,它已被Yann Lecun承认,高通和Facebook在名为:比赛建立一个通用水务AI芯片,一切才刚刚实现 ”的道路上,正共同努力着。据LeCun介绍说,最近高通已经开始专门为执行神经网络而建造芯片,LeCun对高通很熟悉,因为Facebook正在帮助芯片制造商开发与机器学习相关的技术。高通公司副总裁Jeff Gehlhaar证实了该项目。他说:“我们在原型设计与开发方面远远领先,”也许我们会在Kryo CPU,Adreno GPU,Hexagon DSP和Hexagon Vector Extensions之外看到一些东西。如果您与高通的机器学习相竞争,将难以成为这个领域的初创企业。

苹果

会吗还是不会呢? 彭博社报道称它将作为次要处理器,但没有提供什么细节。它不仅是苹果的重要领域,而且有助于避免与高通竞争。

Core ML是苹果目前的机器学习应用程序。

ARM

DynamIQ是嵌入式IP巨头的AI纪元给出的答案。它可能不是一个革命性的设计,但确实是重要的。

ARM还提供了一个开源的Compute Library,其中包含为Arm Cortex-A系列CPU处理器和Arm Mali系列GPU实现的软件功能的综合集成。

IBM TrueNorth

TrueNorth是与DARPA SyNAPSE程序一起开发的IBM的Neuromorphic
CMOS ASIC 。

它是一个芯片设计的核心处理器网络,具有4096个核心,每个核心模拟256个可编程硅“神经元”,总共有超过一百万个神经元。反过来,每个神经元有256个可编程的“突触”,它们之间传递信号。因此,可编程突触的总数刚刚超过2.68亿(228)。在基本构建方面,其晶体管数为54亿。由于记忆,计算和通信在每个4096个神经突触核心中处理,TrueNorth避免了冯 - 诺依曼架构瓶颈,并且非常节能,消耗70毫瓦,约为传统微处理器功率密度的1/10。维基百科

HiSilicon(华为海思)

华为首席执行官余成东最近在2017年中国互联网大会上宣布,华为正在开发AI处理器。

麒麟智能手机

麒麟970可能有一个嵌入式深度学习加速器。

移动相机SoC

根据Hi3559A V100ESultra-HD Mobile Camera SoC的简要数据表,它具有:

双核CNN @ 700 MHz神经网络加速引擎

Cambricon(寒武纪)

Cambricon致力于IP许可证,芯片服务,智能卡和智能平台方面的工作。

地平线机器人

Horizon机器人通过一个脑部处理单元(BPU)工作。

中国创业公司Horizon Robotics与英特尔合作,在CES 2017展示高级驾驶员辅助系统(ADAS),这是一个可以看到东西并识别它的单个相机。他们还与美的合作,推出了一款智能空调,毫无疑问地解决了第一世界的问题,包括家庭安全。尽管目前还没有消息,但我们可以预期他们的脑部处理单位(BPU)首次亮相应该是“ 2017年初 ”。Horizon机器人创始人兼首席执行官凯玉博士曾担任百度深度学习研究所所长,因此我们期待着这家创业公司的一些伟大的事情,迄今为止尚未公开资金。

Deephi(深鉴科技)

DeePhi Tech拥有深度压缩,编译工具链,深度学习处理单元(DPU)设计,FPGA开发和系统级优化等尖端技术。

Bitmain(比特大陆)

Bitcoin Mining Giant Bitmain正在为AI开发处理器。

波计算(Wave Computing)

Wave的Compute
Appliance可以在3RU设备上以2.9 PetaOPS /秒的速度运行TensorFlow。Wave是指DPU处理器,设备具有16个DPU。Wave使用它称之为粗粒度可重构阵列(CGRAs)的处理元素。目前还不清楚2.9 PetaOPS / s所指的位宽。有些细节可以在白皮书中获得。

本文中有更多细节可以参考:AI芯片浅析Yann LeCun提到的两款Dataflow Chip

Graphcore

Graphcore在去年年底提出了一个3000万美元的系列,以支持他们的智能处理单位或IPU的发展。最近,共同创始人和首席技术官西蒙·诺尔斯,应邀在第3研究和应用AI峰会(RAAIS),提出了很多关于他们的处理器的有趣的想法,

解密又一个xPU:Graphcore的IPU,对其IPU架构进行了一些分析。

PEZYComputing K.K

Pezy-SC和Pezy-SC2是Pezy开发的1024核心和2048核心处理器。Pezy-SC 1024核心芯片在2015年的Green500超级计算机列表中为前3名系统提供了支持。Pezy-SC2是目前正在交付的后续芯片,但细节尚不明朗,

“PEZY-SC2
HPC brick:32个PEZY-SC2模块卡,带64GB DDR4 DIMM(2.1个PetaFLOPS(DP),单槽容量为6.4Tb / s)有趣的是,看2,048个MIMD MIPS Warrior 64位内核可以做什么。在20176月的Green500榜单中,Nvidia P100系统排名第一,在第七号有一个Pezy-SC2系统,所以这个筹码似乎还活着,但细节薄弱,Motoaki Saito确实值得一看。

KnuEdge的KnuPath

自2016年6月以来,他们的产品页面已经消失了。不知道他们为什么为他们的MIMD架构投入了1亿美元。当时曾被描述为具有每个ASIC上的256个小型DSP或tDSP核心,以及适用于35W envelope的稀疏矩阵处理的ARM控制器。

性能未知,但他们将芯片与当前的NVIDIA进行了比较,并表示他们的性能是2.5倍。我们知道Nvidia的Tensor核心现在速度提高了十倍以上,因此KnuEdge将保持着艰巨的工作。MIMD或DSP方法必须非常好地执行,以在这个领域中占有一席之地。

自从去年KnuEdge“隐身”出现以来,该公司已经安静下来,没有提供任何关于他们已经做过的事情的其他信息。根据VentureBeat中一篇文章,我们知道KnuEdge已经创造了收入,而且他们正在考虑在今年筹集更多的资金,除了他们已经提出的“病人钱”1亿美元。除了员工资料外,他们的网站包含旁边的信息。在几周前的Xconomy会议上,公司谈到了“应该在今年的某个时间推出”的“基于云的机器智能服务”。

Tenstorrent

Tenstorrent是一家加拿大多伦多小型创业公司,他们大多数提到了深度学习的效率提升了一个数量级。没有真正的公共细节,但他们在 Cognitive 300 list里面。

Cerebras

Cerebras值得注意,因为他背后的支持者和它的创始人是SeaMicro公司的CEO。似乎已经筹集了2500万美元,仍处于隐身模式。

Thinci

Thinci正在开发视觉处理器。他们声称自己正在开发第一块硅片ThinCl-tc500,同时正在发生变化并赢得客户。除了“平行做一切”外,我们还没有去继续。

成立于2010年,加利福尼亚州的Eldorado Hills启动ThinCI,已经采取了一些未公开的资金开发一项将为所有设备带来视觉处理技术。智能设备具有不需要与云定期通信的计算机视觉等功能,该功能被称为“边缘计算”或“雾计算”。那就是ThinCI想玩的地方。

Koniku

Koniku的网站正在实现“你的新现实”。他们募集了很少的钱,看完这个“福布斯”网页上的Youtube剪辑后,你也不太可能不相信,但你永远都不知道。使用生物细胞肯定是不同的。这听起来像是一个科学项目,但是,

“我们是一个企业。我们不是一个科学项目,“在维也纳先锋节发言的阿加比说:”今天有硅片不能提供,但我们可以提供我们的系统的要求“。 Koniku提供的是所谓的神经元壳,它可以控制神经元如何相互通信,并结合正在申请专利的电极,允许读取和写入神经元内的信息。所有这些都装在像iPad一样大的设备中,他们希望在2018年之前减少到镍的大小。

Adapteva

Adapteva:“ Adapteva展示了Epiphany-V:一个1024核64位RISC处理器 ”,Andreas Olofsson去年晚些时候发布了他的1024核心芯片,我们等待其性能的消息。Epiphany-V采用新的深度学习指令,我们必须看看这个具有64MB片上内存的无内存控制器设计是否具有适当的可扩展性。安德烈的设计和建造效果令人印象深刻,可能使我们都能承受得起,我们希望它的表现会很好。

Knowm

· Knowm实际上被认为是一个.ORG,但他们似乎正在追求成为一个营利性企业。新墨西哥的创业公司迄今为止尚未公开种子资金,开发了一个名为AHaH Computing(Anti-Hebbian and Hebbian)的新计算框架。本出版物中可以看到一些细节,但简短来说,该技术旨在将智能机器学习应用的尺寸和功耗降低高达9个数量级。

Mythic

来自Mythic的电池供电神经芯片具有50倍的低功耗。

总部位于德克萨斯州的创业公司Mythic(以前称为Isocline)成立于2012年,以Draper Fisher Jurvetson为首席投资者,投入了950万美元的资金。在收到任何资金之前,该创业公司已经获得了250万美元的赠款。Mythic正在开发一种“将桌面GPU计算能力和深层神经网络放置在按钮式芯片上的AI芯片 - 电池寿命提高50倍,数据处理能力远远超过竞争对手”。基本上,这意味着您可以在本地对任何设备进行语音控制和计算机视觉,而无需云连接。

Kalray

尽管有许多承诺,Kalray还没有超过他们在2015年退出的256核心的芯片,“ 卡莱 - 新的产品漫谈”。 Kalray正在将自己的产品宣传为适合嵌入式自驾车应用。Kalray具有Kalray神经网络(KaNN)软件包,并且比具有高达1 TFlop / s芯片的GPU获得更好的效率。Kalrays NN财富可能会随着即将来临的产品刷新而改善,就在本月,Kalray完成了一项募集资金2600万美元的新资金。新的柯立芝处理器将于2018年中期完成,其中80或160个内核以及80或160个协处理器优化了视觉和深度学习。

Brainchip

脑电芯片Spiking Neuron自适应处理器(SNAP)不但会做深度学习,而且在CNN工程解决方案中没有实际的下降,这令人好奇。IBM的随机相变神经元似乎更有意思,如果这是您想要的路径。

Groq

Groq由设计Google TPU的Ex-googlers创立。

Aimotive

This BDTI ARTICAL展示了aiWare IP的一些信息Aimotive

说到芯片,AImotive和合作伙伴VeriSilicon正在设计一个22 nm的FD-SOI测试芯片,预计将在2018年第一季度从GlobalFoundries的晶圆厂出货。它将采用1个TMAC /秒aiWare内核,消耗大约25平方毫米的硅面积; 一个Vivante VIP8000衍生处理器核心将占据另一半芯片,并且2-4 GB的DDR4 SDRAM也将包含在多芯片封装中。根据Feher的说法,该测试芯片中的卷积定制LAM将具有以下规格(基于初步综合结果):2,048 8x8
MAC逻辑区(包括输入/输出缓冲逻辑,LAM控制和MAC):3.45mm2内存片上缓冲区):取决于配置(10-50 Mbits),范围在5-25mm2之间。

另一个有趣的活动是神经网络交换格式(NNEF)

深度展望(Deep Vision)

深度展望是为深度学习制作低功耗芯片。也许创始人之一的这些论文之一提供了一些线索,“ 卷积引擎:平衡专业计算中的效率和灵活性 ”[2013]和“ 卷积引擎:平衡专业计算中的效率和灵活性 ”[2015]。

深层次(Deep Scale)

DeepScale为感知AI筹集了300万美元,使自驾车安全

REM

减少能源微系统正在开发低功耗异步芯片,以适应CNN推理。REM是Y Combinator根据TechCrunch的第一个ASIC风险投资。

Leepmind

Leepmind

我们正在对原始芯片架构进行研究,以便在能够实现低功耗DeepLearning的电路上实现神经网络

Krtkl

krtkl

这个众所周知,努力进入了我们关于AI芯片的原始文章,所以我们把它包括在这个文件中是公平的。虽然实际上不可能为您的启动选择比“krtkl”更糟的名称,但至少产品名称是可管理的。Snickerdoodle是“用于构建智能系统的可重构硬件”(认为Raspberry Pi)。Snickerdoodle的筹备工作筹集了224,876美元,目前正在出货。如果您预订,夏季将交付。掌上型设备使用Xilinix的Zynq“片上系统”(SoC)。

TeraDeep

TeraDeep正在使用其深度学习的FPGA加速来构建AI设备。该公司声称,AlexNet的图像识别性能与大型GPU相比具有2倍的性能优势,同时消耗5倍的功耗。与英特尔至强处理器相比,TeraDeep的Accel技术的性能提供10倍,同时消耗5倍的功耗。

KAIST DNPU

· KAIST提供的人脸识别系统“K-Eye”

· 从ISSCC深度学习处理器论文到人脸识别产品

Synopsys嵌入式视觉

· DesignWare EV6x嵌入式视觉处理器

· 处理器IP厂商的机器学习方案 - Synopsys

CEVA XM6

· CEVA-XM6第五代计算机视觉和深度学习嵌入式平台

· 处理器IP厂商的机器学习方案 - CEVA

VeriSilicon
VIP8000

· VeriSilicon的Vivante VIP8000神经网络处理器IP每秒提供超过3 Tera MAC

· 神经网络DSP核的一桌麻将终于凑齐了

Cadence P5 / P6
/ C5

· Tensilica视觉DSP用于成像,计算机视觉和神经网络