“无芯片不 AI”。最近几年,业界萦绕着对摩尔定律失效的担忧。后摩尔定律时代,AI 芯片的崛起被寄予厚望。
AI 芯片一度站上了风口,热度空前,与此同时,挑战尤存。现阶段的 AI 芯片处在发展早期,尚有诸多技术痛点待攻克。
在设计、研发上,一个最大的技术挑战在于 如何跟得上 AI 算法的演进。 芯片研发速度往往落后于 AI 语言的迭代速度,很多芯片做出来时,AI 算法已发生了较大的改变,甚至已过时了。因此在芯片设计时,预测未来的前沿算法趋势十分重要。
架构创新能力也是核心竞争力之一。摆在设计和研发前的第一个大难题就是解决架构问题,要具备适应所有应用的架构。正确的架构取决于对 AI 的理解,一些专家芯片设计能力很强,但对 AI 的计算或应用特点理解不深入,一些 AI 算法科学家在底层知识上有所欠缺。AI 芯片的核心要点在于对整个 AI 算法、硬件能力有宏观认知,及对未来发展趋势有精准预判,具备这一综合能力难度不小。去年初,图灵奖得主 John L .Hennessy 和 DavidA. Patterson 曾在二人的合著论文中预判,未来十年,计算机架构将迎来新的黄金时代。
投入成本高企、进入门槛高、周期长、回报率低是整个 AI 芯片产业“头顶”的几座大山,也是目前行业发展的现实情况。一款 AI 芯片的研发周期一般在 18 个月左右,一款 AI 芯片产品问世后,可能要历经 N 次迭代后才能获得较大市场份额,这是一个更考验耐心和韧性的行业。目前国内约有十几家公司实现了实现 AI 芯片量产,包括华为、寒武纪、依图、鲲云等公司。
亿欧智库调研数据显示,以终端常用的 28nm 制程的芯片为例,国内 AI 系统芯片的开发费用约为 2500 万美元。新鼎资本创始人张驰曾在接受 InfoQ 采访时表示,寒武纪等 AI 芯片公司的研发支出主要花在流片上,高精尖工艺造成了流片成本高。一般一款芯片流片费用在千万起步,如果要做到 7 纳米,至少要花费五千万,这还不包括流片失败的费用。像寒武纪这种体量的公司,一般一款芯片流片的体量可能在三千万 - 五千万左右,甚至有可能单次上亿。
英国 AI 芯片创企 Graphcore 高级副总裁兼中国区总经理卢涛对 InfoQ 表示,一款 AI 芯片的研发成本主要包括 5 个方面:
开发工具的成本。
IP 购买成本。如果内部 IP 积累较少,需要购买 IP,成本约在千万美金级别。
后端设计成本。如果没有后端设计工艺,就需要依靠 Broadcom、IBM、TI 这样的公司提供帮助。一些较新的工艺或涉及更高昂的成本。
人力成本。一般做一个 AI 处理器的团队要在 100 人左右,且只能做一款产品。如果要保持像目前头部厂商这样的迭代速度,可能要并行做好几个产品,这是一块很大的成本投入。
失败成本。经验比较丰富的团队可能一版能成功,如果不成功,又需要做好几版,这都意味着高成本投入。
“更高性能,更低功耗,更小面积,更低成本”是芯片设计永恒的追求目标。 这些指标除与设计相关外,更关键的影响因素是芯片采用的工艺,在同等芯片面积下,更先进的工艺明显有助于提升峰值性能和能效比,但这也会让芯片成本显著提升。
鲲云科技 COO 王少军认为,架构创新不仅考验的是芯片公司的硬件设计能力,作为专用芯片来说,还考验对专用领域的应用理解和转化能力,在 AI 领域,这主要体现在对算法的深入理解和准确的发展趋势判断。而摩尔定律终结的质疑声在一定程度上说明了业界对芯片工艺水平持续提升的能力、速度和成本的担忧。他认为,单纯依靠工艺提升来解决性能问题的技术路线在不久的将来将面临巨大挑战。
基于这个判断,鲲云科技更重视芯片利用率和实测性能,希望通过架构创新为客户提供更高的算力性价比。一周前,鲲云科技发布了全球首款数据流架构的 AI 芯片 CAISA,据悉,搭载 CAISA 芯片的加速卡仅拥有英伟达同类产品 1/3 的峰值算力,但其通过 95.4% 的芯片利用率可实现最高 3.91 倍的实测性能提升。数据流架构或是未来提升 AI 芯片性价比的一条可行性技术路线。
落地下半场
AI 芯片实现极致性价比也与应用强相关。 卢涛觉得,如果在一些应用中,能够做到 5 倍、10 倍、20 倍的性能时,性价比的问题也就变得简单了。
找到合适的场景,实现利润率合理的、规模化的出货量,并逐步搭建起自己的生态圈,是衡量一家 AI 芯片公司商业化路径成功的关键标准。
智慧安防、智能终端、自动驾驶、云计算等场景是目前 AI 芯片主要的应用场景,尤其在安防领域,几乎所有的 AI 芯片公司都在该领域有所布局,安防硬件巨头们也都在紧锣密鼓进行 AI 芯片研发。
自动驾驶是其中落地较快,能够相对独立地为用户提供价值,颇具应用潜力的场景。现在自动驾驶技术在实际落地上还不成熟,有些“雷声大、雨点小”,这也在很大程度上限制了 AI 芯片的落地。
长期关注 AI 芯片行业的媒体人刘宇(化名)对自动驾驶的未来持怀疑态度。他认为,自动驾驶本身就不靠谱。在他看来,“靠谱”的 AI 芯片应该具备类似指纹识别这种应用特征 — 计算量不大、有效性好、成本足够低。另外,不要与深度学习过度“绑定”,因为深度学习的红利基本上已经被“吃尽”了。
刘宇对一些 AI 芯片公司的商业模式感到有些失望。“它们基本上都是 TO VC 路线,为了更好地投资人讲好故事,它们存在的前提就是不断有人来融资。有些公司真正的商业模式是‘以芯片为名’拿地,营收主要来自房地产、政府补助等”。
今年 4 月,寒武纪 披露的 IPO 文件显示,其 AI 芯片研发投入巨大,但盈利和落地状况堪忧。在与前第一大客户华为“分手”之后,寒武纪的前五大客户中,第一大、第二大客户均为政府,存在客户集中度过高且高度 TO G 的问题。寒武纪是国内 AI 芯片的第一梯队,其财务表现也是整个行业盈利能力的缩影,现阶段,能够实现盈利的 AI 芯片公司还寥寥无几。
也是在这个月,有外媒消息称,美国 AI 芯片公司 Wave Computing 接近倒闭,已申请破产保护。今年年初,比特大陆的 AI 芯片业务被曝大幅裁员。上述现象不禁令人对国内外 AI 芯片公司的生存状况感到担忧。
AI 芯片是资金投入最大的 AI 垂直领域之一。当资本市场有较大波动时,影响必然会传导到 AI 芯片创业公司。 受自 2018 年下半年开始的资本寒冬,以及外部不确定性的大环境等因素影响,有些投资人也从“不能不看 AI 芯片项目了”变成了“不再看 AI 芯片项目了”。资本市场逐渐趋于理性为 AI 芯片创业公司的落地带来了很大压力,在还没赚到钱之前,它们不得不开始“勒紧”自己的钱袋子了。
王少军认为“钱荒”问题并没有那么严重。他所认识的大部分 AI 芯片企业都发展不错,有一些存在问题的多是经营与战略问题。他认为,市场上优质的 AI 芯片公司在商业化落地上逐步找到了定位,有了持续造血的能力。“大多数 AI 芯片公司还是认真做产品、认真推落地的,在目前行业逐步重视落地、回归商业本质的趋势下,AI 行业的发展会逐步进入良性增长的趋势”。
AI 芯片从产品到实现商业化落地,这中间存在着巨大的鸿沟。 首先是技术层面上的,当一款 AI 芯片出来后,是否有良好的工具链、支持大规模商用部署的丰富软件库,能否与主流机器学习框架实现无缝衔接。对于用户来说,是否具备良好的可移植性、可开发性及可部署性能。
更为重要的,是怎样在行业扎下根去。
声智科技合伙人 &CSO 李智勇认为,AI 芯片实现落地的核心点不是技术问题,而是如何实现市场化并完成商业闭环(从技术 - 产品 - 用户反馈)的问题。 芯片周期长、投入大,形成商业闭环的挑战更大。消化技术红利的过程满足产品化和用户正向反馈两个条件时,落地规模才能持续放大,进而出现并扩宽盈利空间。
而且,就 AI 落地而言,目前主要有两种思路,其一是采用含算法的 ASIC 芯片,其二是采用通用芯片 + 算法在云端的通用系统。在不同场景中两种途径各有优势,在语音交互场景下声智科技选择了第二种,推出多模态人工智能交互系统 SoundAI Azero,可屏蔽不同底层操作系统的差异,提供简单易用的技能开发工具和 Turnkey 软硬件解决方案,满足万物互联时代不同行业应用的需求。
“深”探行业还需要拿捏一定的度。很多现实场景中的需求是无边界的,AI 的能力有限,必须清楚地界定问题的边界,并且用经济的技术手段解决这些问题后才能实现落地。 例如,人脸识别必须加上具体的应用场景限定(包括成像角度、人脸数量等技术约束),才是一个可落地的问题。这个边界如何界定清楚是落地进程中的一道难关。
“AI 公司实际上不应该存在,因为 AI 技术是一套基础性支撑技术,是软件方法,而软件方法本身不能够成为商业模式,它必须跟某一个特定的问题相结合才能够成为商业公司,换句话说,未来所有的公司都是 AI 公司”,AI 行业资深从业者周凌然(化名)的观点有些非主流,“一家公司如果仅拥有算法,是无法站住脚的,本质上在于如何与领域深度结合,如何真正为用户带来终极价值”。
从这个角度来考量 AI 芯片未来的发展。一家 AI 芯片公司未来不能仅仅只有 AI 芯片,而与行业深入结合,变成一家领域解决方案公司或许才是成功之道。AI 芯片应用于各个场景之中为用户所带来的实际效果应当是商业化成果的最终检验标准。
两大应用趋势:云端向边缘端扩展,追求软硬件协同
按照部署位置,AI 芯片可以分为云端部署和终端部署两种。经过几年发展,AI 芯片已不仅仅限于云端,边缘 AI 芯片成为各个厂商竞相布局的垂直赛道,越来越多的 AI 应用部署到了端设备上。
目前云端市场发展已渐趋向成熟,巨头盘踞,格局难撼。对于创业公司来说,应用场景更广阔的终端设备市场还蕴含着不少机会。例如智能手机是目前应用最广泛的边缘计算设备,自动驾驶也是边缘 AI 计算的重要应用场景。边缘计算被视为下一个 AI 战场。
而另一方面,边缘侧市场空间更大,更容易给投资人“讲故事”,吸引资本的关注。据中金公司研究数据,2017 年,边缘计算 AI 芯片市场规模为 39.1 亿美元,到 2022 年,这一数字将增长至 352.2 亿美元,5 年或增长 10 倍。
近几年,边缘计算呈现出了巨大的增长需求,**尤其在有大量数据并要求低延时响应的应用场景中。** 在边缘上做计算,具有数据处理更快速、实时业务处理、成本更低、网络带宽成本低、保护数据隐私安全等优势。
做边缘芯片,最难在于应用场景。 除自动驾驶场景较集中外,其他很多场景十分“碎片化”。AI 边缘芯片现阶段的主要挑战来源于边缘端算力需求的不一致,以及边缘算力平台的差异,导致边缘 AI 芯片的性能和功能需求难以统一界定。
王少军观察到,目前市场上出现了很多场景定义的专用芯片,“市场正朝着专业化、细分化方向发展,也说明,各领域出现了普遍性的行业落地需求,足以支撑专用 AI 芯片的发展,这对掌握了核心技术,能禁得住市场考验的 AI 芯片企业来说是一个好现象”。
另一趋势是,不少 AI 芯片公司越来越追求打造软硬件协同能力。不少原来做芯片的公司开始由硬件切入软件,有些算法公司开始深入硬件做布局。软硬件协同意味着更高的有效算力。
明确重要的落地场景是软硬件协同的前提;此外,一体化过程涉及软件和硬件两种不同技术团队间的协同,在磨合期团队要充分磨合,相关工具支持也得跟上。
软硬协同理念是从软件(算法)和硬件两个角度同时优化,从而实现性能的全局最优。在设计过程中,面临约束条件多且存在不确定性,设计空间大等挑战,导致最终结果很难得到最优解。要实现所有网络的最优,在技术上实现难度较大,为此,芯片设计应以有效加速大多数的算法为目标。
AI 芯片从未成功过?
回溯 AI 芯片在国内的发展历程,2015-2016 年是业内公认的小高潮。卷积神经网络、深度学习的突破掀起了 AI 芯片的研究与创投热潮,深度学习方法在很大程度上约减了算法计算需求的多样性,为 AI 芯片提供了明确的技术可行性;算法精度的有效提升为 AI 行业落地提供了可能。
一时间,大批创业公司争相涌入,巨头公司加大投入力度,资本亦疯狂助推 ,尤其在 2018 年,AI 芯片大热,多家创企相继宣布获得融资。
2017-2019 年,在王少军看来是 AI 芯片技术和产品研发“百花齐放”的三年 — 市场端还是英伟达一家独大,涌现出了很多的新技术、新架构和新模式,AI 场景需求的定义更加清晰,云边端基本成为共识,但不同技术路线对不同场景的适应程度还没有被充分验证。
2019 年是芯片行业的转折点。资本寒冬、华为遭断供、多家科技企业被列入实体清单等事件凸显“卡脖子”危机,在国际形势不明朗的环境下,AI 芯片产业链添了不可测的发展变数,对于有技术实力、能完成替代的国内芯片公司来说,未尝不是一个发展的契机。
相较几年前,AI 芯片行业的热度已经下降了不少。当热度渐渐冷却下来,业界也开始反思 AI 芯片行业是否存在一些“概念炒作”、搞噱头、泡沫化的问题。艾瑞咨询在《2019 年 AI 芯片行业研究报告》中分析指出,当前 AI 芯片行业接近 Gartner 技术曲线泡沫顶端。
“最近这三四年 AI 芯片的发展状况,我觉得是‘泡沫’,站不住脚。泡沫主要体现在,AI 芯片是个伪命题,不是真实的需求。过去 20 多年来,有关人工智能硬件化的尝试,绝大多数都失败了,这里面可能存在一些共性的原因。到目前为止,我还没有感受到 AI 芯片在根本上的不一样。因此,我怀疑,在这次以深度学习为发端的 AI 浪潮背景下的 AI 芯片硬件化也会失败”。一位 AI 技术专家冯辉(化名)向 InfoQ 表达了他的判断,他认为,AI 芯片发展这么多年,从未成功过。
如何来定义 AI 芯片的“成功”?InfoQ 询问了多位受访专家的看法。多位专家对“从未成功”这一说法不甚认同。
在产品层面,历史上涌现了很多成功的 AI 芯片产品,例如 Google 的 TPU、HTPU,英伟达的 P100 GPU、高通的骁龙 AI 芯片等产品。
“如果单按这个(产品)标准,历史上那些 AI 芯片也算'成功'了”,冯辉补充道,“我认为,AI 芯片的成功与否,不在于是不是做出来,而在于是不是可用。这里的“可用”是指,相对于通用芯片,是否具有明显的成本优势”。
值得注意的是,在技术层面,由于 AI 芯片是技术上的新生事物,如何定义一款 AI 芯片在技术上取得了成功,目前业界并未形成统一的技术共识。“成功的定义或有不同,任何一个按照自己的技术理念成功流片的 AI 芯片公司,都可以认为在技术上是达到了一定程度的成功。除此之外,如何将自己产品的技术特性与市场需求场景充分适配,为目标市场提供不可替代性和更高性价比,进而有效落地,这个是基于商用化上的考量。”王少军说。
至于商业化上的成功,未来仍需要时间来验证。这在一定程度上取决于 AI 芯片落地速度,目前的环境给了有产品优势的芯片公司突破的机会。
经历了过去 5 年的快速发展后,2020 年,AI 芯片进入了研究与大规模化落地的关键一年。卢涛认为上半年的疫情对于 AI 芯片的落地利弊参半,利好是,疫情加速全球版数字化进程,加快数据中心等算力基础设施建设进程;挑战是,那些纷纷嚷嚷着自己要做 AI 处理器的公司能不能真的做出来,真的到场景中落下地去。如果没有真东西 “亮出来” ,后期持续的投入可能将面临巨大挑战。
‘讲故事’,拼技术理念、拼背景光环的时代已经过去了。
进入下半场的 AI 芯片到了市场验证期,到了拼产品效果、拼用户体验的时候。这将伴随着一场大的洗牌过程而展开,那些找不到落地场景,盈利能力不足,在技术和商业模式上不能提供核心价值的玩家可能最终将面临被淘汰出局的命运。“市场将会按照不同的行业保留 2-3 家头部公司,以及若干家有特色的中小公司”,王少军向 InfoQ 预测这场淘汰赛可能的终局。
不能忽视地是,AI 芯片尚处在稚嫩的“婴儿期”,快速成长难免伴随着“阵痛”,未来虽未知但可期。“我觉得现在应该是做芯片最好的时期,AI 芯片需要走的路特别长”,李智勇觉得,握住当下的机遇是最重要的。
嘉宾介绍:
王少军,鲲云科技合伙人兼 COO,2012 年博士毕业于哈尔滨工业大学。发表学术论文 40 余篇,拥有 24 项授权发明专利,参与人工智能相关项目超过 20 项,有着丰富的人工智能应用系统开发经验。
卢涛, Graphcore 高级副总裁兼中国区总经理,全面负责 Graphcore 在中国的业务。卢涛在芯片领域拥有近 20 年的经验。在加入 Graphcore 之前,卢涛先生曾任 Cavium 总经理一职,作为当时的零号员工领导 Cavium 在中国的业务,直至 Cavium IPO,在被 Marvell 收购之后,卢涛加入 Graphcore。卢涛毕业于华中科技大学人工智能与自动化学院。
李智勇,声智科技合伙人兼 CSO 。曾任联想资深战略专家,奇虎 360 高级投资经理 & 战略分析师。著有《终极复制:人工智能将如何推动社会巨变》等书。
另,应受访者要求,文中刘宇、周凌然、冯辉为化名。