#VideoSys

视频生成要有自己的系统

视频时代需要自己的基础设施。VideoSys 的目标是使视频生成对于每个人而言都简便、迅速且成本低廉。

自今年起,OpenAI 的 Sora 和其他基于 DiT 的视频生成模型在 AI 领域掀起了又一波浪潮。但由于起步较晚,视频生成领域的很多基础设施都还有待完善。

今年 2 月份,新加坡国立大学尤洋团队开源的一个名为 OpenDiT 的项目为训练和部署 DiT 模型打开了新思路。这是一个易于使用、快速且内存高效的系统,专门用于提高 DiT 应用程序的训练和推理效率,包括文本到视频生成和文本到图像生成。

项目上线后非常受欢迎,尤洋团队也一直在继续这方面的工作,包括增加对 Open-Sora 等模型的支持,开发 DSP、PAB 加速技术等。


51c大模型~合集40_大模型


最近,他们更是把这些进展都融合到了一起,开发出了一个名为 VideoSys 的视频生成系统。

团队表示,与 LLM 不同,视频模型要处理长序列和复杂的执行流程。并且模型的每个组件都具有独特的特征,对内存和计算提出了不同的挑战。

VideoSys 是一个简单高效的视频生成系统,旨在让视频生成对于每个人而言都简便、迅速且成本低廉。

此外,它还是一个开源项目,为视频生成提供了一个用户友好的高性能基础设施。这个全面的工具包将支持从训练、推理到服务和压缩的整个 pipeline。它标志着视频生成的新篇章。

从 OpenDiT 到 VideoSys,尤洋团队的相关工作已经收获了 1.4k 的 star 量。

  • 项目链接:https://github.com/NUS-HPC-AI-Lab/VideoSys

VideoSys 的安装、使用方法和相关技术如下。   

安装方法

安装准备:

Python >= 3.10
PyTorch >= 1.13(建议使用 2.0 以上版本)
CUDA >= 11.6

强烈建议使用 Anaconda 创建一个新环境(Python>=3.10)来运行示例:

conda create -n videosys pythnotallow=3.10 -y
conda activate videosys

安装 VideoSys:  

git clone https://github.com/NUS-HPC-AI-Lab/VideoSyscd VideoSys
pip install -e .

使用方法

VideoSys 通过各种加速技术支持许多扩散模型,使这些模型能够运行得更快并消耗更少的内存。

你可以在下表中找到所有可用模型及其支持的加速技术。

51c大模型~合集40_大模型_02

加速技术

Pyramid Attention Broadcast (PAB)


51c大模型~合集40_大模型_03

PAB 是业内第一种可以实时输出的、基于 DiT 的视频生成方法,无需任何训练即可提供无损质量。通过减少冗余注意力计算,PAB 实现了高达 21.6 FPS 的帧率和 10.6 倍的加速,同时不会牺牲包括 Open-Sora、Open-Sora-Plan 和 Latte 在内的基于 DiT 的视频生成模型的质量。值得注意的是,作为一种不需要训练的方法,PAB 可以为任何未来基于 DiT 的视频生成模型提供加速,让其具备实时生成的能力。

  • 论文:https://arxiv.org/abs/2408.12588
  • 博客:https://arxiv.org/abs/2403.10266
  • 文档:https://github.com/NUS-HPC-AI-Lab/VideoSys/blob/master/docs/pab.md

Dyanmic Sequence Parallelism(DSP)



51c大模型~合集40_大模型_04

DSP 是一种新颖、优雅、超高效的序列并行算法,适用于 Open-Sora、Latte 等多维 transformer 架构。

与 sota 序列并行方法 DeepSpeed Ulysses 相比,它在 Open-Sora 中实现了 3 倍的训练加速和 2 倍的推理加速。对于 10 秒(80 帧)的 512x512 视频,Open-Sora 的推理延迟如下:

51c大模型~合集40_大模型_05

  • 论文:https://arxiv.org/abs/2403.10266
  • 文档:https://github.com/NUS-HPC-AI-Lab/VideoSys/blob/master/docs/dsp.md

更多详细信息请参考该项目 Github 界面。

#Claude上线LaTeX公式渲染功能

当 ChatGPT 老早就支持使用 LaTeX 语言输入和显示数学公式时,Claude 现在终于补上了这一功能。

在论文、书籍、报告或幻灯片中,我们有时需要插入数学公式或符号。其中使用 LaTeX 语言来生成数学公式或符号是主要方式之一,这就是所谓的 LaTeX 公式渲染,通过简单的命令来实现复杂的数学表达式。

对于大语言模型来说,它们在解答一些数学相关的问题时有时也需要输出数学方程式或表达式。这时如果能够使用 LaTeX 输出标准的公式,答案自然会更加清晰明了。

以大模型初创公司 Anthropic 的 Claude 为例,有人表示自己没有成为 Claude Pro 会员的唯一原因是它不支持 LaTeX 渲染。

或许是听到了这些人的心声,今天 Claude(3.5 Sonnet)终于添加了 LaTeX 渲染功能预览,从而能够以一致的格式显示数学方程式和表达式。

LaTeX 渲染的功能界面如下所示:

我们可以先看下面这个官方示例,「让 Claude 展示并简单地解释高斯积分、巴塞尔问题解和正弦的小角度近似。」

也试用了一下 Claude 3.5 Sonnet,下面为未开启 LaTeX(图左)与开启 LaTeX(图右)功能的方程式效果对比。

各路网友纷纷表示,LaTeX 渲染功能是众望所归,尤其是对需要处理数学或科学记号表示的用户助益很大。




#All Robots in One

总说具身智能的数据太贵,鹏城实验室开源百万规模标准化数据集

该论文作者来自于鹏城实验室多智能体与具身智能研究所及南方科技大学、中山大学的师生团队,包括林倞教授(研究所所长,国家杰青,IEEE Fellow),郑锋教授,梁小丹教授,王志强(南科大),郑浩(南科大),聂云双(中大),徐文君(鹏城),叶华(鹏城)等。鹏城实验室林倞教授团队致力于打造多智能体协同与仿真训练平台、云端协同具身多模态大模型等通用基础平台,赋能工业互联网、社会治理与服务等重大应用需求。

今年以来,具身智能正在成为学术界和产业界的热门领域,相关的产品和成果层出不穷。今天,鹏城实验室多智能体与具身智能研究所(以下简称鹏城具身所)联合南方科技大学、中山大学正式发布并开源其最新的具身智能领域学术成果 ——ARIO(All Robots In One)具身大规模数据集,旨在解决当前具身智能领域所面临的数据获取难题。

论文题目:All Robots in One: A New Standard and Unified Dataset for Versatile.General-Purpose Embodied Agents

论文链接:http://arxiv.org/abs/2408.10899

项目主页:https://imaei.github.io/project_pages/ario/

鹏城实验室具身所网站链接:https://imaei.github.io/

作为具身机器人的大脑,想要让具身大模型的性能更优,关键在于能否获得高质量的具身大数据。不同于大语言模型或视觉大模型用到的文本或图像数据,具身数据无法从互联网海量内容中直接获取,而需通过真实的机器人操作来采集或高级仿真平台生成,因此具身数据的采集需要较高的时间和成本,很难达到较大的规模。

同时,当前开源的数据集也存在多项不足,如上表所示,JD ManiData、ManiWAV 和 RH20T 本身数据量不大,DROID 数据用到的机器人硬件平台比较单一,Open-X Embodiment 虽然达到了较大规模的数据量,但其感知数据模态不够丰富,而且子数据集之间的数据格式不统一,质量也参差不齐,使用数据之前需要花大量时间进行筛选和处理,难以满足复杂场景下具身智能模型的高效率和针对性的训练需求。

相比而言,此次发布的 ARIO 数据集,包含了 2D、3D、文本、触觉、声音 5 种模态的感知数据,涵盖操作和导航两大类任务,既有仿真数据,也有真实场景数据,并且包含多种机器人硬件,有很高的丰富度。在数据规模达到三百万的同时,还保证了数据的统一格式,是目前具身智能领域同时达到高质量、多样化和大规模的开源数据集。

对于具身智能的数据集而言,由于机器人有多种形态,如单臂、双臂、人形、四足等,并且感知和控制方式也各不相同,有些通过关节角度控制,有些则是通过本体或末端位姿坐标来驱动,所以具身数据本身比单纯的图像和文本数据要复杂很多,需要记录很多控制参数。而如果没有一个统一的格式,当多种类型的机器人数据聚合到一起,需要花费大量的精力去做额外的预处理。

因此鹏城实验室具身所首先设计了一套针对具身大数据的格式标准,该标准能记录多种形态的机器人控制参数,并且有结构清晰的数据组织形式,还能兼容不同帧率的传感器并记录对应的时间戳,以满足具身智能大模型对感知和控制时序的精确要求。下图展示了 ARIO 数据集的总体设计。

51c大模型~合集40_大模型_06

图 1. ARIO 数据集总体设计

ARIO 数据集,共有 258 个场景序列,321064 个任务,303 万个样例。ARIO 的数据有 3 大来源,一是通过布置真实环境下的场景和任务进行真人采集;二是基于 MuJoCo、Habitat 等仿真引擎,设计虚拟场景和物体模型,通过仿真引擎驱动机器人模型的方式生成;三是将当前已开源的具身数据集,逐个分析和处理,转换为符合 ARIO 格式标准的数据。下面展示了 ARIO 数据集的具体构成,以及 3 个来源的流程和示例。

51c大模型~合集40_大模型_07

51c大模型~合集40_大模型_08

图 2. ARIO 数据 3 个来源

真实场景的高质量的机器人数据不易获取,但意义重大。鹏城实验室基于 Cobot Magic 主从双臂机器人,设计了 30 多种任务,包括简单 —— 中等 —— 困难 3 个操作难易等级,并通过增加干扰物体、随机改变物体和机器人位置、改变布置环境等方式增加样例的多样性,最终得到 3000 多条包含 3 个 rgbd 相机的轨迹数据。下面展示了不同任务的采集示例以及采集视频。

51c大模型~合集40_大模型_09

图 3. ARIO 真实机器人数据采集示例

Cobot Magic 机械臂采集数据示例视频

基于 MuJoCo 的仿真数据采集示例视频

基于 Dataa SeaWave 平台的仿真数据生成示例视频

基于 Habitat 平台的仿真数据生成示例视频

从 RH20T 转换的数据示例视频

得益于 ARIO 数据的统一格式设计,能够很方便地对它的数据组成进行统计分析。下图展示了从 series、task、episode 三个层面对 ARIO 的场景(图 a)和技能(图 b)的分布进行统计。从中可见,目前大部分的具身数据都集中在室内生活家居环境中的场景和技能。

51c大模型~合集40_大模型_10

除了场景和技能,在 ARIO 数据中,还能从机器人本身的角度进行统计分析,并从中了解当前机器人行业的一些发展态势。 ARIO 数据集提供了机器人形态、运动对象、物理控制变量、传感器种类和安装位置、视觉传感器的数量、控制方式比例、数据采集方式比例、机械臂自由度数量比例的统计数据,对应下图 a-i。

以下图 a 为例,从中可以发现,当前大部分的数据来源于单臂机器人,人形机器人的开源数据很少,且主要来源于鹏城实验室的真实采集和仿真生成。

51c大模型~合集40_大模型_11

图 5.ARIO 数据集分类统计

更多关于 ARIO 数据集的详细信息与下载链接,请参考论文原文与项目主页。




#Equivariant neural networks and piecewise linear representation theory

如何让等变神经网络可解释性更强?试试将它分解成「简单表示」

神经网络是一种灵活且强大的函数近似方法。而许多应用都需要学习一个相对于某种对称性不变或等变的函数。图像识别便是一个典型示例 —— 当图像发生平移时,情况不会发生变化。等变神经网络(equivariant neural network)可为学习这些不变或等变函数提供一个灵活的框架。

而要研究等变神经网络,可使用表示论(representation theory)这种数学工具。(请注意,「表示」这一数学概念不同于机器学习领域中的「表征」的典型含义。本论文仅使用该术语的数学意义。)

近日,Joel Gibson、Daniel Tubbenhauer 和 Geordie Williamson 三位研究者对等变神经网络进行了探索,并研究了分段线性表示论在其中的作用。

论文标题:Equivariant neural networks and piecewise linear representation theory

论文地址:https://arxiv.org/pdf/2408.00949

在表示论中,简单表示(simple representation)是指该理论的不可约简的原子。在解决问题时,表示论的一个主要策略是将该问题分解成简单表示,然后分别基于这些基本片段研究该问题。但对等变神经网络而言,这一策略并不奏效:它们的非线性性质允许简单表示之间发生互动,而线性世界无法做到这一点。

但是,该团队又论证表明:将等变神经网络的层分解成简单表示依然能带来好处。然后很自然地,他们又进一步研究了简单表示之间的分段线性映射和分段线性表示论。具体来说,这种分解成简单表示的过程能为神经网络的层构建一个新的基础,这是对傅立叶变换的泛化。

该团队表示:「我们希望这种新基础能为理解和解读等变神经网络提供一个有用的工具。」

该论文证明了什么?

在介绍该论文的主要结果之前,我们先来看一个简单却非平凡的示例。

以一个小型的简单神经网络为例:

51c大模型~合集40_大模型_12

其中每个节点都是 ℝ 的一个副本,每个箭头都标记了一个权重 w,并且层之间的每个线性映射的结果都由一个非线性激活函数 𝑓 组成,然后再进入下一层。

为了构建等变神经网络,可将 ℝ 和 w 替换成具有更多对称性的更复杂对象。比如可以这样替换:

51c大模型~合集40_大模型_13

其可被描述为:

51c大模型~合集40_大模型_14

不过,要想在计算机上真正实现这个结构,却根本不可能,但这里先忽略这一点。

现在暂时假设函数是周期性的,周期为 2π。当用傅里叶级数展开神经网络时,我们很自然就会问发生了什么。在傅里叶理论中,卷积算子会在傅里叶基中变成对角。因此,为了理解信号流过上述神经网络的方式,还需要理解激活函数在基频上的工作方式。

一个基本却关键的观察是:𝑓(sin (x)) 的傅里叶级数仅涉及较高共振频率的项:

51c大模型~合集40_大模型_15

(这里展示了当 𝑓 是 ReLU 时,𝑓(sin (x)) 的前几个傅里叶级数项。)这与我们拨动吉他琴弦时发生的情况非常相似:一个音符具有与所弹奏音符相对应的基频,以及更高的频率(泛音,类似于上面底部的三张图片),它们结合在一起形成了吉他独特的音色。

该团队的研究表明:一般情况下,在等变神经网络中,信息会从更低共振频率流向更高共振频率,但反之则不然:

51c大模型~合集40_大模型_16

这对等变神经网络有两个具体影响:

  1. 等变神经网络的大部分复杂性都出现在高频区,
  2. 如果想学习一个低频函数,那么可以忽略神经网络中与高频相对应的大部分。

举个例子,如果使用典型的流式示意图(称为交互图 /interaction graph)表示,一个基于(8 阶循环群)构建的等变神经网络是这样的:

51c大模型~合集40_大模型_17

其中的节点是 C_8 的简单表示,节点中的值表示生成器的动作。在此图中,「低频」简单表示位于顶部,信息从低频流向高频。这意味着在大型网络中,高频将占据主导地位。

主要贡献

该团队做出了一些重要的理论贡献,主要包括:

  1. 他们指出将等变神经网络分解成简单表示是有意义且有用的。
  2. 他们论证表明等变神经网络必须通过置换表示构建。
  3. 他们证明分段线性(但并非线性)的等变映射的存在受控于类似于伽罗瓦理论的正规子群。
  4. 他们计算了一些示例,展示了理论的丰富性,即使在循环群等「简单」示例中也是如此。

等变神经网络和分段线性表示

该团队在论文中首先简要介绍了表示论和神经网络的基础知识,这里受限于篇幅,我们略过不表,详见原论文。我们仅重点介绍有关等变神经网络和分段线性表示的研究成果。

等变神经网络:一个示例

这篇论文的出发点是:学习关于某种对称性的等变映射是有用的。举些例子:

  1. 图像识别结果通常不会随平移变化,比如识别图像中的「冰淇淋」时与冰淇淋所在的位置无关;
  2. 文本转语音时,「冰淇淋」这个词不管在文本中的什么位置,都应该生成一样的音频;
  3. 工程学和应用数学领域的许多问题都需要分析点云。这里,人们感兴趣的通常是对点云集合的质量评估,而与顺序无关。换句话说,这样的问题不会随点的排列顺序变化而变化。因此,这里的学习问题在对称群下是不变的。

为了解释构建等变神经网络的方式,该团队使用了一个基于卷积神经网络的简单示例,其要处理一张带周期性的图像。

这里,这张周期性图像可表示成一个 n × n 的网格,其中每个点都是一个实数。如果设定 n=10,再将这些实数表示成灰度值,则可得到如下所示的图像:

51c大模型~合集40_大模型_18

我们可以在这张图上下左右进行重复,使之具有周期性,也就相当于这张图在一个环面上。令 C_n = ℤ/nℤ 为 n 阶循环群,C^2_n = C_n × C_n。用数学术语来说,一张周期性图像是从群 C^2_n 到 ℝ 的映射的 ℝ 向量空间的一个元素:

51c大模型~合集40_大模型_19

。在这个周期性图像的模型中,V 是一个「C^2_n 表示」。事实上,给定 (a, b) ∈ C^2_n 和 𝑓 ∈ V,可通过移动坐标得到一张新的周期性图像:

  • ((a, b)・f)(x, y) = f (x + a, y + b)

也就是说,平移周期性图像会得到新的周期性图像,例如:

51c大模型~合集40_大模型_20

得到等变神经网络的一个关键观察是:从 V 到 V 的所有线性映射的 ℝ 向量空间的维度为 n^4,而所有 C^2_n 表示线性映射的 ℝ 向量空间的维度为 n^2。

下面来看一个 C^2_n 等变映射。对于

51c大模型~合集40_大模型_21

,可通过一个卷积型公式得到 C^2_n 等变映射 V → V:

51c大模型~合集40_大模型_22

举个例子,如果令 c = 1/4 ((1, 0) + (0, 1) + (−1, 0) + (0, −1))。则 c・𝑓 是周期性图像且其像素 (a, b) 处的值是其相邻像素 (a+1, b)、(a, b+1)、(a−1, b) 和 (a, b−1) 的值的平均值。用图像表示即为:

51c大模型~合集40_大模型_23

更一般地,不同 c 的卷积可对应图像处理中广泛使用的各种映射。

现在,就可以定义这种情况下的 C^2_n 等变神经网络了。其结构如下:

51c大模型~合集40_大模型_24

其中每个箭头都是一个卷积。此外,W 通常是 ℝ 或 V。上图是一张卷积神经网络的(经过简化的)图像,而该网络在机器学习领域具有重要地位。对于该网络的构建方式,值得注意的主要概念是:

  1. 此神经网络的结构会迫使得到的映射 V → W 为等变映射。
  2. 所有权重的空间比传统的(全连接)神经网络小得多。在实践中,这意味着等变神经网络所能处理的样本比「原始」神经网络所能处理的大得多。(这一现象也被机器学习研究者称为权重共享。)

该团队还指出上图隐式地包含了激活图,而他们最喜欢的选择是 ReLU。这意味着神经网络的组成成分实际上是分段线性映射。因此,为了将上述的第二个主要观察(通过将问题分解成简单表示来简化问题)用于等变神经网络,很自然就需要研究分段线性表示论。

等变神经网络

下面将给出等变神经网络的定义。该定义基于前述示例。

令 G 为一个有限群。Fun (X, ℝ) 是有限群 G 的置换表示(permutation representation)。

定义:等变神经网络是一种神经网络,其每一层都是置换表示的直接和,且所有线性映射都是 G 等变映射。如图所示:

51c大模型~合集40_大模型_25

(这里,绿色、蓝色和红色点分别表示输入、隐藏层和输出层,perm 表示一个置换表示,它们并不一定相等。和普通的原始神经网络一样,这里也假设始终会有一个固定的激活函数,其会在每个隐藏层中被逐个应用到分量上。)

最后举个例子,这是一个基于点云的等变神经网络,而点云是指 ℝ^d 中 n 个不可区分的点构成的集合。这里 n 和 d 为自然数。在这种情况下,有限群 G 便为 S_n,即在 n 个字母上的对称群,并且其输入层由 (ℝ^d)^n = (ℝ^n)^d 给定,而我们可以将其看作是 d 个置换模块 Fun ({1, ..., n}, ℝ) 的副本。如果将 Fun ({1, ..., n}, ℝ) 写成 n,则可将典型的等变神经网络表示成:

51c大模型~合集40_大模型_26

(这里 d=3 且有 2 层隐藏层。)这里的线性映射应当是 S_n 等变映射,而我们可以基于下述引理很快确定出可能的映射。

引理:对于有限 G 集合 X 和 Y,有

51c大模型~合集40_大模型_27

,其中 Fun_G (X × Y, ℝ) 表示 G 不变函数 X×Y →ℝ。

根据该引理,

51c大模型~合集40_大模型_28

,并且 G = S_n 有两条由对角及其补集(complement)给出的轨道。因此,存在一个二维的等变映射空间 n→n,并且这与 n 无关。(在机器学习领域,这种形式的 S_n 的等变神经网络也被称为深度网络。)开发板商城 天皓智联 TB上有视觉设备哦 支持AI相关~ 大模型相关也可用 whaosoft aiot自动驾驶也可以哦

为了更详细地理解等变神经网络以及相关的分段线性表示论的定义、证明和分析,请参阅原论文。



#李沐重返母校上海交大,从LLM聊到个人生涯

昨天,李沐回到了母校上海交大,做了一场关于 LLM 和个人生涯的分享。本文是梳理的李沐演讲内容(根据 B 站用户@考拉klkl上传的视频整理,感谢这位同学的录制,视频链接见文后。)

图源:上海交通大学特聘教授俞勇朋友圈。

Hi!大家好,说我是计算机杰出校友有点不敢当。很多年没有回来,这次回国想见一见本科导师。我的 AI 启蒙导师李老师说,来都来了,要不做个报告吧。

本来我想讲一些关于语言模型的知识,但听讲座的各位不一定都是这个方向,所以我加了一些这些年转了很多地方、做出的不同选择的感想。

第一部分我会讲得稍微技术一点,是有关整个语言模型的现在,以及未来情况的预测。

语言模型可以分为三块:算力、数据和算法。所以语言模型也好,整个机器学习模型也好,本质上就是把数据通过算力和算法压进中间那个模型里面,使得模型有一定的能力,在面对一个新的数据时,它能够在原数据里面找到相似的东西,然后做一定的修改,输出你要的东西。

打个比方,很多年前深度学习刚出来的时候,我说机器学习像是老中医,深度学习可能跟玄幻小说的炼丹有点像。所以你看现在的语言模型就很像炼丹,你要把一些材料放进一个丹炉里面,然后有个丹方去把它炼出来。

那么数据就是你要找的材料。你看那些小说里面,主角大部分时间都在找材料,包括去深山里面找、去拍卖会上买,所以搞数据是很难的事情,是个体力活。但是你必须得有这些数据,而且要多弄一些,因为你不知道到时候会不会毁掉一些。

算力也很重要,就是说火要大一点,设备要先进一点,因为越好的设备炼出来的东西越好。

算法就是你的丹方了。丹方这个东西可能跟小说不一样。它每年都在进步,而且对于细节的把控非常重要。就算别人告诉过你这个东西怎么弄,但在真实的场景里面,你会发现还是挺不一样的。这就有点像你去徒手发射火箭,发之前你要动手调一调,没调好的话就炸掉了。

这一次(浪潮里)的语言模型和上一次深度学习(浪潮里)的模型有一个比较大的区别 —— 上一次是,我炼一个什么丹就治一个什么病,这次我希望这个东西炼出来会有灵魂在里面,它能解决你很多问题,这其实是技术一代代往前进。

接下来要讲的就是,硬件、数据和算法,未来几年会发生什么。这里面其实是有规律可循的,它不是一个跳跃性的东西。

算力层面:大模型不是特别有性价比的东西

带宽:让芯片靠得更近一些

硬件这块,我放第一位的是带宽。实际上带宽是最难也是最重要的。因为就现在的模型训练而言,很难让一个机器搞定所有事情,所以要做分布式训练,通常瓶颈就在带宽上。

我们现在的带宽是一根光纤承载 400Gigabits,下一代就是 double,变成 800Gigabits。

半年前,英伟达发布了一个名叫 GB200 的系统(现在已经推迟出货)。不知道大家有没有见过 GPU 长什么样子?这些机器其实是很高的。以前你去数据中心,会看到一个机架柜可以放很多很多刀片服务器。现在换成新的 GPU 之后,一个机架位只能放两台机器。这是因为供电、散热等等一系列的问题。英伟达可以把 72 块卡压缩一个机架位里面。

这里面用到了水冷工艺。之前我们其实不太用水冷,因为水冷有很多问题,比如那个阀门没做好就会漏水,整个机架位一漏水就完了。而且水冷对整个基建是有要求的,水要进来要出去。水的好处是可以带走很多热量。现在我们大部分是靠空气吹,但水的密度更高,所以它带走热量的能力更强。

所以一旦用到水冷之后,你的算力就可以更密,就可以放更多机器。芯片就可以压得比较扁。压得比较扁的好处就是,每个芯片之间更近了。芯片之间直接用光纤,以光速互通。光速你看上去很快,但实际上在我们眼里已经很慢了。一台机器传输到隔壁一米之外的机器所带来的几纳秒延迟,几乎是不能忍。我们自己去设计机房的时候会考虑光纤的长度,因为一米的差距就会给分布式训练带来一个可见的性能影响。

英伟达的 GB200 这个卡就可以把 GPU 都放一起,那么它们之间的通讯会变得更好一些。你可以理解成:之前我们做多核,把单核封装到一个芯片里面,现在是说多核不够,我要做多卡,多卡以前是分布在一个房间里面,现在是多卡也要尽量放在一起,这是一个趋势。就是一块芯片那么大,早就做不上去了,这是台积电等面临的工艺难题,现在是尽量把这些东西弄得近一些。

还有一个通讯是 GPU 和 CPU 之间的 PCIe,它每几年也在翻倍,但是确实会慢一些。

内存:制约模型尺寸的一大瓶颈

接下来讲内存。内存比算力也重要一点。因为现在的语言模型,核心是把整个世界的数据压进模型里面,那模型就被搞得很大,几百 GB 的样子。在运行的时候,它的中间变量也很大,所以它就需要很多的内存。现在我们可以做到一个芯片里面封装近 192 GB 的内存。下一代带宽会更高一点。

但这个东西目前已经被认为是一个瓶颈了。这是因为内存占面积 —— 一个芯片就那么大,划一块给算力,划一块给内存之后就放不下什么东西了。所以很有可能在未来几年之内,一个芯片就 200GB 内存,可能就走不动了。这个要看工艺有没有突破。这意味着我们的模型大小在一定程度上会被限制在一个尺寸,因为更大的话你的效率会变得特别低。所以内存大小会是模型上限的一个制约,而不是算力。我们是内存不够,模型就做不大。

在这一块,虽然英伟达是领先者,但其实英伟达是不如 AMD 的,甚至不如 Google 的 TPU。

算力:长期来看会越来越便宜

当你搞定了带宽和内存的时候,再去看算力。

机器学习好的一点是,你可以用 4 位浮点数,硬件会变小,它对带宽的利用率也会变低,因为每次计算它只有那么多浮点数在里面。所以我们最近几代优化都来自浮点数的精度的降低。这是它给硬件带来的好处。

但是当你把模型做得更大的时候,你会发现资源是问题,就是供电。我们自己在做数据中心的时候,曾经真的想过我们自己造一个电厂。当我们发现自己去造一个电厂的成本比我们付的那个电费成本还低的时候,我们花了几个月时间去看那个电厂文件。最大的一个芯片要耗一千瓦,一千块芯片就是一兆瓦,整个校园都未必能用上一兆瓦的电。

关于算力价格。从理论上来说,在公平的市场里面,每次算力翻倍,价格会保持不变,充分竞争的市场会有这个好处,在过去很多年都是这样。但是最近几年英伟达的垄断导致这个价格下不来。短期来看,算力翻倍,价格可能会有 1.4 倍的提升。但是长期来看,当竞争变得越来越激烈,摩尔定律会发挥作用,就是说算力翻倍,价格不一定变。所以长期来看算力会变得越来越便宜。

算力这块,你可以用别的芯片,但是这些芯片用来做推理还 OK,做训练的话还要等几年的样子,英伟达还是处在一个垄断的地位。

所以在算力这块,你可以认为摩尔定律还是会发挥作用,就是训练会两倍两倍地变便宜。所以你今天训练一个模型,一年之后它的价值会减半。很多时候,大家不要去想我现在能搞多大的模型,一年之后,这个模型会贬值。我想说,大模型不是特别有性价比的东西。你要想清楚,从长期来看,你的模型能带来什么价值,让你能够保值。

模型:从语言到多模态

语言模型:100B 到 500B 参数会是主流

接下来讲模型,比如说语言模型。每次预训练,无论是 OpenAI 还是别的模型,基本都是用 10T 到 50T token 做预训练。开源的话基本也在 10T token 以上。这个数据量我觉得差不多了,不会再往一个更大的尺寸去发展。原因是,人类历史上的数据比这个多是多,但是看多样性、质量的话,我觉得 10T 到 50T 这个规模就差不多了。你说我还是能弄到很多的数据进来,但这个数据质量不一定能给你带来一个更好的提升。也许你可以弄到更多的数据,但是清洗之后可能会回到一个这样子的值。

你的模型大小就是 100B 到 500B 这个样子。我觉得比较好的一线的模型就是 500B,超过 500B 不是训练不动,而是做 serving 很难。在谷歌历史上,他们就没有让 500B 以上的模型上过线。OpenAI 没有对外说,但我觉得 OpenAI 历史上没有上线过有效大小超过 500B 的模型。当然 MoE 不算,我是说换算成稠密模型的话。所以,很有可能在未来一阵子,因为受限于内存大小和数据的尺寸,我觉得 100B 到 500B 会是未来主流的一个大势。你可以做更大,但是它很多时候是用 MoE 做的,它的有效大小(每次激活的大小)可能也就是 500B 的样子。

语音模型:延迟更低、信息更丰富

GPT-4o 出来之后,大家对于语音模型产生了浓厚的兴趣。以前的模型是我先做 ASR(自动语音识别),把语音信号转成文本,然后放进语言模型,让它出一个文本的回复,再通过 TTS 变成一个语音的信号。现在大家做的是直接让你的原始的语音信号进去,然后原始的语音信号再出来。

后者的好处有两点:一是我们说话的时候,其实里面包含了很多东西,包括情绪、语调以及你是哪一类的人。大家能够通过声音去分辨你的方言,通过你说话的音调能大概知道你是一个什么样的人。所以人的语音信号里面包含很多东西,还有你的背景音乐、场景音乐,甚至你唱歌的节奏感都有很多信息在里面。目前我们那一套传统的技术是做不了的。这套新的语音技术可以让语音直接进去,然后利用文本语言模型强大的能力去发掘里面的信息。在做输出的时候也是一样的,我的输出可以根据你的输入的个性化场景来变换语调、情绪。这是一点。

另一点是延迟更短。之前我要先输出一句话,再进到一个模型去把语音输出来,这个延迟可能是 1 秒。现在我们大概可以做到 300 毫秒。300 毫秒最大的好处是可以打断。人与人之间交互,就我跟你在说话的时候,你说一句,我可能会回应一下,或者中间会打断,所以这个体验就会做得更好,更像真人一些。

我觉得这是这个技术目前能看到的最好的两点。

还有一点就是说,它能够通过语言模型对整个输出做很多控制。可以让你用文本定制化一个什么样的声音出来。

音乐模型:

不是技术问题,而是商业问题

另外一个国内在商业上做得挺好的东西就是音乐的生成,最近出了挺多做音乐的一些工具。我觉得这一块的进展从来不是一个技术问题。它的技术其实比语音麻烦一点,因为音乐比人说话更复杂一点。但是实际上它还是一个版权的问题。现在大家开始慢慢解决版权的问题 —— 大公司去买版权,小公司想反正我光脚不怕穿鞋的,我就上。

市面上我觉得已经很好了,就是说抖音快歌,虽然爆款很难,但是如果你不是音乐专业的人,你听下来觉得没什么问题。我之前看一个同事写首歌,歌词大意是:我在公司就一个朋友,这个人去吃饭了,一个半小时还没回来,我觉得他是不是出什么事了?我是不是要打电话给他女朋友问一下呢?但我又是一个很社恐的人,我又不敢跟人打电话。

就是说,音乐是一种表达,是一个人的交互,任何一个什么感觉你都可以通过音乐表达。以前你很难用音乐把它很富有情感地表达出来。大家可以写诗,写诗可能比音乐容易一点,现在你掌握了这个表达工具之后,我们未来很多人会用音乐这个形式来表达想法和情感。我觉得这个可能是影响力会特别大的,那它不是个技术问题,它可能还是一个商业问题。

图像模型:生成的图越来越有神韵

接下来是图像。可能大家最近几天都看过那个做得很真的 TED 演讲的图片。

目前来看,图片应该是整个 AIGC 领域做得最早的,也是效果最好的。现在大家可以做到 100 万以上像素的图片的生成。大家说得最多的是图片要有灵魂。之前你去看那些文生图的工具,它的风格还是很假,但现在你会看到跟真的很接近,当然它还缺那么一点点灵魂,不过这一块说不定很快就有了。

视频模型:尚属早期

Sora 出来之后,大家非常关注视频模型。这个实际上还算比较早期,通用的 video 生成还是非常贵,因为 video 数据特别难弄。视频模型的训练成本很有可能低于数据处理的成本,所以你没有看到市面上有特别好的开源模型出来。问题在于生成一张图片容易,但生成一连串连贯的图片,并保持一致性是很难的。

多模态模型:整合不同模态信息

目前存在一种趋势,即多模态。现如今,多模态技术的发展趋势在于整合不同类型的模态信息,尤其是文本信息,因为文本含有丰富的信息并且易于获取。通过利用在文本上学到的技能,可以将这些能力泛化到其他模态,如图片、视频和声音。

这样做有两大好处:一是可以借助强大的文本模型进行泛化。另一个优点是可以通过文本来定制和控制其他模态的输出,比如用简单的文本指令控制图片、视频和声音的生成,而不再需要专业的编程技能或工具。比如写代码,以前可能需要专业的写代码工具,现在交给 ChatGPT,你通过文本下达要求就行了。逐渐的,你想要生成某个模块的话,也是通过文本去控制的,这应该是未来可能的一个常态,大家用自然语言去做交互。

总结下来,我觉得语言模型已经达到了较高的水平,大约在 80 到 85 分之间。音频模型在可接受的水平,处于能用阶段,大约在 70-80 分之间。但在视频生成方面,尤其是生成具有特定功能的视频尚显不足,整体水平大约在 50 分左右。

还有一个推论是我觉得人机交互会有一点改变,比如在点菜时,在 ChatGPT 出来之前我们与手机的交互方式是刷刷刷和点点点,这是最简单的方式,对人类来说也不耗费精力,能不说就不说。但在 ChatGPT 出来之后,大家打破了这种观念,他们愿意去输入一段很长的文字去做事情,这是因为设计好的东西不一定满足我们的所有需求,可能满足了 80%,但没有满足对细节的需求,这时可以通过长文本,即输入很长的文字来解决。但输入长文字还是不如说话方便,所以在微信上很多人会说我语音留言会方便点。

现在语音技术正在进步,未来大家可能会越来越能接受对方用一个很长的语音跟你描述一些事情,让你去完成。虽然早期的语音控制系统通常只用于执行简单的指令(例如「开窗」),这种简单的功能并没有形成强烈的用户黏性,因为用户可以通过其他简单的操作来完成相同的任务。但是,随着技术的发展,未来的语音控制系统将能够处理更加复杂和具体的任务,这种技术的自然和便捷性将显著提高。

所以这是用户习惯问题。大家可能都在说我们这一次的技术革命还没有出现 killer APP(杀手级应用)。所谓的 killer APP 就是说一个技术的出现,可能会涌现出一个非常受欢迎的应用形态。

大家知道手机的 killer APP 是什么吗?短视频。回想一下五年前,你可能很难想象大家会刷那么几秒钟的视频。

所以这一次的 killer APP 是什么?

上一波的顶级 AI 公司基本上快死得差不多了,包括 Character.AI、Inflection 被卖了,Adept 也被卖了,还剩一个 Perplexity 搜索还在支撑着。但是下一代 killer APP 是什么大家不知道。可能等技术变成熟,大家的不习惯慢慢地过去了,这个东西会涌现出来。

应用:AI 离变革世界还有很多年

在应用层面,AI 本质上是去辅助人类完成任务,给人类提供无限的人力资源。我将应用分成三类:

第一类就是文科白领。白领是用自然语言去跟人、跟世界打交道,包括写文章或者其他。我认为在这方面做的比较好的领域包括个人助理、Call centers、文本处理、游戏和舆论以及教育。一个文科白领可能一小时完成的事情,我们的模型还是能够完成百分之八九十的。

第二个是工科白领,目前 AI 想取代程序员还早得很。在过去,编程往往需要程序员自行查找代码示例,例如在网络上搜索,然后下载一个工作流程的代码片段,对其进行变量修改和调试,以适应特定的任务或项目。

但现在,先进的模型可以自动完成这些步骤。你不用去 copy 代码了,因为整个 workflow 已经给爬下来了,训练的时候已经在里面了。当你向模型提出请求时,它可以直接在其训练数据中检索相关的代码片段,根据上下文,再把变量名改一改,模型就做这种事。但它不是真的在写代码,我们人类一个小时还是能够写出很多复杂的代码的,所以我觉得模型还是没有取代工科白领一个小时干的事情,更不用说更复杂的任务了。

最后一个是蓝领阶级,这反而是最难的,这里面唯一做的好的是自动驾驶。自动驾驶为什么这么出色?是因为路况相对来说是一个封闭的世界,比较稳定,比如有些地方路况十年都不会改变,所以在封闭路况里面开车相对来说是比较简单。虽然现在无人驾驶还没有完全解决,但进步还是很大的。

路上的车多,每个车上都有传感器,从而采集大量的数据,基于大数据做技术开发,比如特斯拉,车上有大量摄像头,有很多车在路上跑,可以采集很多数据来优化算法,而且路况变化不大。

但是正常的蓝领需要做什么事情?端盘子、运货等,AI 跟这个世界打交道是一件很难的事情。比如机器人进入一个房间,它要理解这个房间有什么东西其实很难。除非有技术突破,不然的话需要大量的数据作为辅助。这是一个鸡生蛋蛋生鸡的问题,如果房间内没有足够的传感器,就采集不了足够的数据,另一方面,一个房间里不可能有很多机器人进来,同样也无法得到很多数据,因而泛化能力不是很好。但是在物理世界投放 AI 机器人是一件很难的事情,可能需要很多年。所以 AI 理解蓝领的世界,包括和这个世界互动可能需要至少 5 年时间。

所以简单总结一下:

对于文科白领的工作,AI 已经能完成简单任务,复杂任务需要继续努力。对于工科白领的工作,简单任务还需要努力,复杂任务存在困难。对于蓝领的工作,除了无人驾驶和特定场景(比如工厂,场景变化不大,也能采集大量数据),AI 连简单任务都做不了,完成复杂任务更难。

但是放眼整个世界,蓝领是最主要的成员,因此技术对这个世界做出巨大的变革还需要很多年。未来 10 年、 20 年,大家还是有机会参与进来的。

对应用来讲,只要你能采集到足够多的数据,就可以被自动化。现在 AI 面临的困难是需要很多数据。一个行业如果能够采集很多数据,那么就能进行自动化。反过来,如果你让模型完成一项任务,首先考虑的是怎么样采集很多数据。很多时候传统企业会先把数据采集起来,数据积累好了,几年之后才慢慢开始。所以这是一个发展规律,就这样子,很多时候急也急不来。

创业一年半,李沐感悟

从这一年半的创业经历中我们学到了一些东西,一些更细节的东西。

预训练是工程问题,后训练才是技术问题

首先第一点:之前大家会觉得预训练很重要,比如训练一个几百 B 参数的模型,现在在我看起来预训练是一个工程问题,后训练才是一个技术问题。但在两年前预训练还是一个技术问题,现在我觉得变成工程问题了。对于后训练,高质量的数据和改进的算法能够极大地提升模型效果。高质量的数据一定是结构化的,并且与应用场景高度相关,以保证数据的多样性和实用性。

在算法层面,OpenAI 提出了 RLHF,大家给予很高的评价。但当我看到这个算法时,我觉得这个算法有点牵强。这套技术在几年之内发生了非常大的变化。但到底哪个算法好,我也说不出来。原因在于每个人用的数据不一样,导致算法所适用的场景不一样。以至于你在读一篇论文的时候,可能在论文中效果很好,但自己实际用时,发现根本用不了,原因在于用的数据不一样,目标函数对这个结构化问题的假设不一定对应的上,导致算法不太行。这个问题没办法规避,就是一个技术问题,就得去做研发。

如 PPT 上的图所示,我们拿 llama 3 70B 微调了一个模型,进行角色扮演(如老师、销售等)。我们直接在 llama 3 base 的基础上做后训练,微调了两个版本 V1、V2,目前 V2 在角色扮演上优于其他模型。

作为创业公司,我们没有多少资金。LLAMA 团队标注数据就花了 5, 000 万美金,然后做训练,但是你会发现他们的数据并没有变得多好,而且 Meta 也没有花太多时间在算法上面。

做大语言模型的研究,你可以不去做预训练,你就做后面的一部分,因为后面部分其实对大家有利的。前面变成了一个工程问题,需要很多卡,很多人来完成,后面才是算法创新。虽然它的门槛还是比较高的,8B 和 70B 的情况也不一样,8B 上调的很多东西在 70B 上不一定成立。

垂直模型也需要通用知识

第二个要讲的是垂直模型,为什么要做垂直模型呢?因为通用模型的问题还是一个指数问题,你要实现的任务,通用模型不一定能完成。就拿 OpenAI 来说,让其模型进行角色扮演,可能迭代好几代都不行,主要原因在于,它是一个通用维度,需要各个方面都有提升,如果刚好满足你的要求,需要指数级的数据,并且模型会变得很大。

所以要做垂直模型,这也是大家一年前公认的看法。但是我们花了很多时间发现,这也是一个伪命题。

就是说没有真正的垂直模型,就算是一个很垂直领域的模型,它的通用能力也是不能差的。比如说你要在某一个学科里面拿第一,你别的科目也不能差到哪里去。

评估很难,但很重要

还有就是做评估特别难,模型在实际场景中的应用是一件非常复杂的事情,假如你用一个比较简单的评估,是无法评估模型的好坏。所以过去一年多,大家都在不停的刷新榜单,但实际用起来,就觉得模型不太行,因为评估没有到位,没有真的去把实际场景那么复杂的应用给评估进去。

所以很多时候,评估是你最重要的事情,先把评估做好,再去做别的事情。

我们现在是通过自然语言与模型进行交互,但自然语言有一定的二义性,自然语言很难评价其正确性、逻辑性和风格。通常我们不想让人来评估,因为比较昂贵,但使用模型评估会带来偏差。有一个好的评估可以解决 50% 的问题。因为一旦评估解决了,那你就能够进行优化。第二评估解决了,表示你拥有了一些数据。

数据决定模型上限

还有数据问题。数据决定了模型的上限,算法决定了模型的下限。就目前来说,我们离 AGI 还很远, AGI 能够做自主的学习,我们目前的模型就是填鸭式状态。

目前看来 Claude 3.5 做的还不错,一个相对来说不那么大的模型,能在各种榜单上优于 GPT-4 ,并且在使用上确实还不错。

在和他们交流后,我觉得他们的数据做得挺好,他们花了很大的力气来做数据,在数据上用了很多年。所以,想让模型在某一个方面做得特别好,需要先把相关数据准备好。大家还是用了 70-80% 时间在数据上。

算力

还有算力,就是买 GPU,自建机房不会比租 GPU 便宜太多,原因是大头被英伟达吃掉了, 英伟达的利润是 90%。一块卡是 3, 000 美金的成本,他卖你 3 万块钱,你不管谁去买,你跟他关系再好,他也不给你打折,它现在是一个奢侈品。

下图是三年的费用占比,你会发现,三年 GPU cost 占比达到 50%,所以剩下的再拼也意义不大。

我是从 Amazon 干了 7 年半才出来创业,但我其实不用 Amazon 服务,太贵了。我们都用小公司买来的,他们当年用来挖比特币的。

你自己运营的话贵一点点。运营是个体力活, GPU 每天都坏,我们的机房放在多伦多,有三个人三班倒,坏了就跑过去把机器修一下。云当然还赚了一点钱,但也赚不多,有 20% 的利润,所以在这一块看上去是差不多的。

但自建的好处是能节省 CPU 的算力,以及你的存储和网络带宽。这些方面,自建就很便宜,但云就会很贵,因为这块在过去十年没有太大技术变革。比如说我用 AWS,存一年的数据成本等价于我把存这个东西的硬件买回来,而且能够容量变 10 倍。当你数据量增长很大的时候,自建是有意义的。

如果你去看语言模型,它就是一个机器学习模型,换了一个架构,只是更大了,带来很多困难,但它本质上还是可以用传统的机器学习那一套去理解的。它还是吃数据,评估还是很重要,所以很多之前的经验还是能用过来的。所以大家不一定要神化新的技术带来什么东西。但是它的困难在于,它是之前的 100 倍大,模型变大就会变得很难,这是它目前主要的问题。

在预训练方面,我觉得现在已经变成一个因为大而导致很多工程问题的困难,这其实还是算法上探索不够,得清楚如何改进算法,以上是我们在技术上的一些分享。

李沐的打卡式人生

如果大家对 AI 没那么感兴趣的话,接下来,我讲一讲从上海交通大学毕业后,我都干了啥。

我真的干了很多乱七八糟的事情,可以说是过着「打卡式人生」,就连论文都是打卡式发论文。

我在上海交通大学待了近七年,又在香港科技大学待了两年,后来去了 CMU 待了 5 年,在伯克利和斯坦福大学各待了 6 个月。

我也进过大公司,在百度待了两年,在 Amazon 干了 7 年,这是我的第二个创业公司。

那么,这种转来转去到底是一种怎样的体验?去大公司、读 PhD 和成立创业公司,目标都何不同?

从最基本的目标来说,去大公司,是为了升职加薪;读 PhD ,你要保证自己能毕业;而创业的目标是要能推出产品,要么上市,要么卖掉,这是每天都需要思考的。

然后就要考虑,你要干什么事情?

在大公司,你要解决问题。大家一定要想清楚:我要在公司干什么,公司今年准备干什么,最好两者保持一致。如果干的事情是自己喜欢的,但不是公司追求的,这就会让人很难受。

创业司面临很多问题,用户会付钱吗?投资人会付钱吗?要是都没人付钱就糟糕了。

虽然进大公司和创业,都是解决问题,但解决的问题不太一样。你想解决什么问题,就会导致你选择做什么样的事情。

还有一个就是驱动力,即最小的动机。

比如说,去大公司,你不要只想着家里没矿,找个班上赚点工资。你的动机得高一点,不仅仅是为了赚那点钱。

成立创业公司的动机就要更高一点,不然你熬不下来。

打工人:晚上不用做噩梦,但逐渐成为螺丝钉

打工人的好处是,可以在一个相对简单的环境里学习各种从业知识,比如一个技术如何落地、产品怎么做出来、怎么设计、怎么运营、怎么管理。

其次是干完被安排的任务后,晚上睡觉不用太担心其他,不会做噩梦。

还有就是相对稳定的收入和空余时间。要知道,买房、教育小孩,照顾父母,都需要耗费时间,而打工人相对来讲时间较充裕,就算是 996,还是有一天可以休息,但其他两个赛道(创业和读 PhD)没有 996,它们是 7X24。

那么打工人的坏处是什么?坏处就是停留在打工人或者职业经理人的思维。

无论是公司还是学校,它们都创造了一个相对简单的环节。学校是一个非常简单的社会,公司也是如此,公司从最上层把整个复杂的世界抽象成简单的任务,待得越久,就越觉得自己是螺丝钉,当然螺丝钉的好处就是,只要找到一个螺母钉上去就行,不用管这个机器多么复杂,外面世界多么复杂,但你在一个简化的世界里干得越久,就会觉得很腻,学的也越少,这就导致你一直停留在一个打工人或者职业经理人的思维里,而不是站在一个更高更广的层次去思考。

PhD:要真心热爱研究,不然难以坚持

读 PhD 的好处是,在几年的时间里可以专心探索某一个领域,反正也没钱赚,也没有升职加薪的机会。

等完成 PhD 后,你可以获得个人或者小团队研发的能力,不少人可以自己哐哐哐做出东西来,也有些人可以去带硕士生、本科生或者几个人一起完成研发。

大家可能没注意,PhD 有 50% 时间是花在写作和演讲上的,这种能力也很重要。

还有一个好处,很多公司的研发职位要求就是 PhD。

读 PhD 的坏处是什么?

首先,很少有实验室能参与大项目的研发。

其次是研究课题和导师风格都很挑人,需要你去适应,这个适应过程,要么看你的适应能力有多好,要么看你导师的适应能力有多好。你在公司里面还能够部门之间跳一跳,但读 PhD 就更难一些。

最后,要真的热爱研究,不然坚持不下去,你会觉得研究这个东西到底有什么意义,写这篇论文要干嘛。其实,你可以这样想:我写这篇文章就是为了练习写作,等到更厉害、更大的成果做出来后,写作不能给我拉后腿。你要有一个更远大的目标,是真的热爱它。

创业:有「生死一瞬间」的刺激,也有「三小时醒一次」痛苦

创业好酷。好处是有当海盗的乐趣。

创业亦是如此。天天看市面上有什么东西,天天跟人聊有什么机会,机会来了是不是要 all in 搏一把,海盗太多,你不 all in ,机会就没了,但 all in 了也可能会失败,所以生死就在一瞬间,相当刺激,这种乐趣,你在别处无法体验到,创业是唯一可以合法「当海盗」的方式。

创业还有一个好处,就是能直面这个复杂的社会,直接跟社会打交道,没有人帮你做抽象,没有人会帮你把事情想清楚,你得自己把这个社会理解清楚后,快速学习。越复杂的环境,越锻炼你的抽象能力,你要对这个世界做抽象,把一些很复杂的现象做简单。

创业还是一个最好的历经苦难的方法。创业之后,你会发现,做别的事情都相对简单。

创业不好的地方就是婴儿般的睡眠,每三个小时醒一次,怀疑自己是不是快混不下去了。为此,我还问过很多人,包括张一鸣,以及世界首富级别的人,向他们取经。

所有的困难都在你头上,没人帮你顶。你在学校导师可以给你顶一顶,你在公司上级可以给你顶一顶,当然你也可能给他背黑锅,但很多时候上级会帮你背锅。而创业则是所有困难压在你一人身上,逃避没用,你逃避它,就可能解决不了它,最终就迈不过那个坎。因此,你得很热爱你的创业方向,不一定热爱创业,但要热爱创业做的这个事情,不然你坚持不下来。

为什么我之前说创业要求的动机要比 PhD 更高一点,PhD 的动机要比工作更高一点,核心原因就在于,你会有一个延迟享受。在公司,一个事情干完就会发奖金或者被表扬;PhD 做一个研究可能要一两年;创业可能要 5 年, 5 年之后才能得到正反馈。你在没有任何正反馈的情况下,你就得很热爱这个事情,得给自己加码,让自己嗨起来。

强烈的动机,来自欲望和恐惧

你要有一个强烈的动机,而强烈的动机要么来自很深沉、很底层的欲望,要么来自很深的恐惧。

你用旁观者的角度来剖析一下自己,你最不愿意回忆或者分享的是什么,再去想一下这背后的动机,是想要什么还是怕什么?

欲望是越底层越好,名、利、权,都是底层的欲望,要直面自己的欲望,也要直面自己的恐惧,这种恐惧是可以让你抑郁的恐惧,也是让你感受到生死的恐惧。

你需要把欲望和恐惧转变成积极向上的动机,这一点很重要,你的动机一定是正确的,符合价值观的,因为逃避、放纵满足不了欲望,也缓解不了恐惧,唯一克服它的办法是,把它变成一个积极向上、符合社会价值的一个动机。

有了动机之后就得想,我要解决什么问题,你的问题可能就是你的动机本身。

如果这个问题有学术价值,你可以考虑去读 PhD;如果这个问题有商业价值,你可以考虑去创业;如果以上两种属性都不够强烈,但至少有成长价值,那先做做打工人也未尝不可。

举个例子,语言模型为什么能 work?没人知道,这是一个很有学术价值的东西。语言模型能不能孵化出新的应用?这是商业价值上的问题。实在不行的话,也可以思考语言模型在某个产品上如何落地。

一个持续提升自我的妙招

最后,我想分享一个持续提升自我的方法。

你用导师或者上级的角度去总结自己:你每周干了哪些事情?为什么这些目标没达成?

可能是因为懒,那么你得直面懒的问题。我怎么能让自己勤奋一点?找一个学习伙伴,每天在图书馆待着,要大家相互监督等。

还有可能是因为蠢,这就有两种解决方案。一种是换一个方向,去擅长的领域;一种是既然绕不开,那就花别人两倍的时间。

无论是因为懒还是蠢,你都得对自己狠,最后拼的就是你对自己有多狠。

你要形成一个习惯,定个闹钟,每周一晚上花 30 分钟对自己进行总结,每个季度要总结,翻看之前你的写的周记,看看这个季度的目标是否完成,下个季度要做什么。

选择比努力更重要,但选择的前提是搞清楚你的目标是什么。

此外,每年或者每五年你都得想一想自己的动机是什么?如果觉得去年不开心,没有做出什么成果,你就要思考一下,是不是你没有强烈的动机,或者时机不够成熟。

要是因为时机不到,你就继续努力,如果是动机不对,那你就考虑换一个努力的方向。

反正我每 5 年都会想一想,我动机是什么?我接下来要干什么?但这有个 bug  ,就是我什么地方都逛了一圈,活成了「打卡式人生」。

这是一个最好的时代,新的技术带来了很多新的机会,就算没有新一代技术出现,现有的技术对世界未来几年的影响都会非常大。这不是我一个人的看法,很多世界 500 强 CEO 也这么认为,他们内部的很多数据都验证了这一观点。因此,大家不管是读本科、硕士、还是 PhD,甚至刚工作,都能享受到未来几年技术带来的变革。

同时,这也是一个最坏的时代,在座的各位付出的努力要比上一代更多。上一代吃到了时代红利,而到了你们这一代,时代红利还是有的,只是需要付出更多努力。

原视频链接:https://www.bilibili.com/video/BV175WQeZE7Z/?spm_id_from=333.337.search-card.all.click




#Transformer作者万字访谈聊AI趋势

从拨号上网到创立估值55亿美元独角兽

除了扩大模型规模,AI 公司还有其他路可以走吗?只靠模型 API 赚不到钱了怎么办?Aidan Gomez 在访谈中谈到了目前困扰 AI 公司的诸多难题。

在 Transformer 的七位作者中,艾丹・戈麦斯(Aidan Gomez)是非常有辨识度的一个(下图左三),他浓密的发量和颇有艺术家气质的发型总是能让人一眼就认出他。

同时,他也是较早离开谷歌去创业的一个。2019 年,戈麦斯与 Nick Frosst 和 Ivan Zhang 联合创办了生成式 AI 初创公司 Cohere,主攻面向企业端的 AI 服务。仅创立一年,公司就得到了李飞飞、Hinton、Pieter Abbeel 等多位资深 AI 科学家的注资,后续又得到了思科、AMD、富士通等在内的多家知名企业的投资。

如今,Cohere 的估值已经达到了 55 亿美元。同时,他们发布的 Command R、Command R + 等基础大模型也在企业用户中深受欢迎。

不过,作为一家创业公司,Cohere 也和其他 AI 创企一样面临诸多挑战,例如,改进大模型所需的资源呈指数级增长,初创公司还有别的选择吗?如何继续提升大模型的推理能力?价格战导致的利润压缩该如何应对?在由哈里・斯特宾斯(Harry Stebbings)主持的知名播客节目《20VC》中,戈麦斯透露了自己对于这些问题的看法。

戈麦斯的主要观点如下: 

  • 对于有钱的公司来说,扩大模型规模是一种低风险而且有效的做法,但也是极其低效的,其他人还有其他的路可以选择。
  • AI 模型不擅长推理并不是因为推理本身很难,而是互联网上没有太多展示推理过程的训练数据,Cohere、OpenAI 和 Anthropic 等公司现在都在收集这类数据。 
  • 短期内,只靠模型 API 赚钱的 AI 公司将举步维艰,因为价格战正在将利润率压缩到极致。相反,应用层正变得越来越有吸引力。
  • 在芯片层,英伟达一家独大的局面有望发生变化,客户也不希望被一家硬件平台锁定。
  • 关于 AI 与人类的交互界面,chat(聊天)未必总是最佳选择;GUI(图形用户界面)也不会被彻底抛弃;语音将会非常具有吸引力。
  • 随着模型变得越来越聪明,改进这些模型也变得越发费力、昂贵。但这一切都是值得的,因为有人需要这些新技术并愿意为此付费。
  • 现在很多 AI 初创公司在被微软等大型云服务公司收购,这种做法有一定的危险性。
  • 戈麦斯非常钦佩 Ilya,提到扩大规模的想法很早就存在于他的脑海中。但随着 Ilya 等人的离职,OpenAI 越来越像一家产品公司,他们对于 AGI 的长期追求似乎开始让位于面向消费者的产品。
  • 一些采用 AI 的企业正面临挑战:AI 的加入造成了成本上升,但利润没有增长。戈麦斯认为这个问题会随着 AI 成本的下降得到解决。
  • Copilot 模式是个很好的概念,可以增强员工的生产力。然而,它面临的主要挑战是封闭性,因为它仅限于特定的生态系统(如微软的 Office 套件),而企业通常使用多个不同的工具(如 Salesforce、SAP 等)。
  • 关于智能体的炒作是合理的,因为智能体可以独立执行任务,极大提高生产力,这是 AI 的承诺。但他指出,智能体的成功构建取决于模型的质量,不能直接优化模型推理能力的公司将处于劣势。 
  • 戈麦斯不同意 AI 正在经历瓶颈期的说法,他认为在扩大模型规模的过程中,大家还没有充足的时间去探索推理和规划方面的创新,并将这些创新集成到模型中。这些创新将带来模型能力的飞跃。
  • 从技术的角度来看,戈麦斯不同意谷歌已经落后的说法,但也指出他们在产品愿景的执行上可能存在一些问题。

从「拨号上网」打游戏开始的技术生涯

斯特宾斯:你在安大略省的一个你祖父或父亲亲手建造的房子里长大,那是怎样一段经历?

戈麦斯:我在安大略省一个偏僻的地方长大,那是一个很大的 100 英亩的地块,里面是一片枫林。这个环境很酷,但肯定远离技术。

斯特宾斯:你喜欢打游戏是吧? 

戈麦斯:我确实喜欢游戏。我喜欢从头开始的技术。只是我很难接触到这些东西,因为我们不能上网。在大家都有了高速互联网后的很多年,我们还在用拨号上网。我所有的朋友都在网上玩游戏,或者做其他事情,我非常嫉妒,或者说不是嫉妒,而是遗憾错过了这波技术、互联网浪潮。

这段经历让我对技术着迷。我会坐在家里的电脑前,用着糟糕的拨号上网,想尽力让它更快。最终,这让我想学如何编程,理解网络是如何工作的。我当时看着像素一排排地过去。这就是真正促使我投身计算机科学的缘由,就像是被迫学习这项技术。

斯特宾斯:我采访过很多创始人,发现那些早年玩游戏的人和那些取得成功的人之间高度相关。为什么你认为游戏对成功的创始人如此重要?

戈麦斯:电子游戏可以教会你一些东西,让你更愿意为了一个远大的目标去磨砺,去做重复的、困难的、痛苦的事情,那种韧性很重要。还有,在游戏里,你可以再次尝试,那种乐观或者那种框架真的很重要。我认为在很多文化中,你只有一次机会,你有名誉,如果你搞砸了,一切就都结束了,你就完了。但是电子游戏可以给人们一种感觉,你可以搞砸,你可以再试一次,你可以变得更好,第二次你搞砸的次数比第一次少,第三次你搞砸的次数比第二次少,那种通过失败取得进步的观念我认为可能对我很有意义。

斯特宾斯:我也一直相信游戏设计的力量,喜欢它们难度递增的设计。游戏的设计初衷是先容易,让你感觉很棒,给你信心。如果一个游戏刚开始就很难,你就不会想玩。

戈麦斯:是的,是的。其实在机器学习中也有类似的事情,叫做课程学习,即先让模型学习非常简单的内容,然后逐渐使其学习更复杂的内容,并在此基础上积累知识。有趣的是,课程学习在机器学习中实际上失败了。我们会把最难的材料和最简单的材料同时扔给模型,让模型自己解决。但是对人类来说,这种方法是如此有效,它是我们学习的重要组成部分。

扩大模型规模有效,但极其低效

斯特宾斯:你刚才提到「把所有东西丢给模型」,我想深入讨论一下这个问题。大家都在说,更强的模型只需要更多计算能力,这是我们目前最大的瓶颈。只要有更多计算能力,模型性能就会提高,你认为这是真的吗?还有多少扩展空间?或者说现在是其他因素在阻碍性能提升? 

戈麦斯:确实是这样。如果你给模型投入更多计算能力,让模型变得更大,它的性能就会提升。这有点像是提升模型性能最可靠的方式,同时也是最「笨」的方式。就像,万不得已的时候,只要把模型做大就行了。所以对于有钱的公司来说,这是一个非常吸引人的策略 —— 风险极低,你知道模型会变得更好,只需要让模型规模更大,支付更多的钱,购买更多的计算资源就行了。 

我确实相信这种做法,只是觉得它极其低效,其实还存在更好的方法。过去一年半的时间里,从 ChatGPT 出现到 GPT-4 发布,再到现在,据说 GPT-4 有 1.7 万亿个参数,已经很大了。但我们已经有比它更好的模型,参数只有 130 亿。因此,这种规模变化的速度、成本下降的速度,实在是令人难以置信,甚至有些超现实。所以,虽然你可以通过扩大模型规模来达到这种模型的质量,但你可能不应该这么做。 

斯特宾斯:那这种逐步的提升会继续吗?我的意思是,我们是否会继续看到同样的 scaling 优势,还是说它会在某个时候达到瓶颈?

戈麦斯:是的,我认为它确实需要指数级的投入。你需要持续地将计算能力翻倍,才能维持线性增长的智能水平。但我认为这可能会持续很长一段时间,模型会变得越来越聪明。问题是你会遇到经济上的限制。最初为 GPT-4 付费的人不是很多,特别是企业客户,因为它太大了,效率极其低下,成本极其高昂,而它还没有聪明到能够支撑起它的成本。因此,我认为市场上有很大的压力,要求模型变得更小、更高效,通过数据和算法来提升智能,而不仅仅是扩大规模。市场会给定价带来压力。 

斯特宾斯:我们会生活在一个充满垂直模型的世界,其中一些模型非常高效且小型化,专为特定用例设计?还是说未来会有三到五个巨型模型统治一切? 

戈麦斯:两种情况都会存在。过去几年中,我们看到的一个主要趋势是,人们喜欢使用一个通用智能的模型进行原型设计,而不是使用一个特定的模型。他们不想花时间微调一个模型,使其在他们关心的某个特定任务上表现得更好。相反,他们希望直接使用一个昂贵的大型模型来做原型设计,证明它可以完成任务,然后再将其蒸馏为一个专注且高效的模型,专门处理他们关心的任务。这种模式已经形成。所以,我认为我们将继续生活在一个有多个模型共存的世界中,一些是专注和垂直化的,另一些是完全横向的。 

除了规模,数据和方法创新也值得关注

斯特宾斯:你提到了计算成本问题,以及为了保持线性的智能水平提升,需要持续将计算能力翻倍。这样做成本非常高昂,似乎与以往任何科技周期都不同(如果我没记错的话)。我想知道,除了微软、亚马逊、谷歌或 Facebook 这样的大公司,还有谁能在这个竞争中生存下去? 

戈麦斯:如果你只是做一个扩大模型规模的项目,你就必须是其中一个大公司,或者成为它们的一个有效子公司。但其实除此之外,还有很多其他事情可以做。如果你不完全依赖规模作为唯一的发展路径,认为数据创新、模型和方法的创新也有潜力,那就不一样了。 

斯特宾斯:什么是数据创新?什么是模型和方法创新? 

戈麦斯:我们在开源领域看到的所有主要进展几乎都是由于数据改进。通过从互联网上获取更高质量的数据,模型变得更好。更好的抓取算法、解析网页、提取出有价值的部分,并对互联网上特定部分进行加权,因为有很多重复和垃圾信息。通过提取互联网上最有价值的知识,并向模型强调这些部分,模型的性能得到了很大提升。另一个重要进展是合成数据,即能够生成新的数据,这是高度可扩展的。你可以获得数十亿字或数亿页的数据,但这些数据不需要人类介入,完全由模型生成。这些创新,尤其是提高数据质量的能力,推动了我们目前看到的大部分进展。 

斯特宾斯:那么,模型和方法的创新呢? 

戈麦斯:这涉及到诸如新的强化学习算法之类的东西。有很多关于 Q* 的传闻,以及它可能是什么样子的。还有一些关于搜索的想法。目前模型的现状是,我问你一个问题,而你作为模型,我希望你立即给出正确答案。这对模型来说是个非常高的要求,对人类也是如此。你不能指望一个人被问到一个难题时立刻就能给出答案,他们需要思考,处理信息,逐步得出答案。 

我的意思是,现在模型几乎没有任何问题解决的概念。下一步显而易见的方向是,模型需要「思考」并解决问题。它们需要尝试,失败,理解为什么会失败,然后回滚,再次尝试。目前,模型还没有这种问题解决的概念。 

斯特宾斯:当我们说「问题解决」,这是否等同于推理能力? 

戈麦斯:是的。

斯特宾斯:为什么推理会如此困难?为什么 AI 模型现在还没有这种能力? 

戈麦斯:我觉得并不是说推理本身很难,而是我们在互联网上没有太多展示推理过程的训练数据。互联网上的很多内容都是推理过程的结果。比如,当你在网上写作时,你通常只会呈现最终的结论,而不会展示整个思考过程。因此我们缺乏展示推理过程的训练数据,它并不是免费且随处可得的,你必须自己去构建。而这正是 Cohere、OpenAI 和 Anthropic 等公司现在正在做的工作:收集展示人类推理过程的数据。 

斯特宾斯:你如何看待与 OpenAI 这种用户生成内容(UGC)平台的竞争? 

戈麦斯:这非常困难,特别是在企业领域,企业永远不会让你用他们的数据进行训练。我们不能使用任何客户的数据,这些数据是高度私密的,对他们来说,这些数据是他们的知识产权(IP),其中有太多的商业秘密,因此他们绝对不愿意让我们使用这些数据。我对此表示非常理解。所以我们更多地依赖合成数据,同时我们也有一个专门的人类标注团队,和 Scale 合作,还有我们自己内部的团队。这给我们带来了负担,因为我们不是一家为消费者提供产品的公司,我们必须自己生成这些数据。但好处是,我们的目标更加聚焦,覆盖面较小,所以我们面对的不是整个世界,而是具有明确需求(比如自动化某些财务或人力资源职能)的企业,这大大缩小了我们的工作范围,使我们能够更专注于特定的领域。 

斯特宾斯:未来十年内,合成数据市场会是什么样子?会不会被两三家供应商所主导? 

戈麦斯:我听说目前的大型语言模型(LLM)API 市场主要由合成数据主导。大多数人使用这些大型昂贵的模型生成数据,来微调更小且更高效的模型。它们基本上是在蒸馏这些大模型。我不确定这个市场的可持续性,但我确信永远会有新的任务、新的问题或新的数据需求。无论这些数据来自模型还是人类,我们都必须满足这种需求。 

只靠模型 API 赚钱的公司将举步维艰

斯特宾斯:我有点担心的是价格战。你会看到 OpenAI 降价、Meta 提供免费服务,扎克伯格宣扬开放开源和开放生态系统的价值。这些模型的真正价值是不是在降低?这是不是一场逐底竞争,会把价格打到零?

戈麦斯:如果你只销售模型,接下来的这段时间会非常艰难。市场不会小,但会有很多竞争者。 

斯特宾斯:谁只卖模型?谁在卖模型和其他东西?

戈麦斯:我不想点名,但比如 Cohere,目前只销售模型。我们有一个 API,你可以通过这个 API 访问我们的模型。我认为这种情况很快会发生变化,产品的格局会改变,我们提供的产品套件也会有所增加。但如果你只销售模型,这将会非常困难,因为这几乎是一场零利润的生意。由于价格战,很多公司免费提供模型,模型市场将依然很大,因为人们需要这项技术,需求增长得非常快,但目前的利润率会非常非常低。

因此,应用层成为了一个非常令人兴奋的领域。我认为市场上的讨论是正确的,它指出了目前价值积累主要发生在芯片层面之下,人们正在疯狂地购买芯片来构建这些模型。而在应用层,比如 ChatGPT 按每个用户收费的模式,像是每月 20 美元,这似乎是目前这个阶段价值的体现。

我认为从长远来看,模型层是一个有吸引力的业务,但在短期内,它的利润率会很低。 

芯片层暗流涌动

斯特宾斯:你刚才提到芯片这一层。你现在如何看待你们在芯片上的花费,这部分支出的变化如何?

戈麦斯:它的比例变得越来越大了。现在芯片占了我们支出的一大部分,比例太高了。

斯特宾斯:你们和 NVIDIA 有直接的合作关系吗? 

戈麦斯:是的,我们和很多芯片厂商都有紧密合作。我们和 NVIDIA、AMD 保持紧密联系,同时也与很多新兴芯片初创公司对话。我们还使用谷歌的 TPU。

斯特宾斯:那是因为你们不想依赖单一的芯片供应商? 

戈麦斯:是的,主要是因为市场的需求。我们的客户希望能在多个平台上运行,他们希望有选择,不想被锁定在某一个平台上。所以我们需要提供一个多样化的平台基础,供客户选择运行。此外,我们也避免被某一个云服务提供商锁定,我们希望在每个云平台上都可以使用。这也是市场的需求,客户希望有选择权,而不是被某个云服务提供商垂直化地锁定。 

斯特宾斯:你认为每家公司都会走向垂直整合,构建自己的芯片能力吗?我们最近看到苹果在谈论其垂直整合,拥有自己的芯片,你认为这是未来的趋势吗? 

戈麦斯:我认为这是一个趋势。目前芯片的利润率非常高,市场上的选择非常少。但这种情况正在改变,且改变速度比人们预期的要快得多。

我非常有信心,未来会有更多选择,尤其是在推理方面。现在推理领域已经有很多选择。但训练一直是由一家巨头主导 —— 目前基本上只有一家能够制造用于训练大模型的芯片的公司。但现在情况已经改变了,实际上有两家公司:你可以在 TPU 上训练大模型,而 TPU 现在已经成为一个可用的训练平台。谷歌也已经证明了它的能力。我认为很快 AMD 和 Tranium 这些平台也将真正准备好进入主流市场。 

斯特宾斯:当你看到在模型训练和计算上的支出时,我有些担心的是模型的发展速度远远快于数据中心的建设和计算的进展。未来一年,我们是否会在 18 个月前的计算机上运行最新的模型?模型的进步和计算能力的进展是否存在不匹配? 

戈麦斯:供应链问题确实非常有趣。我认为……

斯特宾斯:你们需要自己建数据中心吗? 

戈麦斯:不,我们和其他公司合作。 

斯特宾斯:这种情况会改变吗?

戈麦斯:我们是一个经济上理性的公司。如果我们自己建数据中心更便宜,那我们就会去做这个决定。我们核算过账目,发现目前我们从供应商那里获得的价格使得自己建数据中心不是一个有吸引力的选择。

斯特宾斯:你们在早期是否遇到过获取大量计算资源的挑战?现在这种情况有变化吗? 

戈麦斯:我们已经成立大约五年了,所以我们早在这整个事情爆发之前就开始了。我们很幸运。 

斯特宾斯:你能预料到这些计算挑战吗?

戈麦斯:如果我能预料到这一点,我就不会创办这家公司了(笑)。但这种爆发发生得比我预想的晚,而且更加突然。 

聊天文本框 is not all you need 

斯特宾斯:你参与了 2017 年 Transformer 论文的撰写,你当时认为这会很快引起轰动? 

戈麦斯:不,不是在那个时候。2017 年,我只是 Transformer 论文的实习生。我认为这只是研究工作,我们只是创造新的架构,把翻译分数提高 3% 而已。我没有预料到这个架构会带来如此多的后续发展,以及社区对它的热爱和 Transformer 作为一个 AI 架构平台的普及。这些都是我没有预料到的。

至于语言建模和大规模扩展方面,我本以为大家会更快意识到这个技术的重要性,但实际上是在两三年后,大家才意识到它的重要性,并且它突然冲击了整个世界。

斯特宾斯:转折点是 ChatGPT 吗? 

戈麦斯:是的。当你直接把这项技术放在用户面前时,不用向他们解释什么,他们可以直接体验和这些模型对话的感觉。这真的很有说服力。 

斯特宾斯:你认为聊天是 AI 模型与消费者互动的最佳界面吗? 

戈麦斯:对于某些事情是这样,但对于其他事情,我认为传统的图形用户界面(GUI)更好。我并不认为每件事都应该用聊天界面来做。有时我只想点击一些按钮,通过 GUI 完成任务。所以我并不认为 GUI 已经死了,我们也不应该用文本框来替代一切。但我确实认为聊天作为一个界面,具有非常强大的吸引力。当然,语音也很神奇。第一次看到模型像人类一样回应我时,那种感觉非常神奇。那是在 2017 年,当我们在提交 Transformer 论文之后,开始用它训练语言模型。当我看到它能写出像人类一样自然的维基百科文章时,那种感觉非常神奇。 

斯特宾斯:OpenAI 正在大量投资语音界面。你觉得语音作为与消费者的下一个主要交互界面,这种信心是合理的吗? 

戈麦斯:绝对是。任何曾经尝试过与这些模型进行语音对话的人,都会感到震惊。这种体验令人惊叹,听到模型表达情感、语调,甚至在说话前吸气的声音,或者嘴唇轻微的声音,这都让你感到非常逼真。那种体验实在太吸引人了,直到你亲自尝试,才能体会到它有多么难以置信。所以我认为,语音绝对是下一个非常有吸引力的界面。 

持续为更聪明的模型砸钱到底值不值?  

斯特宾斯:我一直被教导说,人们往往高估短期的技术发展,但低估了长期的潜力。你认为这是现在的情况吗?语音比我们预想中来得更快,GPT-5 也可能很快到来。我们是不是在高估短期的技术发展? 

戈麦斯:我认为现在有两件事正在同时发生。首先,开发这些模型变得越来越难。取得模型的进步变得更加艰难、费时和昂贵。曾经有一段时间,模型还不够聪明,以至于我可以随便找一个人来和模型对话,几乎任何人都比模型聪明,并且能教它一些东西。但随着模型变得越来越聪明,你需要专业领域的专家来给模型提供有价值的训练数据。

最初,我们可以让一些比较初级的领域专家,比如计算机科学的学生,来教模型一些东西,或者生物学的学生也能教模型。然而,随着模型变得越来越聪明,它开始与这些学生的水平相当,你就不得不去寻找更高级的专家来为模型提供知识。这使得训练模型变得更加复杂、更加昂贵。

斯特宾斯:你认为什么时候这种投入变得不值得了?我总是想到语言学习的例子,你可以在六个月内掌握 95% 的语言,但要达到 98% 的熟练度可能需要五年。为了那一点额外的提升,投入的成本越来越高,最后是否会觉得不再划算了? 

戈麦斯:幸运的是,所有的成本都在迅速下降。无论是计算成本,还是每 FLOP 的单价都在下降,而且下降得非常快,这也使得我们今天可以训练比 2017 年更大的模型,甚至比两年前更大的模型。 

斯特宾斯:鉴于此,你认为对于初创公司来说,现在进入模型领域算不算太晚?随着成本的降低,这是否意味着初创公司现在比以往任何时候都更有机会? 

戈麦斯:确实,每年构建去年模型的成本都会降低 10 倍或 100 倍。我们能够获得更好的数据、更便宜的计算资源,因此构建前一代模型的门槛确实大大降低了。然而,现实情况是,没有人想要上一代的模型。没人关心去年的模型,它在与今年的模型相比时毫无市场价值。任何技术进步都会使上一代的产品迅速过时。 

斯特宾斯:开发产品的成本在不同版本之间的差异非常大。在传统的软件开发中,比如第一个版本可能需要花费大约一千万美元,然后要创建一个稍微改进的第二个版本,可能只需要再投入一到两百万美元。但是,在大型语言模型这类产品的开发中,情况就完全不同了:开发第一个版本可能需要高达 30 亿美元,而要开发第二个版本,成本可能高达 50 亿美元。这里的关键点是,这种成本的增加不是简单的增量变化,而是一个数量级的跳跃。

戈麦斯:我不确定是否总是这样。对于芯片等非常复杂的技术,每一代的开发成本实际上会变得更高,但我们依然继续做下去,因为它是值得的。 

斯特宾斯:那回到你之前的说法,你刚才说没人关心去年的模型? 

戈麦斯:你之前问的是,改进是否能持续下去,我的回答是,这变得越来越难了,门槛越来越高。

另一个奇怪的现象是,随着模型变得更聪明,人类 —— 或者说每个个体 —— 去区分它们变得更困难了。你无法分辨出代与代之间的区别,因为你不是医学、数学、物理学等领域的专家,无法真正感受到这种差异。对你我这样的人来说,我们和这些模型的互动体验看起来是一样的,但事实上,这些代际变化在某些特定领域或原始智能方面是非常显著的提升。 

你刚才问,是否值得继续投入?我的回答是,绝对值得。对于你我这样的消费者来说,当我们使用这些模型时,我们可能不会关心它是否知道 C * 代数或者量子物理知识,这对我们体验的影响不大。但对研究这些领域的专家来说,这些进步非常有帮助。通过提供工具,他们能够在这些领域取得更多进展。这就像问:我们现在已经有了足够的食物、便宜的汽车,还有手机随时可用,那我们是否还应该继续投资于下一代科技,比如开发用于航天的新材料,让飞船更高效地进入轨道?答案是肯定的。虽然对你来说,这个问题可能无关紧要,你不关心飞船能否更便宜地进入轨道,但对于那些对这一领域感兴趣的人来说,这非常重要,而且他们愿意为此付费,市场也为此存在,这就是技术进步能够持续的原因。

成为大型云服务商的子公司很危险

斯特宾斯:让我们回顾一下,这种持续发展显然需要花费很多钱,而且还将继续花费更多钱。你之前提过一个非常有趣的词汇「有效的子公司」。我们已经看到过很多公司被收购。我想现在每个人都意识到云计算是不断增长的「摇钱树」,而且大多数较小的模型供应商都被大型云服务提供商收购了。你是否同意这是未来三到五年可能出现的情况?

戈麦斯:三年。我认为这已经发生了,很多模型构建者都这样认为。

斯特宾斯:我们可以举两个例子,人工智能初创公司 Adept 被亚马逊收购,AI 独角兽 Inflection AI 被微软收购。

戈麦斯:我认为还会有更多,这个领域肯定要迎来合并。不过,当你让自己成为云服务提供商的子公司时,这真的很危险。至于原因嘛,这不是好的生意。一家公司想要筹集资金,通常需要去说服一些投资者。这些投资者只关心资本的投资回报率,他们给你钱,你用这些钱来创造价值。但是当你从云服务提供商那里筹集资金时,情况就完全不同了。

斯特宾斯:你认为风险投资者会从我们过去几年看到的投资模式中赚钱吗?

戈麦斯:Cohere 的投资者肯定会赚很多钱。

斯特宾斯:你觉得让这些相信你的人赚到大钱感觉如何?你会觉得「我不该给出那么多股份」吗? 

戈麦斯:没有。当时投资我们的每个人都还在这里,他们还在努力。我们的第一位投资者是 AI 风投巨头「Radical Ventures」,其联合创始人 Jordan Jacobs 现在仍是我们的董事会成员。我称他为 Cohere 的第四位联合创始人。他和我们一起创建了这家公司,而且到现在都非常活跃,积极参与公司建设。所以,我不后悔。

斯特宾斯:Cohere 的最新估值是多少?

戈麦斯:从媒体报道来看,我们的最新估值略微超过了 55 亿美元。

斯特宾斯:当你看到收入与估值之比时,是否会产生压力?会不会问我们如何走到这一步的?

戈麦斯:这肯定会产生压力,但却是正向的。就像你说的,每个人都会参与到收入倍数游戏。在某些时候,它会趋近于公开市场倍数。我认为我们实际上比许多同类公司处于更好的境况。

斯特宾斯:原因呢?

戈麦斯:因为我们的估值不像其他公司那样疯狂。我的信念是,我们仍然会成长得更加强大。我非常有信心的一点是市场很强劲,很多人都需要这些模型。另一方面,由于价格战和免费模型的不断推出,目前也面临着压力,但这种情况会随着时间的推移而改变。当然,我们的产品堆栈也会发展。

OpenAI 正在成为一家产品公司

斯特宾斯:你最尊重市场上哪家公司?

戈麦斯:OpenAI。他们铺平了道路,他们对扩展模型规模的愿景非常坚定,这种信念推动了今天这个神奇的技术世界的诞生 。我记得在 GPT-1 发布之前和 Ilya Sutskever 谈论过这些事情。那是 Transformer 论文刚发表的时候 ,Ilya 在多伦多圈子里很有名,他师从 Geoffrey Hinton。可以说,早在 Ilya 真正开始追求 Scaling 的数年之前,这一想法就在他的脑海里。这种信念催生了我们如今生活的世界,这一客观上神奇的技术已经出现,并且现在每个人都可以使用。我真的很钦佩 Ilya。

斯特宾斯:是的,沃顿商学院的 Ethan Mollick 在参加节目时提到,OpenAI 关心的只有 AGI 以及对 AGI 的追求。因此,他们放弃了代码解释器和许多其他真正有用的产品,因为他们要专注于 AGI。当然,这不是批评,只不过是他们的重点在此。你同意这一观点吗?或者你认为他们实际上采取了双重路线,既追求长期 AGI,又更加注重为广泛的企业和消费者创造短期有价值的产品。

戈麦斯:至少从全新的 OpenAI 来看,它更像是一家产品公司,并努力打造一款消费产品。这是他们的目标,而且效果不错,人们都喜欢他家的产品。所以我认为,在消费者领域,OpenAI 将成为一家产品公司。我认为他们必须成为一家产品公司,才能负担得起打造自身想要打造的东西的费用。但从 OpenAI 目前的离职情况来看,似乎追求 AGI 的努力开始让位于面向消费者来打造产品。

企业引入 AI 的担忧:利润与安全

斯特宾斯:我担心的是,我们能否看到公司通过在产品中添加 AI 来提高 per-user 收入。现在每家公司都是 AI 公司,比如提供客户支持的 Zendesk、笔记记录软件 Notion、提供设计服务的 Canva,他们都在使用 AI。甚至 Canva 最近在节目中直言不讳地表示,他们的利润正在压缩,原因是没有为 per-seat 收取更多费用,但他们的所有产品都融入了 AI。

现在,你可以在产品中使用 AI 创建任何东西,但同时每个查询都要花更多的钱,但收入却是一样的。所以,我们真的能够提高 per-user 收入吗?还是只是创造了更好的客户体验?

戈麦斯:现在有两种不同的定价策略。有些公司保持原价不变,加入 AI 功能以推动业务的扩展。另外一些,比如微软、Salesforce 和 Notion,他们对 AI 功能收费,并作为产品进行业务扩张。这两种策略都很好,而且非常合理。对于像 Canva 这样维持价格不变的公司来说,我认为是个不错的选择。他们想扩大用户群体,那么就给他们提供目前最有用的产品。不用担心利润,因为 AI 的成本正在迅速下降。我认为这是合理的选择。

斯特宾斯:阻碍企业采用 AI 的最大障碍是什么? 

戈麦斯:我认为主要是对技术的信任和安全性。每个人都对当前的状况感到担忧,比如谁在训练。人们真的很担心有人会利用他们的数据训练,从而让他们陷入某种安全漏洞,或者失去 IP。我认为这是一个非常合理的担忧,因为使用用户数据进行训练的情况一直存在。

斯特宾斯:你们能做些什么来安抚他们的这种担忧,除了告诉他们「我们不会使用你们的数据,我们只用合成数据」? 

戈麦斯:我们专注于模型的私有部署,这意味着可以在硬件上实现完全私密性。我们不会要求你将数据发送给我们,我们会在处理后将模型的响应返回给你。我们会将模型带到你的数据所在的地方,而我们什么也看不见。

斯特宾斯:在这个新世界中,我们会看到私有部署的趋势重新回归吗?

戈麦斯:我在与人们交谈时发现,金融服务领域非常矛盾。他们正在远离云,并正在建立自己的数据中心。此外,其他领域似乎仍然需要迁移到云,没有必要拥有这些数据中心。我认为这可能取决于你正在关注的垂直领域。

斯特宾斯:他们到底对人工智能有什么误解或者不理解的地方呢?

戈麦斯:人们非常担心人工智能会出错。这些模型存在幻觉,每个人或多或少会认为这种技术注定要失败。有时模型会产生幻觉,不反映现实。虽然模型的幻觉发生率一直在急剧下降,但它们总有可能编造一些东西或者出错。同样,人类也经常产生幻觉。我们会犯错,会记错一些事情。所以,我们生活在一个对错误具有鲁棒性的世界里。现在,我们也有一些幻觉评估基准。

斯特宾斯:模型幻觉是否能够以与模型进展相同的水平下降呢?

戈麦斯:相同的水平?这点我不知道,但肯定下降得非常快。并且有了 RAG(检索增强生成),模型幻觉可能会迎来一次阶跃变化。

所谓 RAG,你有一个可以查询知识库的模型,这个知识库可能是你的内部文档或搜索引擎。模型会向搜索引擎写入查询,提取结果,然后将其用作答案和引用来源的一部分。你可以审核是否正确。这个机制显著减少了模型编造答案的情况,因为它有真实的参考材料可以依赖。 

斯特宾斯:明白了。RAG 是一个游戏改变者(Game Changer)。

戈麦斯:至少对于幻觉来说,RAG 可以称得上游戏改变者。而且可以定制模型,因为它们看过公共网络,所以知道很多公开信息。但对于私人的东西,我希望模型能够回答有关电子邮件收件箱的问题,这只有我才能访问。因此,模型查询我的电子邮件收件箱以及提取该信息的能力,只会让它对我关心的东西更加了解。

Copilot 模式的重要性与挑战

斯特宾斯:我们现在还处在企业实验预算的阶段吗?每个人都在说,「我们还在用预算进行实验」。是这样吗?  

戈麦斯:现在已经开始有了明显的转变 。去年 100% 是概念验证年,每个人都在测试。但最近,人们急于将技术投入生产。我认为很多企业都害怕措手不及,他们花了一年时间运行概念验证并做测试。现在他们急于将这项技术投入生产,以便改造他们的产品,增强他们的员工队伍。 

斯特宾斯:就他们需要或想要的东西而言,最重要的用例是什么?每个人都在问,你的 AI 策略是什么?这意味着什么?比如,我们非常希望优化自己的客户服务。那么什么才是最重要(No. 1)的客户服务?是员工增强或者生产力提升?

戈麦斯:我认为是员工增强。这些模型就像是整个员工队伍的合作伙伴或同事。这是最流行的用例。

斯特宾斯:我认为 Copilot 是正确的做法。你觉得呢?  

戈麦斯:是的。这是用助手来增强劳动力的正确做法,但它又被生态系统所孤立,所以 Copilot 被插入到了微软 Office 以及其他产品套件。但是,企业不仅仅使用微软的产品。他们使用微软的电子邮件、文档和电子表格等产品,使用 Salesforce 的产品来进行 CRM(客户关系管理),使用 SAP 的产品进行 ERP(企业资源规划)。

如果你真的想增强劳动力,你需要有一个平台来开发这些助手。这些智能体与特定工具集无关,并根据人们实际使用的内容和市场实际使用的内容合理地对工具集进行优先排序。

智能体未来可期,但问题是谁来构建

斯特宾斯:你提到了智能体这个词,它是风险投资领域最热门的话题之一。你认为对智能体行为的大肆宣传是否合理,它对工作流程有什么影响呢?

戈麦斯:我认为大肆宣传 100% 合理,这是人工智能的承诺。这些模型能够自己开展工作,这极大地改变了生产力。人们可以拥有一个在很长一段时间内独立完成工作的模型,完全改变了一个组织所能做的事情。所以,我认为宣传是合理的。我的问题是,这种工作会更有效地在模型开发者之外完成,还是由模型开发者内部来完成?谁最有能力构建这个产品? 

斯特宾斯:为什么由模型开发者内部来完成最好呢? 

斯特宾斯:这完全取决于模型的质量。模型是智能体背后的推理者。所以你必须参与,你必须能够在那个层面上进行干预。如果你不能真正改变模型,让它更好地完成你关心的事情。如果你不是模型构建者,只是模型的消费者,那么你在构建产品时就处于结构劣势。

斯特宾斯:你认为今天谁处于劣势呢?现在,每个人都在谈论并对 Salesforce 持怀疑态度。我不认为 Benioff(Salesforce CEO)会输。

戈麦斯:我同意你的观点。他很棒。我认为他非常清楚对自身的威胁,并且不会让这种事情发生。

另一件事是,你会忘记企业软件有多么难以替换。企业软件并不经常发生大规模置换,它通常会使用几十年。要取代一家企业软件公司真的很难。我认为,真正具有变革性的新消费体验存在机会,消费者对单一供应商的忠诚度远不如以前。他们会去他们能获得最好服务、最佳产品的地方。因此,如果有人能够利用人工智能提供一种远优于现有产品的东西,消费者将会转向使用。 

谷歌 vs OpenAI

斯特宾斯:你认为哪家公司拥有最好的研究队伍?

戈麦斯:Coherer。如果说 Cohere 之外的话,我认为现在的研究力量分布比较分散。过去是高度集中的,像 Google Brain 和 DeepMind。 

斯特宾斯:他们为什么会落后?  

戈麦斯:在发布 Transformer 论文两周后,我们开始训练语言模型,这表明在技术和研究方面,Google Brain 并没有落后。我不想对 Google 发表评论,但我可以说,真正重要的是产品愿景和想象技术可能达到的能力。重要的不仅仅是技术开发本身,而是你能用它做什么的愿景。如果你的组织内部有人能看到这一点,你需要问自己,你是否为他们提供了实现这一愿景的工具,还是他们需要到别处去实现这一愿景。此外,规模假设(Scale hypothesis)指出,模型将随着我们不断投入而持续改进,我们在构建模型上的投资应该不仅是增加 10 倍,而是增加 100 至 1000 倍。这是一个极具风险、不确定性的巨大赌注。我绝对不会批评 Google 所做的决定。我觉得 OpenAI 下了非常好的赌注。

斯特宾斯:OpenAI 最好的赌注是?

戈麦斯:肯定是规模假设。就是说规模扩大会持续,并且我们应该继续扩大十倍、百倍、千倍…… 很多人不相信这一点。对此有很多反对意见。人们认为追求这一目标是愚蠢且多余的。但他们有坚持到底的信念。 

AI 正在经历瓶颈期?  

斯特宾斯:你认为目前人们对人工智能社区最大的误解是什么?我们如何看待未来 12 到 24 个月 AI 的发展?

戈麦斯:目前有一种观点认为人工智能的发展已经达到了瓶颈期,没有新进展,发展速度正在放缓。我认为这种观点是错误的。

这不仅仅是因为我们需要将计算能力提高十倍这样简单,而是从方法论的角度出发,当我们讨论如推理器、规划器以及能尝试失败并从失败中恢复,执行长期任务的模型时,这些都是技术上尚未存在的能力,我们还没有时间将焦点转向这些领域并将这些能力集成到模型中。

过去一年多来,大家一直在专注于这方面的工作,这将很快投入生产使用。因此,我们将看到这方面的显著变化,我认为这将是能力上的一个重大飞跃。 

AI 与人类世界的未来

斯特宾斯:你现在是 20VC 的投资者,你觉得机会在哪里? 

戈麦斯:我认为产品领域以及应用领域仍然非常有吸引力。这项技术将会诞生一些新产品,这些产品将改变社交媒体。人们喜欢与这些模型对话一样,人们使用它的时间简直是疯狂。

斯特宾斯:你觉得这是一件好事吗?你在一个非常健康自然的环境中长大。但我不希望我的孩子们在一个他们与智能体系统交流多于与人类交流的世界中长大、从与模型交谈中获得满足感。 

戈麦斯:你可能是错的。我认为你可能希望你的孩子们与一个极度有同理心的、非常聪明和知识渊博的安全智能进行交流,这种智能能教会他们东西,与他们一起玩乐,不会对他们感到厌烦,不会突然发火,不会欺负他们,不会挑剔他们,不会让他们产生不安全感。 

但不可否认的是没有什么可以取代人类,不管聊天机器人多么吸引人,人类都更有价值。AI 将是一种辅助增强工具,人类将变得更加高效并有时间做更多的事情。

想想销售行业,如果我被一个机器人推销,我是不会买的。就这么简单。我不想和机器说话。对于某些简单的采购,也许可以。但对于那些对我和我的公司很重要的采购,我希望交易另一端有一个人类负责。当出现问题时,我需要一个有话语权的人类介入。 

我真的认为关于 AI 替代人的恐惧是过度的,无论是在消费领域还是工作场所。

斯特宾斯:我认为在采纳新技术时,总会有一种普遍的认识,即会发生一些轻微的取代现象,这已成为常态。虽然确实会看到某种形式的取代,但并不至于达到有人担心的那种 80% 的程度。我相信,你看看你的祖父母,对他们来说,电脑和电子邮件就像是外星技术一样,他们会觉得我们整天做的事情非常疯狂。我完全同意这种看法。我现在确实担心在这个谱系的低端,可能有一部分客户服务团队会被削减70%-80%。 

戈麦斯:虽然肯定会有局部的取代,但从总体上来看,工作机会将会增长。确实有一些职位容易受到技术的影响,想具体列举这些职位有些困难。例如,客户支持就是一个明显的例子,但最终,我们仍然需要人类来完成这些工作,只是不需要像现在这么多人。然而,客户支持是一个非常艰难的角色,你会遇到对你大声喊叫的人。如果你曾经听过客户服务电话的录音,你就会知道这是一个情感上非常消耗的工作。 

斯特宾斯:是的,这非常类似于大型社交网络上的内容审核。确实,在很多方面这是情感上的创伤。 

你认为人工智能现在做不到,但三年后又能做到,并将带来彻底的变革的是什么?

戈麦斯:我觉得,总的来说,机器人技术会实现重大突破。成本需要降低,也一直在下降。然后我们需要更强大的模型。

斯特宾斯:为什么你看好机器人领域? 

戈麦斯:因为很多障碍都已经消失。比如这些机器人内部的推理器和规划器,以及它们背后的软件。以前它们都很脆弱,你必须对它们完成的每项任务进行编程,而且是针对特定环境的超级硬编程,比如厨房的布局必须一模一样。

现在,研究领域在使用基础模型和语言模型,已经开发出更好的规划器。这些规划器更具动态性,能够更自然地推理世界。所以我认为,我知道这已经在进行中,有 30 个人形机器人初创公司和类似的东西,很快就会有人破解通用人形机器人的难题,它们会既便宜又好用。这将是一个巨大的转变。我不知道这会在未来五年还是十年内出现,但它会在其中的某个时间点出现。

快问快答

斯特宾斯:还有很多要聊的。但接下来是快问快答环节。在过去的 12 个月里,你对什么东西看法改变最多?

戈麦斯:我对数据的重要性的看法有了巨大转变。我以前严重低估了它的重要性,认为只是规模的问题。但在 Cohere 的内部,有很多证据表明,数据质量在构建这项技术时至关重要。 

斯特宾斯:你们现在融了多少资?

戈麦斯:所有的吗?大约 10 亿美元。

斯特宾斯:在这些钱里,哪一轮融资最容易?

戈麦斯:也许是第一轮。

斯特宾斯:那时候是什么情况?也是最快的一轮吗?

戈麦斯:那有点像是一场谈话。你知道,这里有几百万美元,试试看。所以我认为这可能是最简单的。当你试图筹集五亿美元时,事情会更复杂一些,你得稍微做点什么。

斯特宾斯:当你看到 5 亿美元进入账户时,你会不会掐一下你自己?

戈麦斯:这是个神奇的时刻,是的,我是掐了一下我自己。

我不知道具体数字是多少,但确实很多。这是一个很大的数字。Cohere 让我对经济和资金的感知发生了转变,现在 5 亿美元已经不再显得那么多了,特别是和我们的竞争对手相比。 

斯特宾斯:真的吗?这会让你感到担忧吗?

戈麦斯:不,我的意思是,这是我们战略的一部分。比如,如果我们想接受那笔交易,我们就可以接受那笔交易。但我们的战略一直是追求独立,自己来做这件事。

斯特宾斯:如果你的董事会可以塞世界上任何一人,你找谁?

戈麦斯:Mike Volpi 和 Jordan Jacobs,他们已经在我的董事会里了。

斯特宾斯:Mike 有多好?很多人都在说他好。

戈麦斯:Mike 太不可思议了,感觉他以前什么都见过。好像我几乎可以向他提出任何问题。他以前遇到过三次这种情况。第一次是这样的,第二次是那样的,第三次是那样的。「我觉得你们可能应该这么做……」,他有如此丰富的经验和建议。

斯特宾斯:Hinton 和 LeCun,你更倾向于哪位?

戈麦斯:我更倾向于 Hinton。我和 Hinton 的私人关系比和 LeCun 更紧密。

斯特宾斯:你认为 LeCun(对 AI 的态度)是否过于乐观了? 

戈麦斯:我更认同 Yann 及其关于人工智能的观点。Jeff 很悲观,他认为这项技术会毁灭世界。相比之下,Yann 则要乐观得多,我也赞同这种看法。不过遗憾的是,Yann 有点变成了回应 Elon Musk 的人。我觉得 Jeff 和我的一个合伙人很像。Jeff 非常聪明,富有智慧,而且思考深刻。 

 不,我和 LeCun 对 AI 的信念非常一致。Hinton 对技术的未来持更加悲观的看法,认为这项技术会毁灭世界,而 LeCun 则更加乐观,我更加倾向于认同  LeCun 的观点。不过可惜的是,Yann 似乎有些成为了 Elon Musk 的「回复哥」。但 Hinton 有点像我的联合创始人 Nick Frosst,他和 Hinton 关系很亲近,他们每个周一一起下国际象棋。Hinton 非常聪明、非常睿智、非常深思熟虑,他是一个有深度的思想家。 

斯特宾斯:你现在在伦敦有团队,你也住在伦敦。每个人都在谈论欧洲的衰落。你现在感觉怎么样?你在伦敦建立了令人难以置信的工程研究团队。 

戈麦斯:在欧洲人的思维中,解决科技问题的方法是通过监管。我认为变革的压力是存在的,我们需要更加进步,这可能需要一段时间。

我们几乎是远程办公,我们的业务遍布各地。但也并不是完全远程办公,我们在多伦多、伦敦、纽约、旧金山都有办事处。

斯特宾斯:每天都有人来?

戈麦斯:当面交流工作要好得多。

像我经常被问到,事情会怎样发展?我也经常被问到关于技术的风险。当人们想到人工智能时,他们心中充满了恐惧,而关于我们拥有的机会的讨论却少之又少。我认为人们并没有讨论这些。 

斯特宾斯:你希望 AI 怎样发展? 

戈麦斯:我们现在面临的主要问题之一是供应紧张。我们今天拥有的每一种奢侈品都来自于发展起来的技术,这些技术提高了生产力,增加了物品的供应,使它们更加丰富,价格更低。因此,我真正关心的是这项技术能否推动全球的生产力,并使人类更加高效,能做更多的事情。我觉得像生产力这样的东西虽然不够吸引人,感觉就像是被低估了,但事实确实如此。