#Attention is all you need

黑匣子被打开了!能玩的Transformer可视化解释工具,本地运行GPT-2、还可实时推理

都 2024 年,还有人不了解 Transformer 工作原理吗?快来试一试这个交互式工具吧。

2017 年,谷歌在论文《Attention is all you need》中提出了 Transformer,成为了深度学习领域的重大突破。该论文的引用数已经将近 13 万,后来的 GPT 家族所有模型也都是基于 Transformer 架构,可见其影响之广。

作为一种神经网络架构,Transformer 在从文本到视觉的多样任务中广受欢迎,尤其是在当前火热的 AI 聊天机器人领域。

不过,对于很多非专业人士来说,Transformer 的内部工作原理仍然不透明,阻碍了他们的理解和参与进来。因此,揭开这一架构的神秘面纱尤其必要。但很多博客、视频教程和 3D 可视化往往强调数学的复杂性和模型实现,可能会让初学者无所适从。同时为 AI 从业者设计的可视化工作侧重于神经元和层级可解释性,对于非专业人士来说具有挑战性。

因此,佐治亚理工学院和 IBM 研究院的几位研究者开发了一款基于 web 的开源交互式可视化工具「Transformer Explainer」,帮助非专业人士了解 Transformer 的高级模型结构和低级数学运算。如下图 1 所示。

51c大模型~合集30_大模型

Transformer Explainer 通过文本生成来解释 Transformer 内部工作原理,采用了桑基图可视化设计,灵感来自最近将 Transformer 视为动态系统的工作,强调了输入数据如何流经模型组件。从结果来看,桑基图有效地说明了信息如何在模型中传递,并展示了输入如何通过 Transformer 操作进行处理和变换。

在内容上,Transformer Explainer 紧密集成了对 Transformer 结构进行总结的模型概述,并允许用户在多个抽象层级之间平滑过渡,以可视化低级数学运算和高级模型结构之间的相互作用,帮助他们全面理解 Transformer 中的复杂概念。

在功能上,Transformer Explainer 在提供基于 web 的实现之外,还具有实时推理的功能。与现有很多需要自定义软件安装或缺乏推理功能的工具不同,它集成了一个实时 GPT-2 模型,使用现代前端框架在浏览器本地运行。用户可以交互式地试验自己的输入文本,并实时观察 Transformer 内部组件和参数如何协同工作以预测下一个 token。

在意义上,Transformer Explainer 拓展了对现代生成式 AI 技术的访问,且不需要高级计算资源、安装或编程技能。而之所以选择 GPT-2,是因为该模型知名度高、推理速度快,并且与 GPT-3、GPT-4 等更高级的模型在架构上相似。

  • 论文地址:https://arxiv.org/pdf/2408.04619
  • GitHub 地址:http://poloclub.github.io/transformer-explainer/
  • 在线体验地址:https://t.co/jyBlJTMa7m

既然支持自己输入,也试用了一下「what a beautiful day」,运行结果如下图所示。

51c大模型~合集30_大模型_02

对于 Transformer Explainer,一众网友给出了很高的评价。有人表示,这是非常酷的交互式工具。

有人称自己一直在等待一个直观的工具来解释自注意力和位置编码,就是 Transformer Explainer 了。它会是一个改变游戏规则的工具。

还有人做出了中译版。

展示地址:http://llm-viz-cn.iiiai.com/llm

这里不禁想到了另一位科普界的大牛 Karpathy,它之前写了很多关于复现 GPT-2 的教程,包括「纯 C 语言手搓 GPT-2,前 OpenAI、特斯拉高管新项目火了」、「Karpathy 最新四小时视频教程:从零复现 GPT-2,通宵运行即搞定」等。如今有了 Transformer 内部原理可视化工具,看起来两者搭配使用,学习效果会更佳。

Transformer Explainer 系统设计与实现

Transformer Explainer 可视化展示了基于 Transformer 的 GPT-2 模型经过训练是如何处理文本输入并预测下一个 token 的。前端使用了 Svelte 和 D3 实现交互式可视化,后端则利用 ONNX runtime 和 HuggingFace 的 Transformers 库在浏览器中运行 GPT-2 模型。

设计 Transformer Explainer 的过程中,一个主要的挑战是如何管理底层架构的复杂性,因为同时展示所有细节会让人抓不住重点。为了解决这个问题,研究者十分注意两个关键的设计原则。 

首先,研究者通过多级抽象来降低复杂性。他们将工具进行结构化设计,以不同的抽象层次呈现信息。这让用户能够从高层概览开始,并根据需要逐步深入了解细节,从而避免信息过载。在最高层,工具展示了完整的处理流程:从接收用户提供的文本作为输入(图 1A),将其嵌入,经过多个 Transformer 块处理,再到使用处理后的数据来对最有可能的下一个 token 预测进行排序。

中间操作,如注意力矩阵的计算(图 1C),这在默认情况下被折叠起来,以便直观地显示计算结果的重要性,用户可以选择展开,通过动画序列查看其推导过程。研究者采用了一致的视觉语言,比如堆叠注意力头和折叠重复的 Transformer 块,以帮助用户识别架构中的重复模式,同时保持数据的端到端流程。 

其次,研究者通过交互性增强理解和参与。 温度参数在控制 Transformer 的输出概率分布中至关重要,它会影响下一个 token 预测的确定性(低温时)或随机性(高温时)。但是现有关于 Transformers 的教育资源往往忽视了这一方面。用户现在能够使用这个新工具实时调整温度参数(图 1B),并可视化其在控制预测确定性中的关键作用(图 2)。

51c大模型~合集30_大模型_03

此外,用户可以从提供的示例中选择或输入自己的文本(图 1A)。支持自定义输入文本可以让用户更深入参与,通过分析模型在不同条件下的行为,并根据不同的文本输入对自己的假设进行交互式测试,增强了用户的参与感。 

那在实际中有哪些应用场景呢?

Rousseau 教授正在对自然语言处理课程的课程内容进行现代化改造,以突出生成式 AI 的最新进展。她注意到,一些学生将基于 Transformer 的模型视为捉摸不透的「魔法」,而另一些学生则希望了解这些模型的工作原理,但不确定从何入手。

为了解决这一问题,她引导学生使用 Transformer Explainer,该工具提供了 Transformer 的互动概览(图 1),鼓励学生积极进行实验和学习。她的班级有 300 多名学生,而 Transformer Explainer 能够完全在学生的浏览器中运行,无需安装软件或特殊硬件,这是一个显著的优势,消除了学生对管理软件或硬件设置的担忧。

该工具通过动画和互动的可逆抽象(图 1C),向学生介绍了复杂的数学运算,如注意力计算。这种方法帮助学生既获得了对操作的高层次理解,又能深入了解产生这些结果的底层细节。

Rousseau 教授还意识到,Transformer 的技术能力和局限性有时会被拟人化(例如,将温度参数视为「创造力」控制)。通过鼓励学生实验温度滑块(图 1B),她向学生展示了温度实际上是如何修改下一个词元的概率分布(图 2),从而控制预测的随机性,在确定性和更具创造性的输出之间取得平衡。

此外,当系统可视化 token 处理流程时,学生们可以看到这里并没有任何所谓的「魔法」—— 无论输入文本是什么(图 1A),模型都遵循一个定义明确的操作顺序,使用 Transformer 架构,一次只采样一个 token,然后重复这一过程。

未来工作

研究者们正在增强工具的交互式解释来改善学习体验。同时,他们还在通过 WebGPU 提升推理速度,并通过压缩技术来减小模型的大小。他们还计划进行用户研究,来评估 Transformer Explainer 的效能和可用性,观察 AI 新手、学生、教育者和从业者如何使用该工具,并收集他们希望支持的额外功能的反馈意见。 

还在等什么,你也上手体验一下,打破对 Transformer 的「魔法」幻想,真正了解这背后的原理吧。

今年 3 月份,英伟达 CEO 黄仁勋举办了一个非常特别的活动。他邀请开创性论文《Attention Is All You Need》的作者们齐聚 GTC,畅谈生成式 AI 的未来发展方向。

「我们所处的领域如今所享有的一切都可以追溯到那一刻…… 你们改变了世界……」黄仁勋在现场说道。

对于 AI 这种科研导向的行业来说,下一次改变世界的机会,可能也藏在某篇论文里。

因此,我们在这个圈子里看到了一个不寻常的现象:一些非技术背景的 CEO 们也开始熬夜读起了论文,希望借此来降低决策的试错成本

CEO 尚且如此,领域内的其他从业者就更不用说了。前段时间,OpenAI、谷歌、Meta 连放大招,一些创业公司也在不断推出新模型、新方法,相信很多从业者都会感觉论文多到看不过来。

把论文丢给 AI 去总结是现在常用的阅读方法,但很多 AI 总结的内容缺乏清晰的层次以及对于创新点、局限性的详细描述,我们需要经过几轮追问才能形成对于论文的完整认知。而且,一些关键的模型架构图、实验结果图还要自己去论文里找,实际节省的时间非常有限。

在腾讯「元宝」的最近一次更新中,我们看到了这些问题的解决方案。他们新推出的「深度阅读模式」支持长文精读能够输出模块化的、图文并茂的解析,非常适合用来读论文。

论文「精读」,精在哪儿?

用 AI 读论文是一种怎样的体验?很多时候是:你丢给它一个 PDF,它返回一段总结 + 若干条概述(有时候可能高达 10 条)。这些信息确实有帮助,但有时候,你很难分清哪些是亮点,以及论文解决了什么、没解决什么,有哪些核心问题值得细看。

我们实测发现,「元宝」是通过提供一系列模块化、结构化信息来解决这些问题的。

以我们测试的一篇 SIGGRAPH 论文为例。如果你直接把论文丢进去,它返回的总结和其他 AI 区别不大。不过,只要你耐心往下拉,就会看到一个「深度阅读该文档」的按钮,这才是「一键直达」论文精读的开关。

与之前总结论文的界面不同,精读页面会把论文拆解得非常有层次,研究背景、研究方法、实验设计、结果分析、总体结论各自被组织成一个模块,很像平时介绍论文的布局。所有这些都可以通过左边的大纲迅速跳转。

别看每个模块字不多,其实这些字是非常有信息量的。比如在研究背景这个模块,「研究难点」段落仅用三个短句就描述了四个难点,「相关工作」更是对第二章「related work」的高度浓缩,一段话就把该领域的主要技术路线介绍清楚了。所以,在读完这个模块之后,我们能基本搞清楚论文研究的是一个什么问题,面临的是怎样一个研究现状。

除了这些常规的结构化信息,元宝的精读还有一个令人眼前一亮的设计 —— 它会把论文的优点与不足列出来,方便研究者迅速了解自己能从这篇论文中学到什么,还有什么问题值得继续研究。

为什么这个功能如此重要?中国台湾清华大学教授彭明辉在关于论文阅读的一篇文章中曾经写道,论文和课本不同,课本会提供别人整理、组织好的系统性知识,而论文要求读者自己从无组织的知识中检索、筛选、组织知识。其中,分析既有研究优缺点的能力尤其重要,这是批判性思维的关键部分,也是学术研究中自我提升的重要途径。元宝通过快速分析和总结论文的优缺点,可以帮助研究者节省大量筛选和初步理解的时间,使他们能够更快地聚焦于与自己研究直接相关的论文。

不过,如果你觉得前面这些信息太繁琐,你也可以直接跳转到最后的「关键问题与解答」模块。这里会列出几个最关键的问题,让你快速了解到论文的价值,进而判断是否值得花时间去读原文。当然,之前的很多 AI 助手也会在答案末尾呈现一些关键问题,点一下就能得到答案,但如果你是一名初学者或者跨学科背景的读者,你可能不太容易判断哪些问题比较关键。元宝这种直接呈现的方式感觉更加直观。

原图原数,谁说 AI 读论文不能配图?  

在读论文时,很多人都有一个习惯,一边看图,一边看论文描述。这样理解起来更快、更容易。但是,现在市面上大部分 AI 应用返回的都是文字结果,想看图的话需要自己去原文里找。

我们在测试中发现,元宝是为数不多的直接把论文图截出来并放到段落对应位置的 AI。比如,如果在某个模块讲架构,那它会把对应的架构图放上:

如果在某个模块讲实验结果,那它会把对应的图表放上:

众所周知,大模型的幻觉问题现在还没有办法完全解决。因此,这种原图原数的呈现其实是一种更加可靠的输出方式,方便读者随时验证模型的答案,在用作参考时更加保险。

此外,我们还发现,如果你有写博客等对外输出的需求,元宝还可以帮你绘制图表,而且你不需要告诉它数据去哪里找,它能自己定位到论文中的相关表格,并将数据提取出来进行绘制。这一功能可以通过精读页面右侧的「提问」按钮来唤起。

随时随地想读就读,谁说读论文障碍重重?  

除了结构化的信息和图文并茂的输出,我们在测试中还发现,元宝其实有一些非常实用的小功能,能让读论文这件事变得更加方便。

首先是划词翻译和搜索,这是「原文」阅读界面的两个实用小功能。划词翻译可以帮助英语不好的读者随时随地扫清语言障碍,划词搜索则更进一步,像是把元宝的搜索功能做成了一个插件,可以随时搜相关信息。而且,元宝给出的解释不只是简短的总结,还有模块化的展开,真是把「结构化」、「有信息量」做到每一个细节里了。

其次是「离线阅读」。这个功能的实用之处在于:它可以让你在「飞行模式」下回看精读内容及原文,不浪费一点碎片时间。这让航空公司在与高铁的竞争中扳回一局。说不定,研究者们的下一个灵感就是在飞机上回看精读时产生的呢。

最后一个小功能是「计算器」。前段时间,AI 因为分不清 9.9 和 9.11 哪个大而引发了很多讨论。在元宝中,我们发现它集成了计算器功能,能够确保根据准确的计算结果来生成答案。这种功能在我们阅读实验数据时非常有用。

长文精读的背后:原来有专家指导

根据官方信息,腾讯元宝的这次升级主打「长文精读」,可原生支持最长近 50 万字的输入。我们在测试中用到的论文远远没有达到这个长度,日常所接触的论文大多也达不到。所以用元宝来精读论文,大部分情况下上下文窗口都是够用的。它的模块化、图文并茂输出以及划词搜索、翻译等小功能也让读论文这件事真正变得方便、高效,向着「实用性」又迈近了一步。

这种进化离不开其背后模型 —— 腾讯混元大模型的升级。据悉,为了在专业领域中提升模型的专业性和实用性,腾讯混元团队专门邀请领域专家概括各专业领域的核心技能,并制定了专业问题的回答标准,使得模型能够作为真正的领域专家来提供服务。所以我们用下来就感觉,元宝是知道论文读者需要什么信息以及信息应该如何呈现的。

除了论文,这个新功能还可以用来精读财报、研报等长文本。在这些场景中,它可以从多个维度梳理信息,根据报告内容生成杜邦分析图等专业图表,让不懂这些文件的人也能看懂企业的财务状况等信息。

不过,就读论文这个场景来说,元宝依然存在一些改进空间,比如在阅读原文界面缺乏完整的原文 - 译文对照,对公式的识别有时不够准确等。我们也希望元宝能在未来的更新中改进这些问题。

但作为一款推出仅两个多月的应用,腾讯元宝的表现已经有点超出预期。它的进化轨迹让我们看到,大模型将如何一步一步变为新的生产力。我们也期待这个 APP 能给我们带来更多惊喜。




#SlowFast-LLaVA(简称 SF-LLaVA

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

自从 Sora 发布以来,AI 视频生成领域变得更加「热闹」了起来。过去几个月,我们见证了即梦、Runway Gen-3、Luma AI、快手可灵轮番炸场。

和以往一眼就能识破是 AI 生成的模型不太一样,这批视频大模型可能是我们所见过的「最好的一届」。

然而,视频大语言模型(LLM)惊艳表现的背后离不开庞大且经过精细标注的视频数据集,这需要花费相当高的成本。近期研究领域也涌现了一批无需额外训练的创新方法:采用训练好的图像大语言模型,直接用于视频任务的处理,这样就绕开了「昂贵」的训练过程。

此外,现有大多视频 LLM 存在两个主要缺点:(1)它们只能处理有限帧数的视频输入,这使得模型难以捕捉视频中细微的空间和时间内容;(2)它们缺少时间建模设计,而是简单地将视频特征输入到 LLM 中,完全依赖于 LLM 对运动的建模能力。

针对以上问题,苹果研究人员提出了 SlowFast-LLaVA(简称 SF-LLaVA)。这一模型基于字节团队开发的 LLaVA-NeXT 架构,无需额外微调,开箱即用。研究团队受在动作识别领域大获成功的双流网络的启发,为视频 LLM 设计了一套新颖的 SlowFast 输入机制。

简单来说,SF-LLaVA 将通过两种不同的观察速度(Slow 和 Fast)来理解视频中的细节和运动。

  • 慢速路径:低帧率提取特征,同时尽可能多地保留空间细节(例如每 8 帧保留 24×24 个 token)
  • 快速路径:高帧率运行,但用较大的空间池化步长降低视频的分辨率,以模拟更大的时间上下文,更专注于理解动作的连贯性

这相当于模型拥有两只「眼睛」:一只慢慢看,注意看细节;另一只快速看,注意看动作。这样就解决了大多现有的视频 LLM 的痛点,既能捕捉到详细的空间语义,又能捕捉到更长的时间上下文。

论文链接:https://arxiv.org/pdf/2407.15841

实验结果显示,SF-LLaVA 在所有基准测试中均以显著的优势超越了现有免训练方法。与精心微调的 SFT 模型相比,SF-LLaVA 能达到相同性能,甚至更好。

51c大模型~合集30_大模型_04

模型架构

如下图所示,SF-LLaVA 遵循标准的免训练视频 LLM 流程。它以视频 V 和问题 Q 作为输入,输出对应的答案 A。

51c大模型~合集30_大模型_05

对于输入,要从每个视频任意大小和长度中均匀采样 N 帧,I = {I_1, I_2, ..., I_N},不需要对选取的视频帧进行特别的组合或排列。以帧为单位视独立提取频特征为 F_v ∈ R^N×H×W,其中 H 和 W 分别是帧特征的高度和宽度。

下一步需要在慢速和快速两个路径中进一步处理 F_v,并将它们结合起来作为有效的视频表示。慢速路径从 F_v 中均匀采样

51c大模型~合集30_大模型_06

的帧特征,其中

51c大模型~合集30_大模型_07

此前有研究发现,在空间维度上适当池化可以提高视频生成的效率和鲁棒性。因此,研究团队在 F_v 上应用步长为 σ_h×σ_w 的池化过程,得到最终特征:

51c大模型~合集30_大模型_08

,其中

51c大模型~合集30_大模型_09

51c大模型~合集30_大模型_10

。慢速路径的整个过程如公式 2 所示。

51c大模型~合集30_大模型_11

快速路径保留 F_v 中的所有帧特征,以尽可能多地捕捉视频的长程时间上下文。具体来说,研究团队使用空间池化步长

51c大模型~合集30_大模型_12

对 F_v 进行激进的下采样,得到最终特征

51c大模型~合集30_大模型_13

。研究团队设置

51c大模型~合集30_大模型_14

51c大模型~合集30_大模型_15

,使得快速路径能专注于模拟时间上下文和运动线索。慢速路径的整个过程如公式 3 所示。

51c大模型~合集30_大模型_16

最后,获得聚合的视频特征:

51c大模型~合集30_大模型_17

,其中 flat 和 [, ] 分别表示展平和连接操作。如表达式所示,

51c大模型~合集30_大模型_18

不需要任何特殊的 token 来分隔慢速和快速路径。SF-LLaVA 总共使用

51c大模型~合集30_大模型_19

个视频 token。视频的视觉特征

51c大模型~合集30_大模型_20

将和文本信息(比如用户提出的问题)将被组合在一起,作为输入数据送入大型语言模型(LLM)进行处理。

SlowFast 流程如公式 4 所示。

51c大模型~合集30_大模型_21

实验结果

研究团队对 SF-LLaVA 进行了全面的性能评估,将其与当前 SOTA 免训练模型(如 IG-VLM 和 LLoVi)在多个视频问答任务中进行了对比。此外,他们还将其与经过视频数据集监督微调(SFT)的视频 LLM,例如 VideoLLaVA 和 PLLaVA 进行了比较。

开放式视频问答

如下表所示,在开放式视频问答任务中,SF-LLaVA 在所有基准测试中都比现有的免训练方法表现得更好。具体来说,当分别搭载 7B 和 34B 参数规模的 LLM 时,SF-LLaVA 分别在 MSRVTT-QA 上比 IGVLM 高出 2.1% 和 5.0%,在 TGIF-QA 上高出 5.7% 和 1.5%,在 ActivityNet-QA 上高出 2.0% 和 0.8%。

即使与经过微调的 SFT 方法相比,SF-LLaVA 在大多数基准测试中也展现了可比的性能,只有在 ActivityNet-QA 这一基准上,PLLaVA 和 LLaVA-NeXT-VideoDPO 略胜一筹。

51c大模型~合集30_大模型_22

多项选择视频问答

从下表中可见,在所有基准测试中,SF-LLaVA 在多项选择视频问答的表现都优于其他免训练方法。在要求复杂长时序推理的 EgoSchema 数据集中,SF-LLaVA7B 和 34B 的版本相较 IG-VLM 模型的得分分别高出 11.4% 和 2.2%。

虽然 VideoTree 在基准测试中领先,因为它是基于 GPT-4 的专有模型,因而性能远高于开源 LLM。与 SFT 方法相比,SF-LLaVA 34B 模型在 EgoSchema 上也取得了更好的结果,这证实了 SlowFast 设计处理长视频方面的强大能力。

Text Generation 

51c大模型~合集30_大模型_23

文生视频

如表 3 所示,对于文本生成视频的任务,SF-LLaVA 也显示出了一些优势。SF-LLaVA-34B 在整体表现上超越了所有免训练的基准。尽管在细节取向方面,SF-LLaVA 略逊于 LLaVA-NeXT-Image。基于 SlowFast 设计,SF-LLaVA 可以用更少的视觉 token 覆盖更长的时间上下文,因此在时间理解任务中表现得格外出色。

此外,在文生视频的表现上,SF-LLaVA-34B 也优于大多数 SFT 方法。

51c大模型~合集30_大模型_24

开发板商城 天皓智联 TB上有视觉设备哦 支持AI相关~ 大模型相关也可用~


#Jeff Dean开启回忆杀

1加入谷歌25周年,搬16次工位、掐点打咖啡

如今,Jeff Dean 已经成为谷歌 AI 掌门人,谷歌也从最开始一个狭小的办公空间搬到了加州总部「Bay View」园区。

谷歌首席科学家 Jeff Dean 迎来了他在这家科技巨头的第 25 个年头。

1999 年 8 月,Jeff Dean 加入了谷歌,成为早期第 20 号员工。他在 2011 年参与创立了 Google Brain 团队,专注于智能机器领域的进展。自那时起,他的工作重心转到了 AI 和 ML 领域的研究、系统和应用,并引领了更广泛 AI/ML 和计算机科学研究社区的发展方向。

2020 年 12 月,Jeff Dean 获得了 2021 年度 IEEE 冯诺依曼奖,以表彰他对大规模分布式计算机系统和人工智能系统科学与工程的贡献。2023 年 4 月,谷歌宣布将旗下 Google Brain 和 DeepMind 合并,成立了 Google DeepMind。Jeff Dean 担任该部门的首席科学家。

今日,为了庆祝自己加入谷歌 25 周年,Jeff Dean 发推回忆了谷歌创业早期的一些故事(以第一人称陈述)。

25 年前的今天, 我正式加入了一家小型搜索引擎公司,办公地点位于帕洛阿尔托市中心现在的 T-Mobile 商店楼上的一个狭小空间。从那时起,我有幸与出色的同事们一起工作,研发了被全球数十亿人使用的软件。 

Jeff Dean 在 1999 年加入谷歌, 这个时间点距离拉里・佩奇、谢尔盖・布林创建谷歌(1998 年 9 月)刚刚一年,可以说 Jeff Dean 是谷歌元老级别的人物。

非常感谢所有现任和前任同事,有了大家的携手互助,谷歌才能成长为如今的模样。我呆过的第一间办公室是这样的:

下面是现在的办公楼,这已经是我在谷歌的第 16 个办公地点了,可以说搬工位次数超过了 98.88% 的谷歌员工。

公司内部有一个有趣的网站,你可以查询公司里面有百分之多少的员工比你入职晚。现在我的分数已经达到了五个 9(99.999%),不过我们工程团队也都是老员工了,大家的分数是无限个 9。

接下来 Jeff Dean 又分享了一些没有人知道的有趣故事。

Google DeepMind 研究副总裁、深度学习负责人现场催更。

谷歌成立初期,我们都在 Building Zero 办公时,Lucas Pereira 维护着一个「蜡笔图表」。这个图表显示了谷歌收到的查询数量,每天这个图表都会更新。

随着谷歌的发展,这个图表逐渐在缩小,开始是 10 倍,然后是 2 倍、5 倍,...。大家在图表上添加不同的「里程碑」(如谷歌开始为 Go2net 提供服务等)。早期员工也会把自己的入职时间标在这个表上,比如红色箭头标出来的 8 月 9 日就是我写的。要知道这些图片里「蜡笔图表」原来都贴在墙上,有十米长。

在  Building Zero 里,当时我们安装了高档的日本东陶(Toto)智能马桶,每个隔间都配有红外遥控器来控制功能。结果发现,厕所天花板上的反光漆会导致红外信号反射,导致在不恰当的时刻控制了其他隔间的马桶。

不久之后,我们改为每个隔间只安装一个遥控马桶,这种做法大概在每座谷歌大楼中都得以延续。

Jeff Dean 追忆往昔让很多人产生了共鸣和回忆。

有人表示,多亏了当初那个还未发展壮大的搜索引擎(谷歌),我才在 20 年前遇到了来自地球另一端的妻子。

还有人回忆起自己与 Jeff Dean 首次见面的场景,那是在 2015 年 NeurIPS 大会,他是如此平易近人,现在也是如此。祝贺 Jeff Dean 在这家「小型」搜索引擎公司取得如此丰硕的成果。

当被问起如何从编译器研究转到早期谷歌工作的?Jeff Dean 表示,在加入谷歌之前,自己在 Digital Equipment Corporation 的西部研究实验室(WRL)工作,它距离 DEC Systems Research Center(SRC)实验室只有两个街区。

AltaVista(以网页全文检索为主、提供分类目录搜索)由 DEC WRL 和 DEC SRC 共同设计和创建。当他加入 DEC 时,一些同事已经从 AltaVista 抓取的数据中构建了一个 web 图。之后他与谷歌前研究总监 Monika Henzinger 开始研究如何使用 web 图结构来查找 web 中的相关页面。由于编译器算法通常与各种类型的图息息相关,因此这并不是一个像看起来那样大的飞跃(基于 web 的信息检索刚刚开始以各种方法来利用 web 图结构,比如 PageRank 等)。

此外,Jeff Dean 分享了 25 年来,哪个办公楼的咖啡最好喝。他对 B43 有着美好的回忆,每天早上都会和一群人赶着去打咖啡(9:07 之前没来的话,就会错过咖啡车)。

Jeff Dean 的回忆也引来了 LeCun 发来贺电:在硅谷,25 年好像过了一个世纪。

谷歌也从这样的一个小展示台,变成了如今的科技巨头。

参考链接:https://medium.com/hackernoon/this-is-going-to-be-huge-google-founders-collection-comes-to-chm-27356256731f



#最强 AI 画师

AI出图更快、更美、更懂你心意,高美感文生图模型修炼了哪些技术秘籍?

随着大模型的落地按下加速键,文生图无疑是最火热的应用方向之一。

自从 Stable Diffusion 诞生以来,海内外的文生图大模型层出不穷,一时有「神仙打架」之感。短短几个月,「最强 AI 画师」的称号几次易主。每一次技术迭代,都不断刷新着AI图像生成质量和速度的上限。

于是现在,我们输入几个文字就能得到任何想要的画面。无论是专业级别的商业海报,还是超写实画风的写真照片,AI 制图的逼真程度已经让我们叹为观止。甚至 AI 赢下了 2023 年度的索尼世界摄影奖。在大奖公布之前,这幅「照片」已经在伦敦萨默赛特宫进行展览——如果作者不公开说明,可能没有人会发现这张照片实际出自 AI 之手。

Eldagse和他的AI生成作品《电工》

如何让 AI 画出来的图片更具美感,这离不开 AI 技术人员持之以恒的付出。第六期的《AIGC体验派》就邀请到了豆包文生图技术专家李亮、NVIDIA 解决方案架构师赵一嘉,为我们深入剖析了文生图模型出图更美、更快、更懂用户心意背后的技术链路。

直播开始,李亮首先详细拆解了近期国产大模型「顶流」—— 字节跳动豆包大模型在文生图模型方面的技术升级。

李亮表示,豆包团队想解决的问题主要包含三个方面:一是如何实现更强的图文匹配来满足用户的想法设计;第二个是如何生成更具美感的图像来提供更极致的用户体验;第三个是如何更快速地出图来满足超大规模的服务调用。

在图文匹配方面,豆包团队从数据入手,对海量图文数据做精细化筛选和过滤,最终入库了千亿量级的高质量图像。此外,团队还专门训练了一个多模态大语言模型进行 recapiton 任务。这个模型将更加全面、客观地描述图片中图像的物理关系。

有了高质量高细节的图文对数据之后,想要更好地发挥出模型的实力,还需要提升文本理解模块的能力。团队采用原生双语大语言模型作为文本编码器,显著提升了模型理解中文的能力,因此,面对「唐代」、「元宵节」等国风元素,豆包・文生图模型也展现出了更加深刻的理解力。

对于 Diffsuion 模型架构,豆包团队也注入了独门秘籍,他们 UNet 进行了有效地scaling,通过增加参数量,豆包・文生图模型进一步地提升了图像文本对的理解和高保真的生成能力。

针对用户直观感受最明显的美学风格,豆包团队引入了专业的美学指导,也时刻关注用户和大众审美的偏好。与此同时,团队也在数据和模型架构上下了一番功夫。很多时候,用户得到的图像和 demo 展示的效果对比好比「买家秀」和「卖家秀」,实际上是给出的 prompt 对于模型来说不够详细和明确,而豆包·文生图模型引入了一个「Rephraser」,在遵循用户原始意图的同时,为提示词增加更多的细节描述,所有用户也将因此体验到更完美的生成效果。

为了让模型出图速度更快,每张图消耗的成本更低,豆包团队在模型的蒸馏方式上也给出了新的解题思路,一项代表性的成果是 Hyber-SD,这是一种新颖的扩散模型蒸馏框架,在压缩去噪步数的同时可保持接近无损的性能。

接下来,英伟达解决方案架构师赵一嘉从底层技术出发,讲解了文生图最主流的基于Unet的SD和DIT两种模型架构及其相应的特性,并介绍了英伟达的Tensorrt, Tensorrt-LLM, Triton, Nemo Megatron 等工具如何为部署模型提供支持,助力大模型更加高效地推理。

赵一嘉首先分享了 Stable Diffusion 背后模型的原理详解,细致地阐述了 Clip、VAE 和 Unet 等关键组件的工作原理。随着 Sora 爆火,也带火了背后的 DiT(扩散 Transformer)架构。赵一嘉进一步从模型结构、特性和算力消耗三方面,从模型结构、特性和资源消耗三个方面,对 SD 和 DiT 的优势进行了全面的比较。

使用 Stable diffusion 生成图像时,往往会感觉提示词内容在生成结果中都得到了呈现,但图不是自己想要的,这是因为基于文字出图的 Stable diffusion 并不擅长控制图像的细节,例如构图、动作、面部特征、空间关系等。因此,基于Stable diffusion 的工作原理,研究人员们设计了许多控制模块,弥补 Stable diffusion 的短板。赵一嘉补充了其中具有代表性的 IP-adapter 和 ControlNet。

想要加快吃算力的文生图模型的推理速度,英伟达的技术支持发挥了关键作用。赵一嘉介绍了 Nvidia TensorRT 和 TensorRT-LLM 工具,这些工具通过高性能卷积、高效调度和分布式部署等技术,优化了图文生成模型的推理过程。同时,英伟达的 Ada、Hopper 以及即将推出的 BlackWell 硬件架构,都已支持 FP8 训练和推理,将为模型训练带来更加丝滑的体验。

经历了六场精彩的直播,由火山引擎、NVIDIA 联手x和 CMO CLUB 共同推出的《AIGC体验派》迎来了圆满收官。通过这六期节目,相信大家对 AIGC 如何从「有趣」变为「有用」有了更深的理解。我们也期待着《AIGC 体验派》不止停留在节目的讨论中,并更能在实际中加速营销领域智能化升级的进程。

《AIGC 体验派》全六期回顾地址:https://vtizr.xetlk.com/s/7CjTy(点击阅读原文直达)



#把两块芯片压成一块

EUV以来半导体制造的最大创新

在一平方毫米的硅片上建立数百万个连接。

从纳米到埃米,芯片制造商正在竭尽全力缩小电路的尺寸。但对于人们日益增长的算力需求,一项涉及更大尺寸(数百或数千纳米)的技术在未来五年内可能同样重要。

这项技术称为直接混合键合(Hybrid Bonding),可在同一封装中将两个或多个芯片堆叠在一起,构建所谓的 3D 芯片。尽管由于摩尔定律逐渐崩溃,晶体管缩小的速度正在变慢,但芯片制造商仍然可以通过其他方式增加处理器和内存中的晶体管数量。

今年 5 月,在丹佛举行的 IEEE 电子元件和技术会议(ECTC)上,来自世界各地的研究小组公布了该技术的各种来之不易的改进,其中一些结果显示,3D 堆叠芯片之间的连接密度可能达到创纪录的水平:每平方毫米硅片上大约有 700 万个连接。

英特尔的 Yi Shi 在 ECTC 大会上报告说,由于半导体技术的新进展,所有这些连接都是必需的。摩尔定律现在受一个称为系统技术协同优化(STCO)的概念支配,即芯片的功能(例如缓存、输入 / 输出和逻辑)分别使用最先进工艺制程制造。然后可以使用混合键合和其他先进封装技术来组装这些子系统,以便让它们像单个硅片一样工作。但这只有在存在高密度连接的情况下才能实现,这些连接可以在几乎没有延迟或能耗的情况下在单独的硅片之间传送数据。

在所有先进封装技术中,混合键合提供了最高密度的垂直连接。因此,它是先进封装行业增长最快的领域,Yole Group 技术和市场分析师 Gabriella Pereira 表示,到 2029 年,该方向的市场规模将增长两倍以上,达到 380 亿美元。预计到那时,混合键合将占据约一半的市场。

在混合键合中,铜 pad 建立在每个芯片的顶面上。铜被绝缘层(通常是氧化硅)所包围,pad 本身略微凹进绝缘层的表面。在对氧化物进行化学改性后,将两个芯片面对面压在一起,使每个凹陷的 pad 对齐。然后慢慢加热这个夹层,使铜膨胀到间隙处并熔合,从而连接两个芯片。

51c大模型~合集30_大模型_25

1、混合键合从两个晶圆或一个芯片和一个晶圆相对开始。配合面覆盖有氧化物绝缘层和略微凹陷的铜垫,铜垫与芯片的互连层相连。

2、将晶圆压在一起,在氧化物之间形成初始键合。

3、然后缓慢加热堆叠的晶圆,使氧化物牢固连接,并使铜膨胀以形成电连接。

a、为了形成更牢固的键合,工程师需要压平氧化物的最后几纳米。即使是轻微的凸起或翘曲也会破坏密集连接。

b、铜必须从氧化物表面凹陷到恰到好处的程度。太多就无法形成连接,太少就会把晶圆推开。研究人员正在研究如何将铜控制到单个原子层的水平。

c、晶圆之间的初始连接是弱氢键。退火后,连接变成强共价键。研究人员预计,使用不同类型的表面,如碳氮化硅,则会有更多位置可以形成化学键,将使晶圆之间的连接更牢固。

d、混合键合的最后一步可能需要数小时,并且需要高温。研究人员希望降低温度,缩短工艺时间。

e、虽然两片晶圆上的铜压在一起形成电连接,但金属的晶粒边界通常不会从一侧穿过另一侧。研究人员正试图使边界上形成大的单晶铜颗粒,以提高电导率和稳定性。

混合键合既可以将一种尺寸的单个芯片连接到一个装满更大尺寸芯片的晶圆上,也可以将两个相同尺寸的整片晶圆键合在一起。当然,后一种工艺比前一种更成熟,部分原因是它在相机芯片中的应用。例如,欧洲微电子研究机构 Imec 的工程师已经创造了一些有史以来最密集的晶圆对晶圆键合,键合距离(或间距)仅为 400 纳米。但 Imec 仅实现了 2 微米的芯片对晶圆键合间距。

这相比当今在生产的先进 3D 芯片有了很大的改进(连接间距约为 9 微米)。而且它比前一代技术有了更大的飞跃:「微凸块」(microbumps)焊料,其间距为几十微米。

「在设备可用之后,将晶圆与晶圆对齐比将芯片与晶圆对齐更容易。大多数微电子工艺都是针对整片晶圆进行的,」法国研究机构 CEA Leti 集成与封装科学负责人 Jean-Charles Souriau 说道。但芯片对晶圆(或芯片到晶圆)技术在高端处理器中可以大放异彩,例如 AMD 的处理器,他们把新技术用于组装其先进 CPU 和 AI 加速器中的计算核心和缓存。

51c大模型~合集30_大模型_26

为了推动两种情况下的间距越来越紧密,研究人员专注于使表面更平坦,使绑定的晶圆更好地粘合在一起,并减少整个过程的时间和复杂性。做好这件事可能会彻底改变芯片的设计方式。

WoW,降低间距

最近的晶圆对晶圆(WoW)研究实现了最紧密的间距 —— 约 360 纳米到 500 纳米 —— 这有关在一件事上付出的大量努力:平整度。要以 100 纳米级的精度将两个晶圆结合在一起,整个晶圆必须几乎完全平坦。如果它稍微弯曲或扭曲,整个部分就无法连接。

晶圆的平坦化需要一项称为化学机械平坦化(CMP)的工艺。它对芯片制造至关重要,尤其是对于生产晶体管上方的互连层。

「CMP 是我们必须控制的混合键合关键参数,」Souriau 表示。ECTC 上展示的结果显示 CMP 被提升到了另一个水平,不仅使整个晶圆平坦化,而且还将铜垫之间的绝缘层的圆度降低到纳米级,以确保更好的连接。

其他一些研究人员则致力于确保这些扁平部件能够足够牢固地粘合在一起。他们尝试使用不同的表面材料,例如用碳氮化硅代替氧化硅,并使用不同的方案来化学激活表面。最初,当晶圆或芯片被压在一起时,它们通过相对较弱的氢键固定在一起,人们担心的是,在进一步的加工步骤中它们是否能保持原位。连接之后,晶圆和芯片会慢慢加热,这一过程称为退火,旨在形成更强的化学键。这些键到底有多强 —— 甚至如何弄清楚 —— 是 ECTC 上展示的大部分研究的主题。

最终的键合强度部分来自铜连接。退火步骤使铜在间隙处膨胀,形成导电桥。三星的 Seung Ho Hahn 解释说,控制间隙的大小是关键。膨胀太小铜就不会熔合,膨胀太多晶圆就会被推开。这是纳米级的问题,Hahn 报告了一种新化学工艺的研究,他希望通过一次蚀刻掉一个原子层的铜来实现这一点。

连接的质量也很重要。芯片互连中的金属不是单晶;而是由许多晶粒组成,这些晶粒朝向不同的方向。即使在铜膨胀后,金属的晶粒边界通常也不会从一侧跨越到另一侧。这种跨越应该会降低连接的电阻并提高其可靠性。日本东北大学的研究人员报告了一种新的冶金方案,最终可以生成跨越边界的大型单晶铜。「这是一个巨大的变化,」日本东北大学的副教授福岛誉史(Takafumi Fukushima) 说。「我们现在正在分析其背后的原因。」

ECTC 讨论的其他实验侧重于简化键合过程。一些人试图降低形成键合所需的退火温度(通常约为 300 °C),以尽量减少长时间加热对芯片造成损坏的风险。Applied Materials 的研究人员介绍了一种方法的进展,该方法可以大大减少退火所需的时间 —— 从几小时缩短到仅 5 分钟。

效果出色的 CoW

Imec 使用等离子蚀刻来切割芯片并赋予它们 chamfered corners。该技术消除了可能干扰粘合的机械应力(mechanical stress)。

目前,晶圆上芯片 (CoW) 混合键合对于高级 CPU 和 GPU 制造商来说更有用:它允许芯片制造商堆叠不同尺寸的小芯片,并在将每个芯片绑定到另一个芯片之前对其进行测试,以确保它们不会出现问题。毕竟,一个有缺陷的部件就注定了整个昂贵 CPU 的命运。

但是 CoW 具有 WoW 的所有困难,并且缓解这些困难的选项较少。例如,CMP 旨在平坦化晶圆(flatten wafers),而不是单个芯片。一旦从源晶圆上切下芯片并进行测试,就可以采取更少的措施来提高其键合准备情况。

尽管如此,英特尔的研究人员报告了具有 3 μm 间距的 CoW 混合键合,并且如上所述,Imec 的一个团队成功实现了 2 μm 间距,主要是通过使转移的 die 非常平坦,同时它们仍然附着在晶圆上并在整个过程中保持它们清洁。

两个团队都使用等离子蚀刻来切割芯片,而不是使用常用的锯切法( blade)。与锯切法不同,等离子蚀刻不会导致边缘碎裂,从而产生可能干扰连接的碎片。它还允许 Imec 团队对芯片进行塑形,制作 chamfered corners,以减轻可能破坏连接的机械应力。

ECTC 的几位研究人员表示,CoW 混合键合对于高带宽存储器 (HBM) 的未来至关重要。HBM 是控制逻辑芯片顶部的 DRAM die 堆栈(目前有 8-12 个 die 高)。HBM 通常与高端 GPU 放置在同一封装中,对于处理运行 ChatGPT 等大型语言模型所需的海量数据至关重要。如今,HBM die 采用微凸点(microbump)技术进行堆叠,因此每层之间都有被有机填料包围的微小焊球。

但随着 AI 进一步提高内存需求,DRAM 制造商希望在 HBM 芯片中堆叠 20 层或更多层。微凸点占据的体积意味着这些堆栈很快就会变得太高而无法正确装入 GPU 封装中。混合键合会缩小 HBM 的高度,并且更容易从封装中去除多余的热量,因为层之间的热阻会更小。

在 ECTC 上,三星工程师展示了混合键合可以产生 16 层 HBM 堆栈。三星高级工程师 Hyeonmin Lee 表示:「我认为使用这项技术可以制造 20 层以上的堆栈。」其他新的 CoW 技术也有助于将混合键合引入高带宽存储器。 

Souriau 表示,CEA Leti 的研究人员正在探索所谓的自对准(self-alignment)技术。这将有助于确保仅使用化学工艺即可实现良好的 CoW 连接。每个表面的某些部分将被制成疏水性的,而其他部分将被制成亲水性的,从而导致表面会自动滑入到位。

在 ECTC 上,来自东北大学和雅马哈机器人公司的研究人员报告了类似方案的工作,利用水的表面张力来对齐实验 DRAM 芯片上的 5-μm pad,精度优于 50-nm。

混合键合的上限

研究人员几乎肯定会继续减小混合键合连接的间距。台积电 pathfinding systems 项目经理 Han-Jong Chia 表示:「200 nm WoW 间距不仅是可能的,而且是理想的。」台积电计划在两年内推出一种称为背面供电(backside power delivery)的技术。英特尔计划在今年年底实现同样的目标。这项技术将芯片的电力传输互连置于硅表面下方而不是上方。

台积电研究人员计算出,通过排除这些电源管道(conduit),最上层可以更好地连接到较小的混合键合 pad。使用 200 nm 键合 pad 的背面供电传输将大大降低 3D 连接的电容,以至于能量效率和信号速度的测量结果将比使用 400 nm 键合 pad 实现的效果好 8 倍。

晶圆上芯片混合键合比晶圆上晶圆键合更有用,因为它可以将一种尺寸的 die 放置到更大 die 的晶圆上。然而,可实现的连接密度低于晶圆上晶圆键合。

Chia 表示,在未来的某个时候,如果键合间距进一步缩小,「折叠(fold)」电路块可能会变得实用。块内现在的一些长连接可能能够采用垂直捷径,从而加快计算速度并降低功耗。

并且,混合键合可能不限于硅。CEA Leti 的 Souriau 表示:「如今,硅对硅晶圆取得了很大进展,但我们也在寻求氮化镓与硅晶圆和玻璃晶圆之间的混合键合…… 一切皆有可能。」他们甚至提出了量子计算芯片混合键合,其中涉及对准和键合超导铌,而不是铜。

参考内容:https://spectrum.ieee.org/hybrid-bonding