51c大模型~合集28

原创

qq6669490e54384 2024-08-09 14:34:36 ©著作权

文章标签 大模型 文章分类 深度学习人工智能

©著作权归作者所有：来自51CTO博客作者qq6669490e54384的原创作品，请联系作者获取转载授权，否则将追究法律责任

#奥特曼「草莓」模型跳票

，OpenAI凌晨大新闻，把网友整懵了,GPT-5 大模型？不要太着急。

昨晚，很多人彻夜未眠，都在等待 OpenAI 的「大新闻」。

因为在本周三，OpenAI 创始人、CEO 山姆・奥特曼突然在 X 上发了一张照片。

51c大模型~合集28_大模型

奥特曼虽然偶尔会发一些心灵鸡汤，但大多数的推文都是在宣传公司的产品，人们看法很快达成了一致——此中必有深意。

有人展开解读：四个红草莓，其中还有一个未成熟的青色草莓，这不妥妥地是在说下一代 AI 大模型 GPT-5 要来了吗？

奥特曼在回应网友时也在暗示，惊喜马上就来。

这激起了人们的好奇心，预测 GPT-5 发布的时间从草莓成熟所需要的 4 到 6 个星期，很快发展到了就在明天。

那就不用等了。今天凌晨，答案揭晓了。

OpenAI 发布了基于最新一代大模型 GPT-4o 的全面安全评估。

新发布的 GPT-4o System Card 是一份研究文件，概述了 OpenAI 在发布最新模型之前采取的安全措施和风险评估。

GPT-4o 于今年 5 月公开发布。在首次亮相之前，OpenAI 使用了一组外部红队或试图寻找系统弱点的安全专家来查找模型中的关键风险。

在如今的大模型领域，这是一种相当标准的做法。新的安全测试将更多的精力集中在 GPT-4o 的音频功能上，OpenAI 检查了一系列风险，例如 GPT-4o 可能会创建未经授权的某人声音克隆、色情和暴力内容或复制的受版权保护的音频片段（比如一段流行音乐）。如今结果的发布似乎意味着语音功能即将全面上线。

值得关注的是，根据 OpenAI 自己制定的框架，研究人员认为 GPT-4o 新增的语音对话能力在整体上并不会显著增加风险，但个在别领域上具有「中等」风险。

具体来说，总体风险水平取自四个总体类别中的最高风险评级：网络安全、生物威胁、说服力和模型自主性。除了说服力之外，所有这些都被认为风险较低，研究人员发现 GPT-4o 的一些写作样本可能比人类书写的文本更能左右读者的观点 —— 尽管该模型的样本总体上并不更有说服力。

51c大模型~合集28_大模型_02

51c大模型~合集28_大模型_03

GPT-4o 是 OpenAI 推出的最新一代自回归全向模型，它接受文本、音频、图像和视频的任意组合作为输入，并生成文本、音频和图像的任意组合的输出。它在文本、视觉和音频方面进行端到端训练，这意味着所有输入和输出都由同一个神经网络处理。

OpenAI 表示，GPT-4o 可以在短短 232 毫秒内响应音频输入，平均反应时间为 320 毫秒，与人类对话中的响应时间相似。它在英文和代码文本上的表现与 GPT-4 Turbo 相当，在非英语语言文本上的表现有显著提升，同时 API 速度也更快、价格便宜 50%。与现有模型相比，GPT-4o 在视觉和音频理解方面尤其出色。

OpenAI 发言人 Lindsay McCallum Rémy 表示，System Card 包括由内部团队创建的准备情况评估，以及 OpenAI 网站上列出的外部测试人员，即模型评估与威胁研究 (METR) 和 Apollo Research，这两家公司都在为 AI 系统建立评估。

51c大模型~合集28_大模型_04

评估方式。

这不是 OpenAI 发布的第一个 System Card。此前，GPT-4、具有视觉能力的 GPT-4 和 DALL-E 3 也经过了类似的测试，研究结果也已发布。但 OpenAI 此次发布新版本 dSystem Card，可能是由于一直以来自身在安全方面被批评做出的应对。

许多人呼吁 OpenAI 需要更加透明，不仅应该公开模型、训练数据（如是否使用 YouTube 视频训练），还包括其安全测试的过程。在 OpenAI 和许多领先的人工智能实验室所在的加州，州参议员正希望通过一项法案来规范大型语言模型，其中包括限制公司如果其人工智能被用于有害方式，将承担法律责任。但 GPT-4o System Card 带给外界的最大信息是，尽管有一群外部 Red Team 成员和测试人员，但其中很多都依赖于 OpenAI 自己来评估自己。

与此同时，OpenAI 也宣布任命卡耐基梅隆大学（CMU）机器学习系教授兼主任 Zico Kolter 为公司董事会成员。Zico 的工作主要集中在人工智能安全性、一致性和机器学习分类器的稳健性上，专业知识涵盖新型深度网络架构、数据理解对模型影响的创新方法，以及评估 AI 模型稳健性的自动化方法。

果然网友们纷纷表示「不满意」。有人发问，你要发的「草莓」（可能的下一代大模型）呢？PS：果然没有草莓。

还有人表示，自己已经听了太多关于安全框架的东西了。

更多人开启了对 OpenAI 的打趣。

然而，在研究人员自己看来，OpenAI 的进展似乎远超预料。OpenAI 的联合创始人 Greg Brockman 刚刚发了推，表示我虽然刚刚开始休假，却好像已经错过了太多（Fear of Missing Out）。

「过去 9 年，我把生命都奉献给了 OpenAI，覆盖了我的整个婚姻阶段。工作对我来说很重要，但生活也一样。我觉得休息一下没问题，部分原因是我们的研究、安全和产品进展非常强劲。」

不过与此同时，最近几天在 UC Berkeley 建立的 LYSMS 大模型竞技场中的 anonymous-chatbot 已被广范认为是 OpenAI 的新模型。

我们或许不需要等太久。

参考内容：

https://openai.com/index/gpt-4o-system-card/

https://openai.com/index/zico-kolter-joins-openais-board-of-directors/

https://www.theverge.com/2024/8/8/24216193/openai-safety-assessment-gpt-4o

https://x.com/gdb/status/1821716026448633933

#DeepMind机器人

打乒乓球，正手、反手溜到飞起，全胜人类初学者

但可能打不过公园里的老大爷？

巴黎奥运会正在如火如荼地进行中，乒乓球项目备受关注。与此同时，机器人打乒乓球也取得了新突破。

刚刚，DeepMind 提出了第一个在竞技乒乓球比赛中达到人类业余选手水平的学习型机器人智能体。

论文地址：https://arxiv.org/pdf/2408.03906

DeepMind 这个机器人打乒乓球什么水平呢？大概和人类业余选手不相上下：

51c大模型~合集28_大模型_05

正手反手都会：

51c大模型~合集28_大模型_06

对手采用多种打法，该机器人也能招架得住：

51c大模型~合集28_大模型_07

接不同旋转的发球：

51c大模型~合集28_大模型_08

不过，比赛激烈程度似乎不如公园老大爷对战。

对机器人来说，乒乓球运动需要掌握复杂的低水平技能和策略性玩法，需要长期训练。DeepMind 认为战略上次优但可以熟练地执行低水平技能可能是更好的选择。这使乒乓球与国际象棋、围棋等纯粹的战略游戏区分开来。

因此，乒乓球是提升机器人能力的一个有价值的基准，包括高速运动、实时精确和战略决策、系统设计以及与人类对手直接竞争。

对于这一点，Google DeepMind 首席科学家称赞道：「乒乓球机器人将有助于我们解决高速控制和感知问题。」

该研究进行了 29 场机器人与人类的乒乓球比赛，其中机器人获胜 45% (13/29)。所有人类选手都是机器人未见过的玩家，从初学者到锦标赛选手能力不等。

虽然该机器人输掉了所有与最高级别玩家的比赛，但它赢得了 100% 的与初学者的比赛，在与中级选手的对战中赢得了 55% 的比赛，展现出人类业余选手的水平。

总的来说，该研究的贡献包括：

提出一个分层和模块化的策略架构，其中包括：
低级控制器及其详细的技能描述器，这些描述器对智能体的能力进行建模并有助于弥合模拟与真实的差距；
选择低级技能的高级控制器。
实现零样本模拟到真实的技术，包括定义基于现实世界的任务分布的迭代方法，并定义自动课程（automatic curriculum）。
实时适应未见过的对手。

方法介绍

该智能体由一个低级技能库和一个高级控制器组成。低级技能库专注于乒乓球的某个特定方面，例如正手上旋球、反手瞄准或正手发球。除了包含训练策略，该研究还在线下和线上收集和存储有关每个低级技能的优势、劣势和局限性的信息。而负责协调低级技能的高级控制器会根据当前游戏统计数据、技能描述选择最佳技能。

此外，该研究还收集了少量的人类和人类对打的比赛数据，作为初始任务条件的种子，数据集包括位置、速度和旋转的信息。然后使用强化学习在模拟环境中训练智能体，并采用一些现有技术，将策略无缝部署到真实硬件中。

51c大模型~合集28_大模型_09

该智能体与人类一起对打以生成更多训练数据，随着机器人的持续学习，游戏标准变得越来越复杂，以此让智能体学习越来越复杂的动作。这种混合的「模拟 - 现实」循环创建了一个自动教学，使机器人的技能随着时间的推移不断提高。

51c大模型~合集28_大模型_10

分层控制

分层控制主要包含以下部分：

乒乓球打法：高级控制器（HLC，high-level controller）首先决定使用哪种打法（正手还是反手）；
调整：根据与对手比赛中的统计数据，在线维护每个 HLC 的偏好（H 值）；
选择最有效的技能：HLC 根据调整后的 H 值对入围的 LLC 进行抽样；
更新：H 值和对手统计数据会持续更新，直至比赛结束。

51c大模型~合集28_大模型_11

结果

研究者将该智能体与 29 名不同水平的乒乓选手进行了对比，选手包括初学者、中级、高级和高级 + 技能。人类选手按照标准乒乓球规则与机器人进行了三场比赛，但由于机器人无法发球，因此规则稍作修改。

面对所有对手，机器人赢得了 45% 的比赛（match）和 46% 的单局胜利（game）。按照技能水平细分，机器人赢得了与初学者的所有比赛，输掉了与高级和高级 + 选手的所有比赛，赢得了 55% 与中级选手的比赛。这表明该智能体在乒乓球回合中达到了中级人类选手的水平。

机器人打不过高级玩家的原因在于物理和技术的限制，包括反应速度，相机感应能力，旋转处理等，这是很难在模拟环境中准确建模的。

51c大模型~合集28_大模型_12

与机器人对打，也很吸引人

研究参与者表示，他们非常享受与机器人一起对打，并在「有趣」和「吸引人」方面给予了机器人很高的评价。他们也一致表示「非常愿意」再次与机器人对打。在自由时间里，他们平均在 5 分钟的时间里与机器人玩了 4 分 06 秒。

51c大模型~合集28_大模型_13

51c大模型~合集28_大模型_14

机器人不擅长下旋球

技能最好的参与者提到，机器人不擅长处理下旋。为了测试这一观察结果，研究人员根据球的旋转绘制了机器人的着陆率，根据结果可以看到，机器人在面对更多的下旋球时，着陆率大幅下降。这一缺陷部分是由于机器人在处理低球时，为了避免与桌子碰撞导致的，其次是实时确定球的旋转确实很难。

51c大模型~合集28_大模型_15

参考链接：

https://sites.google.com/view/competitive-robot-table-tennis/home?utm_source&utm_medium&utm_campaign&utm_content&pli=1

#SIGGRAPH上首个Real-Time Live的中国团队用生成式AI创建3D世界

两篇论文同时获最佳论文荣誉提名

专注于计算机图形学的全球学术顶会 SIGGRAPH，正在出现新的趋势。

在上周举行的 SIGGRAPH 2024 大会上，最佳论文等奖项中，来自上海科技大学 MARS 实验室的团队同时拿到两篇最佳论文荣誉提名，其研究成果亦在快速走向产业化。

作者使用生成模型的方法，开启了将想象力直接转化为复杂 3D 模型的新路。

拿到最佳论文提名的两篇论文——CLAY 和 DressCode，二者的主题分别是 3D 生成和 3D 服装生成。

在 SIGGARPH 的 Real-Time Live 环节，上科大这一团队更实时展示了基于这两项工作的一系列应用场景。

论文作者，研究生二年级学生，同时也是初创公司影眸科技的 CTO 张启煊首先演示了基于 CLAY 的 3D 生成解决方案。影眸团队去年用简单的文字提示词（Prompt）给扎克伯格和黄仁勋构建了真实风格的 3D 模型，成为第一个登上 SIGGRAPH Real-Time Live 的中国团队。今年他们的 3D 生成方案，通过单张图片作为输入，可以生成出小扎和老黄不同风格的卡通形象。

51c大模型~合集28_大模型_16

这些生成内容的背后是新一代 3D AI 引擎 Rodin，致敬著名雕塑家罗丹。现场展示的 3D 内容都是由用户上传的单张图片直接生成的，Rodin 可以进一步生成 PBR 纹理和四角面，以方便艺术家进一步修改和使用。

51c大模型~合集28_大模型_17

通过 3D ControlNet，Rodin 可以控制 AI 生成的形状。仅需提供简单的几何元素作为指导，就可以将其转换为体素，并根据参考图片的语义信息将其转换为所需要的 3D 资产。

51c大模型~合集28_大模型_18

Rodin 也支持直接手绘的图片，甚至是简单涂鸦。几张照片生成 3D 人物，儿童涂鸦生成树木作为背景，开发人员现场实时操作，一分钟内便搭建了一个完整的 3D 建模的场景。当主持人问到中间的小怪物是谁时，张启煊风趣的说，这就是 AI。

51c大模型~合集28_大模型_19

说起来，3D 模型生成的上一次出圈其实也是在 SIGGRAPH 上：在 2021 年，英伟达在这个舞台上介绍了给黄仁勋制作 3D 模型的方法，以假乱真的效果震撼了世界。

彼时的 3D 模型生成被认为对于数字人、虚拟现实等技术而言至关重要。但毫无疑问，高精度人体扫描 + 深度学习重建方式的高成本，决定了它注定不会成为投入大规模生产的方式。

使用 AI 生成或许才是更好的路径。然而此前在这个方向上，人们提出的技术一直「叫好不叫座」。

对实际应用而言，这些方法存在一些挑战：3D 是一个工业问题，模型仅仅在视觉上表现好是不够的，还需要符合特定的工业标准，比如材质如何表现，面片规划、结构如何合理。如果不能和人类工业标准对齐，那生成结果就需要大量调整，难以应用于生产端。

就像大语言模型（LLM）需要对齐人类的价值观，3D 生成的 AI 模型需要对齐复杂的 3D 工业标准。

更实用的方案已经出现：3D 原生

上科大 MARS 实验室获得最佳论文提名的工作之一——CLAY 让行业看到了上述问题的一个可行的解决思路，即 3D 原生。

我们知道，最近两年，3D 生成的技术路线大致可以分为两类：2D 升维和原生 3D。

2D 升维是通过 2D 扩散模型，结合 NeRF 等方法实现三维重建的过程。由于可以利用大量的 2D 图像数据进行训练，这类模型往往能够生成多样化的结果。但又因为 2D 扩散模型的 3D 先验能力不足，这类模型对 3D 世界的理解能力有限，容易生成几何结构不合理的结果（比如有多个头的人或动物）。

近期的一系列多视角重建工作通过把 3D 资产的多视角 2D 图像加入 2D 扩散模型的训练数据，在一定程度上缓解了这一问题。但局限性在于，这类方法的起点是 2D 图像，因此它们关注的都是生成图像的质量，而不是试图保持几何保真度，所以生成的几何图形经常存在不完整和缺乏细节的问题。

换句话说，2D 数据终究只记录了真实世界的一个侧面，或者说投影，再多角度的图像也无法完整描述一个三维内容，因此模型学到的东西依旧存在很多信息缺失，生成结果还是需要大量修正，难以满足工业标准。

考虑到这些局限，CLAY 的研究团队选择了另一条路 ——3D 原生。

这一路线直接从 3D 数据集训练生成模型，从各种 3D 几何形状中提取丰富的 3D 先验。因此，模型可以更好地「理解」并保留几何特征。

不过，这类模型也要足够大才能「涌现」出强大的生成能力，而更大的模型需要在更大的数据集上进行训练。众所周知，高质量的 3D 数据集是非常稀缺且昂贵的，这是原生 3D 路线首先要解决的问题。

在 CLAY 这篇论文中，研究者采用定制的数据处理流程来挖掘多种 3D 数据集，并提出了有效的技术来扩展（scale up）生成模型。

具体来说，他们的数据处理流程从一个定制的网格重构（remeshing）算法开始，将 3D 数据转换为水密性网格（watertight meshes），细致地保留了诸如硬边和平整表面等重要几何特征。此外，他们还利用 GPT-4V 创建了细致的标注，突出显示重要的几何特性。

众多数据集经过上述处理流程后，汇成了 CLAY 模型训练所使用的超大型 3D 模型数据集。此前，由于格式不同，缺乏一致性，这些数据集从来没有一起用于训练 3D 生成模型。处理后的组合数据集保持了一致的表示和连贯的注释，可以极大地提高生成模型的泛化性。

利用该数据集训练出的 CLAY 包含一个参数量高达 15 亿的 3D 生成模型。为了保证从数据集转化到隐式表达再到输出之间，信息损失尽可能小，他们花了很长时间去筛选、改良，最终探索出了一套全新、高效的 3D 表达方式。具体来说，他们采用了 3DShape2VecSet 中的神经场设计来描述连续完整的表面，并结合了一个特制的多分辨率几何 VAE，用于处理不同分辨率的点云，让它能够自适应隐向量尺寸（latent size）。

51c大模型~合集28_大模型_20

为了便于模型的扩展，CLAY 采用了一个极简的潜在扩散 Transformer（DiT）。它由 Transformer 构成，能够自适应隐向量尺寸，具有大模型化能力（scalability）。此外，CLAY 还引入了一种渐进式训练方案，通过逐步增加隐向量尺寸和模型参数来训练。

51c大模型~合集28_大模型_21

最终，CLAY 实现了对几何的精确控制，使用者可以通过调整提示词控制几何生成的复杂度、风格等（甚至角色）。与以往的方法相比，CLAY 能迅速地生成细致的几何，很好地保证了诸如平整表面和结构完整性等重要几何特征。

51c大模型~合集28_大模型_22

论文中的一些结果充分展示了原生 3D 路径的优势。下图展示了研究者从数据集中检索到的前三个最邻近样本。CLAY 生成的高质量几何体与提示词匹配，但与数据集中的样本有所不同，展现出了足够的丰富度，具备大模型涌现能力的特点。

51c大模型~合集28_大模型_23

为了使生成的数字资产能够直接用于现有的 CG 生产管线，研究者进一步采用了一套两阶段方案：

1、几何优化确保结构完整性和兼容性，同时在美观和功能上对模型的形态进行细化，如四边面化、UV 展开等；

2、材质合成通过真实的纹理赋予模型逼真的质感。这些步骤共同将粗糙的网格转变为在数字环境中更可用的资产。

51c大模型~合集28_大模型_24

其中，第二个阶段涉及一个近 10 亿参数的多视图材质扩散模型。在进行网格四边面化与 UV 展开之后，它通过多视图方法生成 PBR 材质，随后将其反向投影到 UV maps 上。相比先前的方法，该模型生成的 PBR 材质更加真实，最终实现逼真的渲染效果。

51c大模型~合集28_大模型_25

为了让 CLAY 支持更多任务，研究者还设计了 3D 版 ControlNet，极简的架构使它能够高效地支持各种不同模态的条件（Condition）控制。他们实现了几种用户可以轻松提供的示例条件，包括文本（原生支持），以及图像 / 草图、体素 (Voxel)、多视图图像（Multiview Images）、点云（Point Cloud）、边界框（BoundingBox）和带有边界框的部分点云。这些条件可以单独应用，也可以组合应用，使模型能够基于单一条件忠实生成内容，或结合多种条件创建具有风格和用户控制的 3D 内容，提供广泛的创作可能性。

51c大模型~合集28_大模型_26

此外，CLAY 还直接支持在 DiT 的注意力层 (attention layers) 上进行 Low-Rank Adaptation (LoRA)。这允许高效的微调，使生成的 3D 内容能够针对特定风格。

51c大模型~合集28_大模型_27

从这些设计不难看出，CLAY 的设计从一开始就瞄准了应用场景，这和一些纯学术研究有很大的不同。

这也让该模型实现了快速落地：目前 Rodin 已经成为很多 3D 开发者的常用 3D 生成器。

51c大模型~合集28_大模型_28

可点击阅读原文，访问 Rodin 体验产品（建议 PC 端打开）。

国内外很多行业使用者反馈认为，Rodin 生成的 3D 资产几何科学、布线规则、材质贴图精致，而且可以直接被导入现有的主流渲染引擎，使用起来非常方便，是一款接近 Production-Ready 的 3D 生成应用。

贡献了 CLAY 的上科大 MARS 实验室团队，自 2023 年作为 SIGGRAPH 创立 50 年来首个入选 Real-Time Live 环节的中国团队，已经连续第二年站上这个舞台。

51c大模型~合集28_大模型_29

影眸科技在 3D 原生 AI 的道路上探索，构建起了接近 Production-Ready 的 3D 产品，大幅降低了 3D 创造的门槛。

基于 CLAY 的 3D 生成技术不仅指引着业界方向，还将对图像和视频的生成起到积极作用。因为从信息熵的角度来说，你提供的信息越少，模型发挥的空间就越大。而 3D 模型化可以锚定其收敛的方向，提高图像、视频生成的可控性。

不过，3D 领域本身不像图像和视频那么简单，只有补齐完整链条，用户才会真正开始接受 3D + AI 的能力。这部分工作可能通过合作伙伴的 API，或者由其团队自行完成。

期待未来，新技术的进一步落地。

#RLHF不是真正的强化学习

Karpathy观点惹争议，谷歌、Meta下场反对

RLHF 与 RL 到底能不能归属为一类，看来大家还是有不一样的看法。

AI 大牛 Karpathy 又来科普人工智能概念了。

昨日，他发推表示，「基于人类反馈的强化学习（RLHF）只是勉强算得上是强化学习（RL）。」

Karpathy 的全文解释如下：

RLHF 是训练大语言模型（LLM）的第三个（也是最后一个）主要阶段，前两个阶段分别是预训练和监督微调（SFT）。我认为 RLHF 只是勉强算得上 RL，它没有得到广泛的认可。RL 很强大，但 RLHF 却不然。

让我们看看 AlphaGo 的例子，它是使用真正的 RL 训练的。计算机玩围棋（Go）游戏，并在实现奖励函数最大化的回合（赢得比赛）中训练，最终超越了最厉害的人类棋手。AlphaGo 没有使用 RLHF 进行训练，如果它用了，效果就不会那么好。

用 RLHF 训练 AlphaGo 会是什么样子呢？首先，你要给人类标注员两个围棋棋盘的状态，然后问他们更喜欢哪一种：

然后你会收集到 10 万个类似的比较，并训练一个「奖励模型」（RM）神经网络来模拟人类对棋盘状态的氛围检查（vibe check）。你要训练它同意人类判断的平均水平。一旦我们有了奖励模型氛围检查，你就可以针对此运行 RL，学习如何下出带来良好氛围的棋步。显然，这不会在围棋中产生任何太有趣的结果。

这主要有以下两个根本的、独立的原因：

1) 氛围可能会产生误导，这不是实际奖励（赢得比赛）。这是一个糟糕的智能体目标。更糟糕的是，2) 你会发现你的 RL 优化偏离了轨道，因为它很快发现棋盘状态与奖励模型相反。请记住，奖励模型是一个庞大的神经网络，使用数十亿参数来模拟氛围。有些棋盘状态超出了自身训练数据的分布范围，实际上并不是良好状态，但却从奖励模型中获得了非常高的奖励。

出于同样的原因，我有时感到惊讶的一点是 RLHF 工作竟然适用于 LLM。我们为 LLM 训练的奖励模型只是以完全相同的方式进行氛围检查，它会对人类评分者在统计学上看起来喜欢的助手响应给出高分。这不是正确解决问题的实际目标，而是人类认为好的智能体目标。

其次，你甚至无法长时间地运行 RLHF，因为你的模型很快学会以游戏奖励模型的方式来做出响应。这些预测看起来真的非常奇怪，你会看到你的 LLM 助手开始对很多 prompt 做出无意义的响应，比如「The the the the the the」。这在你看来是荒谬的，但随后你查看奖励模型氛围检查，却发现出于某种原因，奖励模型会认为这些看起来很棒。

你的 LLM 发现了一个对抗性示例，它超出了奖励模型训练数据的范围，处于未定义的范围。你可以通过反复讲这些特定示例添加到训练集来缓解这一情况，但下次仍会找到其他对抗性示例。你甚至无法运行 RLHF 进行很多优化步骤。你执行了几百或几千步之后必须调用它，因为你的优化将开始与奖励模型博弈。这并不是 AlphaGo 那样的 RL。

不过，RLHF 是构建 LLM 助手的一个非常有用的步骤。我认为这有几个微妙的原因，其中我最喜欢的一点是通过 RLHF，LLM 助手会从生成器 - 判别器的 gap 中受益。也就是说，对于很多问题类型，人类标注员从几个候选答案中选出最佳答案要比从头写出理想答案容易得多。一个很好的例子是像「生成一首回形针诗」这样的 prompt。一个普通的人类标注员很难从头写出一首好诗来作为监督微调示例，但可以在给定几个候选答案（诗）的情况下选出一首较好的。因此 RLHF 是一种从人类监督的「容易度」差距中获益的方式。

还有一些其他原因，比如 RLHF 有助于缓解幻觉。如果奖励模型是一个足够强大的模型，能够在训练期间发现 LLM 编造的东西，则可以学会用低奖励来惩罚这种行为，教会模型在不确定时避免冒险获取事实性知识。但令人满意的幻觉缓解和处理是另外的事情，这里不做延伸。总之，RLHF 确实有用，但它不是 RL。

到目前为止，还没有一个针对 LLM 的生产级 RL 在开放域得到令人信服的实现和大规模展示。直观地说，这是因为在开放式问题解决任务中获得实际奖励（即赢得比赛）非常困难。在围棋这类封闭、类博弈的环境中，一切都很有趣。其中动态受到限制，奖励函数评估成本很低，不可能进行博弈。

但是，你如何为总结一篇文章提供客观的奖励？或者回答关于某个 pip 安装的模棱两可的问题？或者讲个笑话？或者将一些 Java 代码重写为 Python？实现这些在原则上并非不可能，但也非易事，需要一些创造性思维。无论谁能令人信服地解决这个问题，都将能够运行真正的 RL，使得 AlphaGo 在围棋中击败了人类。有了 RL，LLM 在解决开放域问题中才有可能真正击败人类。

Karpathy 的观点得到一些人的附议，并指出 RLHF 与 RL 的更多差异。比如 RLHF 没有进行适当的搜索，主要学习利用预训练轨迹的子集。相比之下，在进行适当的 RL 时，离散动作分布通常会通过在损失函数中添加熵项来增噪。Kaypathy 认为，原则上你可以轻松地为 RLHF 目标添加熵奖励，这在 RL 中也经常这样做。但实际上似乎并不多见。

谷歌研究科学家 Kevin Patrick Murphy 也完全同意 Karpathy 的观点。他认为 RLHF 更像是一个具有字符串值操作的上下文「强盗」，其中 prompt 是上下文，所以不能称为完整的 RL。此外将日常任务的奖励形式化是困难的部分（他认为或许可以叫做对齐）。

图源：https://x.com/sirbayes/status/1821421936045597022

不过，另一位谷歌高级研究科学家 Natasha Jaques 认为 Karpathy 的观点是错误的。她认为智能体在与人互动时，给出人类喜欢的答案才是真正的目标。

超出分布范围并不是 RLHF 独有的问题。如果仅仅因为人类反馈比运行无限的围棋模拟更受限，并不意味着这不是一个不值得解决的问题，只会让它成为一个更具挑战性的问题。她希望这成为一个更有影响力的问题，毕竟在 LLM 中减少偏见比在围棋中击败人类更有意义。使用贬义的话术，比如 Karpathy 说奖励模型是一种氛围检查，这是愚蠢的。你可以用同样的论点来反对价值估计。

她觉得 Karpathy 的观点只会阻止人们从事 RLHF 工作，而它是目前唯一可行的减轻 LLM 偏见和幻觉可能造成严重伤害的方法。

图源：https://x.com/natashajaques/status/1821631137590259979

Meta 研究者 Pierluca D'Oro 不同意 Karpathy 的主要观点，但同意「RLHF is just barely RL」这一标题。他认为通常用于微调 LLM 的 RLHF 几乎不能算是 RL。

主要观点如下：在强化学习中，追求一个「完美的奖励」概念是不现实的，因为大多数复杂任务中，除了目标的重要性，执行方式同样重要。尽管在围棋等明确规则的任务中，RL 表现出色。但在涉及复杂行为时，传统 RL 的奖励机制可能无法满足需求。他主张研究如何在不完美的奖励模型下提高 RL 的性能，并强调了反馈循环、鲁棒 RL 机制以及人机协作的重要性。

图源：https://x.com/proceduralia/status/1821560990091128943

你赞同谁的观点呢？欢迎在评论区留言。开发板商城天皓智联 TB上有视觉设备哦支持AI相关~ 大模型相关也可用~

#直播打游戏的马斯克

TED演讲谷歌小姐姐到底是不是真人？网友猜到怀疑人生

眼见为实？在AI时代，这句话该过时了。

AI正掀起一场「造假」新风暴。

近日，一项名为Deep Live Cam的直播换脸项目火了，在Github上狂揽5.8k Star量，一跃成为Github热门榜单第一。

先看看它的品质，换脸成马斯克，360 度打光都没有违和感。

有网友惊呼，太疯狂了，还以为这就是马斯克的游戏直播。

此外，AI 生成的谷歌小姐姐还登上 TED 进行演讲，那逼真程度，一个字，绝！

曾经科幻片中的场景，如今渐成现实，黑镜来得太快，不得不让人担忧。

正如 AI 大牛 Anderj Karpathy 所言，要行善，未来的 AI 们都看着呢。

人人都是董宇辉的时代到来了！

AI 造假简直「逆天」。

这项名为 Deep Live Cam 的项目只需要一张图片，就能一键进行实时直播换脸。

Catena Labs 首席产品官 @jay_wooow 第一时间赶到「吃瓜」前线。

他本人长这样：

但当他打开电脑摄像头，仅花 5 分钟安装了 Deep Live Cam，他的面孔瞬间被替换成 JD Vance：

英伦大帅哥休・格兰特（Hugh Grant）：

还有「蜥蜴人」扎克伯格（Zuckerburg））：

以及帅到老的乔治・克鲁尼（George Clooney）：

无论是做鬼脸、挑眉毛，左右摇头，还是切换各种刁钻角度，脸部都丝毫没崩，也没有时间延迟。

此外，它还提供实时预览功能，能够立即看到替换效果，同时支持实时人脸增强、处理同一图像或视频中的多张人脸等。

这似乎意味着，以后我们参加在线会议、直播带货时可以用任何人的面孔示人。

因此有网友评论称，以后开会可以换成总公司 CEO 的脸了。

不过，也有不少网友担心，不法分子会趁机设计疯狂的骗局，假新闻也将更上一层楼。

Deep Live Cam 开发者意识到潜在的滥用风险，承诺采取预防措施。该应用内置检查机制，避免处理裸露、暴力或战争等敏感内容。如有必要，他们也将会在输出内容上添加水印。

开发者还在 Github 上详细介绍了 Deep Live Cam 的安装运行攻略。感兴趣的朋友可以前往查看：

项目地址：https://github.com/hacksider/Deep-Live-Cam?tab=readme-ov-file

谷歌小姐姐真假难辨

与此同时，一位 Google 小姐姐开始刷爆社交媒体。只见一位带着谷歌工作证的小姐姐在 TED 中游刃有余的进行着演讲，时不时的和现场观众互动，表现的非常自然。

但是，这位小姐姐并不是真人，而是由 AI 生成的。

这个消息让人一时难以接受，怎么说，现在的 AI 搞得视频已经不可信了，眼见不一定为真，视频确实可以 P。

就连小细节也是拿捏的非常精准。不过从视频来看，工作牌还是有些瑕疵的，当人物晃动身体时，我们还是能看到白色部分的伪影。

虽然有些小缺点，但也不妨碍 AI 技术正变得越来越先进，难怪网友发出这样的感慨「现在的 FLUX + Runway Gen-3 Alpha 就是一个杀手组合。（上述视频就是这个组合生成的）」。

Kling 版本是下面这样的：

来源 https://xom/jesselaunz/status/1822009842317558058

如果你觉得干巴巴的视频没有配音很难受，别急，配完音之后是这样子的：

来源：https://x.com/srkndyck/status/1822008566091248017

Luma Dream Machine 效果是这样子的：

来源：https://x.com/Kyrannio/status/1821895489840955421

但是，细看的话，生成的手指还是有缺陷，出现了三手指。

据了解，上述视频都是在这张图的基础上生成的，图像生成用的是 Flux + LoRA。

来源：https://www.linkedin.com/feed/update/urn:li:activity:7227710205487128576/

图片是一位名叫 Leo Kadieff 的小哥在领英上率先发出，他表示这些图片没有经过放大或其他处理，是 Flux +LoRA 的原始输出。

小哥已经在庆祝关于这张图片的帖子已经在 X 上炸锅了。

回想三年前，图片生成还停留在牛油果座椅，现在已经能生成真假难辨的人物图片了。

图源：https://x.com/javilopen/status/1821883326375825609

不仅能生成人物视频，Flux + Gen 3 这个组合生成的动物世界也让人真假难辨。

在视频生成如此爆火的今天，就算你有一双火眼金睛，可能也会面临一个真假难辨的困境。

那些 AI 造假惹出的乱子

Deepfake 自诞生起就伴随着巨大的争议，甚至搞出了不少乱子。

例如，利用 AI 搞「黄色」，侵犯他人隐私和肖像权。

今年年初时，一组 AI 换脸生成的霉霉（泰勒・斯威夫特）不雅照在社交平台上疯传，甚至惊动了美国白宫，发言人让・皮埃尔（Karine Jean-Pierre）表示：「我们对此类虚假图像的流传感到担忧。」

再如，AI 换脸技术让社交媒体充斥着假新闻。

今年的 Met Gala 红毯上，凯蒂・佩里和蕾哈娜明明未现身，但 AI 生成的红毯照满天飞，如果不细看很难找出破绽。（以下照片均为 AI 生成）

还有「失踪」几个月的凯特王妃突然现身，「真假难辨」的图片和视频引得全世界瓜民搬着板凳来「找茬」。

AI 诈骗的案例更是比比皆是。

今年 1 月份，一家跨国公司成了 deepfake 诈骗的目标，其香港员工被骗了 2 亿港元。

这名员工受邀参加总部首席财务官发起的「多人视频会议」，并按照要求先后将 2 亿港元分 15 次转到 5 个账户内。得知受骗后，他才发现，那场会议中除了他自己，其它与会人员全部是经过「AI 换脸」和「AI 换声」的诈骗团队。

AI 诈骗猖狂的程度，连巴菲特都坐不住了。他在 2024 年度股东大会上表示，「基于深度伪造技术带来的 AI 欺诈投资可能将会成为一个『不断增长的行业』」。

或许以后，大家都不能再相信视频通话，或者仅通过照片来确认身份，如果好朋友借钱，最保险的方式将是亲自见面。

参考链接：

https://x.com/jesselaunz/status/1822009842317558058

https://x.com/tonyzhu1984/status/1822036026661224945

https://amp.cnn.com/cnn/2024/05/16/tech/arup-deepfake-scam-loss-hong-kong-intl-hnk

上一篇：51c嵌入式~IO合集2

下一篇：51c视觉~合集15

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯