文章提出了一种新的训练方法,称为使用合成数据自我改进的扩散模型(SIMS),旨在解决生成模型因使用合成数据训练而可能导致的模型自噬障碍(MAD)问题。通过在生成过程中引入负向引导,SIMS能够避免模型陷入合成数据循环导致的性能退化,提升模型生成质量,并在多个图像生成任务中取得了优异的表现。此外,SIMS还具备调节合成数据分布的能力,有助于减轻模型偏见并确保生成结果的公平性。1 SIMS方法扩散模型
文章介绍了Mini-Omni模型,这是一种开源的端到端多模态大语言模型,旨在实现实时语音交互。为了解决现有模型在语音交互中的延迟问题,作者提出了文本指令的并行生成方法和批量并行解码策略,这些方法能够在保留原有语言模型推理能力的同时,显著提升语音输出的实时性和质量。此外,文章还介绍了"Any Model Can Talk"的训练方法和专门用于语音助手优化的VoiceAssistant-400K数据集
本文研究了视觉语言模型CLIP在处理人脸图像时的社会感知能力及其潜在偏见。研究者们构建了一个名为CausalFace的合成人脸数据集,通过系统地独立变化年龄、性别、人种、面部表情、照明和姿势等六个维度来评估模型的社会感知。他们发现,尽管CLIP是在多样化的图像和文本数据上训练的,但它能够像人类一样对人脸图像做出精细的社会判断。研究还揭示了CLIP在处理受法律保护的属性(年龄、性别和人种)时存在系统
本文介绍了一种新的因果效应推断方法,它不同于传统的先构建概率表达式再用观测数据评估的方法。该研究提出了一种替代方案,即直接从观测数据中学习因果贝叶斯网络(CBN)及其潜在变量,然后利用学习到的模型来回答因果效应查询。这种方法特别适用于离散的可观测变量。通过实验评估表明,这种基于模型完成的学习方法在大型模型中尤其有效,能够克服传统方法在计算上遇到的挑战。论文还对比分析了不同算法和技术的应用,包括期望
本文探讨了如何优化大型语言模型(LLM)中的提示(prompt),以更有效地利用这些黑盒模型的能力。传统的优化方法倾向于寻找全局最优解,但在某些情况下这种做法可能表现不佳。通过对提示优化进行深入的研究,作者发现了两个重要洞见:首先,相比于全局最优解的稀有性,局部最优解通常更加丰富且性能良好,这为高效的提示优化提供了更多可能性;其次,输入域的选择(包括提示的生成和表示方式)会影响高性能局部最优解的识
文章介绍了MLR-Copilot框架,这是一种利用大型语言模型(LLMs)来自动化机器学习研究中创意生成、实验设计和实施过程的方法。该框架分为三个阶段:首先通过阅读现有研究文献,使用LLM驱动的IdeaAgent来生成研究假设和实验计划;其次,ExperimentAgent将这些计划转换为可执行的代码,并检索原型代码、候选模型和数据;最后,在ExperimentAgent的管理下执行实验,通过集成
本文探讨了通过人机协作解决复杂问题的方法,特别是在专家领域内。尽管生成式AI技术,如大型语言模型(LLMs),已经取得了显著进展,但它们在解决需要高级专业知识的问题方面仍然存在局限性。文章指出,当前的AI系统在处理复杂解决方案(比如软件开发)、支持多样的人类偏好表达以及在交互环境中适应人类偏好等方面存在不足。为了解决这些问题,作者提出了一种称为HAI-Co2(Human-AI Co-constru
本文介绍了一种名为POEM(PrOmpting with Episodic Memory)的新方法,用于优化大型语言模型(LLM)的提示。POEM旨在解决现有提示优化方法资源消耗大或性能不足的问题,特别是在少量示例学习的情况下。该方法将提示优化作为强化学习问题处理,利用情景记忆存档输入数据、少量示例的不同排列及训练期间获得的奖励。在测试阶段,POEM会为每个测试查询选择能够产生最高奖励的示例序列。
文章聚焦于多模态大模型(MLMs)时代下具身人工智能(Embodied AI)领域。探讨了Embodied AI在实现人工通用智能(AGI)中的重要性和作为连接网络空间与物理世界的基础技术的角色。特别地,随着多模态大模型和世界模型(WMs)的出现,这些架构因其出色的感知、交互和推理能力而被视作具身代理的“大脑”。首先回顾了具身机器人和模拟器的代表工作,分析了其研究重点和局限性;随后,详细讨论了四个
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号