文章提出了“Gödel Agent”,一种新型的自我递归改进智能体框架,旨在克服传统智能体系统的局限性。该框架通过大型语言模型(LLM)实现智能体的自我感知、自我修改和持续优化,能够在没有人工设计的前提下,根据高层目标动态调整自身逻辑和行为。实验结果显示,Gödel Agent在多项任务中表现优于传统的手工设计智能体和固定的元学习优化智能体,展现出更高的性能、效率和适应性。这一研究为未来智能体的自
文章提出了一种名为MetaRLEC的新方法,其基于元强化学习(Meta-Reinforcement Learning,MetaRLEC)来发现脑有效连接(EC)网络。该方法采用编码器-解码器框架,其中编码器利用变换器将噪声较大的功能性磁共振成像(fMRI)数据转换为状态嵌入,解码器使用双向长短期记忆网络(BiLSTM)从中发现脑区间的依赖关系并生成EC网络。通过引入批评者网络来评估生成的行动并激励
本文介绍了一种名为DocFormerv2的多模态Transformer模型,它专为视觉文档理解(VDU)而设计。该模型可以处理视觉、语言和空间特征,利用编码器-解码器架构,并通过不对称地使用新颖的无监督任务进行预训练,以促进不同模态间局部特征的对齐。实验结果表明,DocFormerv2在包括表格事实验证、信息抽取和文档VQA在内的多个基准测试中表现优异,甚至在某些任务上超过了规模更大的模型。此外,
文章研究了如何通过整合求解器生成的反馈(如碰撞提示、自由空间提示等)来提升大型语言模型(LLMs)在解决经典机器人路径规划任务中的表现。作者提出了四种提示策略,并评估了三种不同LLMs的性能。实验结果表明,求解器生成的反馈能够显著提高LLMs解决中等难度问题的能力,但在面对复杂的多障碍问题时,LLMs的表现仍然有限。此外,作者还分析了不同提示策略的效果,发现图像提示对性能提升没有明显帮助,而微调可
文章介绍了DreamStyler,这是一个创新的艺术图像合成框架,它不仅能够根据文本描述生成图像,还能执行风格迁移任务。通过扩展文本嵌入空间至去噪时间步域,DreamStyler提出了多阶段文本反转技术,以优化整个艺术图像合成过程。此外,它引入了一种上下文感知提示增强的方法来分离样式和内容信息,从而更精确地反映参考样式的特征。实验结果表明,DreamStyler在多个场景中表现优异,具有在艺术创作
论文探讨了视觉语言模型(VLMs)及其在无监督域适应(UDA)中的应用,并引入了一种名为提示分布对齐(Prompt-based Distribution Alignment,PDA)的方法,该方法采用双分支训练策略,包括基础分支和对齐分支。基础分支专注于将类别相关的表示整合到提示中,确保不同类别的区分性;而为了进一步缩小领域差异,对齐分支则构建了源域和目标域的特征库,并提出了图像引导的特征调优(I
文章介绍了一种基于信息瓶颈理论的深度伪造(Deepfake)检测新框架,旨在捕捉更广泛的伪造线索。该方法通过提取多个不重叠的局部表示,并将其融合成一个全局的语义丰富特征。为了确保局部特征的独立性同时保留与任务相关的信息,作者推导出了局部信息损失。此外,作者还进一步分析了全局信息目标,以整合局部特征为一个充分且纯净的全局表示用于分类。实验结果表明,该方法在五个基准数据集上取得了最先进的同数据集及跨数
文章研究了视觉语言模型(VLMs)在动作角色扮演游戏(ARPG),特别是《黑神话:悟空》中的应用潜力,并提出了一个视觉动作角色扮演(Vision Action Role-Playing:VARP)智能体框架,它包括动作规划系统和人类引导的轨迹系统,旨在通过仅使用视觉输入来执行复杂的动作输出,在游戏任务中取得了一定的成功率,尤其是在战斗场景上。为了推动这一领域的发展,研究人员还公开了一个包含游戏操作
文章介绍了一种称为VMRNN(Vision Mamba RNN)的新模型,该模型通过整合Vision Mamba模块与长短期记忆网络(LSTM),以应对时空预测挑战,特别是在处理视频序列预测等任务时,能够有效地建模长依赖关系并保持计算效率。文章强调了传统的卷积神经网络(CNNs)和视觉变换器(ViTs)在处理此类任务时的局限性,如感受野受限及计算需求高,并展示了VMRNN在网络规模较小的情况下,在
本文介绍了一种名为ProAgent的新框架,它利用大型语言模型(LLMs)来构建能够在多智能体系统中有效合作的任务执行者。面对传统的学习方法难以应对与未知队友进行零样本协调的问题,ProAgent通过分析当前情境、推断队友意图并根据实际互动调整策略,展现了出色的适应性和协调能力。该框架不仅提高了任务表现,而且由于基于自然语言处理,使得其推理和计划过程具有良好的可解释性和人类友好性。实验结果显示,在
论文呼吁将具身人工智能(Embodied AI, E-AI)作为实现通用人工智能(AGI)的重要路径,区别于目前主流的大型语言模型(LLMs)。论文指出,真正的智能源于与环境的交互,而不仅仅是静态的数据处理。E-AI强调的是从感知、行动、记忆和学习等多个方面来构建智能体,这一框架与Friston的主动推断原则相吻合,旨在推动E-AI的发展。然而,E-AI也面临着诸多挑战,包括需要建立新的学习理论以
本文介绍了通测试(Tong Test),这是一种评价人工通用智能(AGI)的新方法,它强调在动态实体化的物理和社会互动(DEPSI)环境中评估AI的价值观和能力多维层次,并提供了一个实践路径,用于构建包含无限任务的实体平台,在此平台上可以现场评估AI算法并与人类互动。整个研究旨在为AGI的发展提供一个标准化、量化且客观的评价体系,并为AI算法的发展提供理论指导。1 具身动态环境中的AGI评估在能够
文章介绍了一种称为IDEAL(Identity-Aware Learning)的方法,它作为现有基于图神经网络(GNNs)的多智能体通信协议的一种扩展,通过引入智能体的身份信息来增强消息传递过程中的特征表示区分度。IDEAL通过构建以每个智能体为中心的自我网络,并在其上进行多次异质消息传递,使每个智能体的特征表示更具有独特性,从而促进智能体间更有效的沟通并提升行动多样性。实验结果表明,IDEAL可
本文探讨了在随机多智能体系统中采用自然策略进行PATL及PATL逻辑的模型检验问题。研究发现,当活跃联盟被限于确定性策略时,NatPATL的模型检验问题是NP完全的;在同样的限制条件下,NatPATL的复杂度则为2NEXPTIME。若不限制策略类型,则对于NatPATL的模型检验复杂度为EXPSPACE,而NatPATL*为3EXPSPACE。这是第一次将自然策略的概念从完全确定性的设置拓展到了随
文章探讨了大型语言模型(LLMs),例如GPT-4,是否以及在何种意义上拥有知识。作者认为,这些模型展现了一种称为“工具性知识”的能力,这种知识允许它们根据输入上下文推断任务结构,并在此基础上进行下个词预测。然而,为了将这种工具性知识视为普通意义上的“知识”,它必须包含一定程度关于现实世界的理解——即“常识知识”。尽管LLMs主要是通过大规模互联网文本数据训练来预测下一个单词或标记,但文章探讨了这
本文提出了一种名为谨慎乐观知识共享(CONS)的新方法,用于解决合作多智能体强化学习(MARL)中的知识共享问题。针对传统的行动建议方法可能导致团队探索受阻的情况,即经验丰富的智能体会分享其知识而较不成熟的智能体则遵循这些建议,导致可能依赖于次优或不良建议的问题,本文的方法允许智能体既分享积极也分享消极的知识,并且接收者会谨慎地同化这些知识。在学习的早期阶段更加重视消极知识,而在后期转向重视积极知
本文提出了一种改进的匿名多智能体路径寻找算法(AMAPF),旨在解决多个未标记的智能体在一个共享环境中从初始位置无冲突地移动到指定目标位置的问题。该研究通过将AMAPF问题转化为辅助图上的最大流问题,并采用了一种新颖的搜索算法,该算法不是单独考虑各个搜索状态,而是同时处理大量状态,以压缩、存储并扩展这些状态,从而减少运行时间和内存使用。这种方法在实证研究中显示出优越的表现,能够在不到30秒的时间内
本文探讨了在数据不平衡的联邦学习环境下进行联邦面部识别(FFR)的技术挑战,并提出了一种名为Hessian-Free Model Agnostic Meta-Learning(HF-MAML)的方法来改进这一过程。通过在CelebA数据集上创建三种不同类型的数据异质性划分,作者们评估了HF-MAML在联邦面部识别任务中的有效性,并发现它相较于传统的联邦平均(FedAvg)方法,在验证测试中获得了更
文章提出了一种新的训练方法,称为使用合成数据自我改进的扩散模型(SIMS),旨在解决生成模型因使用合成数据训练而可能导致的模型自噬障碍(MAD)问题。通过在生成过程中引入负向引导,SIMS能够避免模型陷入合成数据循环导致的性能退化,提升模型生成质量,并在多个图像生成任务中取得了优异的表现。此外,SIMS还具备调节合成数据分布的能力,有助于减轻模型偏见并确保生成结果的公平性。1 SIMS方法扩散模型
文章介绍了Mini-Omni模型,这是一种开源的端到端多模态大语言模型,旨在实现实时语音交互。为了解决现有模型在语音交互中的延迟问题,作者提出了文本指令的并行生成方法和批量并行解码策略,这些方法能够在保留原有语言模型推理能力的同时,显著提升语音输出的实时性和质量。此外,文章还介绍了"Any Model Can Talk"的训练方法和专门用于语音助手优化的VoiceAssistant-400K数据集
本文研究了视觉语言模型CLIP在处理人脸图像时的社会感知能力及其潜在偏见。研究者们构建了一个名为CausalFace的合成人脸数据集,通过系统地独立变化年龄、性别、人种、面部表情、照明和姿势等六个维度来评估模型的社会感知。他们发现,尽管CLIP是在多样化的图像和文本数据上训练的,但它能够像人类一样对人脸图像做出精细的社会判断。研究还揭示了CLIP在处理受法律保护的属性(年龄、性别和人种)时存在系统
本文介绍了一种新的因果效应推断方法,它不同于传统的先构建概率表达式再用观测数据评估的方法。该研究提出了一种替代方案,即直接从观测数据中学习因果贝叶斯网络(CBN)及其潜在变量,然后利用学习到的模型来回答因果效应查询。这种方法特别适用于离散的可观测变量。通过实验评估表明,这种基于模型完成的学习方法在大型模型中尤其有效,能够克服传统方法在计算上遇到的挑战。论文还对比分析了不同算法和技术的应用,包括期望
本文探讨了如何优化大型语言模型(LLM)中的提示(prompt),以更有效地利用这些黑盒模型的能力。传统的优化方法倾向于寻找全局最优解,但在某些情况下这种做法可能表现不佳。通过对提示优化进行深入的研究,作者发现了两个重要洞见:首先,相比于全局最优解的稀有性,局部最优解通常更加丰富且性能良好,这为高效的提示优化提供了更多可能性;其次,输入域的选择(包括提示的生成和表示方式)会影响高性能局部最优解的识
文章介绍了MLR-Copilot框架,这是一种利用大型语言模型(LLMs)来自动化机器学习研究中创意生成、实验设计和实施过程的方法。该框架分为三个阶段:首先通过阅读现有研究文献,使用LLM驱动的IdeaAgent来生成研究假设和实验计划;其次,ExperimentAgent将这些计划转换为可执行的代码,并检索原型代码、候选模型和数据;最后,在ExperimentAgent的管理下执行实验,通过集成
本文探讨了通过人机协作解决复杂问题的方法,特别是在专家领域内。尽管生成式AI技术,如大型语言模型(LLMs),已经取得了显著进展,但它们在解决需要高级专业知识的问题方面仍然存在局限性。文章指出,当前的AI系统在处理复杂解决方案(比如软件开发)、支持多样的人类偏好表达以及在交互环境中适应人类偏好等方面存在不足。为了解决这些问题,作者提出了一种称为HAI-Co2(Human-AI Co-constru
本文介绍了一种名为POEM(PrOmpting with Episodic Memory)的新方法,用于优化大型语言模型(LLM)的提示。POEM旨在解决现有提示优化方法资源消耗大或性能不足的问题,特别是在少量示例学习的情况下。该方法将提示优化作为强化学习问题处理,利用情景记忆存档输入数据、少量示例的不同排列及训练期间获得的奖励。在测试阶段,POEM会为每个测试查询选择能够产生最高奖励的示例序列。
文章聚焦于多模态大模型(MLMs)时代下具身人工智能(Embodied AI)领域。探讨了Embodied AI在实现人工通用智能(AGI)中的重要性和作为连接网络空间与物理世界的基础技术的角色。特别地,随着多模态大模型和世界模型(WMs)的出现,这些架构因其出色的感知、交互和推理能力而被视作具身代理的“大脑”。首先回顾了具身机器人和模拟器的代表工作,分析了其研究重点和局限性;随后,详细讨论了四个
文章介绍了REAPER(Reasoning based Retrieval Planning for Complex RAG Systems),这是一种基于大型语言模型(LLM)的规划器,用于在复杂的对话系统中生成检索计划。REAPER旨在解决在大规模异构数据存储中进行有效证据检索的问题,尤其是在需要多步骤检索的情况下。传统的RAG(Retrieval Augmented Generation)系
文章聚焦于复杂处理设置下因果推断方法的综述性研究,涵盖了多值、连续以及捆绑处理等复杂情况。首先介绍了问题背景、基本假设及其变化,并对传统的二元处理设置进行了简要回顾。随后,详细探讨了处理多值、连续和捆绑处理的不同方法,并根据是否遵循无混淆假设将这些方法进行分类。此外,文中还梳理了可用于研究的公开数据集和开源代码,并指出了该领域面临的挑战与未来探索的方向。这是首次将这三种复杂处理统一归纳,并提供了全
文章介绍了Mamba作为一种选择性状态空间模型在时间序列预测中的应用,特别是在解决Transformer模型存在的计算效率问题方面。本文提出了一个名为Simple-Mamba (S-Mamba) 的模型,该模型利用Mamba的近线性复杂度优势,结合线性标记化、双向Mamba层、前馈网络以及线性映射层来有效地进行时间序列预测。通过在多个公共数据集上的实验,S-Mamba不仅展示了低计算开销,而且在预
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号