为了助力大家在人工智能领域的学习与研究,我特别整理了一批优质的书籍资源,涵盖了自然语言处理、深度学习、机器学习和数学基础等多个方向。这些书籍内容详实、权威,更是许多学术研究者和开发者的必备参考,可以辅助高校学生、科研人员和相关从业者系统地掌握相关领域的核心知识与实战技巧。与大家一起交流学习探讨,期待共同进步!1 书籍资料介绍以下是书籍信息的一些简要介绍:1. 数学基础书籍提供坚实的数学基础,为深度
文章提出了一种新的训练方法,称为使用合成数据自我改进的扩散模型(SIMS),旨在解决生成模型因使用合成数据训练而可能导致的模型自噬障碍(MAD)问题。通过在生成过程中引入负向引导,SIMS能够避免模型陷入合成数据循环导致的性能退化,提升模型生成质量,并在多个图像生成任务中取得了优异的表现。此外,SIMS还具备调节合成数据分布的能力,有助于减轻模型偏见并确保生成结果的公平性。1 SIMS方法扩散模型
文章介绍了Mini-Omni模型,这是一种开源的端到端多模态大语言模型,旨在实现实时语音交互。为了解决现有模型在语音交互中的延迟问题,作者提出了文本指令的并行生成方法和批量并行解码策略,这些方法能够在保留原有语言模型推理能力的同时,显著提升语音输出的实时性和质量。此外,文章还介绍了"Any Model Can Talk"的训练方法和专门用于语音助手优化的VoiceAssistant-400K数据集
本文研究了视觉语言模型CLIP在处理人脸图像时的社会感知能力及其潜在偏见。研究者们构建了一个名为CausalFace的合成人脸数据集,通过系统地独立变化年龄、性别、人种、面部表情、照明和姿势等六个维度来评估模型的社会感知。他们发现,尽管CLIP是在多样化的图像和文本数据上训练的,但它能够像人类一样对人脸图像做出精细的社会判断。研究还揭示了CLIP在处理受法律保护的属性(年龄、性别和人种)时存在系统
本文介绍了一种新的因果效应推断方法,它不同于传统的先构建概率表达式再用观测数据评估的方法。该研究提出了一种替代方案,即直接从观测数据中学习因果贝叶斯网络(CBN)及其潜在变量,然后利用学习到的模型来回答因果效应查询。这种方法特别适用于离散的可观测变量。通过实验评估表明,这种基于模型完成的学习方法在大型模型中尤其有效,能够克服传统方法在计算上遇到的挑战。论文还对比分析了不同算法和技术的应用,包括期望
本文探讨了如何优化大型语言模型(LLM)中的提示(prompt),以更有效地利用这些黑盒模型的能力。传统的优化方法倾向于寻找全局最优解,但在某些情况下这种做法可能表现不佳。通过对提示优化进行深入的研究,作者发现了两个重要洞见:首先,相比于全局最优解的稀有性,局部最优解通常更加丰富且性能良好,这为高效的提示优化提供了更多可能性;其次,输入域的选择(包括提示的生成和表示方式)会影响高性能局部最优解的识
文章介绍了MLR-Copilot框架,这是一种利用大型语言模型(LLMs)来自动化机器学习研究中创意生成、实验设计和实施过程的方法。该框架分为三个阶段:首先通过阅读现有研究文献,使用LLM驱动的IdeaAgent来生成研究假设和实验计划;其次,ExperimentAgent将这些计划转换为可执行的代码,并检索原型代码、候选模型和数据;最后,在ExperimentAgent的管理下执行实验,通过集成
本文探讨了通过人机协作解决复杂问题的方法,特别是在专家领域内。尽管生成式AI技术,如大型语言模型(LLMs),已经取得了显著进展,但它们在解决需要高级专业知识的问题方面仍然存在局限性。文章指出,当前的AI系统在处理复杂解决方案(比如软件开发)、支持多样的人类偏好表达以及在交互环境中适应人类偏好等方面存在不足。为了解决这些问题,作者提出了一种称为HAI-Co2(Human-AI Co-constru
本文介绍了一种名为POEM(PrOmpting with Episodic Memory)的新方法,用于优化大型语言模型(LLM)的提示。POEM旨在解决现有提示优化方法资源消耗大或性能不足的问题,特别是在少量示例学习的情况下。该方法将提示优化作为强化学习问题处理,利用情景记忆存档输入数据、少量示例的不同排列及训练期间获得的奖励。在测试阶段,POEM会为每个测试查询选择能够产生最高奖励的示例序列。
文章聚焦于多模态大模型(MLMs)时代下具身人工智能(Embodied AI)领域。探讨了Embodied AI在实现人工通用智能(AGI)中的重要性和作为连接网络空间与物理世界的基础技术的角色。特别地,随着多模态大模型和世界模型(WMs)的出现,这些架构因其出色的感知、交互和推理能力而被视作具身代理的“大脑”。首先回顾了具身机器人和模拟器的代表工作,分析了其研究重点和局限性;随后,详细讨论了四个
文章介绍了REAPER(Reasoning based Retrieval Planning for Complex RAG Systems),这是一种基于大型语言模型(LLM)的规划器,用于在复杂的对话系统中生成检索计划。REAPER旨在解决在大规模异构数据存储中进行有效证据检索的问题,尤其是在需要多步骤检索的情况下。传统的RAG(Retrieval Augmented Generation)系
文章聚焦于复杂处理设置下因果推断方法的综述性研究,涵盖了多值、连续以及捆绑处理等复杂情况。首先介绍了问题背景、基本假设及其变化,并对传统的二元处理设置进行了简要回顾。随后,详细探讨了处理多值、连续和捆绑处理的不同方法,并根据是否遵循无混淆假设将这些方法进行分类。此外,文中还梳理了可用于研究的公开数据集和开源代码,并指出了该领域面临的挑战与未来探索的方向。这是首次将这三种复杂处理统一归纳,并提供了全
文章介绍了Mamba作为一种选择性状态空间模型在时间序列预测中的应用,特别是在解决Transformer模型存在的计算效率问题方面。本文提出了一个名为Simple-Mamba (S-Mamba) 的模型,该模型利用Mamba的近线性复杂度优势,结合线性标记化、双向Mamba层、前馈网络以及线性映射层来有效地进行时间序列预测。通过在多个公共数据集上的实验,S-Mamba不仅展示了低计算开销,而且在预
文章介绍了一种新的多类别无监督异常检测方法——MambaAD,该方法利用了Mamba解码器的优势,特别是其出色的长距离建模能力和线性计算效率。MambaAD包含了一个预训练的编码器和一个多尺度的Mamba解码器,后者集成了局部增强状态空间(LSS)模块,能够有效捕捉远距离和局部信息。LSS模块由并行级联的混合状态空间(HSS)块和多核卷积操作组成,而HSS块则采用混合扫描(HS)编码器来加强全局连
文章介绍了一种创新的提示策略,旨在利用大型语言模型从自然语言文本中提取业务流程相关信息,例如活动和参与者等,并建立它们之间的关系。通过这种方法,研究人员能够在无需大量数据的情况下实现高质量的信息提取,进而用于生成流程模型。这种策略在多个数据集上均能显著提升信息提取性能,相较于传统的机器学习和基于规则的方法,F1分数最高可提升8%。此外,该研究还分析了不同提示组件对提取质量的影响,并提供了一系列指导
文章介绍了一种名为Multi-Modal Contrastive Diffusion (MMCD)的新模型,该模型旨在通过融合肽的序列和结构信息来生成治疗性肽。MMCD利用了一个扩散框架,并在每个扩散时间步中采用了跨模态和模态内的对比学习策略,以捕捉序列和结构之间的一致性并增强模型性能。实验结果表明,MMCD在生成治疗性肽方面超越了其他先进的深度生成方法。1 扩散模型在蛋白质生成领域的应用扩散模型
文章介绍了一种名为“知识图谱结构作为提示”(KG Structure as Prompt)的新方法,该方法旨在增强小型语言模型(SLMs)在知识驱动的因果发现任务中的能力。通过将知识图谱中的结构信息融入到基于提示的学习中,此方法能够提升SLMs对于因果关系的推理能力。在生物医学和开放领域的数据集上,该方法在少量样本的情况下表现优异,甚至超过了大多数基线和使用完整数据集训练的传统微调方法。此外,研究
文章介绍了CourseGPT这一生成式AI工具,它基于Mistral AI的大型语言模型,旨在通过提供持续的教师支持和定期更新的课程材料来提升本科生的学习体验。CourseGPT能够利用课程特定的内容为学生提供精确和动态生成的回答,并且教师可以控制这些回答,以扩展课程范围而不增加不必要的复杂性。通过对信息系统安全基础课程的应用试点显示,CourseGPT提高了学习效果,加速了反馈过程,并简化了行政
文章探讨了大型语言模型(LLM),特别是GPT-4,在识别因果关系方面的潜力。研究人员在极端受限的条件下评估了GPT-4的能力,即仅依靠变量标签而没有额外的上下文信息来推断因果关系。结果显示,参与者认为GPT-4生成的因果图最为准确,其次是领域专家构建的知识图谱,而传统的因果机器学习方法则表现较差。研究还指出,传统的因果机器学习方法往往会生成违反常识的因果图,影响了人们对这些模型的信任。然而,当将
Agent-E是一种新型的网络智能体,它在自主网络导航方面实现了许多架构上的创新,包括层次化设计、灵活的文档对象模型(DOM)提炼与降噪技术,以及利用变化观察来指导智能体更准确地执行任务。Agent-E在WebVoyager基准数据集上的评估结果显示,它在大多数类别中超越了其他先进的文本和多模态网络智能体,性能提升了10%-30%。此外,作者还从Agent-E的开发经验中提炼出了若干一般性的设计原
文章提出了一种名为“Internet of Agents”(IoA)的新框架,旨在克服现有大型语言模型多代理系统中的局限性,如第三方代理集成困难、分布式环境模拟不足以及硬编码通信管道等问题。IoA通过引入代理集成协议、即时消息架构设计以及动态团队组建和对话流程控制机制,实现了异构代理之间的高效协作。使得IoA在多种任务中均表现出优于现有技术的表现,展现了其在促进多代理协同工作的潜力,并为构建一个类
ViLLa(Video Reasoning Segmentation with Large Language Model)焦于视频理解中的一个新颖而具有挑战性的任务——视频推理分割。传统视频感知模型往往受限于对显式文本描述或预定义类别的依赖,缺乏理解用户隐含意图的能力,尤其是在处理复杂物体运动的视频场景中。为此,论文提出了视频推理分割任务,旨在根据复杂的文本查询输出视频中目标实例的分割掩码序列。不
虽然目前的MLLMs在科学图表解读方面取得了一定成果,但在处理自然图像与图表图像的数据差异时,尤其是在从图表中提取数值信息的能力上存在不足。为了克服这一挑战,研究团队通过三种策略优化了模型的图表理解能力:一是引入原始数据值进行预训练以增强对图表数据的理解;二是利用文本表示随机替代图像,在端到端微调过程中提升模型的语言推理到图表解析技能;三是要求模型先解析图表数据再作答,以提高准确性。基于这些发现,
LazyLLM旨在优化大型语言模型(LLM)在处理长文本语境下的推理效率。传统上,LLM的推理过程分为预填充和解码两个阶段,其中预填充阶段负责计算并存储输入提示的所有token的键值(KV)缓存,这一步骤在面对长提示时会显著增加首次生成token的时间消耗,成为效率瓶颈。LazyLLM通过动态剪枝策略解决了这一问题,它仅计算对下一个token预测至关重要的KV,并将剩余token的计算推迟到它们变
面对大型语言模型(LLMs)在假新闻制造与作弊方面的潜在风险,研究者提出了稀疏水印(Sparse Watermark)——种创新的文本水印技术,旨在监测和追溯LLMs生成的内容。不同于传统水印方法在可检测性与文本质量间的妥协,Sparse Watermark仅对特定词性的词语施加水印,实现了高识别度与文本自然度的平衡。Sparse Watermark的出现,为提升LLMs的安全性和使用责任性提供了
这篇文章专注于解决大语言模型高效微调的问题,特别强调了数据效率和超参数优化的重要性。研究发现,即便是在小规模数据集上进行微调,模型性能也很优异,而当继续增大样本数量时,模型性能趋于饱和,进一步增加数据对提升效果的边际贡献变小。文章还介绍了一种创新的贝叶斯超参数优化方法,这种方法在训练初期就能对模型性能做出有效评估,且与最终模型性能高度相关,这表明在训练早期就能筛选出表现优秀的模型。这些发现对于实践
大型语言模型(LLMs)中词汇量大小对于模型扩展规律的有哪些影响呢,之前的研究往往集中于模型参数数量和训练数据量,而忽略了词汇表大小的角色。论文中研究人员探索了三种评估最优词汇量的方法:基于计算力的IsoFLOPs分析、导数估算及损失函数参数拟合,这三种方法均表明,最优词汇量取决于计算资源,而且大模型应匹配大词汇量。现有的许多LLMs所使用的词汇量过小,例如,Llama2-70B模型的理想词汇量应
论文提出将LLM理解为能根据自然语言指令逼近专业功能的工具,并以此来评估其性能。这一视角强调了模型逼近功能的质量,并引发了一系列问题,包括功能的可发现性、稳定性及保护性。这一框架有助于将零散的研究线统一起来,共同目标是理解并提升模型逼近所需功能的能力。论文提出将LLMs视为功能近似器是一个相对无争议的概念,它除了将LLM看作文本生成器的观点,同时还开启了对更高层次分析的讨论。(1)技术层面: 大语
论文探讨了预训练的掩码语言模型在开放式长文本生成领域的潜力,以及如何克服其在处理长文本时的局限性。通常自回归语言模型如BART和GPT系列在这一领域占据主导地位,但它们在生成长度增加时推断效率降低的问题限制了应用。为了改善这一状况,研究者们提出使用迭代的非自回归(Non-Autoregressive, NAR)解码策略,并结合两种方法——动态滑动窗口注意力(Dynamic Sliding Wind
有研究发现,角色扮演可以增强 LLM 的能力,但也可能揭示 LLM 中的偏见。在 LLM 输入提示前缀中设置不同的角色(例如儿童、领域专家、不同种族和性别的人),发现 LLM 可以根据角色扮演来改变其行为和输出,例如在描述鸟类和汽车时,LLM 会根据扮演的角色选择不同的描述方式。同时,论文也发现 LLM 在角色扮演时会产生偏见,例如扮演男性角色的 LLM 在描述汽车时会比扮演女性角色的 LLM 更
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号