本文介绍何凯明的经典之作MAE,它将BERT类模型的MLM自监督训练方法用到了ViT类CV模型上,通过设置大比例mask r
本文介绍 LLM agent 领域的经典方法 Reflexion,它通过引入 episodic memory 为 agent 提供长期记忆,在不微调模型的参数的同时实现了基于上下文的试错学习,性能提升显著
LLM 有能力将自然语言描述的工业场景问题建模为数学运筹优化问题,然后通过写代码调用经典求解器的方式加以解决。本文提出或微调这种领域模型
本文介绍经典的 ViT 论文,它是第一个将 Transformer 模型有效应用到较大规模 CV 任务上的工作,并且保持了 Transformer 模型本身的 Sc
本文介绍LLM-agent领域的经典方法ReAct,它将LLM的自然语言推理能力和动作生成能力结合,使其同时适用于各类NLP和控制任务,并起到1+1>2的效果
首先简介了CV领域的主流任务,然后对最重要的目标检测算法之一YOLO-V1进行了详细介绍
本文在儿童故事这个非常垂直的领域数据上训练小规模语言模型(SLM),发现其具有和 LLM 相似的性能,相关分析对于理解 LMs 的能力很有参考意义
本文通过对模型架构、预训练目标、是否多任务微调等进行大规模排列组合实验,找到了 LLM 的最佳训练方案,得到的工程结论对于我们设计实验很有帮助
本文介绍 LLM 训练过程中重要的经验规律 Scaling Laws,它可以指导我们如何最大化训练效率,我们还可以借助它通过小规模实验预测大模型的性能表现
;领域:离线强化学习(offline/batch RL)—— Transformer-Based / 数据增强
RvS: What is Essential for Offline RL via Supervised Learning?;ICLR 2022;离线
Off-Policy Deep Reinforcement Learning without Exploration;ICML 2019;离线强
论文理解 —— Model Free Episodic Control(强化学习 - 情节控制)
标题:An Equivalence betweeay Buffer
in Neural Information Processing Systems, 1989 (NIPS)领域:IL-BC
标题:Adversarial Imitation Learning with Trajectorial Augmentation and Correction发表:ICRA 2021领域:模仿学习 - 轨迹级数据增强
论文理解 —— End to End Learning for Self-Driving Cars
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号