CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

Subjects: cs.CV

1.Control-A-Video: Controllable Text-to-Video Generation with Diffusion Models

每日学术速递5.27_自然语言处理

标题:Control-A-Video:使用扩散模型生成可控的文本到视频

作者:Weifeng Chen, Jie Wu, Pan Xie, Hefeng Wu, Jiashi Li, Xin Xia, Xuefeng Xiao, Liang Lin

文章链接:https://arxiv.org/abs/2305.13840

项目代码:https://controlavideo.github.io/

每日学术速递5.27_机器学习_02

每日学术速递5.27_机器学习_03

每日学术速递5.27_深度学习_04

摘要:

        本文介绍了一种名为 Video-ControlNet 的可控文本到视频 (T2V) 扩散模型,该模型可生成以一系列控制信号(例如边缘图或深度图)为条件的视频。Video-ControlNet 建立在预训练的条件文本到图像 (T2I) 扩散模型之上,通过结合时空自注意力机制和可训练的时间层来实现高效的跨帧建模。提出了一种第一帧调节策略,以促进模型以自回归方式生成从图像域传输的视频以及任意长度的视频。此外,Video-ControlNet 采用了一种新颖的基于残差的噪声初始化策略,从输入视频中引入运动先验,从而产生更连贯的视频。借助所提出的架构和策略,Video-ControlNet 可以实现资源高效收敛,并通过细粒度控制生成优质和一致的视频。广泛的实验证明了它在视频编辑和视频风格转换等各种视频生成任务中的成功,在一致性和质量方面优于以前的方法。

Subjects: cs.CL

2. QLoRA: Efficient Finetuning of Quantized LLMs(NeurlPS 2023)

每日学术速递5.27_计算机视觉_05

标题:QLoRA:量化 LLM 的高效微调

作者:Tim Dettmers, Artidoro Pagnoni, Ari Holtzman, Luke Zettlemoyer

文章链接:https://arxiv.org/abs/2305.14314

项目代码:https://github.com/artidoro/qlora

每日学术速递5.27_自然语言处理_06

每日学术速递5.27_自然语言处理_07

每日学术速递5.27_计算机视觉_08

每日学术速递5.27_计算机视觉_09

每日学术速递5.27_自然语言处理_10

摘要:

        我们介绍了 QLoRA,这是一种有效的微调方法,可以减少内存使用量,足以在单个 48GB GPU 上微调 65B 参数模型,同时保留完整的 16 位微调任务性能。QLoRA 通过冻结的 4 位量化预训练语言模型将梯度反向传播到低阶适配器~(LoRA)。我们最好的模型系列,我们命名为 Guanaco,在 Vicuna 基准测试中优于所有以前公开发布的模型,达到 ChatGPT 性能水平的 99.3%,同时只需要在单个 GPU 上进行 24 小时的微调。QLoRA 引入了多项创新,以在不牺牲性能的情况下节省内存:(a) 4 位 NormalFloat (NF4),一种新的数据类型,理论上是正态分布权重的最佳信息 (b) 双量化,通过量化减少平均内存占用量化常数,以及 (c) 分页优化器来管理内存峰值。我们使用 QLoRA 对 1,000 多个模型进行微调,提供跨 8 个指令数据集、多种模型类型(LLaMA、T5)和无法通过常规微调运行的模型规模(例如 33B 和65B参数模型)。我们的结果表明,即使使用比以前的 SoTA 更小的模型,QLoRA 在小型高质量数据集上进行微调也会产生最先进的结果。我们提供了基于人类和 GPT-4 评估的聊天机器人性能的详细分析,表明 GPT-4 评估是人类评估的廉价且合理的替代方案。此外,我们发现当前的聊天机器人基准测试无法准确评估聊天机器人的性能水平。柠檬挑选的分析表明与 ChatGPT 相比,Guanaco 失败的地方。我们发布了所有模型和代码,包括用于 4 位训练的 CUDA 内核。

3.PEARL: Prompting Large Language Models to Plan and Execute Actions Over Long Documents

每日学术速递5.27_机器学习_11

标题:PEARL:提示大型语言模型在长文档上规划和执行操作

作者:Simeng Sun, Yang Liu, Shuohang Wang, Chenguang Zhu, Mohit Iyyer

文章链接:https://arxiv.org/abs/2305.14564

每日学术速递5.27_人工智能_12

每日学术速递5.27_计算机视觉_13

每日学术速递5.27_机器学习_14

每日学术速递5.27_人工智能_15

每日学术速递5.27_深度学习_16

摘要:

        诸如思维链提示之类的策略通过将输入示例分解为中间步骤来提高大型语言模型 (LLM) 在复杂推理任务上的性能。然而,目前尚不清楚如何将这些方法应用于对长输入文档进行推理,其中每个中间步骤的分解和输出都非常重要。在这项工作中,我们提出了 PEARL,这是一个改进长文档推理的提示框架,它包括三个阶段:动作挖掘、计划制定和计划执行。更具体地说,给定一个关于长文档的问题,PEARL 将问题分解为一系列动作(例如,SUMMARIZE、FIND_EVENT、FIND_RELATION),然后在文档上执行它们以获得答案。PEARL 的每个阶段都是通过 LLM(在我们的工作中是 GPT-4)的零样本或少样本提示来实现的,需要最少的人工输入。我们在 QuALITY 数据集的一个具有挑战性的子集上评估 PEARL,其中包含需要对长篇叙述文本进行复杂推理的问题。PEARL 在此数据集上的表现优于零样本和思维链提示,并且消融实验表明 PEARL 的每个阶段对其性能都至关重要。总的来说,PEARL 是利用 LLM 对长文档进行推理的第一步。

更多Ai资讯:公主号AiCharm

每日学术速递5.27_人工智能_17