每日学术速递5.27

原创

AiCharm 2023-07-12 15:07:12 博主文章分类：每日学术速递 ©著作权

文章标签 人工智能计算机视觉自然语言处理机器学习深度学习 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者AiCharm的原创作品，请联系作者获取转载授权，否则将追究法律责任

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV

1.Control-A-Video: Controllable Text-to-Video Generation with Diffusion Models

每日学术速递5.27_自然语言处理

标题：Control-A-Video：使用扩散模型生成可控的文本到视频

作者：Weifeng Chen, Jie Wu, Pan Xie, Hefeng Wu, Jiashi Li, Xin Xia, Xuefeng Xiao, Liang Lin

文章链接：https://arxiv.org/abs/2305.13840

项目代码：https://controlavideo.github.io/

每日学术速递5.27_机器学习_02

每日学术速递5.27_机器学习_03

每日学术速递5.27_深度学习_04

摘要：

本文介绍了一种名为 Video-ControlNet 的可控文本到视频 (T2V) 扩散模型，该模型可生成以一系列控制信号（例如边缘图或深度图）为条件的视频。Video-ControlNet 建立在预训练的条件文本到图像 (T2I) 扩散模型之上，通过结合时空自注意力机制和可训练的时间层来实现高效的跨帧建模。提出了一种第一帧调节策略，以促进模型以自回归方式生成从图像域传输的视频以及任意长度的视频。此外，Video-ControlNet 采用了一种新颖的基于残差的噪声初始化策略，从输入视频中引入运动先验，从而产生更连贯的视频。借助所提出的架构和策略，Video-ControlNet 可以实现资源高效收敛，并通过细粒度控制生成优质和一致的视频。广泛的实验证明了它在视频编辑和视频风格转换等各种视频生成任务中的成功，在一致性和质量方面优于以前的方法。

Subjects: cs.CL

2. QLoRA: Efficient Finetuning of Quantized LLMs(NeurlPS 2023)

每日学术速递5.27_计算机视觉_05

标题：QLoRA：量化 LLM 的高效微调

作者：Tim Dettmers, Artidoro Pagnoni, Ari Holtzman, Luke Zettlemoyer

文章链接：https://arxiv.org/abs/2305.14314

项目代码：https://github.com/artidoro/qlora

每日学术速递5.27_自然语言处理_06

每日学术速递5.27_自然语言处理_07

每日学术速递5.27_计算机视觉_08

每日学术速递5.27_计算机视觉_09

每日学术速递5.27_自然语言处理_10

摘要：

我们介绍了 QLoRA，这是一种有效的微调方法，可以减少内存使用量，足以在单个 48GB GPU 上微调 65B 参数模型，同时保留完整的 16 位微调任务性能。QLoRA 通过冻结的 4 位量化预训练语言模型将梯度反向传播到低阶适配器~(LoRA)。我们最好的模型系列，我们命名为 Guanaco，在 Vicuna 基准测试中优于所有以前公开发布的模型，达到 ChatGPT 性能水平的 99.3%，同时只需要在单个 GPU 上进行 24 小时的微调。QLoRA 引入了多项创新，以在不牺牲性能的情况下节省内存：(a) 4 位 NormalFloat (NF4)，一种新的数据类型，理论上是正态分布权重的最佳信息 (b) 双量化，通过量化减少平均内存占用量化常数，以及 (c) 分页优化器来管理内存峰值。我们使用 QLoRA 对 1,000 多个模型进行微调，提供跨 8 个指令数据集、多种模型类型（LLaMA、T5）和无法通过常规微调运行的模型规模（例如 33B 和65B参数模型）。我们的结果表明，即使使用比以前的 SoTA 更小的模型，QLoRA 在小型高质量数据集上进行微调也会产生最先进的结果。我们提供了基于人类和 GPT-4 评估的聊天机器人性能的详细分析，表明 GPT-4 评估是人类评估的廉价且合理的替代方案。此外，我们发现当前的聊天机器人基准测试无法准确评估聊天机器人的性能水平。柠檬挑选的分析表明与 ChatGPT 相比，Guanaco 失败的地方。我们发布了所有模型和代码，包括用于 4 位训练的 CUDA 内核。

3.PEARL: Prompting Large Language Models to Plan and Execute Actions Over Long Documents

每日学术速递5.27_机器学习_11

标题：PEARL：提示大型语言模型在长文档上规划和执行操作

作者：Simeng Sun, Yang Liu, Shuohang Wang, Chenguang Zhu, Mohit Iyyer

文章链接：https://arxiv.org/abs/2305.14564

每日学术速递5.27_人工智能_12

每日学术速递5.27_计算机视觉_13

每日学术速递5.27_机器学习_14

每日学术速递5.27_人工智能_15

每日学术速递5.27_深度学习_16

摘要：

诸如思维链提示之类的策略通过将输入示例分解为中间步骤来提高大型语言模型 (LLM) 在复杂推理任务上的性能。然而，目前尚不清楚如何将这些方法应用于对长输入文档进行推理，其中每个中间步骤的分解和输出都非常重要。在这项工作中，我们提出了 PEARL，这是一个改进长文档推理的提示框架，它包括三个阶段：动作挖掘、计划制定和计划执行。更具体地说，给定一个关于长文档的问题，PEARL 将问题分解为一系列动作（例如，SUMMARIZE、FIND_EVENT、FIND_RELATION），然后在文档上执行它们以获得答案。PEARL 的每个阶段都是通过 LLM（在我们的工作中是 GPT-4）的零样本或少样本提示来实现的，需要最少的人工输入。我们在 QuALITY 数据集的一个具有挑战性的子集上评估 PEARL，其中包含需要对长篇叙述文本进行复杂推理的问题。PEARL 在此数据集上的表现优于零样本和思维链提示，并且消融实验表明 PEARL 的每个阶段对其性能都至关重要。总的来说，PEARL 是利用 LLM 对长文档进行推理的第一步。

更多Ai资讯：公主号AiCharm

每日学术速递5.27_人工智能_17

上一篇：每日学术速递5.28

下一篇：每日学术速递6.13

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

2024.3.24每日一题

LeetCode设计可以求最短路径的图类题目链接：2642. 设计可以求最短路径的图类 - 力扣（LeetCode）题目描述给你一个有 n 个节点的有向带权图，节点编号为 0 到 n - 1 。图中的初始边用数组 edges 表示，其中 edges[i] = [fromi, toi, edgeCosti] 表示从 fromi 到 toi 有一条代价为 edgeCosti 的边。请你实

Graph 最短路径数组
2024.4.10每日一题

LeetCode修改后的最大二进制字符串题目链接：1702. 修改后的最大二进制字符串 - 力扣（LeetCode）题目描述给你一个二进制字符串 binary ，它仅有 0 或者 1 组成。你可以使用下面的操作任意次对它进行修改：操作 1 ：如果二进制串包含子字符串"00"，你可以用"10"将其替换。比方说， "**0

字符串十进制数字子字符串
2024.4.11每日一题

LeetCode互质树题目链接：1766. 互质树 - 力扣（LeetCode）题目描述给你一个 n 个节点的树（也就是一个无环连通无向图），节点编号从 0 到 n - 1 ，且恰好有 n - 1 条边，每个节点有一个值。树的根节点为 0 号点。给你一个整数数组 nums 和一个二维数组 edges 来表示这棵树。nums[i] 表示第 i 个点的值，edges[j] = [uj,

数组最大公约数无向图
每日学术速递6.11

然而，在弱监督学习中，大部分数据都是通过弱噪声源标记的，因此设计有效的增强方法仍然很重要。源内提升将局部性引入基

人工智能计算机视觉自然语言处理深度学习机器学习
每日学术速递6.7

我们提出了一种称为 NeRO 的基于神经渲染的方法，用于从在未知环境中捕获的多视图图像重建反射物体的几何形状

机器学习自然语言处理人工智能计算机视觉深度学习
每日学术速递6.5

在这项工作中，我们提出了一种内存高效的零阶优化器 (MeZO)，采用经典的 ZO-SGD 方法进行就地操作，从而微调 LM，使其

人工智能深度学习机器学习计算机视觉自然语言处理
每日学术速递5.28

我们生成的模型，Aligned Language Model with Synthetic Training dataset (ALMoST)，优于开源模型，包括 Alpaca、D

人工智能计算机视觉机器学习自然语言处理算法
每日学术速递6.13

我们对树高的预测显示出 2.9 m 的平均误差，并且在加利福尼亚州存在的整个树高范围内显示出相对较低的系统

计算机视觉机器学习自然语言处理深度学习人工智能
每日学术速递5.7

标题：通过双文本图像提示进行多模态程序规划作者：Yujie Lu, Pan Lu, Zhiyu Chen, Wanrong Zhu, Xin Eric Wang, Wil

人工智能机器学习神经网络计算机视觉算法
每日学术速递5.3

标题：学习本地可编辑虚拟人作者：Hsuan-I Ho, Lixin Xue, Jie Song, Otmar Hilliges文章链接：https://arxiv.org/abs/2305.

人工智能神经网络计算机视觉机器学习深度学习
每日学术速递5.1

标题：把人放在他们的位置：可供感知的人类插入场景作者：Sumith Kulal, Tim Brooks, Alex Aiken, Jiajun Wu, Jimei Yang,

人工智能计算机视觉深度学习神经网络机器学习
每日学术速递4.26

标题：AutoNeRF：使用自主代理训练隐式场景表示作者：Pierre Marza, Laetitia Matignon, Olivier Simonin, Dhruv Batra, Chri

人工智能计算机视觉深度学习机器学习神经网络
每日学术速递4.29

标题：自监督学习食谱作者：Randall Balestriero, Mark Ibrahim, Vlad Sobal, Ari Morcos, Shashank Shekhar, Tom Goldstein, Florian Bor

人工智能计算机视觉深度学习机器学习自然语言处理
每日学术速递4.21

值得注意的是，带有 GPT-4 的 Chameleon 在 ScienceQA 上达到了 86.54% 的准确率，比已发表的最好的 few-shot 模型显着提高

人工智能计算机视觉深度学习机器学习神经网络
每日学术速递4.19

我们的 RT-DETR-L 在 COCO val2017 上实现了 53.0% 的 AP，在 T4 GPU 上实现了 114 FPS，而 RT-DETR-X 实现了 54.8% 的 AP 和 74 FPS，

人工智能计算机视觉视觉检测神经网络深度学习
每日学术速递5.2

标题：DataComp：寻找下一代多模态数据集作者：Samir Yitzhak Gadre, Gabriel Ilharco, Alex Fang, Jonathan Hayase, Ge

机器学习算法人工智能神经网络计算机视觉
每日学术速递4.28

标题：StepFormer：教学视频中的自我监督步骤发现和定位作者：Nikita Dvornik, Isma H

人工智能计算机视觉自然语言处理算法机器学习
每日学术速递4.18

标题：Inpaint Anything：分割任何东西满足图像修复作者：Tao Yu, Runseng Feng, Ruoyu Feng, Jinming Liu, Xin Jin, Wenjun

人工智能计算机视觉自然语言处理深度学习算法
每日学术速递4.9

标题：HypLiLoc：通过双曲线融合实现有效的 LiDAR 姿态回归作者：Sijie Wang, Qiyu Kang, Rui She, Wei Wang, Kai Zhao, Yang Song, Wee

人工智能深度学习机器学习神经网络计算机视觉
每日学术速递4.6

标题：PODIA-3D：使用姿势保持文本到图像扩散的 3D 生成模型跨大域间隙的域自适应作者：Gwanghyun Kim, Ji Ha Jang, Se Young Chu

人工智能深度学习计算机视觉神经网络机器学习
openFeign客户端传递的session

文章目录1. OpenFeign基础应用1.1 概念1.2 OpenFeign能干什么1.3 具体使用pomYML配置主启动中添加注解调用服务提供者对外提供接口控制器1.4 测试结果2. OpenFeign超时时间控制2.1 概念2.2 解决办法2.3 超时案例演示测试结果2.4 设置超时控制案例演示YML测试结果3. OpenFeign日志打印3.1 概念3.2 具体使用4.Sentinel整

spring cloud java 后端 spring 客户端
spring cloud nacos集群

安装nacosnacos官网文档： https://nacos.io/en-us/docs/what-is-nacos.html单机部署1、克隆代码git clone https://github.com/alibaba/nacos.git2、导入到elipse 3、maven编译-Prelease-nacos clean install -U 4、启动nacos进入目录D

nacos集群的ap cp切换 spring cloud nacos spring 配置文件命名空间
ros python 发布pointcloud2 点云

1.slam++: 将目标检测（objections detection）与slam结合。2.SemanticFusion: 在elastic fusion的基础上，通过cnn神经网络来进行语义分割。3.PointNet：（offline）处理点云数据的深度学习模型.可以进行多种认知任务，如分类、语义分割和目标识别。（详细内容看这里）（待更新）一. 点云特征点云

点云数据依赖关系
python 出去set空字符串元素

思考：列表是可以修改的。如果想要传递的信息，不被篡改，列表就不合适了。元组同列表一样，都是可以封装多个、不同类型的元素在内。但最大的不同点在于：元组一旦定义完成，就不可修改所以，当我们需要在程序内封装数据，又不希望封装的数据被篡改，那么元组就非常合适了元组和字符串1元组1.1 元组的定义定义空元组: 元组名 = () 或者元组名 = tuple() 定义非空元组: 元组名 =

python 出去set空字符串元素 python 开发语言学习方法笔记
IOS 可供审核状态

CNCF在云原生的定义中，将可观测性（Observability）明确为一项必备要素。因此，使用云原生应用架构，享受其带来的效率提升时，不得不面对的是如何构建匹配的可观测性能力。可观测性并不是通过简单使用一个工具所能具备，是需要根据企业组织、业务应用、基础设施以及已有的监控体系的需求现状，明确阶段目标，伴随着业务发展逐步建立，是一个持续发展的过程。云杉网络与客户的共同实践，基于云原生应用发展的现状

IOS 可供审核状态微服务数据原生应用

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯