每日学术速递2.13

原创

AiCharm 2023-07-12 15:15:32 博主文章分类：每日学术速递 ©著作权

文章标签 深度学习计算机视觉人工智能目标检测算法 文章分类 JavaScript 前端开发

©著作权归作者所有：来自51CTO博客作者AiCharm的原创作品，请联系作者获取转载授权，否则将追究法律责任

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV、cs.AI、cs.CL

1.Deep Intra-Image Contrastive Learning for Weakly Supervised One-Step Person Search

每日学术速递2.13_人工智能

标题：深度图像内对比学习用于弱监督的单步人物搜索

作者：Jiabei Wang, Yanwei Pang, Jiale Cao, Hanqing Sun, Zhuang Shao, Xuelong Li

文章链接：https://arxiv.org/abs/2302.04607v1

项目代码：https://github.com/jiabeiwangtju/dicl

每日学术速递2.13_算法_02

摘要：

弱监督人像搜索的目的是在仅有人像边界框注释的情况下进行联合行人检测和重新识别（re-id）。最近，对比学习的理念被初步应用于弱监督人像搜索，其中两种常见的对比策略是基于记忆的对比和图像内对比。我们认为，目前的图像内对比是浅层的，它受到了空间级和遮挡级差异的影响。在本文中，我们提出了一个使用连体网络的新型深度图像内对比学习。两个关键模块是空间不变量对比（SIC）和遮挡不变量对比（OIC）。SIC在暹罗网络的两个分支之间进行多对一的对比，在暹罗网络的一个分支中进行密集预测对比。通过这些多对一和密集的对比，SIC倾向于学习鉴别性的尺度不变量和位置不变量特征，以解决空间层面的差异。OIC通过掩蔽策略加强了特征的一致性，以学习闭塞不变的特征。我们分别在CUHK-SYSU和PRW两个人物搜索数据集上进行了大量的实验。我们的方法在弱监督的一步式人物搜索方法中取得了最先进的性能。我们希望我们简单的图像内对比学习能够为弱监督的人物搜索提供更多的范式。

每日学术速递2.13_目标检测_03

每日学术速递2.13_目标检测_04

每日学术速递2.13_人工智能_05

2.Efficient Attention via Control Variates(ICLR 2023)

每日学术速递2.13_人工智能_06

标题：通过控制变量实现高效的注意力

作者：Lin Zheng, Jianbo Yuan, Chong Wang, Lingpeng Kong

文章链接：https://arxiv.org/abs/2302.04542v1

项目代码：https://github.com/hkunlp/efficient-attention

每日学术速递2.13_人工智能_07

摘要：

基于随机特征的注意力（RFA）是对softmax注意力的有效近似，具有线性运行时间和空间复杂性。然而，RFA与传统的softmax注意力之间的近似差距还没有得到很好的研究。在以往RFA的进展基础上，我们通过控制变量的视角来描述这一差距，并表明RFA可以分解为序列中每个元素的多个控制变量估计的总和。这个新框架显示，通过操纵每个控制变量，可以从RFA中恢复精确的softmax注意力。此外，它允许我们开发一种更灵活的控制变量形式，从而形成一种新的注意力机制，在保持线性复杂度的同时大大降低了近似差距。广泛的实验证明，我们的模型在视觉和语言任务上都优于最先进的高效注意力机制。

每日学术速递2.13_人工智能_08

每日学术速递2.13_深度学习_09

3.Reversible Vision Transformers(CVPR 2022)

每日学术速递2.13_目标检测_10

标题：可逆式视觉变形器

作者：Karttikeya Mangalam, Haoqi Fan, Yanghao Li, Chao-Yuan Wu, Bo Xiong, Christoph Feichtenhofer, Jitendra Malik

文章链接：https://arxiv.org/abs/2302.01660v2

项目代码：https://github.com/facebookresearch/SlowFast

每日学术速递2.13_计算机视觉_11

摘要：

我们提出了可逆视觉变换器，这是一种用于视觉识别的内存高效架构设计。通过将GPU的内存需求与模型的深度解耦，可逆视觉变换器能够以高效的内存使用方式扩大架构的规模。我们将两种流行的模型，即视觉变形器和多尺度视觉变形器，调整为可逆变体，并在模型大小和图像分类、物体检测和视频分类的任务上进行了广泛的基准测试。在模型复杂度、参数和准确度大致相同的情况下，可逆视觉变换器实现了高达15.5倍的内存占用，证明了可逆视觉变换器作为硬件资源有限的训练机制的有效骨干的前景。最后，我们发现重新计算激活的额外计算负担对于更深层次的模型来说是可以克服的，其吞吐量可以比非可逆的对应模型增加2.3倍。完整的代码和训练好的模型可在https://github.com/facebookresearch/slowfast。一个更简单、易于理解和修改的版本也可在https://github.com/karttikeya/minREV。

每日学术速递2.13_计算机视觉_12

每日学术速递2.13_人工智能_13

每日学术速递2.13_计算机视觉_14

上一篇：计算机视觉论文速递（三）YOLO-Pose：《Enhancing YOLO for Multi Person Pose .....》实时性高且易部署的姿态估计模型

下一篇：每日学术速递2.14

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

2024.3.24每日一题

LeetCode设计可以求最短路径的图类题目链接：2642. 设计可以求最短路径的图类 - 力扣（LeetCode）题目描述给你一个有 n 个节点的有向带权图，节点编号为 0 到 n - 1 。图中的初始边用数组 edges 表示，其中 edges[i] = [fromi, toi, edgeCosti] 表示从 fromi 到 toi 有一条代价为 edgeCosti 的边。请你实

Graph 最短路径数组
2024.4.10每日一题

LeetCode修改后的最大二进制字符串题目链接：1702. 修改后的最大二进制字符串 - 力扣（LeetCode）题目描述给你一个二进制字符串 binary ，它仅有 0 或者 1 组成。你可以使用下面的操作任意次对它进行修改：操作 1 ：如果二进制串包含子字符串"00"，你可以用"10"将其替换。比方说， "**0

字符串十进制数字子字符串
2024.4.11每日一题

LeetCode互质树题目链接：1766. 互质树 - 力扣（LeetCode）题目描述给你一个 n 个节点的树（也就是一个无环连通无向图），节点编号从 0 到 n - 1 ，且恰好有 n - 1 条边，每个节点有一个值。树的根节点为 0 号点。给你一个整数数组 nums 和一个二维数组 edges 来表示这棵树。nums[i] 表示第 i 个点的值，edges[j] = [uj,

数组最大公约数无向图
每日学术速递6.11

然而，在弱监督学习中，大部分数据都是通过弱噪声源标记的，因此设计有效的增强方法仍然很重要。源内提升将局部性引入基

人工智能计算机视觉自然语言处理深度学习机器学习
每日学术速递6.7

我们提出了一种称为 NeRO 的基于神经渲染的方法，用于从在未知环境中捕获的多视图图像重建反射物体的几何形状

机器学习自然语言处理人工智能计算机视觉深度学习
每日学术速递6.5

在这项工作中，我们提出了一种内存高效的零阶优化器 (MeZO)，采用经典的 ZO-SGD 方法进行就地操作，从而微调 LM，使其

人工智能深度学习机器学习计算机视觉自然语言处理
每日学术速递5.28

我们生成的模型，Aligned Language Model with Synthetic Training dataset (ALMoST)，优于开源模型，包括 Alpaca、D

人工智能计算机视觉机器学习自然语言处理算法
每日学术速递5.27

我们最好的模型系列，我们命名为 Guanaco，在 Vicuna 基准测试中优于所有以前公开发布的模型，达到 ChatGPT 性能水平的 99.3

人工智能计算机视觉自然语言处理机器学习深度学习
每日学术速递6.13

我们对树高的预测显示出 2.9 m 的平均误差，并且在加利福尼亚州存在的整个树高范围内显示出相对较低的系统

计算机视觉机器学习自然语言处理深度学习人工智能
每日学术速递5.7

标题：通过双文本图像提示进行多模态程序规划作者：Yujie Lu, Pan Lu, Zhiyu Chen, Wanrong Zhu, Xin Eric Wang, Wil

人工智能机器学习神经网络计算机视觉算法
每日学术速递5.3

标题：学习本地可编辑虚拟人作者：Hsuan-I Ho, Lixin Xue, Jie Song, Otmar Hilliges文章链接：https://arxiv.org/abs/2305.

人工智能神经网络计算机视觉机器学习深度学习
每日学术速递5.1

标题：把人放在他们的位置：可供感知的人类插入场景作者：Sumith Kulal, Tim Brooks, Alex Aiken, Jiajun Wu, Jimei Yang,

人工智能计算机视觉深度学习神经网络机器学习
每日学术速递4.26

标题：AutoNeRF：使用自主代理训练隐式场景表示作者：Pierre Marza, Laetitia Matignon, Olivier Simonin, Dhruv Batra, Chri

人工智能计算机视觉深度学习机器学习神经网络
每日学术速递4.29

标题：自监督学习食谱作者：Randall Balestriero, Mark Ibrahim, Vlad Sobal, Ari Morcos, Shashank Shekhar, Tom Goldstein, Florian Bor

人工智能计算机视觉深度学习机器学习自然语言处理
每日学术速递4.21

值得注意的是，带有 GPT-4 的 Chameleon 在 ScienceQA 上达到了 86.54% 的准确率，比已发表的最好的 few-shot 模型显着提高

人工智能计算机视觉深度学习机器学习神经网络
每日学术速递4.19

我们的 RT-DETR-L 在 COCO val2017 上实现了 53.0% 的 AP，在 T4 GPU 上实现了 114 FPS，而 RT-DETR-X 实现了 54.8% 的 AP 和 74 FPS，

人工智能计算机视觉视觉检测神经网络深度学习
每日学术速递5.2

标题：DataComp：寻找下一代多模态数据集作者：Samir Yitzhak Gadre, Gabriel Ilharco, Alex Fang, Jonathan Hayase, Ge

机器学习算法人工智能神经网络计算机视觉
每日学术速递4.28

标题：StepFormer：教学视频中的自我监督步骤发现和定位作者：Nikita Dvornik, Isma H

人工智能计算机视觉自然语言处理算法机器学习
每日学术速递4.18

标题：Inpaint Anything：分割任何东西满足图像修复作者：Tao Yu, Runseng Feng, Ruoyu Feng, Jinming Liu, Xin Jin, Wenjun

人工智能计算机视觉自然语言处理深度学习算法
每日学术速递4.9

标题：HypLiLoc：通过双曲线融合实现有效的 LiDAR 姿态回归作者：Sijie Wang, Qiyu Kang, Rui She, Wei Wang, Kai Zhao, Yang Song, Wee

人工智能深度学习机器学习神经网络计算机视觉
redisdeskmanager默认字体

配置文件参数说明:1. Redis默认不是以守护进程的方式运行，可以通过该配置项修改，使用yes启用守护进程daemonize no2. 当Redis以守护进程方式运行时，Redis默认会把pid写入/var/run/redis.pid文件，可以通过pidfile指定pidfile /var/run/redis.pid3. 指定Redis监听端口，默认端口为6379，作者在自己的一篇博文中解释了为

数据库数据结构与算法操作系统 Redis 数据
Python如何跟HTML结合

HTMLHTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，是一种制作万维网页面标准语言（标记）。通俗的讲就是相当于定义统一的一套规则，大家都来遵守他，这样就可以让浏览器根据标记语言的规则去解释它。浏览器负责将标签翻译成用户“看得懂”的格式，呈现给用户！(例：djangomoan模版引擎)一、初识HTML 1、简单HTML实例： <!DO

Python如何跟HTML结合操作系统 javascript python ViewUI
springboot集成skywlaking mybaties 日志

文章目录一、介绍1、支持的类型2、日志级别二、实战1、logback2、Log4j2三、总结一、介绍1、支持的类型SpringBoot支持多种日志框架，包括Logback、Log4j2和Java Util Logging（JUL）。默认情况下，如果你使用SpringBoot的starters启动器，它将使用Logback作为日志框架。Logback：Logback是SpringBoot默认的日

spring boot java 后端 spring 日志框架
python如何按顺序读取合并单元格内容

使用python实现多(K)路归并外部排序，解决小内存排序大文件问题上一篇中，我们实现了一般的归并排序归并排序递归与非递归-Python实现在实际工作中，多个有序数列合并成一个，大文件或多个大文件合并成一个并排序的需求常见并不少见，首先，先来看一下多个有序数列情况合并多个有序数组比如现在有四路：a0: [1, 3, 6, 7]a1: []a2: [3, 5, 7, 19]a3: [9, 12,

python 数据结构归并排序大文件 K路
虚拟化运维工作内容

虚拟化是将计算机的各种实体资源（CPU、内存、磁盘空间、网络适配器等），予以抽象、转换后呈现出来并可供分区、组合为一个或多个电脑配置环境的技术，是一种资源管理技术。实现形式是在系统中加入一个虚拟化层，将下层的资源抽象成另一种形式的资源，提供给上层使用。当然这样说来有点抽象了，我们来举个例子： &nb

虚拟化运维工作内容运维云计算虚拟化虚拟化技术

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯