每日学术速递5.21

原创

AiCharm 2023-07-12 15:22:16 博主文章分类：每日学术速递 ©著作权

文章标签 人工智能计算机视觉自然语言处理深度学习机器学习 文章分类 HarmonyOS 后端开发

©著作权归作者所有：来自51CTO博客作者AiCharm的原创作品，请联系作者获取转载授权，否则将追究法律责任

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV

1.Going Denser with Open-Vocabulary Part Segmenta

每日学术速递5.21_自然语言处理

标题：通过开放式词汇部分分割变得更密集

作者：Peize Sun, Shoufa Chen, Chenchen Zhu, Fanyi Xiao, Ping Luo, Saining Xie, Zhicheng Yan

文章链接：https://rl-at-scale.github.io/assets/rl_at_scale.pdf

项目代码：https://rl-at-scale.github.io/

每日学术速递5.21_机器学习_02

每日学术速递5.21_计算机视觉_03

每日学术速递5.21_自然语言处理_04

每日学术速递5.21_机器学习_05

每日学术速递5.21_人工智能_06

摘要：

对象检测已经从有限的类别扩展到开放的词汇。展望未来，一个完整的智能视觉系统需要理解更细粒度的对象描述、对象部分。在本文中，我们提出了一种能够预测开放词汇对象及其部分分割的检测器。这种能力来自两种设计。首先，我们在部分级、对象级和图像级数据的联合上训练检测器，以构建语言和图像之间的多粒度对齐。其次，我们通过与基础对象的密集语义对应将新对象解析成它的部分。这两种设计使检测器能够在很大程度上受益于各种数据源和基础模型。在开放词汇部分分割实验中，我们的方法在 PartImageNet 的跨数据集泛化中优于基线 3.3 ∼ 7.3 mAP，在跨类别泛化中将基线提高 7.3 novel AP 50 在帕斯卡部分。最后，我们训练了一个检测器，它可以泛化到范围广泛的部分分割数据集，同时实现比特定于数据集的训练更好的性能。

2.CLAPSpeech: Learning Prosody from Text Context with Contrastive Language-Audio Pre-training(ACL 2023)

每日学术速递5.21_机器学习_07

标题：CLAPSpeech：通过对比语言-音频预训练从文本上下文中学习韵律

作者：Zhenhui Ye, Rongjie Huang, Yi Ren, Ziyue Jiang, Jinglin Liu, Jinzheng He, Xiang Yin, Zhou Zhao

文章链接：https://arxiv.org/abs/2305.10763

项目代码：https://clapspeech.github.io/

每日学术速递5.21_计算机视觉_08

每日学术速递5.21_机器学习_09

每日学术速递5.21_机器学习_10

每日学术速递5.21_人工智能_11

摘要：

改进文本表示已经引起了很多关注，以实现富有表现力的文本到语音（TTS）。然而，现有作品仅通过掩码标记重建任务隐式学习韵律，导致训练效率低下且韵律建模困难。我们提出了 CLAPSpeech，这是一种跨模态对比预训练框架，可显式学习不同上下文下相同文本标记的韵律差异。具体来说，1）我们鼓励模型通过编码器输入和对比损失的精心设计，在联合多模态空间中将文本上下文与其相应的韵律模式联系起来；2) 我们引入了多尺度预训练管道来捕获多个级别的韵律模式。我们展示了如何将 CLAPSpeech 整合到现有的 TTS 模型中以获得更好的韵律。在三个数据集上的实验不仅表明 CLAPSpeech 可以改进现有 TTS 方法的韵律预测，而且还展示了其适应多种语言和多说话人 TTS 的泛化能力。我们还深入分析了 CLAPSpeech 性能背后的原理。消融研究证明了我们方法中每个组件的必要性。此 https URL 提供源代码和音频样本。

3.OpenShape: Scaling Up 3D Shape Representation Towards Open-World Understanding

每日学术速递5.21_计算机视觉_12

标题：OpenShape：将 3D 形状表示放大以实现对开放世界的理解

作者：Minghua Liu, Ruoxi Shi, Kaiming Kuang, Yinhao Zhu, Xuanlin Li, Shizhong Han, Hong Cai, Fatih Porikli, Hao Su

文章链接：https://arxiv.org/abs/2305.10764

项目代码：https://colin97.github.io/OpenShape/

每日学术速递5.21_机器学习_13

每日学术速递5.21_计算机视觉_14

每日学术速递5.21_深度学习_15

每日学术速递5.21_自然语言处理_16

每日学术速递5.21_计算机视觉_17

每日学术速递5.21_深度学习_18

摘要：

我们介绍了 OpenShape，一种用于学习文本、图像和点云的多模态联合表示的方法。我们采用常用的多模态对比学习框架来进行表示对齐，但特别关注放大 3D 表示以实现开放世界 3D 形状理解。为实现这一目标，我们通过集成多个 3D 数据集来扩大训练数据，并提出了几种策略来自动过滤和丰富嘈杂的文本描述。我们还探索和比较了扩展 3D 骨干网络的策略，并引入了一种新的 hard negative 挖掘模块，以实现更高效的训练。我们在零样本 3D 分类基准上评估 OpenShape，并展示其在开放世界识别方面的卓越能力。具体而言，OpenShape 在 1,156 类 Objaverse-LVIS 基准测试中实现了 46.8% 的零样本准确率，而现有方法的准确率不到 10%。OpenShape 在 ModelNet40 上的准确率也达到了 85.3%，比之前的零样本基线方法高出 20%，与一些全监督方法的表现相当。此外，我们展示了我们学习到的嵌入编码了广泛的视觉和语义概念（例如，子类别、颜色、形状、样式），并促进了细粒度的文本 3D 和图像 3D 交互。由于它们与 CLIP 嵌入对齐，我们学习的形状表示也可以与现成的基于 CLIP 的模型集成，用于各种应用，例如点云字幕和点云条件图像生成。

更多Ai资讯：公主号AiCharm

每日学术速递5.21_机器学习_19

上一篇：深度学习相关概念：过拟合与欠拟合

下一篇：每日学术速递5.20

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

2024.3.24每日一题

LeetCode设计可以求最短路径的图类题目链接：2642. 设计可以求最短路径的图类 - 力扣（LeetCode）题目描述给你一个有 n 个节点的有向带权图，节点编号为 0 到 n - 1 。图中的初始边用数组 edges 表示，其中 edges[i] = [fromi, toi, edgeCosti] 表示从 fromi 到 toi 有一条代价为 edgeCosti 的边。请你实

Graph 最短路径数组
2024.4.10每日一题

LeetCode修改后的最大二进制字符串题目链接：1702. 修改后的最大二进制字符串 - 力扣（LeetCode）题目描述给你一个二进制字符串 binary ，它仅有 0 或者 1 组成。你可以使用下面的操作任意次对它进行修改：操作 1 ：如果二进制串包含子字符串"00"，你可以用"10"将其替换。比方说， "**0

字符串十进制数字子字符串
2024.4.11每日一题

LeetCode互质树题目链接：1766. 互质树 - 力扣（LeetCode）题目描述给你一个 n 个节点的树（也就是一个无环连通无向图），节点编号从 0 到 n - 1 ，且恰好有 n - 1 条边，每个节点有一个值。树的根节点为 0 号点。给你一个整数数组 nums 和一个二维数组 edges 来表示这棵树。nums[i] 表示第 i 个点的值，edges[j] = [uj,

数组最大公约数无向图
每日学术速递4.13

标题：Slide-Transformer：具有局部自注意力的分层视觉变换器作者：Xuran Pan, Tianzhu Ye, Zhuofan Xia, Shiji Song, Gao Huang文章

人工智能深度学习机器学习神经网络计算机视觉
每日学术速递6.10

与之前专注于静态图像理解的视觉 LLM（如 MiniGPT-4 和 LLaVA）不同，Video-LLaMA 主要解决视频理解中的两个挑战：（1）捕捉视觉场景中的

机器学习人工智能计算机视觉深度学习自然语言处理
每日学术速递6.9

尽管接受了 11 亿个掩码的训练，但 SAM 的掩码预测质量在许多情况下仍不尽如人意，尤其是在处理具有复杂结构的

计算机视觉人工智能深度学习自然语言处理机器学习
每日学术速递5.8

标题：一键个性化细分任何模型作者：Renrui Zhang, Zhengkai Jiang, Ziyu Guo, Shilin Yan, Junting Pan, Hao Dong, Peng Gao, Hongsheng

人工智能算法机器学习计算机视觉神经网络
每日学术速递5.19

标题：论大型多模态模型中 OCR 的隐藏奥秘作者：Yuliang Liu, Zhang Li, Hongliang Li, Wenwen Yu, Mingxin Huang, Dezhi Peng, Mingyu Liu, Mi

人工智能机器学习自然语言处理计算机视觉深度学习
每日学术速递4.24

标题：多模态人脸生成和编辑的协同扩散作者：Ziqi Huang, Kelvin C.K. Chan, Yuming Jiang, Ziwei Liu文章链接：https://arxiv.org/abs/23

人工智能计算机视觉视觉检测神经网络深度学习
每日学术速递4.25

标题：具有扩散模型的长期光度一致的新视图合成作者：Jason J. Yu, Fereshteh Forghani, Konstantinos G. Derpanis, Marcus A. Bruba

人工智能计算机视觉深度学习机器学习神经网络
每日学术速递4.23

虽然带有风格迁移神经网络的传统基于模型的 LiDAR 模拟器可用于渲染新颖的视图，但它们在生成准确和逼真的 LiDAR 模式方面存在不

人工智能计算机视觉自然语言处理深度学习算法
每日学术速递4.20

标题：化身长腿：使用扩散模型从稀疏跟踪输入生成平滑的人体运动作者：Yuming Du, Robin Kips, Albert Pumarola, Sebastian Starke, Ali Thab

人工智能 ide 项目代码 github
每日学术速递4.17

我们对最近两种具有代表性的布局引导图像生成方法进行了基准测试，并观察到良好的 ID 布局控制可能无法很好地泛化到野外的任意布局（例如，边界处的对象）。接下来，我们提出了 IterInpaint，这是一种新的基线，它通过修复以逐步的方式生成前景和背景区域，在 LayoutBench 的 OOD 布局上展示了比现有模型更强的通用性。为实现这一目标，我们将

人工智能深度学习计算机视觉神经网络机器学习
每日学术速递4.15

标题：Zip-NeRF：基于网格的抗锯齿神经辐射场作者：Xueyan Zou, Jianwei Yang, Hao Zhang, Feng Li, Linjie Li, Jianfeng 些基于网格的方

算法人工智能机器学习计算机视觉神经网络
每日学术速递4.10

标题：通过人脸解析信息超分辨人脸图像作者：Chenyang Wang, Junjun Jiang, Zhiwei Zhong, Deming Zhai, Xianming Liu文章

人工智能计算机视觉深度学习神经网络视觉检测
每日学术速递4.4

标题：Baize：一种对自聊天数据进行参数高效调优的开源聊天模型作者：Canwen Xu, Daya Guo, Nan Duan, Julian McAuley文章链接：可以通过利用 Chat

人工智能深度学习机器学习神经网络计算机视觉
每日学术速递4.3

标题：大型语言模型综述作者：Wayne Xin Zhao, Kun Zhou, Junyi Li, Tianyi Tang, Xiaolei Wang, Yupeng Hou, Yingqian Min, Beich用于

人工智能机器学习计算机视觉深度学习神经网络
每日学术速递4.2

标题：DiffCollage：使用扩散模型并行生成大内容作者：Qinsheng Zhang, Jiaming Song, Xun Huang, Yongxin Chen, Ming-Yu Liu文章链接：h成大内

人工智能计算机视觉深度学习神经网络机器学习
每日学术速递4.1

标题：HuggingGPT：使用 ChatGPT 及其在 HuggingFace 中的朋友解决 AI 任务作者：Yongliang Shen, Kaitao Song, Xu Tan, Dongsheng Li, Weiming Lu, Yueting Zh复杂

人工智能深度学习计算机视觉神经网络机器学习
每日学术速递3.27

标题：Text2Room：从 2D 文本到图像模型中提取带纹理的 3D 网格作者：Lukas Höllein, Ang Cao, Andrew Owens, Justin Johnson, Matthias Nießner文章链接：

人工智能计算机视觉深度学习神经网络机器学习
android 2的n次方 Math

#本人代码习惯第一次写博客简单说一下个人的代码习惯以及介绍一些小东西#include <bits/stdc++.h> using namespace std;万能头文件大多数OJ和比赛环境都支持这个头文件相当于一次性引用了所有头文件 C++标准库中基本所有函数都需要在前面带上std:: 可以直接使用using namespace std;启用std命名空间就不用再打std::了#

android 2的n次方 Math #include 快速幂 #endif
zabbix内存占用率不高

文章目录前言知识总览什么是内存？有何作用？几个常用的数量单位进程的运行原理——指令逻辑地址vs物理地址进程运行的基本原理装入模块装入内存装入的三种方式1、绝对装入2、静态重定位3、动态重定位链接的三种方式知识回顾与重要考点前言此篇文章是我在B站学习时所做的笔记，大部分图片都是课件老师的PPT，方便复习用。此篇文章仅供学习参考。提示：以下是本篇文章正文内容知识总览什么是内存？有何作用？内存是用于

zabbix内存占用率不高操作系统重定位指令物理地址
memset 最大负数

本文归纳了下使用memset几个需要注意的地方，虽然内容很简单，但也希望对大家有所帮助。 1. memset是以字节为单位，初始化内存块。当初始化一个字节单位的数组时，可以用memset把每个数组单元初始化成任何你想要的值，比如： char data[10]; memset(data, 1, sizeof(data)); // right memse

memset 最大负数 c语言初始化数组数据结构
idea中Java虚拟机内存总量怎么扩容

1.java程序的执行过程 java源文件->解析器->class文件->java类加载器->java运行时数据区->执行引擎 2.我们接下来看一下java运行时数据区包含程序计数器,虚拟机栈,本地方法栈,方法区,堆,

java 内存管理运维程序计数器方法区
spark和MP

SparkSQL本质上是基于DAG模型的MPP。而Kylin 核心是Cube(多维立方体)。关于MPP和Cube预处理的差异，重复如下： > MPP [1] 的基本思路是增加机器来并行计算，从而提高查询速度。比如扫描8亿记录一台机器要处理1小时，但如果用100台机器来并行处理，就只要一分钟不到。再配合列式存储和一些索引，查询可以更快返回。要注意这里在线运算量并没有减小，8

spark和MP spark apache kylin 预处理数据

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯