每日学术速递1.30

原创

AiCharm 2023-07-12 15:16:48 博主文章分类：每日学术速递 ©著作权

文章标签 深度学习人工智能生成对抗网络 AI作画 Muse 文章分类 JavaScript 前端开发

©著作权归作者所有：来自51CTO博客作者AiCharm的原创作品，请联系作者获取转载授权，否则将追究法律责任

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

今天带来的arXiv上最新发表的3篇文本图像的生成论文。

Subjects: cs.LG、cs.Cv、cs.AI、cs.CL

1.StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis

每日学术速递1.30_Muse_02

标题：StyleGAN-T:释放GANs的力量，实现快速的大规模文本到图像的合成

作者： Axel Sauer, Tero Karras, Samuli Laine, Andreas Geiger, Timo Aila

文章链接：https://arxiv.org/abs/2301.09515v1

项目代码：https://github.com/autonomousvision/stylegan-t

每日学术速递1.30_AI作画_03

摘要：

由于大型的预训练语言模型、大规模的训练数据以及可扩展的模型系列（如扩散和自回归模型）的引入，文本-图像合成最近取得了重大进展。然而，表现最好的模型需要迭代评估以生成单一样本。相比之下，生成式对抗网络（GANs）只需要一次前向传递。因此，它们的速度要快得多，但目前在大规模文本到图像合成方面仍然远远落后于最先进的水平。本文旨在确定重新获得竞争力的必要步骤。我们提出的模型StyleGAN-T解决了大规模文本-图像合成的具体要求，如大容量、在不同数据集上的稳定训练、强文本对齐和可控的变化与文本对齐的权衡。StyleGAN-T在样本质量和速度方面明显优于以前的GANs，并且优于蒸馏扩散模型--以前快速文本到图像合成的最先进技术。

Text-to-image synthesis has recently seen significant progress thanks to large pretrained language models, large-scale training data, and the introduction of scalable model families such as diffusion and autoregressive models. However, the best-performing models require iterative evaluation to generate a single sample. In contrast, generative adversarial networks (GANs) only need a single forward pass. They are thus much faster, but they currently remain far behind the state-of-the-art in large-scale text-to-image synthesis. This paper aims to identify the necessary steps to regain competitiveness. Our proposed model, StyleGAN-T, addresses the specific requirements of large-scale text-to-image synthesis, such as large capacity, stable training on diverse datasets, strong text alignment, and controllable variation vs. text alignment tradeoff. StyleGAN-T significantly improves over previous GANs and outperforms distilled diffusion models - the previous state-of-the-art in fast text-to-image synthesis - in terms of sample quality and speed.

2.GLIGEN: Open-Set Grounded Text-to-Image Generation

每日学术速递1.30_人工智能_04

标题：GLIGEN: 开放式基础文本到图像的生成

作者： Yuheng Li, Haotian Liu, Qingyang Wu, Fangzhou Mu, Jianwei Yang, Jianfeng Gao, Chunyuan Li, Yong Jae Lee

文章链接：https://arxiv.org/abs/2301.07093v1

项目代码：https://github.com/gligen/GLIGEN

每日学术速递1.30_Muse_05

摘要：

大规模的文字到图像的扩散模型已经取得了惊人的进展。然而，现状是只使用文本输入，这可能会阻碍可控性。在这项工作中，我们提出了GLIGEN，即接地语言到图像的生成，这是一种新颖的方法，它建立在现有的预训练的文本到图像扩散模型的基础上，并通过使它们也能以接地输入为条件而扩展其功能。为了保留预训练模型的大量概念知识，我们冻结了它的所有权重，并通过一个门控机制将接地信息注入新的可训练层中。我们的模型在标题和边界框条件输入的情况下实现了开放世界接地的text2img生成，并且接地能力可以很好地推广到新的空间配置和概念。GLIGEN在COCO和LVIS上的0-shot性能大大超过了现有的监督布局-图像基线。

Large-scale text-to-image diffusion models have made amazing advances. However, the status quo is to use text input alone, which can impede controllability. In this work, we propose GLIGEN, Grounded-Language-to-Image Generation, a novel approach that builds upon and extends the functionality of existing pre-trained text-to-image diffusion models by enabling them to also be conditioned on grounding inputs. To preserve the vast concept knowledge of the pre-trained model, we freeze all of its weights and inject the grounding information into new trainable layers via a gated mechanism. Our model achieves open-world grounded text2img generation with caption and bounding box condition inputs, and the grounding ability generalizes well to novel spatial configuration and concepts. GLIGEN's zero-shot performance on COCO and LVIS outperforms that of existing supervised layout-to-image baselines by a large margin

3.Muse: Text-To-Image Generation via Masked Generative Transformers

每日学术速递1.30_AI作画_06

标题：Muse:通过遮蔽的生成性变换器进行文本到图像的生成

作者： Huiwen Chang, Han Zhang, Jarred Barber, AJ Maschinot, Jose Lezama, Lu Jiang, Ming-Hsuan Yang, Kevin Murphy, William T. Freeman, Michael Rubinstein, Yuanzhen Li, Dilip Krishnan

文章链接：https://arxiv.org/abs/2301.00704v1

项目代码：https://muse-model.github.io

每日学术速递1.30_深度学习_07

摘要：

我们提出了Muse，一个文本到图像的转化器模型，实现了最先进的图像生成性能，同时比扩散或自回归模型的效率高得多。Muse是在离散标记空间的遮蔽建模任务上训练的：给定从预先训练的大型语言模型（LLM）中提取的文本嵌入，Muse被训练来预测随机遮蔽的图像标记。与像素空间的扩散模型（如Imagen和DALL-E 2）相比，由于使用了离散的标记并需要较少的采样迭代，Muse的效率明显更高；与自回归模型（如Parti）相比，由于使用了并行解码，Muse的效率更高。使用预先训练好的LLM可以实现细粒度的语言理解，转化为高保真的图像生成和对视觉概念的理解，如物体、它们的空间关系、姿态、cardinality等。我们的900M参数模型在CC3M上取得了新的SOTA，FID分数为6.06。Muse 3B参数模型在零次COCO评估中实现了7.88的FID，同时还有0.32的CLIP得分。Muse还直接实现了一些图像编辑应用，而不需要对模型进行微调或反转：内画、外画和无遮挡编辑。

We present Muse, a text-to-image Transformer model that achieves state-of-the-art image generation performance while being significantly more efficient than diffusion or autoregressive models. Muse is trained on a masked modeling task in discrete token space: given the text embedding extracted from a pre-trained large language model (LLM), Muse is trained to predict randomly masked image tokens. Compared to pixel-space diffusion models, such as Imagen and DALL-E 2, Muse is significantly more efficient due to the use of discrete tokens and requiring fewer sampling iterations; compared to autoregressive models, such as Parti, Muse is more efficient due to the use of parallel decoding. The use of a pre-trained LLM enables fine-grained language understanding, translating to high-fidelity image generation and the understanding of visual concepts such as objects, their spatial relationships, pose, cardinality etc. Our 900M parameter model achieves a new SOTA on CC3M, with an FID score of 6.06. The Muse 3B parameter model achieves an FID of 7.88 on zero-shot COCO evaluation, along with a CLIP score of 0.32. Muse also directly enables a number of image editing applications without the need to fine-tune or invert the model: inpainting, outpainting, and mask-free editing.

每日学术速递1.30_生成对抗网络_08

上一篇：每日学术速递1.28

下一篇：深度学习相关概念：感知器

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

2024.3.24每日一题

LeetCode设计可以求最短路径的图类题目链接：2642. 设计可以求最短路径的图类 - 力扣（LeetCode）题目描述给你一个有 n 个节点的有向带权图，节点编号为 0 到 n - 1 。图中的初始边用数组 edges 表示，其中 edges[i] = [fromi, toi, edgeCosti] 表示从 fromi 到 toi 有一条代价为 edgeCosti 的边。请你实

Graph 最短路径数组
2024.4.10每日一题

LeetCode修改后的最大二进制字符串题目链接：1702. 修改后的最大二进制字符串 - 力扣（LeetCode）题目描述给你一个二进制字符串 binary ，它仅有 0 或者 1 组成。你可以使用下面的操作任意次对它进行修改：操作 1 ：如果二进制串包含子字符串"00"，你可以用"10"将其替换。比方说， "**0

字符串十进制数字子字符串
2024.4.11每日一题

LeetCode互质树题目链接：1766. 互质树 - 力扣（LeetCode）题目描述给你一个 n 个节点的树（也就是一个无环连通无向图），节点编号从 0 到 n - 1 ，且恰好有 n - 1 条边，每个节点有一个值。树的根节点为 0 号点。给你一个整数数组 nums 和一个二维数组 edges 来表示这棵树。nums[i] 表示第 i 个点的值，edges[j] = [uj,

数组最大公约数无向图
每日学术速递6.11

然而，在弱监督学习中，大部分数据都是通过弱噪声源标记的，因此设计有效的增强方法仍然很重要。源内提升将局部性引入基

人工智能计算机视觉自然语言处理深度学习机器学习
每日学术速递6.7

我们提出了一种称为 NeRO 的基于神经渲染的方法，用于从在未知环境中捕获的多视图图像重建反射物体的几何形状

机器学习自然语言处理人工智能计算机视觉深度学习
每日学术速递6.5

在这项工作中，我们提出了一种内存高效的零阶优化器 (MeZO)，采用经典的 ZO-SGD 方法进行就地操作，从而微调 LM，使其

人工智能深度学习机器学习计算机视觉自然语言处理
每日学术速递5.28

我们生成的模型，Aligned Language Model with Synthetic Training dataset (ALMoST)，优于开源模型，包括 Alpaca、D

人工智能计算机视觉机器学习自然语言处理算法
每日学术速递5.27

我们最好的模型系列，我们命名为 Guanaco，在 Vicuna 基准测试中优于所有以前公开发布的模型，达到 ChatGPT 性能水平的 99.3

人工智能计算机视觉自然语言处理机器学习深度学习
每日学术速递6.13

我们对树高的预测显示出 2.9 m 的平均误差，并且在加利福尼亚州存在的整个树高范围内显示出相对较低的系统

计算机视觉机器学习自然语言处理深度学习人工智能
每日学术速递5.7

标题：通过双文本图像提示进行多模态程序规划作者：Yujie Lu, Pan Lu, Zhiyu Chen, Wanrong Zhu, Xin Eric Wang, Wil

人工智能机器学习神经网络计算机视觉算法
每日学术速递5.3

标题：学习本地可编辑虚拟人作者：Hsuan-I Ho, Lixin Xue, Jie Song, Otmar Hilliges文章链接：https://arxiv.org/abs/2305.

人工智能神经网络计算机视觉机器学习深度学习
每日学术速递5.1

标题：把人放在他们的位置：可供感知的人类插入场景作者：Sumith Kulal, Tim Brooks, Alex Aiken, Jiajun Wu, Jimei Yang,

人工智能计算机视觉深度学习神经网络机器学习
每日学术速递4.26

标题：AutoNeRF：使用自主代理训练隐式场景表示作者：Pierre Marza, Laetitia Matignon, Olivier Simonin, Dhruv Batra, Chri

人工智能计算机视觉深度学习机器学习神经网络
每日学术速递4.29

标题：自监督学习食谱作者：Randall Balestriero, Mark Ibrahim, Vlad Sobal, Ari Morcos, Shashank Shekhar, Tom Goldstein, Florian Bor

人工智能计算机视觉深度学习机器学习自然语言处理
每日学术速递4.21

值得注意的是，带有 GPT-4 的 Chameleon 在 ScienceQA 上达到了 86.54% 的准确率，比已发表的最好的 few-shot 模型显着提高

人工智能计算机视觉深度学习机器学习神经网络
每日学术速递4.19

我们的 RT-DETR-L 在 COCO val2017 上实现了 53.0% 的 AP，在 T4 GPU 上实现了 114 FPS，而 RT-DETR-X 实现了 54.8% 的 AP 和 74 FPS，

人工智能计算机视觉视觉检测神经网络深度学习
每日学术速递5.2

标题：DataComp：寻找下一代多模态数据集作者：Samir Yitzhak Gadre, Gabriel Ilharco, Alex Fang, Jonathan Hayase, Ge

机器学习算法人工智能神经网络计算机视觉
每日学术速递4.28

标题：StepFormer：教学视频中的自我监督步骤发现和定位作者：Nikita Dvornik, Isma H

人工智能计算机视觉自然语言处理算法机器学习
每日学术速递4.18

标题：Inpaint Anything：分割任何东西满足图像修复作者：Tao Yu, Runseng Feng, Ruoyu Feng, Jinming Liu, Xin Jin, Wenjun

人工智能计算机视觉自然语言处理深度学习算法
每日学术速递4.9

标题：HypLiLoc：通过双曲线融合实现有效的 LiDAR 姿态回归作者：Sijie Wang, Qiyu Kang, Rui She, Wei Wang, Kai Zhao, Yang Song, Wee

人工智能深度学习机器学习神经网络计算机视觉
python 续行 windows

Python 字符串字符串是 Python 中最常用的数据类型。我们可以使用引号('或")来创建字符串。创建字符串很简单，只要为变量分配一个值即可。例如：var1 = 'Hello World!' var2 = "Python Runoob" Python访问字符串中的值 Python不支持单字符类型，单字符在 Python 中也是作为一个字符串使用。 Python访问子字符串，可以使用方括号

python 续行 windows mysql 续行符字符串 Python python
hdfs开发语言

文章目录1 连接HDFS1.1 Configuration类1.2 FileSystem类2 创建文件夹3 上传文件4 下载文件5 数据写入（流式）源码分析6 数据写出（流式）源码分析 1 连接HDFSpublic class instance { private static Configuration conf =null; private static FileSystem

hdfs开发语言 hdfs hadoop 大数据 java
mysql 函数断点

缘由过了时间在操作数据库会出现错误：MySQL server has gone away。这里就要用到数据库重连机制来实现了我们的客服系统使用的MVC框架是Yii2，大家都知道我一直使用这个框架，其他的框架基本不怎么熟悉。那我们就看看基于Yii2 如何实现数据库断开重连机制解决思路 &nbsp

mysql 函数断点数据库 MySQL 长连接
android setcookie无效

如何创建 Cookie？ setcookie() 函数用于设置 cookie。注释：setcookie() 函数必须位于标签之前。语法：setcookie(name, value, expire, path, domain);name：cookie的名称 value：cookie的值 expire：cookie的过期时间 path：cookie所存在的目录，此值可省略，可果省略则默认为当前页面

android setcookie无效 php cookie 服务器客户端
用远端带有GPU的服务器远程训练本地代码

断电后重启实验室的GPU服务器，然后设置开机自启动SSH远程访问服务时，一直报错。于是怀疑是 /etc/ssh/sshd_config文件里没有把一些东西的注释删掉，于是做了以下操作：（1）查看服务器是否安装SSH-bash-4.2# rpm -qa | grep ssh openssh-keycat-7.4p1-11.el7.x86_64 fence-agents-ilo-ssh-4.0.11-

linux centos 运维 bash 服务器

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯