尽管神经 3D 重建最近取得了进展,但对密集多视图捕获的依赖限制了它们的广泛适用性。在这项工作中,我们提出了ViewCrafter,这是一种利用
基于点拖拽的图像编辑方法(例如 DragDiffusion)引起了广泛关注。然而,由于基于点的编辑指令稀疏,基于点拖拽
扩散模型在受控图像生成中表现出卓越的能力,这进一步激发了人们对图像风格转换的兴趣。由于特定数据的稀缺,现有的工作主要集中于
最近,出现了一系列考虑扩散的蒸馏算法,以减轻与扩散模型 (DM) 的多步推理过程相关的计算开销。当前的
定制视频生成旨在通过文本提示和主体参考图像生成高质量的视频。然而,由于它只在静态图像上进行训练,主体学习的微调
我们推出了 MeshAnything V2,这是一种自回归转换器,可生成与给定形状对齐的艺术家创建的网格 (AM)。它可以与各种 3D 资产生产流程集成,以实现高
我们在几步扩散模型的背景下解决了精确图像反转和分离图像编辑的挑战。我们引入了一种基于编码器的迭代反演技术。反演网络以
为风格化角色制作动画以匹配参考动作序列是电影和游戏行业中一项要求很高的任务。现有方法主要关注角色身体的刚性变形,
通用的文本转图像模型为艺术、设计和媒体领域带来了革命性的创新。然而,当应用于服装生成时,即使是最先
音频驱动的 3D 面部动画旨在将输入音频映射到逼真的面部运动。尽管取得了重大进展,但由于 3D 注释不一致而产生了限制,将以前的模型限制在特定注释上进行训练,从而限制了训练规模。在这项工作中,我们提出了 UniTalker,这是一个统一的模型,具有多头架构,旨在有效利用具有不同注释的数据集。为了增强训练稳定性并确保多头输出之间
Diffusion Transformer领域的最新进展大大提高了高质量二维图像、三维视频和三维形状的生成。然而,Transformer 架构在同语音手势生成领域的有效性仍然相对未被探索,因为之前的方法主要采用卷积神经网络 (CNN) 或简单的几个变换器层。为了弥补这一研究空白,我们引入了一种用于同语音手势生成的新型掩蔽Diffusion Transf
视觉信息智能学习实验室(VILLA)由张健助理教授于2019年创立并负责,专注于AI计算成像与底层视觉、可控内容
深度网络在图像恢复任务(例如图像着色)中表现出色。然而,我们发现,以前的方法在着色流程中依赖于具有
title:Stability AI发布了单目视频转4D模型的新AI模型:Stable Video 4D开放生成式人工智能初创公司Stability AI
扩散模型在图像和视频生成方面都表现出了卓越而强大的能力。为了更好地控制生成结果,研究人员引入了额外的架构如ControlN
本文介绍了一种创新的人体图像个性化框架 UniPortrait,它将单 ID 和多 ID 定制与高人脸保真度、广泛的人脸可编辑性、
时尚图像编辑旨在根据给定的指令修改人物的外观。现有的方法需要辅助工具,如分割器和关键点提取器,缺乏灵活统一
基于图像的虚拟试穿是一项越来越流行和重要的任务,用于生成特定人物的逼真的试穿图像。现有的方法总是使用
本文展示了如何使用经过图像合成训练的生成模型作为视觉数据挖掘的工具。我们的见解是,由于当代生成模型学习了训练数据的准
文本到 3D 生成最近取得了重大进展。为了增强其在实际应用中的实用性,生成具有交互的多个独立对象至关重要,类似于 2D 图像
最近的 3D 大型重建模型通常采用两阶段过程:首先通过多视图扩散模型生成多
近期,3D 人体生成模型通过从 2D 图像中学习 3D 感知 GAN 取得了显著进展。然而,现有的 3D 人体生成方法在紧凑的一维潜在空间中对人体进行建模
视频生成领域的最新进展主要利用了短时内容的扩散模型。然而,这些方法往往无法对复杂的叙事进行建模,也无法在较长时间内保
大多数现有的低光图像增强 (LLIE) 方法要么直接将低光 (LL) 映射到正常光 (NL) 图像,要么使用语义或照明图作为指导。然而,LL
基于扩散模型的虚拟试戴方法 实现真实的试穿效果,但复制骨干 网络作为参考网或利用额外的图像编码器来处理条件输入,
时隔4个月,开源文生图模型霸主Stable Diffusion原班人马再创业!2024年8月1日官宣:Black Forest Labs成立,公司的第一个产品FLUX
Segment Anything Model 2 (SAM 2),这是Meta Segment Anything Model的下一代,现在支持视频和图像中的对象分割。SAM 2
使用给定的音频对口型视频是各种应用的基础,包括创建虚拟主持人或表演者。虽然最近的研究探索了使用不同技术的高保真口型同步,但它
从文本合成高保真 3D 服装对于数字化身创建来说既是理想的也是具有挑战性的。最近基于扩散的分数蒸馏采样 (SD
本报告介绍了 FunAudioLLM,这是一个旨在增强人类与大型语言模型 (LLM) 之间的自然语音交互的模型系列。其核心是两个创
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号