AIGC_Studio的博客_深度学习

北大&港中文&腾讯提出ViewCrafter：一张图像就可以制作影视特效和游戏画面！

尽管神经 3D 重建最近取得了进展，但对密集多视图捕获的依赖限制了它们的广泛适用性。在这项工作中，我们提出了ViewCrafter，这是一种利用

游戏

新视图

3D

点云

原创 9小时前 15 阅读

ECCV2024｜RegionDrag：基于区域的图像编辑方法，通过手动拖拽实现图像编辑！

基于点拖拽的图像编辑方法（例如 DragDiffusion）引起了广泛关注。然而，由于基于点的编辑指令稀疏，基于点拖拽

AIGC

人工智能

计算机视觉

图像生成

stable diffusion

原创 8天前 40 阅读

InstantX团队新作！基于端到端训练的风格转换模型CSGO

扩散模型在受控图像生成中表现出卓越的能力，这进一步激发了人们对图像风格转换的兴趣。由于特定数据的稀缺，现有的工作主要集中于

AIGC

人工智能

图像生成

stable diffusion

计算机视觉

原创 8天前 30 阅读

字节开源 FLUX Dev 的 Haper SD Lora,只需要 8 步或者 16 步就可以用 FLUX 生成图片! 文章附模型下载链接

最近，出现了一系列考虑扩散的蒸馏算法，以减轻与扩散模型 (DM) 的多步推理过程相关的计算开销。当前的

计算机视觉

AIGC

图像生成

人工智能

stable diffusion

原创 14天前 139 阅读

腾讯&浙大提出定制化视频生成框架CustomCrafter，只需通过少量图像就可以完成高质量视频生成！

定制视频生成旨在通过文本提示和主体参考图像生成高质量的视频。然而，由于它只在静态图像上进行训练，主体学习的微调

计算机视觉

人工智能

AIGC

stable diffusion

图像生成

原创 14天前 70 阅读

MeshAnything V2来了！30秒生成建模师级Mesh！最大可生成面数提升至1600.

我们推出了 MeshAnything V2，这是一种自回归转换器，可生成与给定形状对齐的艺术家创建的网格 (AM)。它可以与各种 3D 资产生产流程集成，以实现高

计算机视觉

图像生成

AIGC

人工智能

stable diffusion

原创 14天前 70 阅读

实时图像编辑大革新！Adobe发布TurboEdit：可以通过文本来编辑图像，编辑时间＜0.5秒！

我们在几步扩散模型的背景下解决了精确图像反转和分离图像编辑的挑战。我们引入了一种基于编码器的迭代反演技术。反演网络以

人工智能

计算机视觉

图像生成

AIGC

stable diffusion

原创 14天前 63 阅读

腾讯提出一种新的针对风格化角色和逼真服装动画的生成3D运动转移方法，生成效果逼真！

为风格化角色制作动画以匹配参考动作序列是电影和游戏行业中一项要求很高的任务。现有方法主要关注角色身体的刚性变形，

3d

stable diffusion

AIGC

人工智能

图像生成

原创 15天前 49 阅读

中山大学和联想研究院提出文本到服装生成模型GarmentAligner，解决服装生成中语义对齐、数量、位置和相互关系等问题。

通用的文本转图像模型为艺术、设计和媒体领域带来了革命性的创新。然而，当应用于服装生成时，即使是最先

AIGC

人工智能

计算机视觉

图像生成

多级

原创 15天前 49 阅读

ECCV2024｜商汤发布3D面部动画系统UniTalker：通过统一模型扩展音频驱动的 3D 面部动画

音频驱动的 3D 面部动画旨在将输入音频映射到逼真的面部运动。尽管取得了重大进展，但由于 3D 注释不一致而产生了限制，将以前的模型限制在特定注释上进行训练，从而限制了训练规模。在这项工作中，我们提出了 UniTalker，这是一个统一的模型，具有多头架构，旨在有效利用具有不同注释的数据集。为了增强训练稳定性并确保多头输出之间

3d

音视频

人工智能

AIGC

计算机视觉

原创 23天前 43 阅读

ACM MM 2024，复旦&腾讯优图等提出MDT-A2G，可根据说话语音同步生成手势

Diffusion Transformer领域的最新进展大大提高了高质量二维图像、三维视频和三维形状的生成。然而，Transformer 架构在同语音手势生成领域的有效性仍然相对未被探索，因为之前的方法主要采用卷积神经网络 (CNN) 或简单的几个变换器层。为了弥补这一研究空白，我们引入了一种用于同语音手势生成的新型掩蔽Diffusion Transf

AIGC

人工智能

计算机视觉

MDT

去噪

原创 23天前 31 阅读

顶刊IJCV2024 | 北大、哈工大、清华联合提出无需GT的自监督图像重建网络学习方法。代码已开源！

视觉信息智能学习实验室（VILLA）由张健助理教授于2019年创立并负责，专注于AI计算成像与底层视觉、可控内容

人工智能

计算机视觉

AIGC

数据

采样率

原创 23天前 47 阅读

复旦提出新图像上色方法MultiColor，一键将黑白图还原上色，效果逼真！

深度网络在图像恢复任务（例如图像着色）中表现出色。然而，我们发现，以前的方法在着色流程中依赖于具有

AIGC

人工智能

计算机视觉

图像生成

颜色空间

原创 23天前 39 阅读

Stability AI发布了单目视频转4D模型的新AI模型：Stable Video 4D

title:Stability AI发布了单目视频转4D模型的新AI模型：Stable Video 4D开放生成式人工智能初创公司Stability AI

人工智能

AIGC

计算机视觉

stable diffusion

4D

原创 23天前 36 阅读

轻量高效的ControlNet开源 | ControlNetXt：支持主流生成架构，可与LoRA无缝集成！

扩散模型在图像和视频生成方面都表现出了卓越而强大的能力。为了更好地控制生成结果，研究人员引入了额外的架构如ControlN

人工智能

计算机视觉

AIGC

stable diffusion

归一化

原创 23天前 44 阅读

超越IP-Adapter！阿里提出UniPortrait，可通过文本定制生成高保真的单人或多人图像。

本文介绍了一种创新的人体图像个性化框架 UniPortrait，它将单 ID 和多 ID 定制与高人脸保真度、广泛的人脸可编辑性、

学习方法

AIGC

计算机视觉

人工智能

可编辑

原创 23天前 45 阅读

设计师AI神器！AnyDesign,一张照片加简单描述就可以编辑时尚图像！

时尚图像编辑旨在根据给定的指令修改人物的外观。现有的方法需要辅助工具，如分割器和关键点提取器，缺乏灵活统一

人工智能

AIGC

计算机视觉

stable diffusion

图像生成

原创 23天前 34 阅读

虚拟试衣新SOTA！阿里提出Boow-VTON，解决野外试穿任务难题。

基于图像的虚拟试穿是一项越来越流行和重要的任务，用于生成特定人物的逼真的试穿图像。现有的方法总是使用

人工智能

stable diffusion

计算机视觉

AIGC

图像生成

原创 23天前 48 阅读

ECCV 2024｜视觉数据挖掘领域重大突破！伯克利提出使用扩散模型作为数据挖掘工具！

本文展示了如何使用经过图像合成训练的生成模型作为视觉数据挖掘的工具。我们的见解是，由于当代生成模型学习了训练数据的准

数据挖掘

人工智能

AIGC

计算机视觉

数据集

原创 23天前 25 阅读

ECCV2024｜港中文提出文本生成3D方法DreamDissector，能够生成具有交互的多个独立对象。

文本到 3D 生成最近取得了重大进展。为了增强其在实际应用中的实用性，生成具有交互的多个独立对象至关重要，类似于 2D 图像

3d

计算机视觉

图像生成

AIGC

人工智能

原创 23天前 37 阅读

3D生成效果新SOTA！北大&新加坡国立提出Cycle3D，可以创建高质量一致性的3D内容。

最近的 3D 大型重建模型通常采用两阶段过程：首先通过多视图扩散模型生成多

3d

AIGC

计算机视觉

图像生成

3D

原创 29天前 37 阅读

ECCV 2024 | 3D数字人生成来了！南洋理工提出三维数字人生成新范式StructLDM：高质量可控并支持编辑。

近期，3D 人体生成模型通过从 2D 图像中学习 3D 感知 GAN 取得了显著进展。然而，现有的 3D 人体生成方法在紧凑的一维潜在空间中对人体进行建模

3d

人工智能

计算机视觉

AIGC

stable diffusion

原创 29天前 44 阅读

超逼真AI生成电影来了！《泰坦尼克号》AI重生！浙大&阿里发布MovieDreamer，纯AI生成电影引爆热议！

人工智能

计算机视觉

AIGC

视频生成

关键帧

原创 1月前 44 阅读

ECCV 2024前沿科技速递：GLARE-基于生成潜在特征的码本检索点亮低光世界，低光环境也能拍出明亮大片！

大多数现有的低光图像增强 (LLIE) 方法要么直接将低光 (LL) 映射到正常光 (NL) 图像，要么使用语义或照明图作为指导。然而，LL

科技

人工智能

低光照增强

图像增强

计算机视觉

原创 1月前 44 阅读

中山大学与Pixocial联手提出CatVTON：轻量化架构与高效训练，助力虚拟试衣技术落地应用！

基于扩散模型的虚拟试戴方法实现真实的试穿效果，但复制骨干网络作为参考网或利用额外的图像编码器来处理条件输入，

人工智能

计算机视觉

AIGC

stable diffusion

虚拟试衣

原创 1月前 31 阅读

最强开源文生图模型一夜易主！SD一作、Stabililty AI核心成员Robin Rombach下场创业了，一出手就是王炸。

时隔4个月，开源文生图模型霸主Stable Diffusion原班人马再创业！2024年8月1日官宣：Black Forest Labs成立，公司的第一个产品FLUX

AIGC

人工智能

计算机视觉

图像生成

FLUX

原创 1月前 47 阅读

从“抠图”到“抠视频”,Meta上新AI工具SAM 2。

Segment Anything Model 2 (SAM 2)，这是Meta Segment Anything Model的下一代，现在支持视频和图像中的对象分割。SAM 2

人工智能

AIGC

计算机视觉

sam2

图像分割

原创 1月前 48 阅读

ECCV2024，清华&百度提出ReSyncer：可实现音频同步嘴唇动作视频生成。

使用给定的音频对口型视频是各种应用的基础，包括创建虚拟主持人或表演者。虽然最近的研究探索了使用不同技术的高保真口型同步，但它

音视频

人工智能

AIGC

计算机视觉

数字人

原创 1月前 64 阅读

3D虚拟试穿来了，上大、腾讯等提出ClotheDreamer，数字人也能实现穿，脱衣自由！

从文本合成高保真 3D 服装对于数字化身创建来说既是理想的也是具有挑战性的。最近基于扩散的分数蒸馏采样 (SD

3d

AIGC

人工智能

stable diffusion

图像生成

原创 1月前 101 阅读

震撼发布！阿里通义FunAudioLLM：重塑自然语音交互新纪元，开源引领语音处理革命！

本报告介绍了 FunAudioLLM，这是一个旨在增强人类与大型语言模型 (LLM) 之间的自然语音交互的模型系列。其核心是两个创

交互

人工智能

AIGC

多语言

语音识别

原创 1月前 159 阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

AIGC Studio的博客

北大&港中文&腾讯提出ViewCrafter：一张图像就可以制作影视特效和游戏画面！

ECCV2024｜RegionDrag：基于区域的图像编辑方法，通过手动拖拽实现图像编辑！

InstantX团队新作！基于端到端训练的风格转换模型CSGO

字节开源 FLUX Dev 的 Haper SD Lora,只需要 8 步或者 16 步就可以用 FLUX 生成图片! 文章附模型下载链接

腾讯&浙大提出定制化视频生成框架CustomCrafter，只需通过少量图像就可以完成高质量视频生成！

MeshAnything V2来了！30秒生成建模师级Mesh！最大可生成面数提升至1600.

实时图像编辑大革新！Adobe发布TurboEdit：可以通过文本来编辑图像，编辑时间＜0.5秒！

腾讯提出一种新的针对风格化角色和逼真服装动画的生成3D运动转移方法，生成效果逼真！

中山大学和联想研究院提出文本到服装生成模型GarmentAligner，解决服装生成中语义对齐、数量、位置和相互关系等问题。

ECCV2024｜商汤发布3D面部动画系统UniTalker：通过统一模型扩展音频驱动的 3D 面部动画

ACM MM 2024，复旦&腾讯优图等提出MDT-A2G，可根据说话语音同步生成手势

顶刊IJCV2024 | 北大、哈工大、清华联合提出无需GT的自监督图像重建网络学习方法。代码已开源！

复旦提出新图像上色方法MultiColor，一键将黑白图还原上色，效果逼真！

Stability AI发布了单目视频转4D模型的新AI模型：Stable Video 4D

轻量高效的ControlNet开源 | ControlNetXt：支持主流生成架构，可与LoRA无缝集成！

超越IP-Adapter！阿里提出UniPortrait，可通过文本定制生成高保真的单人或多人图像。

设计师AI神器！AnyDesign,一张照片加简单描述就可以编辑时尚图像！

虚拟试衣新SOTA！阿里提出Boow-VTON，解决野外试穿任务难题。

ECCV 2024｜视觉数据挖掘领域重大突破！伯克利提出使用扩散模型作为数据挖掘工具！

ECCV2024｜港中文提出文本生成3D方法DreamDissector，能够生成具有交互的多个独立对象。

3D生成效果新SOTA！北大&新加坡国立提出Cycle3D，可以创建高质量一致性的3D内容。

ECCV 2024 | 3D数字人生成来了！南洋理工提出三维数字人生成新范式StructLDM：高质量可控并支持编辑。

超逼真AI生成电影来了！《泰坦尼克号》AI重生！浙大&阿里发布MovieDreamer，纯AI生成电影引爆热议！

ECCV 2024前沿科技速递：GLARE-基于生成潜在特征的码本检索点亮低光世界，低光环境也能拍出明亮大片！

中山大学与Pixocial联手提出CatVTON：轻量化架构与高效训练，助力虚拟试衣技术落地应用！

最强开源文生图模型一夜易主！SD一作、Stabililty AI核心成员Robin Rombach下场创业了，一出手就是王炸。

从“抠图”到“抠视频”,Meta上新AI工具SAM 2。

ECCV2024，清华&百度提出ReSyncer：可实现音频同步嘴唇动作视频生成。

3D虚拟试穿来了，上大、腾讯等提出ClotheDreamer，数字人也能实现穿，脱衣自由！

震撼发布！阿里通义FunAudioLLM：重塑自然语音交互新纪元，开源引领语音处理革命！