AIGC_Studio的博客_AIGC,深度学习,论文阅读

超越AnimateAnyone, 华中科大&中科大&阿里提出Unimate,可以根据单张图片和姿势指导生成视频。

最近基于扩散的人体图像动画技术在合成完全遵循给定参考身份和所需运动姿势序列的视频方面取得了令人印象深刻的成功。尽

人工智能

AIGC

计算机视觉

编码器

github

原创 2月前 45 阅读

复旦发布开源版本的EMO，只需输入一段音频和一张照片就可以让人物开始说话。

由语音音频输入驱动的肖像图像动画领域在生成逼真的动态肖像方面取得了重大进展。这项研究深入研究了在基于扩散的方法框架内同步面部运动和创建视觉吸引力、时间一致的动画的复杂性。我们的创新方法摆脱了依赖参数模型进行中间面部表征的传统范式，采用了端到端扩散范式，并引入了分层音频驱动的视觉合成模块，以提高音频输入和视觉输出之间的对

人工智能

AIGC

计算机视觉

视频生成

图像生成

原创 2月前 48 阅读

电商领域利器来了！港大&阿里联合提出MimicBrush，对参考图模仿进行零样本图像编辑，万物皆可编辑。

图像编辑是一项实用而又具有挑战性的任务，因为用户的需求多种多样，其中最困难的部分之一是准确描述编辑后的图像应该是什么样子。

人工智能

AIGC

计算机视觉

图像编辑

图像生成

原创 2月前 81 阅读

超高清图像生成新SOTA！清华唐杰教授团队提出Inf-DiT：生成4096图像比UNet节省5倍内存。

近年来，扩散模型在图像生成方面表现出色。然而，由于生成超高分辨率图像（例如 4096 × 4096）时内存的二次方增加，生成的图像的

人工智能

AIGC

计算机视觉

图像生成

推理过程

原创 2月前 75 阅读

Meta FAIR研究新成果：图像到文本、文本到音乐的生成模型，多标记预测模型以及AI生成语音检测技术

Meta AI研究实验室(FAIR)公开发布了多项新研究成果，包括图像到文本和文本到音乐的生成模型，多词预测模型，以及检测AI生成语音的技术。

人工智能

AIGC

文生视频

计算机视觉

音视频

原创 2月前 26 阅读

SDXL终于有了足够好的 Openpose 和 Scribble 模型可以使用了。

SDXL终于有了足够好的 Openpose 和 Scribble 模型可以使用了。xinsir 发布的Openpose 和 Scribble 模型质量相当好，尤其是 Open

人工智能

AIGC

计算机视觉

stable diffusion

预处理

原创 2月前 134 阅读

港中文&斯坦福提出SD加速模型PCM，一步即可生成图像和视频，可直接与SD1.5,SDXL,AnimateLCM结合！

又有新的SD加速模型可以用了，PCM解决了原来LCM模型的各种问题。并且对 AnimateLCM 也做了优化，用PCM直接生成动画

AIGC

人工智能

图像生成

计算机视觉

github

原创 2月前 51 阅读

突破开源天花板！最强文本转语音工具ChatTTS：对话式高可控的语音合成模型

TTS全称：Text To Speech（也就是文本转语音模型）而ChatTTS是专为对话场景设计的语音生成模型，特别适用于大型语言模

人工智能

AIGC

深度学习

TTS

ChatTTS

原创 2月前 201 阅读

首个文字生成手语模型来了！SignLLM通过文字描述来生成手语视频，目前已经支持八国手语！

在本文中，我们介绍了第一个综合性的多语言手语数据集Prompt2Sign，它建立于包括美国手语(ASL)和其他七种语言在内的公共数

人工智能

AIGC

计算机视觉

图像生成

stable diffusion

原创 2月前 95 阅读

Facechain最新版本Facecchain-Fact开源，只需1张照片和10秒，就可以生成多种风格个人写真。

对于以人为中心的个性化图像生成，基于适配器的方法通过对人脸数据进行文本到图像的训练来学习编码和对齐输入人脸，实现身

AIGC

计算机视觉

人工智能

图像生成

ControlNet

原创 2月前 89 阅读

阿里中科大推出ViViD: 轻松实现视频换衣，虚拟试衣技术迈向实用化

视频虚拟试穿旨在将服装转移到目标人物的视频中。将基于图像的试穿技术以逐帧方式直接应用于视频域会导致时间不一致的结果，而之前

人工智能

AIGC

计算机视觉

图像生成

虚拟试衣

原创 2月前 114 阅读

谷歌发布HyperDreameBooth：单张人像20秒内完成模型训练，速度比DreamBooth快25倍，模型小10000倍

个性化已成为生成式 AI 领域的一个突出方面，它能够合成不同背景和风格的个人，同时保持其身份的高保真度化权重。

人工智能

AIGC

深度学习

图像生成

计算机视觉

原创 2月前 114 阅读

文心大模型4.0加持的文心一言工具保姆级使用教程！快点赞收藏起来！

现在科技圈什么最火？那一定是大模型了。如雨后春笋般冒出的大模型，每一个都在争做行业No.1，但你知道现在哪个大模型能

人工智能

AIGC

计算机视觉

文心一言

百度

原创 2月前 151 阅读

北交&字节联合提出ClassDiffusion: 使用显式类别引导的一致性个性化生成。

最近的文本到图像定制工作已被证明能够成功生成给定概念的图像，方法是通过对一些示例微调扩散模型。然而，这些方法往往会过度拟合概念，导致在多种条件下无法创建

人工智能

AIGC

深度学习

图像生成

计算机视觉

原创 2月前 26 阅读

苹果WWDC重磅发布的IOS 18、Apple Intelligence背后的技术分析！

Apple Intelligence 由多个功能强大的生成模型组成，这些模型专门用于用户的日常任务，并可以根据用户的当前活动进行动态调整。Apple Inte

苹果

人工智能

AIGC

IOS

计算机视觉

原创 2月前 103 阅读

效果对标Sora, 快手「可灵」视频生成大模型支持生成30FPS两分钟1080P视频,已开放邀测！

快手对标Sora的视频大模型「可灵」来了！早在2023年初，快手就启动了新AI战略。此前，在2023年财报电话会议上，快手联合创始

音视频

人工智能

AIGC

计算机视觉

视频生成

原创 2月前 111 阅读

ControlNet作者新作Omost 一句话将LLM的编码能力转化为图像生成能力，秒变构图小作文，再也不用为不会写提示词担心了！

近日，ControlNet的作者推出了一个全新的项目—Omost。Omost是一个将LLM的编码能力转化为图像生成能力的项目。对现有图像模型的

人工智能

AIGC

计算机视觉

图像生成

数据

原创 2月前 178 阅读

3D虚拟试穿来了！港大和西北工业提出GaussianVTON，通过多阶段高斯溅射编辑与2D VTON相结合，使用图像作为编辑提示，首次实现2D到3D的无缝过渡。

电子商务的日益流行凸显了虚拟试穿 (VTON) 的重要性。然而，以前的研究主要集中在 2D 领域，并且严重依赖大量数据进行训练。3D

3d

人工智能

AIGC

计算机视觉

图像生成

原创 2月前 77 阅读

超牛ComfyUI节点AnyNode来了！要啥功能让AI帮你编写

AnyNode可以使用LLMS来做任何输入的事情,以生成任何类型ComfyUI结点的输出。

人工智能

AIGC

计算机视觉

图像生成

stable diffusion

原创 2月前 75 阅读

大连理工提出CharacterFactory，仅需2.5GB显存训练10分钟，可以在3秒内无限制地端到端地采样出新的一致性角色，可以结合动作、背景、风格等文本提示实现。

人工智能

AIGC

深度学习

stable diffusion

3D

原创 2月前 38 阅读

Chat凉宫春日 Chat-Haruhi-Suzumiya：基于大型语言模型的动漫角色复活项目，提供接近原作语气、个性和剧情的聊天体验，支持零样本角色扮演和RAG角色构造

Chat凉宫春日是模仿凉宫春日等一系列动漫人物，使用近似语气、个性和剧情聊天的语言模型方案。随着凉宫春日-Zero模型的建立，Chat凉宫

语言模型

人工智能

自然语言处理

动漫

数据

原创 2月前 48 阅读

牛津大学和上海交大将SAM和Flow应用于移动目标，简单而有效，轻松分割运动目标！

本文的目标是运动分割——发现和分割视频中的运动物体。这是一个被广泛研究的领域，有许多谨慎的，有时甚至是复杂的方法和

AIGC

人工智能

图像生成

计算机视觉

图像分割

原创 2月前 39 阅读

腾讯提出InstantMesh:超快速的图像转 3D且质量很高,30秒内免费从一张图片生成3D模型

我们提出InstantMesh，这是一个从单个图像中立即生成的即时3D网格生成的前馈框架，具有最先进的一代质量和明显的

人工智能

AIGC

图像生成

3D

3d

原创 2月前 134 阅读

Lumina-T2X 一个使用 DiT 架构的内容生成模型，可通过文本生成图像、视频、多视角 3D 对象和音频剪辑。

Sora揭示了缩放扩散变压器（DIT）的潜力以任意分辨率，宽高比和持续时间为单位的影像图像和视频，但仍然缺乏足够的

音视频

计算机视觉

人工智能

AIGC

图像生成

原创 2月前 183 阅读

牛津大学和上海交大将SAM和Flow应用于移动目标，简单而有效，轻松分割运动目标.

本文的目标是运动分割——发现和分割视频中的运动物体。这是一个被广泛研究的领域，有许多谨慎的，有时甚至是复杂的发现和分组运动物体的能力。

人工智能

AIGC

计算机视觉

图像分割

光流

原创 2月前 28 阅读

谷歌2024 I/O 开发者大会回顾：足足喊了120次AI 实时交互、视频模型登场

从北京时间5月15日周三凌晨1点开始，谷歌在山景城总部附近的海岸线圆形剧场，召开了长达两个小时的年度I/O开发者大会

人工智能

AIGC

计算机视觉

LLM

搜索

原创 2月前 9 阅读

字节提出ControlNet++：更强更可控的图像生成框架！通过高效的一致性反馈改进条件控制!

为了增强文本对图像扩散模型的可控性，现有的方法有如ControlNet Incorporated基于图像的条件来进行控制。

stable diffusion

controlnet

人工智能

AIGC

图像生成

原创 2月前 67 阅读

当前最好的Stable Diffusion角色特征固定工具来了！字节提出PuLID，用于文本生成图像领域，实现了高度的ID保真度与可编辑性。

我们提出了一种新的无需调优的文本到图像生成ID自定义方法PuLID (Pure and Lightning ID customization)。通过将一个标

stable diffusion

AIGC

人工智能

计算机视觉

可编辑

原创 2月前 37 阅读

超越IP-Adapter！字节提出MoMA,一种即插即用、无需调优的快速个性化生成方法！

在本文中，我们提出了MoMA:一个开放词汇，无需训练的个性化图像模型，具有灵活的零拍摄功能。随着基础文本

人工智能

AIGC

计算机视觉

图像生成

模态

原创 2月前 94 阅读

北航提出part2whole:可控⼈体图像⽣成的统⼀参考框架,可从任何数量和不同来源的参考人体部位图像中生成逼真的、高质量的各种姿势的人体人物图。

最近在可控人类图像生成方面的进展导致了使用结构信号(例如，姿势，深度)或面部外观的零拍摄生成。然而，以人类外表的多个

人工智能

AIGC

计算机视觉

图像生成

编码器

原创 2月前 29 阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

AIGC Studio的博客

超越AnimateAnyone, 华中科大&中科大&阿里提出Unimate,可以根据单张图片和姿势指导生成视频。

复旦发布开源版本的EMO，只需输入一段音频和一张照片就可以让人物开始说话。

电商领域利器来了！港大&阿里联合提出MimicBrush，对参考图模仿进行零样本图像编辑，万物皆可编辑。

超高清图像生成新SOTA！清华唐杰教授团队提出Inf-DiT：生成4096图像比UNet节省5倍内存。

Meta FAIR研究新成果：图像到文本、文本到音乐的生成模型，多标记预测模型以及AI生成语音检测技术

SDXL终于有了足够好的 Openpose 和 Scribble 模型可以使用了。

港中文&斯坦福提出SD加速模型PCM，一步即可生成图像和视频，可直接与SD1.5,SDXL,AnimateLCM结合！

突破开源天花板！最强文本转语音工具ChatTTS：对话式高可控的语音合成模型

首个文字生成手语模型来了！SignLLM通过文字描述来生成手语视频，目前已经支持八国手语！

Facechain最新版本Facecchain-Fact开源，只需1张照片和10秒，就可以生成多种风格个人写真。

阿里中科大推出ViViD: 轻松实现视频换衣，虚拟试衣技术迈向实用化

谷歌发布HyperDreameBooth：单张人像20秒内完成模型训练，速度比DreamBooth快25倍，模型小10000倍

文心大模型4.0加持的文心一言工具保姆级使用教程！快点赞收藏起来！

北交&字节联合提出ClassDiffusion: 使用显式类别引导的一致性个性化生成。

苹果WWDC重磅发布的IOS 18、Apple Intelligence背后的技术分析！

效果对标Sora, 快手「可灵」视频生成大模型支持生成30FPS两分钟1080P视频,已开放邀测！

ControlNet作者新作Omost 一句话将LLM的编码能力转化为图像生成能力，秒变构图小作文，再也不用为不会写提示词担心了！

3D虚拟试穿来了！港大和西北工业提出GaussianVTON，通过多阶段高斯溅射编辑与2D VTON相结合，使用图像作为编辑提示，首次实现2D到3D的无缝过渡。

超牛ComfyUI节点AnyNode来了！要啥功能让AI帮你编写

大连理工提出CharacterFactory，仅需2.5GB显存训练10分钟，可以在3秒内无限制地端到端地采样出新的一致性角色，可以结合动作、背景、风格等文本提示实现。

Chat凉宫春日 Chat-Haruhi-Suzumiya：基于大型语言模型的动漫角色复活项目，提供接近原作语气、个性和剧情的聊天体验，支持零样本角色扮演和RAG角色构造

牛津大学和上海交大将SAM和Flow应用于移动目标，简单而有效，轻松分割运动目标！

腾讯提出InstantMesh:超快速的图像转 3D且质量很高,30秒内免费从一张图片生成3D模型

Lumina-T2X 一个使用 DiT 架构的内容生成模型，可通过文本生成图像、视频、多视角 3D 对象和音频剪辑。

牛津大学和上海交大将SAM和Flow应用于移动目标，简单而有效，轻松分割运动目标.

谷歌2024 I/O 开发者大会回顾：足足喊了120次AI 实时交互、视频模型登场

字节提出ControlNet++：更强更可控的图像生成框架！通过高效的一致性反馈改进条件控制!

当前最好的Stable Diffusion角色特征固定工具来了！字节提出PuLID，用于文本生成图像领域，实现了高度的ID保真度与可编辑性。

超越IP-Adapter！字节提出MoMA,一种即插即用、无需调优的快速个性化生成方法！

北航提出part2whole:可控⼈体图像⽣成的统⼀参考框架,可从任何数量和不同来源的参考人体部位图像中生成逼真的、高质量的各种姿势的人体人物图。