最近基于扩散的人体图像动画技术在合成完全遵循给定参考身份和所需运动姿势序列的视频方面取得了令人印象深刻的成功。尽
由语音音频输入驱动的肖像图像动画领域在生成逼真的动态肖像方面取得了重大进展。这项研究深入研究了在基于扩散的方法框架内同步面部运动和创建视觉吸引力、时间一致的动画的复杂性。我们的创新方法摆脱了依赖参数模型进行中间面部表征的传统范式,采用了端到端扩散范式,并引入了分层音频驱动的视觉合成模块,以提高音频输入和视觉输出之间的对
图像编辑是一项实用而又具有挑战性的任务,因为用户的需求多种多样,其中最困难的部分之一是准确描述编辑后的图像应该是什么样子。
近年来,扩散模型在图像生成方面表现出色。然而,由于生成超高分辨率图像(例如 4096 × 4096)时内存的二次方增加,生成的图像的
Meta AI研究实验室(FAIR)公开发布了多项新研究成果,包括图像到文本和文本到音乐的生成模型,多词预测模型,以及检测AI生成语音的技术。
SDXL终于有了足够好的 Openpose 和 Scribble 模型可以使用了。xinsir 发布的Openpose 和 Scribble 模型质量相当好,尤其是 Open
又有新的SD加速模型可以用了,PCM解决了原来LCM模型的各种问题。并且对 AnimateLCM 也做了优化,用PCM直接生成动画
TTS全称:Text To Speech(也就是文本转语音模型)而ChatTTS是专为对话场景设计的语音生成模型,特别适用于大型语言模
在本文中,我们介绍了第一个综合性的多语言手语数据集Prompt2Sign,它建立于包括美国手语(ASL)和其他七种语言在内的公共数
对于以人为中心的个性化图像生成,基于适配器的方法通过对人脸数据进行文本到图像的训练来学习编码和对齐输入人脸,实现身
视频虚拟试穿旨在将服装转移到目标人物的视频中。将基于图像的试穿技术以逐帧方式直接应用于视频域会导致时间不一致的结果,而之前
个性化已成为生成式 AI 领域的一个突出方面,它能够合成不同背景和风格的个人,同时保持其身份的高保真度化权重。
现在科技圈什么最火?那一定是大模型了。如雨后春笋般冒出的大模型,每一个都在争做行业No.1,但你知道现在哪个大模型能
最近的文本到图像定制工作已被证明能够成功生成给定概念的图像,方法是通过对一些示例微调扩散模型。然而,这些方法往往会过度拟合概念,导致在多种条件下无法创建
Apple Intelligence 由多个功能强大的生成模型组成,这些模型专门用于用户的日常任务,并可以根据用户的当前活动进行动态调整。Apple Inte
快手对标Sora的视频大模型「可灵」来了!早在2023年初,快手就启动了新AI战略。此前,在2023年财报电话会议上,快手联合创始
近日,ControlNet的作者推出了一个全新的项目—Omost。Omost是一个将LLM的编码能力转化为图像生成能力的项目。对现有图像模型的
电子商务的日益流行凸显了虚拟试穿 (VTON) 的重要性。然而,以前的研究主要集中在 2D 领域,并且严重依赖大量数据进行训练。3D
AnyNode可以使用LLMS来做任何输入的事情,以生成任何类型ComfyUI结点的输出。
文本到图像模型的最新发展为以人为中心的一代开辟了新的领域。然而,这些模型不能直接用于生成具有一致的新生成身份的图像。在本工作
Chat凉宫春日是模仿凉宫春日等一系列动漫人物,使用近似语气、个性和剧情聊天的语言模型方案。随着凉宫春日-Zero模型的建立,Chat凉宫
本文的目标是运动分割——发现和分割视频中的运动物体。这是一个被广泛研究的领域,有许多谨慎的,有时甚至是复杂的方法和
我们提出InstantMesh,这是一个从单个图像中立即生成的即时3D网格生成的前馈框架,具有最先进的一代质量和明显的
Sora揭示了缩放扩散变压器(DIT)的潜力 以任意分辨率,宽高比和持续时间为单位的影像图像和视频,但仍然缺乏足够的
本文的目标是运动分割——发现和分割视频中的运动物体。这是一个被广泛研究的领域,有许多谨慎的,有时甚至是复杂的发现和分组运动物体的能力。
从北京时间5月15日周三凌晨1点开始,谷歌在山景城总部附近的海岸线圆形剧场,召开了长达两个小时的年度I/O开发者大会
为了增强文本对图像扩散模型的可控性,现有的方法有如ControlNet Incorporated基于图像的条件来进行控制。
我们提出了一种新的无需调优的文本到图像生成ID自定义方法PuLID (Pure and Lightning ID customization)。通过将一个标
在本文中,我们提出了MoMA:一个开放词汇,无需训练的个性化图像模型,具有灵活的零拍摄功能。随着基础文本
最近在可控人类图像生成方面的进展导致了使用结构信号(例如,姿势,深度)或面部外观的零拍摄生成。然而,以人类外表的多个
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号