文章介绍了DreamStyler,这是一个创新的艺术图像合成框架,它不仅能够根据文本描述生成图像,还能执行风格迁移任务。通过扩展文本嵌入空间至去噪时间步域,DreamStyler提出了多阶段文本反转技术,以优化整个艺术图像合成过程。此外,它引入了一种上下文感知提示增强的方法来分离样式和内容信息,从而更精确地反映参考样式的特征。实验结果表明,DreamStyler在多个场景中表现优异,具有在艺术创作中的巨大潜力。

使用文本到图像的风格转换扩散模型进行绘制_图像合成

1 DreaStyler框架

DreamStyler的设计目标是为了解决现有文本到图像模型难以仅凭文字描述捕捉绘画独特风格(如笔触、色彩基调或构图)的问题。它能够实现高质量的艺术图像生成和风格迁移。

  • 多阶段文本嵌入:通过扩展文本嵌入到去噪时间步域,DreamStyler提出了一种多阶段的文本反转方法,将整个扩散过程分割成多个阶段,并将每个文本嵌入向量分配给相应的阶段,从而改善艺术图像合成的整体效果。
  • 灵活性:DreamStyler可以处理广泛样式的参考图像,结合内容和风格指导,使得模型在不同场景下都能有出色的表现。
  • 风格与上下文分离:利用上下文感知提示,DreamStyler能够区分样式元素和上下文元素,并将这些元素嵌入到多阶段的风格嵌入中。此外,通过人工反馈进一步优化上下文描述,增强了模型分离样式的功能。
  • 样式和上下文指导:为了更好地控制艺术作品的样式和上下文,DreamStyler提出了一种新的指导机制,允许独立调整样式和上下文。

使用文本到图像的风格转换扩散模型进行绘制_Image_02

2 结语

本文介绍了DreamStyler,一种新颖的单次参考引导的艺术图像合成框架,适用于文本到图像生成和风格迁移任务,并展示了其在多种场景下的优越性能。

论文题目: DreamStyler: Paint by Style Inversion with Text-to-Image Diffusion Models

论文链接: https://arxiv.org/abs/2309.06933


PS: 欢迎大家扫码关注公众号_,我们一起在AI的世界中探索前行,期待共同进步!

使用文本到图像的风格转换扩散模型进行绘制_去噪_03

精彩回顾

1. 揭示更多用于深度伪造检测的伪造线索

2. 视觉语言模型能玩《黑神话:悟空》吗?

3. 将 Vision Mamba 和 LSTM 结合,以实现高效准确的空间时间