阿里云GPU云服务器使用AIGC文本生成视频

原创

qq66e4ef49d4f94 2024-09-19 15:03:26 博主文章分类：服务器 ©著作权

©著作权归作者所有：来自51CTO博客作者qq66e4ef49d4f94的原创作品，请联系作者获取转载授权，否则将追究法律责任

本文介绍如何使用GPU云服务器搭建Stable Diffusion模型，并基于ModelScope框架，实现使用文本生成视频。

自多态模型GPT-4发布后，AIGC（AI Generated Content，AI生成内容）时代正扑面而来，从单一的文字文本，演化到更丰富的图片、视频、音频、3D模型等。

本文基于阿里云GPU服务器和文本生成视频模型，采用Unet3D结构，通过从纯高斯噪声视频中，迭代去噪的过程，实现文本生成视频功能。

重要

阿里云不对第三方模型“文本生成视频大模型”的合法性、安全性、准确性进行任何保证，阿里云不对由此引发的任何损害承担责任。关于模型的详细信息，请参见文本生成视频大模型。
您应自觉遵守第三方模型的用户协议、使用规范和相关法律法规，并就使用第三方模型的合法性、合规性自行承担相关责任。

本文使用的ai-inference-solution市场镜像中，内置了以下三个模型及运行环境。

v1-5-pruned-emaonly.safetensors：Stable Diffusion v1.5模型，一种潜在的text-to-image（文本到图像）的扩散模型，能够在给定任何文本输入的情况下生成逼真的图像。
说明
该模型中文提示词效果不好，建议使用英文提示词。
Taiyi-Stable-Diffusion-1B-Chinese-v0.1：太乙-中文模型，基于0.2亿筛选过的中文图文对训练，可以使用中文进行AI绘画。
Taiyi-Stable-Diffusion-1B-Anime-Chinese-v0.1：太乙-动漫风格模型，首个开源的中文Stable Diffusion动漫模型，该模型是基于Taiyi-Stable-Diffusion-1B-Chinese-v0.1进行继续训练，经过100万筛选过的动漫中文图文对训练得到的。太乙-动漫风格模型不仅能够生成精美的动漫图像，还保留了太乙-中文模型对于中文概念强大的理解能力。