本文介绍如何使用GPU云服务器搭建Stable Diffusion模型,并基于ModelScope框架,实现使用文本生成视频。

背景信息

自多态模型GPT-4发布后,AIGC(AI Generated Content,AI生成内容)时代正扑面而来,从单一的文字文本,演化到更丰富的图片、视频、音频、3D模型等。

本文基于阿里云GPU服务器和文本生成视频模型,采用Unet3D结构,通过从纯高斯噪声视频中,迭代去噪的过程,实现文本生成视频功能。

重要

  • 阿里云不对第三方模型“文本生成视频大模型”的合法性、安全性、准确性进行任何保证,阿里云不对由此引发的任何损害承担责任。关于模型的详细信息,请参见文本生成视频大模型
  • 您应自觉遵守第三方模型的用户协议、使用规范和相关法律法规,并就使用第三方模型的合法性、合规性自行承担相关责任。

操作步骤

创建ECS实例

本文使用的ai-inference-solution市场镜像中,内置了以下三个模型及运行环境。

  • v1-5-pruned-emaonly.safetensors:Stable Diffusion v1.5模型,一种潜在的text-to-image(文本到图像)的扩散模型,能够在给定任何文本输入的情况下生成逼真的图像。
    说明
    该模型中文提示词效果不好,建议使用英文提示词。
  • Taiyi-Stable-Diffusion-1B-Chinese-v0.1:太乙-中文模型,基于0.2亿筛选过的中文图文对训练,可以使用中文进行AI绘画。
  • Taiyi-Stable-Diffusion-1B-Anime-Chinese-v0.1:太乙-动漫风格模型,首个开源的中文Stable Diffusion动漫模型,该模型是基于Taiyi-Stable-Diffusion-1B-Chinese-v0.1进行继续训练,经过100万筛选过的动漫中文图文对训练得到的。太乙-动漫风格模型不仅能够生成精美的动漫图像,还保留了太乙-中文模型对于中文概念强大的理解能力。
  1. 前往实例创建页。
  2. 按照界面提示完成参数配置,创建一台ECS实例。
    需要注意的参数如下,其他参数的配置,请参见自定义购买实例。
  • 实例:选择实例规格为ecs.gn7i-c16g1.4xlarge
  • 镜像:本文使用已部署好推理所需环境的云市场镜像,名称为ai-inference-solution
  • 公网IP:选中分配公网IPv4地址,带宽计费模式选择按使用流量,带宽峰值设置为100 Mbps。以加快模型下载速度。

文本生成视频

  1. 执行如下命令,切换conda环境到modelscope中。
conda activate modelscope
  1. 执行如下命令,切换到scripts目录。
cd /root/scripts
  1. 执行如下脚本,生成视频。
./text2video.py

运行过程中,请根据提示输入英文文本,例如Clown fish swimming through the coral reef.

说明

首次执行脚本时,会通过公网自动下载所需模型库,100 Mbps带宽下载时间大约为20分钟,请耐心等待。

阿里云GPU云服务器使用AIGC文本生成视频_阿里云

  • 文件存放:生成的text2video.mp4视频文件存放在/root/scripts/output目录中。
  • 文件下载:在左上角顶部菜单栏,选择文件> 打开新文件树,找到目标文件后右键,单击下载文件即可。