文本-视频生成模型是由三个子网络组成的模型,包括:文本特征提取模型(Text feature extraction)、文本特征到视频扩散模型(Text feature-to-video latent space diffusion model)、视频空间映射模型(Video latent space to video visual space)。整体模型参数约为17亿。目前仅支持英文输入。扩散模型采用Unet3D结构,通过对纯高斯噪声视频进行迭代去噪处理,实现视频生成。
Text to Video基于社区开源版本部署,参考源码HuggingFace Model Card。实例规格套餐如下:
规格族 | vCPU与内存 | 系统盘 |
---|---|---|
ecs.gn6i-c8g1.2xlarge | T4 GPU 计算型,8vCPU 31GiB,16G GPU RAM | ESSD云盘 200GiB PL0 |
ecs.gn7i-* | A10 GPU计算型,*,24G GPU RAM | ESSD云盘 200GiB PL0 |
在正式开始使用前,您需要一个阿里云账号,对ECS、VPC等资源进行访问和创建操作。
权限策略名称 | 备注 |
---|---|
AliyunECSFullAccess | 管理云服务器服务(ECS)的权限 |
AliyunVPCFullAccess | 管理专有网络(VPC)的权限 |
AliyunROSFullAccess | 管理资源编排服务(ROS)的权限 |
AliyunComputeNestUserFullAccess | 管理计算巢服务(ComputeNest)的用户侧权限 |
您可以在阿里云计算巢自行搜索,也可以通过下述部署链接快速到达。
部署链接
您在创建服务实例的过程中,需要配置服务实例信息的参数列表,具体如下:
参数组 | 参数项 | 示例 | 说明 |
---|---|---|---|
服务实例名称 | N/A | TextToVideo-mc64 | 实例的名称 |
地域 | N/A | 华东1(杭州) | 选中服务实例的地域,建议就近选中,以获取更好的网络延时。 |
付费类型配置 | 付费类型 | 按量付费 | N/A |
ECS实例配置 | 实例类型 | ecs.gn6i-c8g1.2xlarge | 选择T4 GPU套餐规格或自定义套餐规格 |
ECS实例配置 | 实例密码 | _**_ | 设置实例密码。长度8~30个字符,必须包含三项(大写字母、小写字母、数字、 ()`~!@#$%^&*_-+={}[]:;'<>,.?/ 中的特殊符号)。 |
登陆信息配置 | 软件登陆名 | admin | 设置软件登陆用户名 |
登陆信息配置 | 软件登录密码 | ** | 设置软件登录密码 |
可用区配置 | 交换机可用去 | 可用区I | 地域下的不同可用区域,确保实例非空 |
新建网络配置 | 专有网络IPv4网络 | 192.168.0.0/16 | VPC的ip地址段范围 |
新建网络配置 | 交换机子网网段 | 192.168.1.0/24 | 交换机子网地址段范围 |
选择已有基础资源配置 | VPC ID | vpc-xxx | 按实际情况,选择专有网络的ID。 |
选择已有基础资源配置 | 交换机ID | vsw-xxx | 按实际情况,选择交换机ID。若找不到交换机, 可尝试切换地域和可用区 |
创建服务按如下步骤进行,参考下图:
最后,请尽情发挥你的想象力试玩吧。有任何想法或建议或者合作需求,请联系我们~~~