CogVideoX-5b¶
在这篇文章中
信息
CogVideoX-5b 是一个利用人工智能技术生成视频模型,可通过 Huggingface Space 界面访问。其架构基于认知模型和 Transformer,用于创建视觉内容。
CogVideoX-5b 主要功能¶
- 文本到视频生成 — 将文本描述转换为具有强语义和视觉连贯性的高质量视频片段;
- 支持多种分辨率和格式 — 能够以不同的宽高比和分辨率创建视频,适用于多种用途;
- 上下文认知理解 — 借助预训练语言模型,增强对用户请求的解读能力;
- 图形界面 — 提供便捷的 Web 界面,无需编程即可与模型交互;
- 视频质量提升 — 集成用于提高分辨率和帧率(RIFE)的模型;
- 可自定义生成参数 — 能够精细调整风格、动画速度及其他视频特性;
- 可扩展性 — 在 GPU 上高效运行,支持并行计算;
- 开源代码 — 为研究社区和开发者提供模型的代码和权重。
部署功能¶
| ID | 软件名称 | 兼容操作系统 | 虚拟机 | 物理机 | vGPU | GPU | 最低CPU(核) | 最低内存(GB) | 最低硬盘(GB) | 自定义域名 | 是否启用 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 272 | CogVideo | Ubuntu 22.04 | + | + | + | + | 4 | 32 | 50 | 否 | 订购 |
- 安装时间:包括操作系统设置在内,约 15-30 分钟。
- 系统要求: 为获得最佳性能,建议 GPU 显存至少为 24GB。
- SAT BF16:76GB 显存;
- diffusers BF16:至少 10GB 显存;
- diffusers INT8 (torchao):至少 7GB 显存;
- 多 GPU 模式 (BF16):使用 diffusers 时,每块 GPU 约需 24GB 显存。
- 支持的分辨率: 基础分辨率:1360 × 768;
- 帧数: 必须符合公式 16N + 1,其中 N ≤ 10(默认为 81 帧);
- 帧率: 16 fps;
- 视频时长: 5-10 秒;
- 推荐精度: BF16(也支持 FP16、FP32、FP8*、INT8;不支持 INT4);
- 生成速度(50 步): NVIDIA A100 上约 1000 秒,NVIDIA H100 上约 550 秒。
- 预装依赖项:
- Python 3.9
- python3.9-venv(用于创建隔离 Python 环境的工具)
- python3.9-dev(开发所需的头文件和库)
- python3-pip(Python 包管理器)
- NVIDIA 驱动程序
- nvidia-docker2
- docker.io
- nginx-certbot
- git
- curl
- wget
- 项目目录:
/opt/CogVideo。
部署后开始使用 CogVideoX-5b¶
付款后,系统将向注册时提供的电子邮件地址发送通知,表明服务器已准备就绪。通知中将包含 VPS IP 地址和登录凭据。我们的客户通过 服务器管理面板和 API — Invapi 管理设备。
登录凭据可以在服务器控制面板的 Configuration >> Tags 选项卡中找到,也可以在发送的电子邮件中找到:
- 通过 Web 界面访问 CogVideoX-5b 管理面板的链接:位于 webpanel 标签中;
- 用户名和密码:在服务器发布时通过电子邮件发送。
CogVideoX-5b 启动菜单¶
点击 webpanel 标签中的链接后,将打开 CogVideoX 启动菜单。

要生成内容,请按照以下步骤操作:
-
注意警告:此演示工具仅用于学术研究和实验用途。
-
如果空间负载过重,可以通过点击 "Duplicate this Space" 创建个人副本。
数据输入
-
您有两种数据输入选项(不能同时使用):
- I2V:图像输入(不能与视频同时使用);
- V2V:视频输入(不能与图像同时使用)。
-
在相应字段中输入文本提示。限制:少于 200 个单词。
-
可选:点击
Enhance Prompt按钮,使用 GLM-4 模型优化您的查询,从而增强原始文本。
参数配置
-
输入 Inference Seed 的值:
- 正数表示特定种子。输入正数(例如 42、123、1000)时,系统将其作为随机数生成器的起点,确保结果的可复现性。使用相同的种子、提示和设置,后续生成将产生相同或非常相似的结果;
- -1 表示随机种子。即使使用相同的提示和设置,每次生成也将是唯一的。
-
选择其他选项(可选):
- Super-Resolution:启用以提高分辨率(720 × 480 > 2880 × 1920)
- Frame Interpolation:启用以提高帧率(8fps > 16fps)
-
注意在演示中:
- 使用 RIFE 进行帧插值;
- 使用 Real-ESRGAN 进行超分辨率。
-
点击屏幕底部的
Generate Video按钮。 -
等待生成完成 — 结果将显示在界面右侧。
备注
有关使用 CogVideoX-5b 的详细信息,请参阅 项目官方文档。