CogVideoX-5b¶
En este artículo
Información
CogVideoX-5b es un modelo para generar videos utilizando tecnologías de inteligencia artificial, accesible a través de la interfaz de Huggingface Space. Su arquitectura se basa en modelos cognitivos y transformers para la creación de contenido visual.
CogVideoX-5b. Características principales¶
- Generación de texto a video — transforma descripciones de texto en segmentos de video de alta calidad con fuerte coherencia semántica y visual;
- Soporte para varias resoluciones y formatos — capacidad para crear videos en diferentes relaciones de aspecto y resoluciones para diversos propósitos;
- Comprensión cognitiva del contexto — interpretación mejorada de las solicitudes del usuario gracias a modelos de lenguaje preentrenados;
- Interfaz gráfica — una interfaz web conveniente para interactuar con el modelo sin necesidad de programación;
- Mejora de la calidad del video — modelos integrados para aumentar la resolución y la tasa de fotogramas (RIFE);
- Parámetros de generación personalizables — capacidad para ajustar finamente el estilo, la velocidad de animación y otras características del video;
- Escalabilidad — operación eficiente en GPUs con soporte para computación paralela;
- Código de código abierto — disponibilidad del código y los pesos del modelo para comunidades de investigación y desarrolladores.
Funcionalidades de implementación¶
| ID | Nombre del software | SO compatible | VM | BM | VGPU | GPU | CPU mín. (núcleos) | RAM mín. (GB) | HDD/SSD mín. (GB) | Dominio personalizado | Activo |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 272 | CogVideo | Ubuntu 22.04 | + | + | + | + | 4 | 32 | 50 | No | ORDER |
- Tiempo de instalación: 15-30 minutos, incluida la configuración del sistema operativo.
- Requisitos del sistema: Para un rendimiento óptimo, se recomienda al menos 24 GB de VRAM en una GPU.
- SAT BF16: 76 GB de VRAM;
- diffusers BF16: desde 10 GB de VRAM;
- diffusers INT8 (torchao): desde 7 GB de VRAM;
- Modo Multi-GPU (BF16): aproximadamente 24 GB por GPU al usar diffusers.
- Resoluciones de video soportadas: resolución base: 1360 × 768;
- Número de fotogramas: debe seguir la fórmula 16N + 1, donde N ≤ 10 (por defecto 81 fotogramas);
- Tasa de fotogramas: 16 fps;
- Duración del video: 5-10 segundos;
- Precisión recomendada: BF16 (también se admiten FP16, FP32, FP8*, INT8; no se admite INT4);
- Velocidad de generación (50 pasos): ~1000 segundos en NVIDIA A100, ~550 segundos en NVIDIA H100.
- Dependencias preinstaladas:
- Python 3.9
- python3.9-venv (herramienta para crear entornos Python aislados)
- python3.9-dev (archivos de encabezado y bibliotecas para desarrollo)
- python3-pip (gestor de paquetes de Python)
- Controladores NVIDIA
- nvidia-docker2
- docker.io
- nginx-certbot
- git
- curl
- wget
- Directorio del proyecto:
/opt/CogVideo.
Primeros pasos con CogVideoX-5b después de la implementación¶
Tras el pago, se enviará una notificación a la dirección de correo electrónico proporcionada durante el registro indicando que el servidor está listo para su uso. Incluirá la dirección IP del VPS y las credenciales de inicio de sesión para el acceso. Los clientes de nuestra empresa gestionan el equipo a través de el panel de gestión de servidores y la API — Invapi.
Los datos de inicio de sesión se pueden encontrar en la pestaña Configuration* >> **Tags del panel de control del servidor o en el correo electrónico enviado:
- Enlace para acceder al panel de gestión de CogVideoX-5b a través de la interfaz web: en la etiqueta webpanel;
- Usuario y Contraseña: enviados por correo electrónico tras la liberación del servidor.
Menú de inicio de CogVideoX-5b¶
Tras hacer clic en el enlace de la etiqueta webpanel, se abrirá el menú de inicio de CogVideoX.

Para generar contenido, siga estos pasos:
-
Tenga en cuenta la advertencia: esta herramienta de demostración está destinada únicamente a investigación académica y uso experimental.
-
Si el espacio está sobrecargado, puede crear una copia personal haciendo clic en "Duplicate this Space".
Introducción de datos
-
Tiene dos opciones para la introducción de datos (no se pueden usar simultáneamente):
- I2V: entrada de imagen (no se puede usar simultáneamente con video);
- V2V: entrada de video (no se puede usar simultáneamente con una imagen).
-
Introduzca el prompt de texto en el campo correspondiente. Límite: menos de 200 palabras.
-
Opcional: haga clic en el botón
Enhance Promptpara mejorar su consulta utilizando el modelo GLM-4, lo que mejorará su texto original.
Configuración de parámetros
-
Introduzca un valor para Inference Seed:
- Un número positivo para una semilla específica. Al introducir un número positivo (por ejemplo, 42, 123, 1000), el sistema lo utiliza como punto de partida para el generador de números aleatorios, garantizando la reproducibilidad de los resultados. Usar la misma semilla con el mismo prompt y configuración producirá resultados idénticos o muy similares en generaciones posteriores;
- -1 para una semilla aleatoria. Cada generación será única, incluso si utiliza el mismo prompt y configuración.
-
Seleccione opciones adicionales (opcional):
- Super-Resolution: active para aumentar la resolución (720 × 480 > 2880 × 1920)
- Frame Interpolation: active para aumentar la tasa de fotogramas (8fps > 16fps)
-
Tenga en cuenta que en la demostración:
- Se utiliza RIFE para la interpolación de fotogramas;
- Se utiliza Real-ESRGAN para la super-resolución.
-
Haga clic en el botón
Generate Videoen la parte inferior de la pantalla. -
Espere a que se complete la generación: los resultados se mostrarán en el lado derecho de la interfaz.
Nota
Información detallada sobre el uso de CogVideoX-5b se puede encontrar en la documentación oficial del proyecto.
Pedido de un servidor con CogVideoX-5b a través de la API¶
Para instalar este software utilizando la API, siga esta instrucción.
Parte del contenido de esta página fue creado o traducido utilizando IA.