CogVideoX-5b¶
Dans cet article
Information
CogVideoX-5b est un modèle de génération de vidéos utilisant des technologies d'intelligence artificielle, accessible via l'interface Huggingface Space. Son architecture est basée sur des modèles cognitifs et des transformateurs pour créer du contenu visuel.
CogVideoX-5b. Caractéristiques clés¶
- Génération texte-vers-vidéo — transforme les descriptions textuelles en segments vidéo de haute qualité avec une forte cohérence sémantique et visuelle;
- Prise en charge de diverses résolutions et formats — capacité à créer des vidéos dans différents rapports d'aspect et résolutions pour divers usages;
- Compréhension cognitive du contexte — interprétation améliorée des demandes utilisateur grâce à des modèles de langage pré-entraînés;
- Interface graphique — une interface web pratique pour interagir avec le modèle sans programmation;
- Amélioration de la qualité vidéo — modèles intégrés pour augmenter la résolution et le taux de rafraîchissement (RIFE);
- Paramètres de génération personnalisables — capacité à ajuster finement le style, la vitesse d'animation et d'autres caractéristiques vidéo;
- Scalabilité — fonctionnement efficace sur GPU avec prise en charge du calcul parallèle;
- Code open-source — disponibilité du code et des poids du modèle pour les communautés de recherche et les développeurs.
Fonctionnalités de déploiement¶
| ID | Nom du logiciel | Système d'exploitation compatible | VM | BM | VGPU | GPU | Min CPU (Cœurs) | Min RAM (Go) | Min HDD/SSD (Go) | Actif |
|---|---|---|---|---|---|---|---|---|---|---|
| 272 | CogVideo | Ubuntu 22.04 | + | + | + | + | 4 | 32 | 50 | COMMANDER |
- Temps d'installation : 15‑30 minutes, incluant la configuration du système d'exploitation.
- System Requirements: Pour des performances optimales, au moins 24 GB de VRAM sur un GPU sont recommandés.
- SAT BF16 : 76 GB VRAM;
- diffusers BF16 : à partir de 10 GB VRAM;
- diffusers INT8 (torchao) : à partir de 7 GB VRAM;
- Mode Multi‑GPU (BF16) : environ 24 GB par GPU lorsqu'on utilise diffusers.
- Résolutions vidéo prises en charge : résolution de base : 1360 × 768;
- Nombre de frames : doit suivre la formule 16N + 1, où N ≤ 10 (81 images par défaut);
- Taux de rafraîchissement : 16 fps;
- Durée vidéo : 5‑10 secondes;
- Précision recommandée : BF16 (FP16, FP32, FP8*, INT8 également supportés ; INT4 non supporté);
- Vitesse de génération (50 étapes) : ~1000 s sur NVIDIA A100, ~550 s sur NVIDIA H100.
- Dependencies préinstallées :
- Python 3.9
- python3.9-venv (outil pour créer des environnements Python isolés)
- python3.9-dev (fichiers d'en-tête et bibliothèques pour le développement)
- python3-pip (gestionnaire de paquets Python)
- pilotes NVIDIA
- nvidia-docker2
- docker.io
- nginx-certbot
- git
- curl
- wget
- Répertoire du projet :
/opt/CogVideo.
Démarrage avec CogVideoX-5b après le déploiement¶
Après paiement, une notification sera envoyée à l'adresse e‑mail fournie lors de l'inscription indiquant que le serveur est prêt à être utilisé. Elle comprendra l'adresse IP VPS et les identifiants de connexion pour l'accès. Les clients de notre entreprise gèrent l'équipement via le panneau de gestion serveur et l'API — Invapi.
Les données de connexion peuvent être trouvées soit dans l'onglet Info >> Tags du panneau de contrôle serveur, soit dans l'e‑mail envoyé :
- Link to access CogVideoX-5b's management panel via web interface : dans le tag webpanel;
- Login and Mot de passe : envoyé dans un e‑mail lors de la mise à disposition du serveur.
Menu de démarrage CogVideoX-5b¶
Après avoir cliqué sur le lien provenant de l'icône l'étiquette webpanel, le menu de démarrage CogVideoX s'ouvrira.

Pour générer du contenu, suivez ces étapes:
-
Notez l'avertissement : cet outil de démonstration est destiné uniquement à la recherche académique et à un usage expérimental.
-
Si l'espace est saturé, vous pouvez créer une copie personnelle en cliquant sur "Duplicate this Space".
Data Input
-
Vous avez deux options pour l'entrée de données (ne peuvent pas être utilisées simultanément) :
- I2V : entrée d'image (ne peut pas être utilisée simultanément avec la vidéo) ;
- V2V : entrée vidéo (ne peut pas être utilisée simultanément avec une image).
-
Saisissez l'invite de texte dans le champ correspondant. Limite : moins de 200 mots.
-
Optionnel : cliquez sur le bouton
Enhance Promptpour améliorer votre requête en utilisant le modèle GLM-4, ce qui améliorera votre texte original.
Parameter Configuration
-
Saisissez une valeur pour Inference Seed :
- Un nombre positif pour une graine spécifique. Lors de la saisie d'un nombre positif (par ex., 42, 123, 1000), le système l'utilise comme point de départ du générateur de nombres aléatoires, garantissant la reproductibilité des résultats. Utiliser la même graine avec la même invite et les mêmes paramètres produira des résultats identiques ou très similaires lors des générations suivantes ;
- -1 pour une graine aléatoire. Chaque génération sera unique, même si vous utilisez la même invite et les mêmes paramètres.
-
Sélectionnez des options supplémentaires (optionnel) :
- Super-Resolution : activer pour augmenter la résolution (720 × 480 → 2880 × 1920) ;
- Frame Interpolation : activer pour augmenter le taux de trame (8fps → 16fps) .
-
Notez que dans la démo :
- RIFE est utilisé pour l'interpolation de trames ;
- Real-ESRGAN est utilisé pour la super-résolution.
-
Cliquez sur le bouton
Generate Videoen bas de l'écran. -
Attendez que la génération se termine — les résultats seront affichés sur le côté droit de l'interface.
Note
Des informations détaillées sur l'utilisation de CogVideoX-5b se trouvent dans la documentation officielle du projet.
Commander un serveur avec CogVideoX-5b via l'API¶
Pour installer ce logiciel en utilisant l'API, suivez les instructions suivantes.