CogVideoX-5b¶
Dans cet article
Information
CogVideoX-5b est un modèle de génération de vidéos utilisant des technologies d'intelligence artificielle, accessible via l'interface Huggingface Space. Son architecture est basée sur des modèles cognitifs et des transformers pour la création de contenu visuel.
CogVideoX-5b. Fonctionnalités clés¶
- Génération texte-vers-vidéo — transforme les descriptions textuelles en segments vidéo de haute qualité avec une forte cohérence sémantique et visuelle ;
- Prise en charge de diverses résolutions et formats — possibilité de créer des vidéos dans différents rapports d'aspect et résolutions pour divers usages ;
- Compréhension contextuelle cognitive — interprétation améliorée des demandes utilisateur grâce à des modèles de langage pré-entraînés ;
- Interface graphique — une interface web pratique pour interagir avec le modèle sans programmation ;
- Amélioration de la qualité vidéo — modèles intégrés pour augmenter la résolution et le taux d'images (RIFE) ;
- Paramètres de génération personnalisables — possibilité d'ajuster finement le style, la vitesse d'animation et d'autres caractéristiques vidéo ;
- Évolutivité — fonctionnement efficace sur les GPU avec prise en charge du calcul parallèle ;
- Code open-source — disponibilité du code et des poids du modèle pour les communautés de recherche et les développeurs.
Fonctionnalités de déploiement¶
| ID | Nom du logiciel | Système d'exploitation compatible | VM | BM | VGPU | GPU | Min CPU (Cœurs) | Min RAM (Go) | Min HDD/SSD (Go) | Domaine personnalisé | Actif |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 272 | CogVideo | Ubuntu 22.04 | + | + | + | + | 4 | 32 | 50 | Non | COMMANDER |
- Temps d'installation : 15 à 30 minutes, configuration du système d'exploitation incluse.
- Configuration système requise : Pour des performances optimales, au moins 24 Go de VRAM sur un GPU sont recommandés.
- SAT BF16 : 76 Go de VRAM ;
- diffusers BF16 : à partir de 10 Go de VRAM ;
- diffusers INT8 (torchao) : à partir de 7 Go de VRAM ;
- Mode multi-GPU (BF16) : environ 24 Go par GPU lors de l'utilisation de diffusers.
- Résolutions vidéo prises en charge : résolution de base : 1360 × 768 ;
- Nombre d'images : doit suivre la formule 16N + 1, où N ≤ 10 (par défaut 81 images) ;
- Taux d'images : 16 ips ;
- Durée de la vidéo : 5 à 10 secondes ;
- Précision recommandée : BF16 (FP16, FP32, FP8*, INT8 également pris en charge ; INT4 non pris en charge) ;
- Vitesse de génération (50 étapes) : ~1000 secondes sur NVIDIA A100, ~550 secondes sur NVIDIA H100.
- Dépendances pré-installées :
- Python 3.9
- python3.9-venv (outil pour créer des environnements Python isolés)
- python3.9-dev (fichiers d'en-tête et bibliothèques pour le développement)
- python3-pip (gestionnaire de paquets Python)
- Pilotes NVIDIA
- nvidia-docker2
- docker.io
- nginx-certbot
- git
- curl
- wget
- Répertoire du projet :
/opt/CogVideo.
Prise en main de CogVideoX-5b après le déploiement¶
Après le paiement, une notification sera envoyée à l'adresse e-mail fournie lors de l'inscription indiquant que le serveur est prêt à l'emploi. Elle inclura l'adresse IP du VPS et les identifiants de connexion pour l'accès. Les clients de notre entreprise gèrent l'équipement via le panneau de gestion des serveurs et l'API — Invapi.
Les données de connexion peuvent être trouvées soit dans l'onglet Configuration >> Tags du panneau de contrôle du serveur, soit dans l'e-mail envoyé :
- Lien d'accès au panneau de gestion de CogVideoX-5b via l'interface web : dans la balise webpanel ;
- Identifiant et Mot de passe : envoyés par e-mail lors de la mise à disposition du serveur.
Menu de démarrage de CogVideoX-5b¶
Après avoir cliqué sur le lien de la balise webpanel, le menu de démarrage de CogVideoX s'ouvrira.

Pour générer du contenu, suivez ces étapes :
-
Notez l'avertissement : cet outil de démonstration est destiné uniquement à la recherche académique et à l'usage expérimental.
-
Si l'espace est surchargé, vous pouvez créer une copie personnelle en cliquant sur "Duplicate this Space".
Saisie des données
-
Vous avez deux options de saisie des données (ne peuvent pas être utilisées simultanément) :
- I2V : saisie d'image (ne peut pas être utilisée simultanément avec une vidéo) ;
- V2V : saisie vidéo (ne peut pas être utilisée simultanément avec une image).
-
Saisissez l'invite textuelle dans le champ correspondant. Limite : moins de 200 mots.
-
Facultatif : cliquez sur le bouton
Enhance Promptpour améliorer votre requête à l'aide du modèle GLM-4, qui améliorera votre texte original.
Configuration des paramètres
-
Saisissez une valeur pour Inference Seed :
- Un nombre positif pour une graine spécifique. Lors de la saisie d'un nombre positif (par exemple, 42, 123, 1000), le système utilise ceci comme point de départ pour le générateur de nombres aléatoires, garantissant la reproductibilité des résultats. L'utilisation de la même graine avec la même invite et les mêmes paramètres donnera des résultats identiques ou très similaires lors des générations suivantes ;
- -1 pour une graine aléatoire. Chaque génération sera unique, même si vous utilisez la même invite et les mêmes paramètres.
-
Sélectionnez des options supplémentaires (facultatif) :
- Super-Resolution : activez pour augmenter la résolution (720 × 480 > 2880 × 1920)
- Frame Interpolation : activez pour augmenter le taux d'images (8 ips > 16 ips)
-
Notez que dans la démo :
- RIFE est utilisé pour l'interpolation d'images ;
- Real-ESRGAN est utilisé pour la super-résolution.
-
Cliquez sur le bouton
Generate Videoen bas de l'écran. -
Attendez la fin de la génération — les résultats seront affichés sur le côté droit de l'interface.
Remarque
Des informations détaillées sur l'utilisation de CogVideoX-5b peuvent être trouvées dans la documentation officielle du projet.