Ana içeriğe geç

CogVideoX-5b

Bu makalede

Bilgi

CogVideoX-5b, yapay zeka teknolojileri kullanılarak video oluşturmak için tasarlanmış ve Huggingface Space arayüzü üzerinden erişilebilen bir modeldir. Mimarisi, görsel içerik oluşturmak için bilişsel modeller ve transformer'lar üzerine kuruludur.

CogVideoX-5b. Temel Özellikler

  • Metinden videoya dönüştürme — metin açıklamalarını güçlü anlamsal ve görsel tutarlılığa sahip yüksek kaliteli video kliplere dönüştürür;
  • Çeşitli çözünürlük ve formatları destekler — farklı amaçlar için çeşitli en-boy oranlarında ve çözünürlüklerde video oluşturma yeteneği;
  • Bağlamın bilişsel olarak anlaşılması — önceden eğitilmiş dil modelleri sayesinde kullanıcı isteklerinin geliştirilmiş yorumlanması;
  • Grafik arayüz — programlama bilgisi olmadan modelle etkileşim kurmak için kullanışlı bir web arayüzü;
  • Video kalitesinin iyileştirilmesi — çözünürlük ve kare hızını artırmak için entegre modeller (RIFE);
  • Özelleştirilebilir oluşturma parametreleri — stil, animasyon hızı ve diğer video özelliklerini ince ayar yapma imkanı;
  • Ölçeklenebilirlik — paralel hesaplama desteği ile GPU'lar üzerinde verimli çalışma;
  • Açık kaynak kod — araştırma toplulukları ve geliştiriciler için modelin koduna ve ağırlıklarına erişilebilirlik.

Çalıştırma Özellikleri

ID Yazılım Adı Uyumlu OS VM BM VGPU GPU Min CPU (Çekirdekler) Min RAM (GB) Min HDD/SSD (GB) Özel Alan Adı Aktif
272 CogVideo Ubuntu 22.04 + + + + 4 32 50 Hayır SİPARİŞ VER
  • Kurulum süresi: İşletim sistemi kurulumu dahil 15-30 dakika.
  • Sistem Gereksinimleri: Optimal performans için GPU'da en az 24GB VRAM önerilir.
    • SAT BF16: 76GB VRAM;
    • diffusers BF16: 10GB VRAM'den itibaren;
    • diffusers INT8 (torchao): 7GB VRAM'den itibaren;
    • Çoklu GPU modu (BF16): diffusers kullanıldığında GPU başına yaklaşık 24GB.
  • Desteklenen video çözünürlükleri: temel çözünürlük: 1360 × 768;
  • Kare sayısı: 16N + 1 formülünü takip etmelidir, burada N ≤ 10 (varsayılan olarak 81 kare);
  • Kare hızı: 16 fps;
  • Video süresi: 5-10 saniye;
  • Önerilen hassasiyet: BF16 (FP16, FP32, FP8*, INT8 de desteklenir; INT4 desteklenmez);
  • Oluşturma hızı (50 adım): NVIDIA A100 üzerinde ~1000 saniye, NVIDIA H100 üzerinde ~550 saniye.
  • Önceden yüklü bağımlılıklar:
    • Python 3.9
    • python3.9-venv (izole Python ortamları oluşturma aracı)
    • python3.9-dev (geliştirme için başlık dosyaları ve kütüphaneler)
    • python3-pip (Python paket yöneticisi)
    • NVIDIA sürücüleri
    • nvidia-docker2
    • docker.io
    • nginx-certbot
    • git
    • curl
    • wget
  • Proje dizini: /opt/CogVideo.

Dağıtımdan Sonra CogVideoX-5b ile Başlangıç

Ödeme yapıldıktan sonra, kayıt sırasında sağlanan e-posta adresine sunucunun kullanıma hazır olduğu bildirilir. Bu bildirimde VPS IP adresi ve erişim için giriş bilgileri yer alır. Şirketimizin müşterileri ekipmanları sunucu yönetim paneli ve APIInvapi üzerinden yönetir.

Giriş bilgileri, sunucu yönetim panelinin Configuration >> Tags sekmesinde veya gönderilen e-postada bulunabilir:

  • CogVideoX-5b yönetim paneline web arayüzü üzerinden erişim bağlantısı: webpanel etiketinde;
  • Kullanıcı Adı ve Şifre: sunucu tahsis edildiğinde e-posta ile gönderilir.

CogVideoX-5b Başlangıç Menüsü

webpanel etiketindeki bağlantıya tıklandıktan sonra CogVideoX başlangıç menüsü açılır.

İçerik oluşturmak için şu adımları izleyin:

  1. Uyarıyı dikkate alın: bu demo aracı yalnızca akademik araştırma ve deneysel kullanım içindir.

  2. Alan aşırı yüklüyse, "Duplicate this Space" seçeneğine tıklayarak kişisel bir kopya oluşturabilirsiniz.

Veri Girişi

  1. Veri girişi için iki seçeneğiniz vardır (aynı anda kullanılamaz):

    • I2V: görüntü girişi (video ile aynı anda kullanılamaz);
    • V2V: video girişi (görüntü ile aynı anda kullanılamaz).
  2. İlgili alana metin istemini (prompt) girin. Limit: 200 kelimeden az.

  3. İsteğe bağlı: orijinal metninizi geliştirmek için GLM-4 Modelini kullanarak sorgunuzu iyileştirmek üzere Enhance Prompt düğmesine tıklayın.

Parametre Yapılandırması

  1. Inference Seed için bir değer girin:

    • Belirli bir seed için pozitif bir sayı. Pozitif bir sayı girdiğinizde (örneğin, 42, 123, 1000), sistem bunu rastgele sayı üreteci için başlangıç noktası olarak kullanır ve sonuçların tekrarlanabilirliğini sağlar. Aynı seed, aynı prompt ve ayarlar kullanıldığında sonraki oluşturmalarda aynı veya çok benzer sonuçlar verir;
    • Rastgele seed için -1. Her oluşturma benzersiz olacaktır, aynı prompt ve ayarları kullanmanız bile fark etmez.
  2. Ek seçenekleri seçin (isteğe bağlı):

    • Super-Resolution: çözünürlüğü artırmak için etkinleştirin (720 × 480 > 2880 × 1920)
    • Frame Interpolation: kare hızını artırmak için etkinleştirin (8fps > 16fps)
  3. Demoda şunların kullanıldığını unutmayın:

    • Kare interpolasyonu için RIFE kullanılır;
    • Süper çözünürlük için Real-ESRGAN kullanılır.
  4. Ekranın altındaki Generate Video düğmesine tıklayın.

  5. Oluşturma tamamlanana kadar bekleyin — sonuçlar arayüzün sağ tarafında görüntülenecektir.

Not

CogVideoX-5b kullanımı hakkında detaylı bilgi projenin resmi dokümantasyonunda bulunabilir.

API ile CogVideoX-5b'li Sunucu Siparişi