Aller au contenu

gpt-oss-120b

Dans cet article

Information

gpt-oss-120b est un modèle à grande échelle avec des poids ouverts d'OpenAI, conçu pour les tâches à haute performance nécessitant une raisonnement approfondi, une planification en plusieurs étapes et une interaction complexe avec les outils. Le modèle contient 120 milliards de paramètres, dont environ 21 milliards sont activés par passe, offrant un équilibre entre puissance de calcul et efficacité. Grâce à des méthodes avancées de quantification et d'optimisation, gpt-oss-120b peut être déployé sur du matériel serveur avec 70 Go ou plus de mémoire vidéo et prend en charge un déploiement local ou hybride évolutif.

Principales caractéristiques de gpt-oss-120b

  • Architecture évolutive avec activation conditionnelle : Le modèle contient 120 milliards de paramètres, mais grâce à la mécanique d'activation sparse (activation sparse), il n'en active qu'environ 21 milliards par requête. Cela réduit considérablement les besoins en mémoire et en ressources computationnelles sans compromettre la qualité.
  • Capacités avancées d'agent : gpt-oss-120b prend en charge un ensemble élargi d'outils, y compris l'exécution de code, la recherche web en temps réel, les appels API et la génération de sorties structurées de manière stricte (JSON, XML, etc.). Cela en fait une base idéale pour des agents autonomes et des systèmes automatisés complexes.
  • Raisonnement adaptatif : Le modèle implémente un système flexible de niveaux de raisonnement - allant des réponses directes rapides aux chaînes de pensée à plusieurs étapes (chain-of-thought) et arbres décisionnels. Les utilisateurs peuvent contrôler la « profondeur du raisonnement » en fonction de la complexité de la tâche.
  • Haute performance sur les benchmarks : gpt-oss-120b démontre des résultats comparables aux modèles propriétaires au niveau o3 et o4, notamment dans les tâches nécessitant de la logique, des mathématiques, du codage et la synthèse interdisciplinaire des connaissances.
  • Large support multilingue : Le modèle a été formé sur des données issues de plus de 50 langues et peut fonctionner efficacement dans des contextes multilingues et multiculturels. Pour obtenir les meilleurs résultats, il est recommandé d'indiquer explicitement la langue et le cadre culturel dans l'invite.
  • Quantification efficace et compatibilité : Le support des formats MXFP4 et INT4 permet une réduction significative de l'utilisation de la mémoire et une accélération de la sortie sans perte substantielle de qualité. Le modèle est compatible avec les frameworks populaires tels que vLLM, GGUF et Hugging Face Transformers.

Fonctionnalités de déploiement

ID Système d'exploitation compatible VM BM VGPU GPU Min CPU (Cœurs) Min RAM (Go) Min HDD/SSD (Go) Actif
415 Ubuntu 22.04 - - + + 16 128 240 COMMANDER

Spécifications techniques de la version installée :

  • Ubuntu 22.04 avec noyau mis à jour en version 6 ;
  • Derniers pilotes Nvidia ;
  • CUDA Toolkit ;
  • Ollama pour gérer les modèles ;
  • OpenWebUI pour l'interface web.

Caractéristiques d'installation :

  • Temps d'installation de 35 à 45 minutes, y compris la configuration du système d'exploitation ;
  • Le serveur Ollama charge et exécute le modèle gpt-oss-120b en mémoire GPU/RAM ;
  • Open WebUI est déployé sous forme d'une application web connectée au serveur Ollama ;
  • Les utilisateurs interagissent avec le modèle via l'interface web Open WebUI pour les tâches de programmation et d'agent ;
  • Toutes les calculs et traitements de code se produisent localement sur le serveur ;
  • Les administrateurs peuvent configurer le modèle pour des tâches de développement spécifiques à l'aide des outils OpenWebUI ;
  • Support des différents niveaux de quantification pour optimiser l'utilisation de la mémoire.

Premiers pas après le déploiement de gpt-oss-120b

Après le paiement, une notification concernant la disponibilité du serveur sera envoyée à l'adresse e-mail enregistrée lors de la commande. Elle inclura l'adresse IP VPS, les identifiants pour accéder au serveur ainsi que le lien vers le panneau de contrôle OpenWebUI. Les clients gèrent leur équipement via le Panneau de gestion du Serveur et APIInvapi.

  • Identifiants pour accéder au serveur OS (par exemple, via SSH) seront envoyés par email.
  • Lien vers le panneau de contrôle Ollama avec l'interface web Open WebUI : dans la balise webpanel dans l'onglet Info >> Tags du tableau de bord Invapi. Le lien exact, par exemple https://gpt-oss<Server_ID_from_Invapi>.hostkey.in, est fourni dans l'email envoyé à la livraison du serveur.

Après avoir cliqué sur le lien depuis l'icône webpanel, une fenêtre de connexion Get started with Open WebUI s'ouvrira, où vous devez créer un nom d'utilisateur administrateur, un e-mail et un mot de passe pour votre chatbot, puis appuyer sur le Create Admin Account bouton:

Attention

Après l'enregistrement du premier utilisateur, le système leur attribue automatiquement un rôle d'administrateur. Pour garantir la sécurité et le contrôle sur le processus de création de compte, toutes les demandes d'enregistrement ultérieures doivent être approuvées dans OpenWebUI depuis le compte administrateur.

Suite à une inscription réussie, l'interface principale Open WebUI avec accès au Gpt-oss-20b s'ouvrira :

Note

Des informations détaillées sur l'utilisation du panneau de contrôle Ollama avec Open WebUI se trouvent dans l'article Chatbot IA sur votre propre serveur.

Note

Pour un fonctionnement optimal avec le modèle gpt-oss-120b, il est recommandé d'utiliser une carte graphique dotée au minimum de 70 Go de mémoire vidéo pour le modèle 120B. Pour un traitement efficace des contextes de code longs et des tâches complexes d'agent, nous recommandons l'utilisation de cartes graphiques avec 80 Go de mémoire vidéo. Des informations détaillées sur les principaux paramètres Ollama et Open WebUI peuvent être trouvées dans la documentation du développeur Ollama et dans la documentation du développeur Open WebUI.

Recommandations d'utilisation

Pour maximiser l'efficacité du modèle gpt-oss 20B, il est recommandé de :

  • Utiliser le modèle pour les tâches de raisonnement, y compris la gestion des chaînes de pensée. Le modèle supporte des niveaux de raisonnement ajustables : bas, moyen et élevé, qui sont configurés via un prompt système.
  • Tirer parti des capacités intégrées d'agent du modèle telles que l'appel de fonctions, l'exécution de code Python et les sorties structurées.
  • Employer le modèle pour des tâches de développement multistades en exploitant ses capacités d'agent.
  • Intégrer le modèle avec les outils de développement existants via API, compte tenu qu'il supporte l'affinage et fonctionne dans le format de réponse OpenAI Harmony. Le modèle est conçu pour un déploiement efficace avec une faible latence, y compris localement.

Commande d'un serveur avec gpt-oss-120b via l'API

Pour installer ce logiciel en utilisant l'API, suivez les instructions.


Une partie du contenu de cette page a été créée ou traduite à l'aide d'une IA.