gpt-oss-20b¶
Dans cet article
Information
Le modèle gpt-oss-20b est un modèle de poids moyen open-source provenant d'OpenAI, conçu pour fonctionner efficacement avec une faible latence dans les déploiements locaux ou des cas d'utilisation spécialisés. Ce modèle comporte 20 milliards de paramètres, dont 3,6 milliards sont actifs, lui permettant de s'exécuter sur du matériel à ressources limitées, tel que les appareils dotés de 16 Go de mémoire. Il peut être déployé localement, y compris sur un matériel grand public.
Caractéristiques principales de gpt-oss-20b¶
- Architecture optimisée : Le modèle gpt-oss-20b a au total 20 milliards de paramètres et n'en active que 3,6 milliards, garantissant une performance élevée tout en utilisant les ressources efficacement.
- Capacités d'agent étendues : Le modèle inclut des capacités intégrées pour l'appel de fonctions, la consultation de pages web, l'exécution de code Python et la génération de sorties structurées. Il excelle dans la résolution de tâches et l'utilisation d'outils.
- Raisonnement avec niveaux d'intensité ajustables : Fonctionnellement, le modèle est un solide solveur de tâches qui soutient des méthodes comme le raisonnement par chaîne de pensée. Il propose trois niveaux d'intensité de raisonnement personnalisables.
- Performance et compatibilité : Le modèle gpt-oss-20b montre des résultats comparables à OpenAI o3-mini sur les benchmarks courants. Grâce à l'optimisation, il peut fonctionner sur des appareils périphériques dotés de 16 Go de mémoire.
- Support multilingue : Le modèle dispose d'une fonctionnalité multilingue. Pour des résultats optimaux, il est recommandé de spécifier explicitement la langue et le contexte culturel cible pour l'interaction.
- Quantification des données : La prise en charge du format MXFP4 garantit une opération efficace du modèle sur un matériel à ressources limitées, améliorant ainsi les performances globales du système.
Fonctionnalités de déploiement¶
Spécifications techniques de la version installée :
- Ubuntu 22.04 avec noyau mis à jour en version 6 ;
- Derniers pilotes Nvidia ;
- CUDA Toolkit ;
- Ollama pour gérer les modèles ;
- OpenWebUI pour l'interface web.
Caractéristiques d'installation :
- Temps d'installation de 25 à 45 minutes, y compris la configuration du système d'exploitation ;
- Le serveur Ollama charge et exécute le modèle gpt-oss-20b en mémoire GPU/RAM ;
- Open WebUI est déployé sous forme d'une application web connectée au serveur Ollama ;
- Les utilisateurs interagissent avec le modèle via l'interface web Open WebUI pour les tâches de programmation et d'agent ;
- Toutes les calculs et traitements de code se produisent localement sur le serveur ;
- Les administrateurs peuvent configurer le modèle pour des tâches de développement spécifiques à l'aide des outils OpenWebUI ;
- Support des différents niveaux de quantification pour optimiser l'utilisation de la mémoire.
Premiers pas après le déploiement de gpt-oss-20b¶
Après le paiement, une notification concernant la disponibilité du serveur sera envoyée à l'adresse e-mail enregistrée lors de la commande. Elle inclura l'adresse IP VPS, les identifiants pour accéder au serveur ainsi que le lien vers le panneau de contrôle OpenWebUI. Les clients gèrent leur équipement via le Panneau de gestion du Serveur et API — Invapi.
- Identifiants pour accéder au serveur OS (par exemple, via SSH) seront envoyés par email.
- Lien vers le panneau de contrôle Ollama avec l'interface web Open WebUI : dans la balise webpanel dans l'onglet Info >> Tags du tableau de bord Invapi. Le lien exact, par exemple
https://gpt-oss<Server_ID_from_Invapi>.hostkey.in
, est fourni dans l'email envoyé à la livraison du serveur.
Après avoir cliqué sur le lien depuis l'icône webpanel, une fenêtre de connexion Get started with Open WebUI s'ouvrira, où vous devez créer un nom d'utilisateur administrateur, un e-mail et un mot de passe pour votre chatbot, puis appuyer sur le Create Admin Account bouton:
Attention
Après l'enregistrement du premier utilisateur, le système leur attribue automatiquement un rôle d'administrateur. Pour garantir la sécurité et le contrôle sur le processus de création de compte, toutes les demandes d'enregistrement ultérieures doivent être approuvées dans OpenWebUI depuis le compte administrateur.
Suite à une inscription réussie, l'interface principale Open WebUI avec accès au Gpt-oss-20b s'ouvrira :
Note
Des informations détaillées sur l'utilisation du panneau de contrôle Ollama avec Open WebUI se trouvent dans l'article Chatbot IA sur votre propre serveur.
Note
Pour un fonctionnement optimal avec le modèle gpt-oss-20b, il est recommandé d'utiliser une carte graphique dotée au minimum de 16 Go de mémoire vidéo pour le modèle 20B. Pour un traitement efficace des contextes de code longs et des tâches complexes d'agent, nous recommandons l'utilisation de cartes graphiques avec 24 Go de mémoire vidéo. Des informations détaillées sur les principaux paramètres Ollama et Open WebUI peuvent être trouvées dans la documentation du développeur Ollama et dans la documentation du développeur Open WebUI.
Recommandations d'utilisation
Pour maximiser l'efficacité du modèle gpt-oss 20B, il est recommandé de :
- Utiliser le modèle pour les tâches de raisonnement, y compris la gestion des chaînes de pensée. Le modèle supporte des niveaux de raisonnement ajustables : bas, moyen et élevé, qui sont configurés via un prompt système.
- Tirer parti des capacités intégrées d'agent du modèle telles que l'appel de fonctions, l'exécution de code Python et les sorties structurées.
- Employer le modèle pour des tâches de développement multistades en exploitant ses capacités d'agent.
- Intégrer le modèle avec les outils de développement existants via API, compte tenu qu'il supporte l'affinage et fonctionne dans le format de réponse OpenAI Harmony. Le modèle est conçu pour un déploiement efficace avec une faible latence, y compris localement.
Commande d'un serveur avec gpt-oss-20b via l'API¶
Pour installer ce logiciel en utilisant l'API, suivez les instructions.
Une partie du contenu de cette page a été créée ou traduite à l'aide d'une IA.