Installation d'Ollama¶
Dans cet article
Introduction à Ollama¶
Ollama est un cadre pour exécuter et gérer des grands modèles de langage (LLMs) sur les ressources informatiques locales. Il permet le chargement et le déploiement de LLMs sélectionnés et fournit un accès à ceux-ci via une API.
Attention
Si vous prévoyez d'utiliser l'accélération par GPU pour travailler avec des LLMs, veuillez installer les pilotes NVIDIA et CUDA au début.
Spécifications du système :
Spécification | Spécification |
---|---|
Système d'exploitation | Linux: Ubuntu 22.04 ou ultérieur |
RAM | 16 Go pour exécuter des modèles jusqu'à 7B |
Espace disque | 12 Go pour installer Ollama et les modèles de base. Un espace supplémentaire est nécessaire pour stocker les données du modèle en fonction des modèles utilisés |
Processeur | Il est recommandé d'utiliser un CPU moderne avec au moins 4 cœurs. Pour exécuter des modèles jusqu'à 13B, il est recommandé d'utiliser un CPU avec au moins 8 cœurs |
Unité de traitement graphique (optionnelle) | Un GPU n'est pas requis pour exécuter Ollama, mais peut améliorer les performances, en particulier lors du travail avec des modèles volumineux. Si vous disposez d'un GPU, vous pouvez l'utiliser pour accélérer l'entraînement de modèles personnalisés |
Note
Les spécifications du système peuvent varier en fonction des LLMs et des tâches spécifiques que vous prévoyez d'exécuter.
Installer Ollama sur Linux¶
Téléchargez et installez Ollama :
Pour les GPU Nvidia, ajoutez Environment="OLLAMA_FLASH_ATTENTION=1"
pour améliorer la vitesse de génération des jetons.
Ollama sera accessible à http://127.0.0.1:11434
ou http://<votre_IP_de_serveur>:11434
.
Mettre à jour Ollama sur Linux¶
Pour mettre à jour Ollama, vous devrez re-télécharger et réinstaller son package binaire :
Note
Si vous n'avez pas accès à Ollama, vous devrez peut-être ajouter les lignes suivantes dans le fichier de service /etc/systemd/system/ollama.service
dans la section [Service]
:
et redémarrer le service avec les commandes suivantes :
Installer des modèles de langage LLM¶
Vous pouvez trouver la liste des modèles de langage disponibles sur cette page.
Pour installer un modèle, cliquez sur son nom et sélectionnez ensuite la taille et le type du modèle sur la page suivante. Copiez la commande d'installation de l'onglet à droite et exécutez-la dans votre terminal/commande :
Note
Les modèles recommandés sont marqués avec la balise latest
.
Attention
Pour assurer des performances acceptables, la taille du modèle doit être au moins deux fois plus petite que la quantité de RAM disponible sur le serveur et ⅔ de la mémoire vidéo disponible sur le GPU. Par exemple, un modèle de taille 8 Go nécessite 16 Go de RAM et 12 Go de mémoire vidéo sur le GPU.
Après avoir téléchargé le modèle, redémarrez le service :
Pour plus d'informations sur Ollama, vous pouvez lire la documentation pour développeurs.
Variables d'environnement¶
Définissez ces variables dans le service Ollama sous la forme Environment="VARIABLE=VALUE"
.
Variable | Description |
---|---|
OLLAMA_DEBUG | Afficher des informations de débogage supplémentaires (par exemple, OLLAMA_DEBUG=1 ) |
OLLAMA_HOST | Adresse IP du serveur ollama (par défaut 127.0.0.1:11434 ) |
OLLAMA_KEEP_ALIVE | La durée pendant laquelle les modèles restent chargés en mémoire (par défaut 5m ) |
OLLAMA_MAX_LOADED_MODELS | Nombre maximum de modèles chargés (par défaut 1 ) |
OLLAMA_MAX_QUEUE | Longueur de file d'attente, définie comme le nombre de requêtes qui pourraient être en attente et prêtes à être traitées (512 par défaut) |
OLLAMA_MODELS | Chemin vers le répertoire des modèles |
OLLAMA_NUM_PARALLEL | Nombre maximum de demandes parallèles (par défaut 1 ) |
OLLAMA_NOPRUNE | Ne pas élaguer les blobs de modèle au démarrage |
OLLAMA_ORIGINS | Liste séparée par des virgules des origines autorisées |
OLLAMA_TMPDIR | Emplacement pour les fichiers temporaires |
OLLAMA_FLASH_ATTENTION | Définir sur 1 améliore la vitesse de génération des jetons sur les Mac Apple Silicon et les cartes graphiques NVIDIA |
OLLAMA_LLM_LIBRARY | Définir la bibliothèque LLM pour contourner la détection automatique (Bibliothèques dynamiques LLM [rocm_v6 cpu cpu_avx cpu_avx2 cuda_v11 rocm_v5 ]) |
OLLAMA_MAX_VRAM | VRAM maximale (OLLAMA_MAX_VRAM=<octets> ) |
OLLAMA_NOHISTORY | Définir sur 1 pour désactiver l'historique dans la commande ollama run |
OLLAMA_SCHED_SPREAD | Exécuter les modèles sur tous les adaptateurs vidéo disponibles (par défaut 0 ) |
OLLAMA_MULTIUSER_CACHE | Optimiser le cache de prompt pour des scénarios multi-utilisateurs |
OLLAMA_CONTEXT_LENGTH | Définir la taille du contexte (par défaut égal à 2048 ) |
OLLAMA_NEW_ENGINE | Activer l'utilisation du nouveau moteur au lieu de llama.cpp |
Une partie du contenu de cette page a été créée ou traduite à l'aide d'IA.