Installation d'Ollama¶
Dans cet article
Introduction à Ollama¶
Ollama est un cadre pour exécuter et gérer des grands modèles de langage (LLMs) sur les ressources informatiques locales. Il permet le chargement et le déploiement de LLMs sélectionnés et fournit un accès à ceux-ci via une API.
Attention
Si vous prévoyez d'utiliser l'accélération par GPU pour travailler avec des LLMs, veuillez installer les pilotes NVIDIA et CUDA au début.
Spécifications du système :
| Spécification | Spécification |
|---|---|
| Système d'exploitation | Linux: Ubuntu 22.04 ou ultérieur |
| RAM | 16 Go pour exécuter des modèles jusqu'à 7B |
| Espace disque | 12 Go pour installer Ollama et les modèles de base. Un espace supplémentaire est nécessaire pour stocker les données du modèle en fonction des modèles utilisés |
| Processeur | Il est recommandé d'utiliser un CPU moderne avec au moins 4 cœurs. Pour exécuter des modèles jusqu'à 13B, il est recommandé d'utiliser un CPU avec au moins 8 cœurs |
| Unité de traitement graphique (optionnelle) | Un GPU n'est pas requis pour exécuter Ollama, mais peut améliorer les performances, en particulier lors du travail avec des modèles volumineux. Si vous disposez d'un GPU, vous pouvez l'utiliser pour accélérer l'entraînement de modèles personnalisés |
Note
Les spécifications du système peuvent varier en fonction des LLMs et des tâches spécifiques que vous prévoyez d'exécuter.
Installer Ollama sur Linux¶
Téléchargez et installez Ollama :
Pour les GPU Nvidia, ajoutez Environment="OLLAMA_FLASH_ATTENTION=1" pour améliorer la vitesse de génération des jetons.
Ollama sera accessible à http://127.0.0.1:11434 ou http://<votre_IP_de_serveur>:11434.
Mettre à jour Ollama sur Linux¶
Pour mettre à jour Ollama, vous devrez re-télécharger et réinstaller son package binaire :
Note
Si vous n'avez pas accès à Ollama, vous devrez peut-être ajouter les lignes suivantes dans le fichier de service /etc/systemd/system/ollama.service dans la section [Service] :
et redémarrer le service avec les commandes suivantes :
Installer des modèles de langage LLM¶
Vous pouvez trouver la liste des modèles de langage disponibles sur cette page.
Pour installer un modèle, cliquez sur son nom et sélectionnez ensuite la taille et le type du modèle sur la page suivante. Copiez la commande d'installation de l'onglet à droite et exécutez-la dans votre terminal/commande :
Note
Les modèles recommandés sont marqués avec la balise latest.
Attention
Pour assurer des performances acceptables, la taille du modèle doit être au moins deux fois plus petite que la quantité de RAM disponible sur le serveur et ⅔ de la mémoire vidéo disponible sur le GPU. Par exemple, un modèle de taille 8 Go nécessite 16 Go de RAM et 12 Go de mémoire vidéo sur le GPU.
Après avoir téléchargé le modèle, redémarrez le service :
Pour plus d'informations sur Ollama, vous pouvez lire la documentation pour développeurs.
Variables d'environnement¶
Définissez ces variables dans le service Ollama sous la forme Environment="VARIABLE=VALUE".
| Variable | Description | Valeurs possibles / format | Valeur par défaut |
|---|---|---|---|
OLLAMA_DEBUG | Niveau de détail des logs : INFO (par défaut), DEBUG ou TRACE | 0, 1, false, true, ou entier ≥2 (niveau TRACE) | 0 (niveau INFO) |
OLLAMA_HOST | Adresse et port où tourne le serveur Ollama | [http://\|https://]<host>[:<port>] (par exemple, 127.0.0.1:11434, https://ollama.local) | 127.0.0.1:11434 |
OLLAMA_KEEP_ALIVE | Durée pendant laquelle le modèle reste chargé en mémoire après la dernière requête | Chaîne de durée (5m, 1h, 30s) ou entier (secondes) ; négatif → indéfiniment | 5m |
OLLAMA_LOAD_TIMEOUT | Temps maximal d'attente pour charger un modèle avant délai d'expiration (pour détecter les blocages) | Chaîne de durée ou entier (secondes) ; ≤0 → indéfiniment | 5m |
OLLAMA_MAX_LOADED_MODELS | Nombre maximum de modèles pouvant être simultanément chargés en mémoire | Entier non négatif (uint) | 0 (gestion automatique) |
OLLAMA_MAX_QUEUE | Longueur maximale de la file d'attente des requêtes en attente de traitement | Entier non négatif (uint) | 512 |
OLLAMA_MODELS | Chemin du répertoire où sont stockés les modèles | Chemin absolu ou relatif | $HOME/.ollama/models |
OLLAMA_NOHISTORY | Désactive la sauvegarde de l'historique des commandes en mode CLI interactif | 0, 1, false, true | false |
OLLAMA_NOPRUNE | Empêche la suppression (prune) des fichiers BLOB de modèle non utilisés au démarrage | 0, 1, false, true | false |
OLLAMA_NUM_PARALLEL | Nombre maximum de requêtes parallèles à un seul modèle | Entier non négatif (uint) | 1 |
OLLAMA_ORIGINS | Liste des origines CORS autorisées pour les requêtes web (séparées par des virgules) | Liste de valeurs séparées par des virgules d'origines (par exemple, https://myapp.com,http://localhost:3000) | — (valeurs intégrées ajoutées) |
OLLAMA_FLASH_ATTENTION | Active l'optimisation expérimentale de flash attention (accélération sur Apple Silicon et GPU NVIDIA) | 0, 1, false, true | false |
OLLAMA_KV_CACHE_TYPE | Type de quantification pour le cache clé-valeur (K/V cache) | f16, q8_0, q4_0 | — (f16 si chaîne vide) |
OLLAMA_LLM_LIBRARY | Force l'utilisation d'une bibliothèque LLM spécifiée au lieu de la détection automatique | cpu, cpu_avx, cpu_avx2, cuda_v11, rocm_v5, rocm_v6 | — (détection automatique) |
OLLAMA_SCHED_SPREAD | Répartit la charge de chargement des modèles uniformément sur tous les GPU disponibles au lieu d'utiliser un seul | 0, 1, false, true | false |
OLLAMA_MULTIUSER_CACHE | Optimise le cache des invites dans les scénarios multi-utilisateurs (réduit la duplication) | 0, 1, false, true | false |
OLLAMA_CONTEXT_LENGTH | Longueur maximale du contexte par défaut (en jetons), si le modèle ne spécifie pas autrement | Entier positif (uint) | 4096 |
OLLAMA_NEW_ENGINE | Utilise un nouveau moteur expérimental au lieu de llama.cpp | 0, 1, false, true | false |
OLLAMA_AUTH | Active l'authentification basique entre le client et le serveur Ollama | 0, 1, false, true | false |
OLLAMA_INTEL_GPU | Active le support expérimental pour GPU Intel | 0, 1, false, true | false |
OLLAMA_GPU_OVERHEAD | Quantité de VRAM (en octets) réservée par GPU (pour les besoins du système) | Entier non négatif (uint64, en octets) | 0 |
OLLAMA_NEW_ESTIMATES | Active le nouveau système d'estimation de la taille mémoire nécessaire pour charger un modèle | 0, 1, false, true | 0 (désactivé) |
Une partie du contenu de cette page a été créée ou traduite à l'aide d'IA.