Installation d'Ollama¶
Dans cet article
- Introduction à Ollama
- Installation d'Ollama sur Linux
- Mise à jour d'Ollama sur Linux
- Installation des modèles de langage LLM
- Variables d'environnement
Introduction à Ollama¶
Ollama est un framework pour exécuter et gérer de grands modèles de langage (LLM) sur des ressources informatiques locales. Il permet le chargement et le déploiement de LLM sélectionnés et y donne accès via une API.
Attention
Si vous prévoyez d'utiliser l'accélération GPU pour travailler avec des LLM, veuillez installer les pilotes NVIDIA et CUDA en premier lieu.
Configuration système requise :
| Exigence | Spécification |
|---|---|
| Système d'exploitation | Linux : Ubuntu 22.04 ou ultérieur |
| RAM | 16 Go pour exécuter des modèles jusqu'à 7B |
| Espace disque | 12 Go pour l'installation d'Ollama et des modèles de base. Un espace supplémentaire est requis pour stocker les données des modèles en fonction des modèles utilisés |
| Processeur | Il est recommandé d'utiliser un CPU moderne avec au moins 4 cœurs. Pour exécuter des modèles jusqu'à 13B, un CPU avec au moins 8 cœurs est recommandé |
| Unité de traitement graphique (optionnel) | Un GPU n'est pas requis pour exécuter Ollama, mais peut améliorer les performances, en particulier lors du travail avec de grands modèles. Si vous disposez d'un GPU, vous pouvez l'utiliser pour accélérer l'entraînement de modèles personnalisés. |
Remarque
Les exigences système peuvent varier en fonction des LLM spécifiques et des tâches que vous prévoyez d'effectuer.
Installation d'Ollama sur Linux¶
Téléchargez et installez Ollama :
Pour les GPU Nvidia, ajoutez Environment="OLLAMA_FLASH_ATTENTION=1" pour améliorer la vitesse de génération des tokens.
Ollama sera accessible à l'adresse http://127.0.0.1:11434 ou http://<votre_IP_serveur>:11434.
Mise à jour d'Ollama sur Linux¶
Pour mettre à jour Ollama, vous devrez télécharger et réinstaller son package binaire :
Remarque
Si vous n'avez pas accès à Ollama, vous devrez peut-être ajouter les lignes suivantes au fichier de service /etc/systemd/system/ollama.service dans la section [Service] :
puis redémarrer le service avec les commandes suivantes :
Installation des modèles de langage LLM¶
Vous pouvez trouver la liste des modèles de langage disponibles sur cette page.
Pour installer un modèle, cliquez sur son nom, puis sélectionnez la taille et le type du modèle sur la page suivante. Copiez la commande d'installation depuis la fenêtre de droite et exécutez-la dans votre terminal/ligne de commande :
Remarque
Les modèles recommandés portent le tag latest.
Attention
Pour garantir des performances acceptables, la taille du modèle doit être au moins deux fois inférieure à la quantité de RAM disponible sur le serveur et aux ⅔ de la mémoire vidéo disponible sur le GPU. Par exemple, un modèle de taille 8 Go nécessite 16 Go de RAM et 12 Go de mémoire vidéo sur le GPU.
Après le téléchargement du modèle, redémarrez le service :
Pour plus d'informations sur Ollama, vous pouvez lire la documentation des développeurs.
Variables d'environnement¶
Définissez ces variables dans le service Ollama sous la forme Environment="VARIABLE=VALEUR".
| Variable | Description | Valeurs possibles / format | Valeur par défaut |
|---|---|---|---|
OLLAMA_DEBUG | Niveau de détail des journaux : INFO (par défaut), DEBUG ou TRACE | 0, 1, false, true ou entier ≥2 (niveau TRACE) | 0 (niveau INFO) |
OLLAMA_HOST | Adresse et port où s'exécute le serveur Ollama | [http://\|https://]<hôte>[:<port>] (par ex., 127.0.0.1:11434, https://ollama.local) | 127.0.0.1:11434 |
OLLAMA_KEEP_ALIVE | Durée pendant laquelle le modèle reste chargé en mémoire après la dernière requête | Chaîne de durée (5m, 1h, 30s) ou entier (secondes) ; négatif > indéfiniment | 5m |
OLLAMA_LOAD_TIMEOUT | Temps d'attente maximum pour le chargement d'un modèle avant expiration (pour détecter les blocages) | Chaîne de durée ou entier (secondes) ; ≤0 > indéfiniment | 5m |
OLLAMA_MAX_LOADED_MODELS | Nombre maximum de modèles pouvant être chargés simultanément en mémoire | Entier non négatif (uint) | 0 (gestion automatique) |
OLLAMA_MAX_QUEUE | Longueur maximum de la file d'attente des requêtes en attente de traitement | Entier non négatif (uint) | 512 |
OLLAMA_MODELS | Chemin vers le répertoire où les modèles sont stockés | Chemin absolu ou relatif | $HOME/.ollama/models |
OLLAMA_NOHISTORY | Désactive la sauvegarde de l'historique des commandes en mode CLI interactif | 0, 1, false, true | false |
OLLAMA_NOPRUNE | Empêche la suppression (élagage) des fichiers BLOB de modèles inutilisés au démarrage | 0, 1, false, true | false |
OLLAMA_NUM_PARALLEL | Nombre maximum de requêtes parallèles vers un seul modèle | Entier non négatif (uint) | 1 |
OLLAMA_ORIGINS | Liste des origines CORS autorisées pour les requêtes web (séparées par des virgules) | Liste d'origines séparées par des virgules (par ex., https://myapp.com,http://localhost:3000) | — (valeurs intégrées ajoutées) |
OLLAMA_FLASH_ATTENTION | Active l'optimisation expérimentale de l'attention flash (accélération sur Apple Silicon et GPU NVIDIA) | 0, 1, false, true | false |
OLLAMA_KV_CACHE_TYPE | Type de quantification pour le cache clé-valeur (cache K/V) | f16, q8_0, q4_0 | — (f16 si chaîne vide) |
OLLAMA_LLM_LIBRARY | Force l'utilisation de la bibliothèque LLM spécifiée au lieu de la détection automatique | cpu, cpu_avx, cpu_avx2, cuda_v11, rocm_v5, rocm_v6 | — (détection automatique) |
OLLAMA_SCHED_SPREAD | Répartit uniformément la charge de chargement des modèles sur tous les GPU disponibles au lieu d'en utiliser un seul | 0, 1, false, true | false |
OLLAMA_MULTIUSER_CACHE | Optimise la mise en cache des invites dans les scénarios multi-utilisateurs (réduit la duplication) | 0, 1, false, true | false |
OLLAMA_CONTEXT_LENGTH | Longueur de contexte maximale par défaut (en tokens), si le modèle ne spécifie pas le contraire | Entier positif (uint) | 4096 |
OLLAMA_NEW_ENGINE | Utilise le nouveau moteur expérimental au lieu de llama.cpp | 0, 1, false, true | false |
OLLAMA_AUTH | Active l'authentification de base entre le client et le serveur Ollama | 0, 1, false, true | false |
OLLAMA_INTEL_GPU | Active le support expérimental pour les GPU Intel | 0, 1, false, true | false |
OLLAMA_GPU_OVERHEAD | Quantité de VRAM (en octets) réservée par GPU (pour les besoins système) | Entier non négatif (uint64, en octets) | 0 |
OLLAMA_NEW_ESTIMATES | Active le nouveau système d'estimation de la taille mémoire requis pour charger un modèle | 0, 1, false, true | 0 (désactivé) |