Aller au contenu

Installation d'Ollama

Dans cet article

Introduction à Ollama

Ollama est un framework pour exécuter et gérer de grands modèles de langage (LLM) sur des ressources informatiques locales. Il permet le chargement et le déploiement de LLM sélectionnés et y donne accès via une API.

Attention

Si vous prévoyez d'utiliser l'accélération GPU pour travailler avec des LLM, veuillez installer les pilotes NVIDIA et CUDA en premier lieu.

Configuration système requise :

Exigence Spécification
Système d'exploitation Linux : Ubuntu 22.04 ou ultérieur
RAM 16 Go pour exécuter des modèles jusqu'à 7B
Espace disque 12 Go pour l'installation d'Ollama et des modèles de base. Un espace supplémentaire est requis pour stocker les données des modèles en fonction des modèles utilisés
Processeur Il est recommandé d'utiliser un CPU moderne avec au moins 4 cœurs. Pour exécuter des modèles jusqu'à 13B, un CPU avec au moins 8 cœurs est recommandé
Unité de traitement graphique (optionnel) Un GPU n'est pas requis pour exécuter Ollama, mais peut améliorer les performances, en particulier lors du travail avec de grands modèles. Si vous disposez d'un GPU, vous pouvez l'utiliser pour accélérer l'entraînement de modèles personnalisés.

Remarque

Les exigences système peuvent varier en fonction des LLM spécifiques et des tâches que vous prévoyez d'effectuer.

Installation d'Ollama sur Linux

Téléchargez et installez Ollama :

curl -fsSL https://ollama.com/install.sh | sh

Pour les GPU Nvidia, ajoutez Environment="OLLAMA_FLASH_ATTENTION=1" pour améliorer la vitesse de génération des tokens.

Ollama sera accessible à l'adresse http://127.0.0.1:11434 ou http://<votre_IP_serveur>:11434.

Mise à jour d'Ollama sur Linux

Pour mettre à jour Ollama, vous devrez télécharger et réinstaller son package binaire :

curl -fsSL https://ollama.com/install.sh | sh

Remarque

Si vous n'avez pas accès à Ollama, vous devrez peut-être ajouter les lignes suivantes au fichier de service /etc/systemd/system/ollama.service dans la section [Service] :

Environment="OLLAMA_HOST=0.0.0.0" 
Environment="OLLAMA_ORIGINS=*"

puis redémarrer le service avec les commandes suivantes :

systemctl daemon-reload
service ollama restart

Installation des modèles de langage LLM

Vous pouvez trouver la liste des modèles de langage disponibles sur cette page.

Pour installer un modèle, cliquez sur son nom, puis sélectionnez la taille et le type du modèle sur la page suivante. Copiez la commande d'installation depuis la fenêtre de droite et exécutez-la dans votre terminal/ligne de commande :

ollama run llama3

Remarque

Les modèles recommandés portent le tag latest.

Attention

Pour garantir des performances acceptables, la taille du modèle doit être au moins deux fois inférieure à la quantité de RAM disponible sur le serveur et aux ⅔ de la mémoire vidéo disponible sur le GPU. Par exemple, un modèle de taille 8 Go nécessite 16 Go de RAM et 12 Go de mémoire vidéo sur le GPU.

Après le téléchargement du modèle, redémarrez le service :

service ollama restart

Pour plus d'informations sur Ollama, vous pouvez lire la documentation des développeurs.

Variables d'environnement

Définissez ces variables dans le service Ollama sous la forme Environment="VARIABLE=VALEUR".

Variable Description Valeurs possibles / format Valeur par défaut
OLLAMA_DEBUG Niveau de détail des journaux : INFO (par défaut), DEBUG ou TRACE 0, 1, false, true ou entier ≥2 (niveau TRACE) 0 (niveau INFO)
OLLAMA_HOST Adresse et port où s'exécute le serveur Ollama [http://\|https://]<hôte>[:<port>] (par ex., 127.0.0.1:11434, https://ollama.local) 127.0.0.1:11434
OLLAMA_KEEP_ALIVE Durée pendant laquelle le modèle reste chargé en mémoire après la dernière requête Chaîne de durée (5m, 1h, 30s) ou entier (secondes) ; négatif > indéfiniment 5m
OLLAMA_LOAD_TIMEOUT Temps d'attente maximum pour le chargement d'un modèle avant expiration (pour détecter les blocages) Chaîne de durée ou entier (secondes) ; ≤0 > indéfiniment 5m
OLLAMA_MAX_LOADED_MODELS Nombre maximum de modèles pouvant être chargés simultanément en mémoire Entier non négatif (uint) 0 (gestion automatique)
OLLAMA_MAX_QUEUE Longueur maximum de la file d'attente des requêtes en attente de traitement Entier non négatif (uint) 512
OLLAMA_MODELS Chemin vers le répertoire où les modèles sont stockés Chemin absolu ou relatif $HOME/.ollama/models
OLLAMA_NOHISTORY Désactive la sauvegarde de l'historique des commandes en mode CLI interactif 0, 1, false, true false
OLLAMA_NOPRUNE Empêche la suppression (élagage) des fichiers BLOB de modèles inutilisés au démarrage 0, 1, false, true false
OLLAMA_NUM_PARALLEL Nombre maximum de requêtes parallèles vers un seul modèle Entier non négatif (uint) 1
OLLAMA_ORIGINS Liste des origines CORS autorisées pour les requêtes web (séparées par des virgules) Liste d'origines séparées par des virgules (par ex., https://myapp.com,http://localhost:3000) — (valeurs intégrées ajoutées)
OLLAMA_FLASH_ATTENTION Active l'optimisation expérimentale de l'attention flash (accélération sur Apple Silicon et GPU NVIDIA) 0, 1, false, true false
OLLAMA_KV_CACHE_TYPE Type de quantification pour le cache clé-valeur (cache K/V) f16, q8_0, q4_0 — (f16 si chaîne vide)
OLLAMA_LLM_LIBRARY Force l'utilisation de la bibliothèque LLM spécifiée au lieu de la détection automatique cpu, cpu_avx, cpu_avx2, cuda_v11, rocm_v5, rocm_v6 — (détection automatique)
OLLAMA_SCHED_SPREAD Répartit uniformément la charge de chargement des modèles sur tous les GPU disponibles au lieu d'en utiliser un seul 0, 1, false, true false
OLLAMA_MULTIUSER_CACHE Optimise la mise en cache des invites dans les scénarios multi-utilisateurs (réduit la duplication) 0, 1, false, true false
OLLAMA_CONTEXT_LENGTH Longueur de contexte maximale par défaut (en tokens), si le modèle ne spécifie pas le contraire Entier positif (uint) 4096
OLLAMA_NEW_ENGINE Utilise le nouveau moteur expérimental au lieu de llama.cpp 0, 1, false, true false
OLLAMA_AUTH Active l'authentification de base entre le client et le serveur Ollama 0, 1, false, true false
OLLAMA_INTEL_GPU Active le support expérimental pour les GPU Intel 0, 1, false, true false
OLLAMA_GPU_OVERHEAD Quantité de VRAM (en octets) réservée par GPU (pour les besoins système) Entier non négatif (uint64, en octets) 0
OLLAMA_NEW_ESTIMATES Active le nouveau système d'estimation de la taille mémoire requis pour charger un modèle 0, 1, false, true 0 (désactivé)