Installation d'Ollama¶

Dans cet article

Introduction à Ollama

Installation d'Ollama sur Linux

Mise à jour d'Ollama sur Linux

Installation des modèles de langage LLM

Variables d'environnement

Introduction à Ollama¶

Ollama est un framework permettant d'exécuter et de gérer de grands modèles de langage (LLM) sur des ressources informatiques locales. Il permet de charger et de déployer des LLM sélectionnés et d'y accéder via une API.

Attention

Si vous prévoyez d'utiliser l'accélération GPU pour travailler avec des LLM, veuillez installer les pilotes NVIDIA et CUDA en premier lieu.

Configuration système requise :

Exigence	Spécification
Système d'exploitation	Linux : Ubuntu 22.04 ou ultérieur
RAM	16 Go pour exécuter des modèles jusqu'à 7B
Espace disque	12 Go pour l'installation d'Ollama et des modèles de base. Un espace supplémentaire est requis pour le stockage des données des modèles, selon les modèles utilisés
Processeur	Il est recommandé d'utiliser un CPU moderne avec au moins 4 cœurs. Pour exécuter des modèles jusqu'à 13B, un CPU avec au moins 8 cœurs est recommandé
Unité de traitement graphique (optionnel)	Un GPU n'est pas requis pour exécuter Ollama, mais peut améliorer les performances, en particulier lors du travail avec de grands modèles. Si vous disposez d'un GPU, vous pouvez l'utiliser pour accélérer l'entraînement de modèles personnalisés.

Remarque

Les exigences système peuvent varier selon les LLM spécifiques et les tâches que vous prévoyez d'effectuer.

Installation d'Ollama sur Linux¶

Téléchargez et installez Ollama :

curl -fsSL https://ollama.com/install.sh | sh

Pour les GPU Nvidia, ajoutez Environment="OLLAMA_FLASH_ATTENTION=1" pour améliorer la vitesse de génération des tokens.

Ollama sera accessible à l'adresse http://127.0.0.1:11434 ou http://<IP_de_votre_serveur>:11434.

Mise à jour d'Ollama sur Linux¶

Pour mettre à jour Ollama, vous devrez télécharger et installer à nouveau son package binaire :

curl -fsSL https://ollama.com/install.sh | sh

Remarque

Si vous n'avez pas accès à Ollama, vous devrez peut-être ajouter les lignes suivantes au fichier de service /etc/systemd/system/ollama.service dans la section [Service] :

Environment="OLLAMA_HOST=0.0.0.0" 
Environment="OLLAMA_ORIGINS=*"

puis redémarrer le service avec les commandes suivantes :

systemctl daemon-reload
service ollama restart

Installation des modèles de langage LLM¶

Vous pouvez trouver la liste des modèles de langage disponibles sur cette page.

Pour installer un modèle, cliquez sur son nom, puis sélectionnez la taille et le type du modèle sur la page suivante. Copiez la commande d'installation depuis la fenêtre de droite et exécutez-la dans votre terminal/ligne de commande :

ollama run llama3

Remarque

Les modèles recommandés sont marqués avec le tag latest.

Attention

Pour garantir des performances acceptables, la taille du modèle doit être au moins deux fois inférieure à la quantité de RAM disponible sur le serveur et aux ⅔ de la mémoire vidéo disponible sur le GPU. Par exemple, un modèle de taille 8 Go nécessite 16 Go de RAM et 12 Go de mémoire vidéo sur le GPU.

Après le téléchargement du modèle, redémarrez le service :

service ollama restart

Pour plus d'informations sur Ollama, vous pouvez consulter la documentation des développeurs.

Variables d'environnement¶

Définissez ces variables dans le service Ollama sous la forme Environment="VARIABLE=VALEUR".

Variable	Description	Valeurs possibles / format	Valeur par défaut
`OLLAMA_DEBUG`	Niveau de détail des journaux : INFO (par défaut), DEBUG ou TRACE	`0`, `1`, `false`, `true` ou entier ≥2 (niveau TRACE)	`0` (niveau INFO)
`OLLAMA_HOST`	Adresse et port où s'exécute le serveur Ollama	`[http://\\|https://]<hôte>[:<port>]` (par ex. `127.0.0.1:11434`, `https://ollama.local`)	`127.0.0.1:11434`
`OLLAMA_KEEP_ALIVE`	Durée pendant laquelle le modèle reste chargé en mémoire après la dernière requête	Chaîne de durée (`5m`, `1h`, `30s`) ou entier (secondes) ; négatif > indéfiniment	`5m`
`OLLAMA_LOAD_TIMEOUT`	Temps d'attente maximum pour le chargement d'un modèle avant expiration (pour détecter les blocages)	Chaîne de durée ou entier (secondes) ; ≤0 > indéfiniment	`5m`
`OLLAMA_MAX_LOADED_MODELS`	Nombre maximum de modèles pouvant être chargés simultanément en mémoire	Entier non négatif (`uint`)	`0` (gestion automatique)
`OLLAMA_MAX_QUEUE`	Longueur maximum de la file d'attente des requêtes en attente de traitement	Entier non négatif (`uint`)	`512`
`OLLAMA_MODELS`	Chemin vers le répertoire où les modèles sont stockés	Chemin absolu ou relatif	`$HOME/.ollama/models`
`OLLAMA_NOHISTORY`	Désactive la sauvegarde de l'historique des commandes en mode CLI interactif	`0`, `1`, `false`, `true`	`false`
`OLLAMA_NOPRUNE`	Empêche la suppression (élagage) des fichiers BLOB de modèles inutilisés au démarrage	`0`, `1`, `false`, `true`	`false`
`OLLAMA_NUM_PARALLEL`	Nombre maximum de requêtes parallèles vers un seul modèle	Entier non négatif (`uint`)	`1`
`OLLAMA_ORIGINS`	Liste des origines CORS autorisées pour les requêtes web (séparées par des virgules)	Liste d'origines séparées par des virgules (par ex. `https://myapp.com,http://localhost:3000`)	— (valeurs intégrées ajoutées)
`OLLAMA_FLASH_ATTENTION`	Active l'optimisation expérimentale de l'attention flash (accélération sur Apple Silicon et GPU NVIDIA)	`0`, `1`, `false`, `true`	`false`
`OLLAMA_KV_CACHE_TYPE`	Type de quantification pour le cache clé-valeur (cache K/V)	`f16`, `q8_0`, `q4_0`	— (`f16` si chaîne vide)
`OLLAMA_LLM_LIBRARY`	Force l'utilisation de la bibliothèque LLM spécifiée au lieu de la détection automatique	`cpu`, `cpu_avx`, `cpu_avx2`, `cuda_v11`, `rocm_v5`, `rocm_v6`	— (détection automatique)
`OLLAMA_SCHED_SPREAD`	Répartit uniformément la charge de chargement des modèles sur tous les GPU disponibles au lieu d'en utiliser un seul	`0`, `1`, `false`, `true`	`false`
`OLLAMA_MULTIUSER_CACHE`	Optimise la mise en cache des invites dans les scénarios multi-utilisateurs (réduit la duplication)	`0`, `1`, `false`, `true`	`false`
`OLLAMA_CONTEXT_LENGTH`	Longueur de contexte maximale par défaut (en tokens), si le modèle ne spécifie pas le contraire	Entier positif (`uint`)	`4096`
`OLLAMA_NEW_ENGINE`	Utilise le nouveau moteur expérimental au lieu de llama.cpp	`0`, `1`, `false`, `true`	`false`
`OLLAMA_AUTH`	Active l'authentification de base entre le client et le serveur Ollama	`0`, `1`, `false`, `true`	`false`
`OLLAMA_INTEL_GPU`	Active le support expérimental pour les GPU Intel	`0`, `1`, `false`, `true`	`false`
`OLLAMA_GPU_OVERHEAD`	Quantité de VRAM (en octets) réservée par GPU (pour les besoins système)	Entier non négatif (`uint64`, en octets)	`0`
`OLLAMA_NEW_ESTIMATES`	Active le nouveau système d'estimation de la taille mémoire requis pour charger un modèle	`0`, `1`, `false`, `true`	`0` (désactivé)