Aller au contenu

Installation d'Ollama

Dans cet article

Introduction à Ollama

Ollama est un cadre pour exécuter et gérer des grands modèles de langage (LLMs) sur les ressources informatiques locales. Il permet le chargement et le déploiement de LLMs sélectionnés et fournit un accès à ceux-ci via une API.

Attention

Si vous prévoyez d'utiliser l'accélération par GPU pour travailler avec des LLMs, veuillez installer les pilotes NVIDIA et CUDA au début.

Spécifications du système :

Spécification Spécification
Système d'exploitation Linux: Ubuntu 22.04 ou ultérieur
RAM 16 Go pour exécuter des modèles jusqu'à 7B
Espace disque 12 Go pour installer Ollama et les modèles de base. Un espace supplémentaire est nécessaire pour stocker les données du modèle en fonction des modèles utilisés
Processeur Il est recommandé d'utiliser un CPU moderne avec au moins 4 cœurs. Pour exécuter des modèles jusqu'à 13B, il est recommandé d'utiliser un CPU avec au moins 8 cœurs
Unité de traitement graphique (optionnelle) Un GPU n'est pas requis pour exécuter Ollama, mais peut améliorer les performances, en particulier lors du travail avec des modèles volumineux. Si vous disposez d'un GPU, vous pouvez l'utiliser pour accélérer l'entraînement de modèles personnalisés

Note

Les spécifications du système peuvent varier en fonction des LLMs et des tâches spécifiques que vous prévoyez d'exécuter.

Installer Ollama sur Linux

Téléchargez et installez Ollama :

curl -fsSL https://ollama.com/install.sh | sh

Pour les GPU Nvidia, ajoutez Environment="OLLAMA_FLASH_ATTENTION=1" pour améliorer la vitesse de génération des jetons.

Ollama sera accessible à http://127.0.0.1:11434 ou http://<votre_IP_de_serveur>:11434.

Mettre à jour Ollama sur Linux

Pour mettre à jour Ollama, vous devrez re-télécharger et réinstaller son package binaire :

curl -fsSL https://ollama.com/install.sh | sh

Note

Si vous n'avez pas accès à Ollama, vous devrez peut-être ajouter les lignes suivantes dans le fichier de service /etc/systemd/system/ollama.service dans la section [Service] :

Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_ORIGINS=*"
et redémarrer le service avec les commandes suivantes :
systemctl daemon-reload
service ollama restart

Installer des modèles de langage LLM

Vous pouvez trouver la liste des modèles de langage disponibles sur cette page.

Pour installer un modèle, cliquez sur son nom et sélectionnez ensuite la taille et le type du modèle sur la page suivante. Copiez la commande d'installation de l'onglet à droite et exécutez-la dans votre terminal/commande :

ollama run llama3

Note

Les modèles recommandés sont marqués avec la balise latest.

Attention

Pour assurer des performances acceptables, la taille du modèle doit être au moins deux fois plus petite que la quantité de RAM disponible sur le serveur et ⅔ de la mémoire vidéo disponible sur le GPU. Par exemple, un modèle de taille 8 Go nécessite 16 Go de RAM et 12 Go de mémoire vidéo sur le GPU.

Après avoir téléchargé le modèle, redémarrez le service :

service ollama restart

Pour plus d'informations sur Ollama, vous pouvez lire la documentation pour développeurs.

Variables d'environnement

Définissez ces variables dans le service Ollama sous la forme Environment="VARIABLE=VALUE".

Variable Description Valeurs possibles / format Valeur par défaut
OLLAMA_DEBUG Niveau de détail des logs : INFO (par défaut), DEBUG ou TRACE 0, 1, false, true, ou entier ≥2 (niveau TRACE) 0 (niveau INFO)
OLLAMA_HOST Adresse et port où tourne le serveur Ollama [http://\|https://]<host>[:<port>] (par exemple, 127.0.0.1:11434, https://ollama.local) 127.0.0.1:11434
OLLAMA_KEEP_ALIVE Durée pendant laquelle le modèle reste chargé en mémoire après la dernière requête Chaîne de durée (5m, 1h, 30s) ou entier (secondes) ; négatif → indéfiniment 5m
OLLAMA_LOAD_TIMEOUT Temps maximal d'attente pour charger un modèle avant délai d'expiration (pour détecter les blocages) Chaîne de durée ou entier (secondes) ; ≤0 → indéfiniment 5m
OLLAMA_MAX_LOADED_MODELS Nombre maximum de modèles pouvant être simultanément chargés en mémoire Entier non négatif (uint) 0 (gestion automatique)
OLLAMA_MAX_QUEUE Longueur maximale de la file d'attente des requêtes en attente de traitement Entier non négatif (uint) 512
OLLAMA_MODELS Chemin du répertoire où sont stockés les modèles Chemin absolu ou relatif $HOME/.ollama/models
OLLAMA_NOHISTORY Désactive la sauvegarde de l'historique des commandes en mode CLI interactif 0, 1, false, true false
OLLAMA_NOPRUNE Empêche la suppression (prune) des fichiers BLOB de modèle non utilisés au démarrage 0, 1, false, true false
OLLAMA_NUM_PARALLEL Nombre maximum de requêtes parallèles à un seul modèle Entier non négatif (uint) 1
OLLAMA_ORIGINS Liste des origines CORS autorisées pour les requêtes web (séparées par des virgules) Liste de valeurs séparées par des virgules d'origines (par exemple, https://myapp.com,http://localhost:3000) — (valeurs intégrées ajoutées)
OLLAMA_FLASH_ATTENTION Active l'optimisation expérimentale de flash attention (accélération sur Apple Silicon et GPU NVIDIA) 0, 1, false, true false
OLLAMA_KV_CACHE_TYPE Type de quantification pour le cache clé-valeur (K/V cache) f16, q8_0, q4_0 — (f16 si chaîne vide)
OLLAMA_LLM_LIBRARY Force l'utilisation d'une bibliothèque LLM spécifiée au lieu de la détection automatique cpu, cpu_avx, cpu_avx2, cuda_v11, rocm_v5, rocm_v6 — (détection automatique)
OLLAMA_SCHED_SPREAD Répartit la charge de chargement des modèles uniformément sur tous les GPU disponibles au lieu d'utiliser un seul 0, 1, false, true false
OLLAMA_MULTIUSER_CACHE Optimise le cache des invites dans les scénarios multi-utilisateurs (réduit la duplication) 0, 1, false, true false
OLLAMA_CONTEXT_LENGTH Longueur maximale du contexte par défaut (en jetons), si le modèle ne spécifie pas autrement Entier positif (uint) 4096
OLLAMA_NEW_ENGINE Utilise un nouveau moteur expérimental au lieu de llama.cpp 0, 1, false, true false
OLLAMA_AUTH Active l'authentification basique entre le client et le serveur Ollama 0, 1, false, true false
OLLAMA_INTEL_GPU Active le support expérimental pour GPU Intel 0, 1, false, true false
OLLAMA_GPU_OVERHEAD Quantité de VRAM (en octets) réservée par GPU (pour les besoins du système) Entier non négatif (uint64, en octets) 0
OLLAMA_NEW_ESTIMATES Active le nouveau système d'estimation de la taille mémoire nécessaire pour charger un modèle 0, 1, false, true 0 (désactivé)

Une partie du contenu de cette page a été créée ou traduite à l'aide d'IA.