Installation d'Ollama¶

Dans cet article

Introduction à Ollama

Installer Ollama sur Linux

Mettre à jour Ollama sur Linux

Installer des modèles de langage LLM

Variables d'environnement

Introduction à Ollama¶

Ollama est un cadre pour exécuter et gérer des grands modèles de langage (LLMs) sur les ressources informatiques locales. Il permet le chargement et le déploiement de LLMs sélectionnés et fournit un accès à ceux-ci via une API.

Attention

Si vous prévoyez d'utiliser l'accélération par GPU pour travailler avec des LLMs, veuillez installer les pilotes NVIDIA et CUDA au début.

Spécifications du système :

Spécification	Spécification
Système d'exploitation	Linux: Ubuntu 22.04 ou ultérieur
RAM	16 Go pour exécuter des modèles jusqu'à 7B
Espace disque	12 Go pour installer Ollama et les modèles de base. Un espace supplémentaire est nécessaire pour stocker les données du modèle en fonction des modèles utilisés
Processeur	Il est recommandé d'utiliser un CPU moderne avec au moins 4 cœurs. Pour exécuter des modèles jusqu'à 13B, il est recommandé d'utiliser un CPU avec au moins 8 cœurs
Unité de traitement graphique (optionnelle)	Un GPU n'est pas requis pour exécuter Ollama, mais peut améliorer les performances, en particulier lors du travail avec des modèles volumineux. Si vous disposez d'un GPU, vous pouvez l'utiliser pour accélérer l'entraînement de modèles personnalisés

Note

Les spécifications du système peuvent varier en fonction des LLMs et des tâches spécifiques que vous prévoyez d'exécuter.

Installer Ollama sur Linux¶

Téléchargez et installez Ollama :

curl -fsSL https://ollama.com/install.sh | sh

Pour les GPU Nvidia, ajoutez Environment="OLLAMA_FLASH_ATTENTION=1" pour améliorer la vitesse de génération des jetons.

Ollama sera accessible à http://127.0.0.1:11434 ou http://<votre_IP_de_serveur>:11434.

Mettre à jour Ollama sur Linux¶

Pour mettre à jour Ollama, vous devrez re-télécharger et réinstaller son package binaire :

curl -fsSL https://ollama.com/install.sh | sh

Note

Si vous n'avez pas accès à Ollama, vous devrez peut-être ajouter les lignes suivantes dans le fichier de service /etc/systemd/system/ollama.service dans la section [Service] :

Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_ORIGINS=*"

et redémarrer le service avec les commandes suivantes :

systemctl daemon-reload
service ollama restart

Installer des modèles de langage LLM¶

Vous pouvez trouver la liste des modèles de langage disponibles sur cette page.

Pour installer un modèle, cliquez sur son nom et sélectionnez ensuite la taille et le type du modèle sur la page suivante. Copiez la commande d'installation de l'onglet à droite et exécutez-la dans votre terminal/commande :

ollama run llama3

Note

Les modèles recommandés sont marqués avec la balise latest.

Attention

Pour assurer des performances acceptables, la taille du modèle doit être au moins deux fois plus petite que la quantité de RAM disponible sur le serveur et ⅔ de la mémoire vidéo disponible sur le GPU. Par exemple, un modèle de taille 8 Go nécessite 16 Go de RAM et 12 Go de mémoire vidéo sur le GPU.

Après avoir téléchargé le modèle, redémarrez le service :

service ollama restart

Pour plus d'informations sur Ollama, vous pouvez lire la documentation pour développeurs.

Variables d'environnement¶

Définissez ces variables dans le service Ollama sous la forme Environment="VARIABLE=VALUE".

Variable	Description
OLLAMA_DEBUG	Afficher des informations de débogage supplémentaires (par exemple, `OLLAMA_DEBUG=1`)
OLLAMA_HOST	Adresse IP du serveur ollama (par défaut `127.0.0.1:11434`)
OLLAMA_KEEP_ALIVE	La durée pendant laquelle les modèles restent chargés en mémoire (par défaut `5m`)
OLLAMA_MAX_LOADED_MODELS	Nombre maximum de modèles chargés (par défaut `1`)
OLLAMA_MAX_QUEUE	Longueur de file d'attente, définie comme le nombre de requêtes qui pourraient être en attente et prêtes à être traitées (`512` par défaut)
OLLAMA_MODELS	Chemin vers le répertoire des modèles
OLLAMA_NUM_PARALLEL	Nombre maximum de demandes parallèles (par défaut `1`)
OLLAMA_NOPRUNE	Ne pas élaguer les blobs de modèle au démarrage
OLLAMA_ORIGINS	Liste séparée par des virgules des origines autorisées
OLLAMA_TMPDIR	Emplacement pour les fichiers temporaires
OLLAMA_FLASH_ATTENTION	Définir sur `1` améliore la vitesse de génération des jetons sur les Mac Apple Silicon et les cartes graphiques NVIDIA
OLLAMA_LLM_LIBRARY	Définir la bibliothèque LLM pour contourner la détection automatique (Bibliothèques dynamiques LLM [`rocm_v6` `cpu` `cpu_avx` `cpu_avx2` `cuda_v11` `rocm_v5`])
OLLAMA_MAX_VRAM	VRAM maximale (`OLLAMA_MAX_VRAM=<octets>`)
OLLAMA_NOHISTORY	Définir sur `1` pour désactiver l'historique dans la commande ollama run
OLLAMA_SCHED_SPREAD	Exécuter les modèles sur tous les adaptateurs vidéo disponibles (par défaut `0`)
OLLAMA_MULTIUSER_CACHE	Optimiser le cache de prompt pour des scénarios multi-utilisateurs
OLLAMA_CONTEXT_LENGTH	Définir la taille du contexte (par défaut égal à `2048`)
OLLAMA_NEW_ENGINE	Activer l'utilisation du nouveau moteur au lieu de llama.cpp

Une partie du contenu de cette page a été créée ou traduite à l'aide d'IA.