Aller au contenu

Installation d'Ollama

Dans cet article

Introduction à Ollama

Ollama est un cadre pour exécuter et gérer des grands modèles de langage (LLMs) sur les ressources informatiques locales. Il permet le chargement et le déploiement de LLMs sélectionnés et fournit un accès à ceux-ci via une API.

Attention

Si vous prévoyez d'utiliser l'accélération par GPU pour travailler avec des LLMs, veuillez installer les pilotes NVIDIA et CUDA au début.

Spécifications du système :

Spécification Spécification
Système d'exploitation Linux: Ubuntu 22.04 ou ultérieur
RAM 16 Go pour exécuter des modèles jusqu'à 7B
Espace disque 12 Go pour installer Ollama et les modèles de base. Un espace supplémentaire est nécessaire pour stocker les données du modèle en fonction des modèles utilisés
Processeur Il est recommandé d'utiliser un CPU moderne avec au moins 4 cœurs. Pour exécuter des modèles jusqu'à 13B, il est recommandé d'utiliser un CPU avec au moins 8 cœurs
Unité de traitement graphique (optionnelle) Un GPU n'est pas requis pour exécuter Ollama, mais peut améliorer les performances, en particulier lors du travail avec des modèles volumineux. Si vous disposez d'un GPU, vous pouvez l'utiliser pour accélérer l'entraînement de modèles personnalisés

Note

Les spécifications du système peuvent varier en fonction des LLMs et des tâches spécifiques que vous prévoyez d'exécuter.

Installer Ollama sur Linux

Téléchargez et installez Ollama :

curl -fsSL https://ollama.com/install.sh | sh

Pour les GPU Nvidia, ajoutez Environment="OLLAMA_FLASH_ATTENTION=1" pour améliorer la vitesse de génération des jetons.

Ollama sera accessible à http://127.0.0.1:11434 ou http://<votre_IP_de_serveur>:11434.

Mettre à jour Ollama sur Linux

Pour mettre à jour Ollama, vous devrez re-télécharger et réinstaller son package binaire :

curl -fsSL https://ollama.com/install.sh | sh

Note

Si vous n'avez pas accès à Ollama, vous devrez peut-être ajouter les lignes suivantes dans le fichier de service /etc/systemd/system/ollama.service dans la section [Service] :

Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_ORIGINS=*"
et redémarrer le service avec les commandes suivantes :
systemctl daemon-reload
service ollama restart

Installer des modèles de langage LLM

Vous pouvez trouver la liste des modèles de langage disponibles sur cette page.

Pour installer un modèle, cliquez sur son nom et sélectionnez ensuite la taille et le type du modèle sur la page suivante. Copiez la commande d'installation de l'onglet à droite et exécutez-la dans votre terminal/commande :

ollama run llama3

Note

Les modèles recommandés sont marqués avec la balise latest.

Attention

Pour assurer des performances acceptables, la taille du modèle doit être au moins deux fois plus petite que la quantité de RAM disponible sur le serveur et ⅔ de la mémoire vidéo disponible sur le GPU. Par exemple, un modèle de taille 8 Go nécessite 16 Go de RAM et 12 Go de mémoire vidéo sur le GPU.

Après avoir téléchargé le modèle, redémarrez le service :

service ollama restart

Pour plus d'informations sur Ollama, vous pouvez lire la documentation pour développeurs.

Variables d'environnement

Définissez ces variables dans le service Ollama sous la forme Environment="VARIABLE=VALUE".

Variable Description
OLLAMA_DEBUG Afficher des informations de débogage supplémentaires (par exemple, OLLAMA_DEBUG=1)
OLLAMA_HOST Adresse IP du serveur ollama (par défaut 127.0.0.1:11434)
OLLAMA_KEEP_ALIVE La durée pendant laquelle les modèles restent chargés en mémoire (par défaut 5m)
OLLAMA_MAX_LOADED_MODELS Nombre maximum de modèles chargés (par défaut 1)
OLLAMA_MAX_QUEUE Longueur de file d'attente, définie comme le nombre de requêtes qui pourraient être en attente et prêtes à être traitées (512 par défaut)
OLLAMA_MODELS Chemin vers le répertoire des modèles
OLLAMA_NUM_PARALLEL Nombre maximum de demandes parallèles (par défaut 1)
OLLAMA_NOPRUNE Ne pas élaguer les blobs de modèle au démarrage
OLLAMA_ORIGINS Liste séparée par des virgules des origines autorisées
OLLAMA_TMPDIR Emplacement pour les fichiers temporaires
OLLAMA_FLASH_ATTENTION Définir sur 1 améliore la vitesse de génération des jetons sur les Mac Apple Silicon et les cartes graphiques NVIDIA
OLLAMA_LLM_LIBRARY Définir la bibliothèque LLM pour contourner la détection automatique (Bibliothèques dynamiques LLM [rocm_v6 cpu cpu_avx cpu_avx2 cuda_v11 rocm_v5])
OLLAMA_MAX_VRAM VRAM maximale (OLLAMA_MAX_VRAM=<octets>)
OLLAMA_NOHISTORY Définir sur 1 pour désactiver l'historique dans la commande ollama run
OLLAMA_SCHED_SPREAD Exécuter les modèles sur tous les adaptateurs vidéo disponibles (par défaut 0)
OLLAMA_MULTIUSER_CACHE Optimiser le cache de prompt pour des scénarios multi-utilisateurs
OLLAMA_CONTEXT_LENGTH Définir la taille du contexte (par défaut égal à 2048)
OLLAMA_NEW_ENGINE Activer l'utilisation du nouveau moteur au lieu de llama.cpp

Une partie du contenu de cette page a été créée ou traduite à l'aide d'IA.