Ga naar inhoud

Ollama-installatie

In dit artikel

Inleiding tot Ollama

Ollama is een framework voor het uitvoeren en beheren van grote taalmodellen (LLM's) op lokale rekenbronnen. Het maakt het laden en implementeren van geselecteerde LLM's mogelijk en biedt toegang tot deze via een API.

Let op

Als van plan bent om GPU-versnelling te gebruiken voor het werken met LLM's, installeer dan NVIDIA-stuurprogramma's en CUDA aan het begin.

Systeemvereisten:

Vereiste Specificatie
Besturingssysteem Linux: Ubuntu 22.04 of later
RAM 16 GB voor het uitvoeren van modellen tot 7B
Schijfruimte 12 GB voor het installeren van Ollama en basismodellen. Extra ruimte is vereist voor het opslaan van modelgegevens, afhankelijk van de gebruikte modellen
Processor Aanbevolen om een moderne CPU te gebruiken met minimaal 4 cores. Voor het uitvoeren van modellen tot 13B wordt een CPU met minimaal 8 cores aanbevolen
Grafische verwerkingseenheid (optioneel) Een GPU is niet vereist voor het uitvoeren van Ollama, maar kan de prestaties verbeteren, vooral bij het werken met grote modellen. Als u een GPU heeft, kunt u deze gebruiken om het trainen van aangepaste modellen te versnellen.

Opmerking

De systeemvereisten kunnen variëren afhankelijk van de specifieke LLM's en taken die u van plan bent uit te voeren.

Ollama installeren op Linux

Download en installeer Ollama:

curl -fsSL https://ollama.com/install.sh | sh

Voor Nvidia-GPU's, voeg Environment="OLLAMA_FLASH_ATTENTION=1" toe om de snelheid van token-generatie te verbeteren.

Ollama is toegankelijk op http://127.0.0.1:11434 of http://<uw_server_IP>:11434.

Ollama bijwerken op Linux

Om Ollama bij te werken, moet u het binaire pakket opnieuw downloaden en installeren:

curl -fsSL https://ollama.com/install.sh | sh

Opmerking

Als u geen toegang heeft tot Ollama, moet u mogelijk de volgende regels toevoegen aan het servicemap /etc/systemd/system/ollama.service in de sectie [Service]:

Environment="OLLAMA_HOST=0.0.0.0" 
Environment="OLLAMA_ORIGINS=*"

en de service opnieuw opstarten met de volgende opdrachten:

systemctl daemon-reload
service ollama restart

Taalmodellen LLM installeren

U kunt de lijst met beschikbare taalmodellen vinden op deze pagina.

Om een model te installeren, klikt u op de naam en selecteert u vervolgens de grootte en het type van het model op de volgende pagina. Kopieer het installatiecommando uit het rechtervenster en voer het uit in uw terminal/commandoregel:

ollama run llama3

Opmerking

Aanbevolen modellen zijn gemarkeerd met de latest-tag.

Let op

Om aanvaardbare prestaties te waarborgen, moet de grootte van het model minimaal twee keer kleiner zijn dan de beschikbare RAM-geheugen op de server en ⅔ van het beschikbare videogeheugen op de GPU. Bijvoorbeeld, een model van 8 GB vereist 16 GB RAM en 12 GB videogeheugen op de GPU.

Na het downloaden van het model, start de service opnieuw op:

service ollama restart

Voor meer informatie over Ollama, kunt u de ontwikkelaarsdocumentatie lezen.

Omgevingsvariabelen

Stel deze variabelen in de Ollama-service in als Environment="VARIABLE=VALUE".

Variabele Beschrijving Mogelijke waarden / formaat Standaardwaarde
OLLAMA_DEBUG Niveau van logboekdetails: INFO (standaard), DEBUG of TRACE 0, 1, false, true of geheel getal ≥2 (TRACE-niveau) 0 (INFO-niveau)
OLLAMA_HOST Adres en poort waar de Ollama-server draait [http://\|https://]<host>[:<port>] (bijv. 127.0.0.1:11434, https://ollama.local) 127.0.0.1:11434
OLLAMA_KEEP_ALIVE Tijd waarin het model geladen blijft in het geheugen na de laatste aanvraag Duurstring (5m, 1h, 30s) of geheel getal (seconden); negatief > onbeperkt 5m
OLLAMA_LOAD_TIMEOUT Maximale wachttijd voor het laden van een model voordat time-out optreedt (om hangen te detecteren) Duurstring of geheel getal (seconden); ≤0 > onbeperkt 5m
OLLAMA_MAX_LOADED_MODELS Maximale aantal modellen dat gelijktijdig in het geheugen kan worden geladen Niet-negatief geheel getal (uint) 0 (automatisch beheer)
OLLAMA_MAX_QUEUE Maximale lengte van de wachtrij voor aanvragen die wachten op verwerking Niet-negatief geheel getal (uint) 512
OLLAMA_MODELS Pad naar de map waar modellen worden opgeslagen Absoluut of relatief pad $HOME/.ollama/models
OLLAMA_NOHISTORY Schakelt het opslaan van commandogeschiedenis uit in interactieve CLI-modus 0, 1, false, true false
OLLAMA_NOPRUNE Voorkomt verwijdering (pruning) van ongebruikte model-BLOB-bestanden bij opstarten 0, 1, false, true false
OLLAMA_NUM_PARALLEL Maximale aantal parallelle aanvragen naar één enkel model Niet-negatief geheel getal (uint) 1
OLLAMA_ORIGINS Lijst van toegestane CORS-herkomsten voor webaanvragen (komma-gescheiden) Komma-gescheiden lijst van herkomsten (bijv. https://myapp.com,http://localhost:3000) — (ingebouwde waarden toegevoegd)
OLLAMA_FLASH_ATTENTION Schakelt experimentele flash-attention-optimalisatie in (versnelling op Apple Silicon en NVIDIA GPU) 0, 1, false, true false
OLLAMA_KV_CACHE_TYPE Type kwantisatie voor de sleutel-waarde-cache (K/V-cache) f16, q8_0, q4_0 — (f16 als lege string)
OLLAMA_LLM_LIBRARY Forceer gebruik van gespecificeerde LLM-bibliotheek in plaats van automatische detectie cpu, cpu_avx, cpu_avx2, cuda_v11, rocm_v5, rocm_v6 — (automatische detectie)
OLLAMA_SCHED_SPREAD Verdeel het laden van modellen gelijkmatig over alle beschikbare GPU's in plaats van slechts één te gebruiken 0, 1, false, true false
OLLAMA_MULTIUSER_CACHE Optimaliseert prompt-caching in multi-gebruikersscenario's (vermindert duplicatie) 0, 1, false, true false
OLLAMA_CONTEXT_LENGTH Standaard maximale contextlengte (in tokens), als het model dit niet anders specificeert Positief geheel getal (uint) 4096
OLLAMA_NEW_ENGINE Gebruik nieuwe experimentele engine in plaats van llama.cpp 0, 1, false, true false
OLLAMA_AUTH Schakelt basisauthenticatie in tussen client en Ollama-server 0, 1, false, true false
OLLAMA_INTEL_GPU Schakelt experimentele ondersteuning voor Intel GPU in 0, 1, false, true false
OLLAMA_GPU_OVERHEAD Hoeveelheid VRAM (in bytes) gereserveerd per GPU (voor systeembehoeften) Niet-negatief geheel getal (uint64, in bytes) 0
OLLAMA_NEW_ESTIMATES Schakelt nieuw systeem voor geheugengrootte-schatting in dat vereist is om een model te laden 0, 1, false, true 0 (uitgeschakeld)
question_mark
Is there anything I can help you with?
question_mark
AI Assistant ×