Ollama-installatie¶

In dit artikel

Inleiding tot Ollama

Ollama installeren op Linux

Ollama bijwerken op Linux

Taalmodellen LLM installeren

Omgevingsvariabelen

Inleiding tot Ollama¶

Ollama is een framework voor het uitvoeren en beheren van grote taalmodellen (LLM's) op lokale rekenbronnen. Het maakt het laden en implementeren van geselecteerde LLM's mogelijk en biedt toegang tot deze via een API.

Let op

Als van plan bent om GPU-versnelling te gebruiken voor het werken met LLM's, installeer dan NVIDIA-stuurprogramma's en CUDA aan het begin.

Systeemvereisten:

Vereiste	Specificatie
Besturingssysteem	Linux: Ubuntu 22.04 of later
RAM	16 GB voor het uitvoeren van modellen tot 7B
Schijfruimte	12 GB voor het installeren van Ollama en basismodellen. Extra ruimte is vereist voor het opslaan van modelgegevens, afhankelijk van de gebruikte modellen
Processor	Aanbevolen om een moderne CPU te gebruiken met minimaal 4 cores. Voor het uitvoeren van modellen tot 13B wordt een CPU met minimaal 8 cores aanbevolen
Grafische verwerkingseenheid (optioneel)	Een GPU is niet vereist voor het uitvoeren van Ollama, maar kan de prestaties verbeteren, vooral bij het werken met grote modellen. Als u een GPU heeft, kunt u deze gebruiken om het trainen van aangepaste modellen te versnellen.

Opmerking

De systeemvereisten kunnen variëren afhankelijk van de specifieke LLM's en taken die u van plan bent uit te voeren.

Ollama installeren op Linux¶

Download en installeer Ollama:

curl -fsSL https://ollama.com/install.sh | sh

Voor Nvidia-GPU's, voeg Environment="OLLAMA_FLASH_ATTENTION=1" toe om de snelheid van token-generatie te verbeteren.

Ollama is toegankelijk op http://127.0.0.1:11434 of http://<uw_server_IP>:11434.

Ollama bijwerken op Linux¶

Om Ollama bij te werken, moet u het binaire pakket opnieuw downloaden en installeren:

curl -fsSL https://ollama.com/install.sh | sh

Opmerking

Als u geen toegang heeft tot Ollama, moet u mogelijk de volgende regels toevoegen aan het servicemap /etc/systemd/system/ollama.service in de sectie [Service]:

Environment="OLLAMA_HOST=0.0.0.0" 
Environment="OLLAMA_ORIGINS=*"

en de service opnieuw opstarten met de volgende opdrachten:

systemctl daemon-reload
service ollama restart

Taalmodellen LLM installeren¶

U kunt de lijst met beschikbare taalmodellen vinden op deze pagina.

Om een model te installeren, klikt u op de naam en selecteert u vervolgens de grootte en het type van het model op de volgende pagina. Kopieer het installatiecommando uit het rechtervenster en voer het uit in uw terminal/commandoregel:

ollama run llama3

Opmerking

Aanbevolen modellen zijn gemarkeerd met de latest-tag.

Let op

Om aanvaardbare prestaties te waarborgen, moet de grootte van het model minimaal twee keer kleiner zijn dan de beschikbare RAM-geheugen op de server en ⅔ van het beschikbare videogeheugen op de GPU. Bijvoorbeeld, een model van 8 GB vereist 16 GB RAM en 12 GB videogeheugen op de GPU.

Na het downloaden van het model, start de service opnieuw op:

service ollama restart

Voor meer informatie over Ollama, kunt u de ontwikkelaarsdocumentatie lezen.

Omgevingsvariabelen¶

Stel deze variabelen in de Ollama-service in als Environment="VARIABLE=VALUE".

Variabele	Beschrijving	Mogelijke waarden / formaat	Standaardwaarde
`OLLAMA_DEBUG`	Niveau van logboekdetails: INFO (standaard), DEBUG of TRACE	`0`, `1`, `false`, `true` of geheel getal ≥2 (TRACE-niveau)	`0` (INFO-niveau)
`OLLAMA_HOST`	Adres en poort waar de Ollama-server draait	`[http://\\|https://]<host>[:<port>]` (bijv. `127.0.0.1:11434`, `https://ollama.local`)	`127.0.0.1:11434`
`OLLAMA_KEEP_ALIVE`	Tijd waarin het model geladen blijft in het geheugen na de laatste aanvraag	Duurstring (`5m`, `1h`, `30s`) of geheel getal (seconden); negatief > onbeperkt	`5m`
`OLLAMA_LOAD_TIMEOUT`	Maximale wachttijd voor het laden van een model voordat time-out optreedt (om hangen te detecteren)	Duurstring of geheel getal (seconden); ≤0 > onbeperkt	`5m`
`OLLAMA_MAX_LOADED_MODELS`	Maximale aantal modellen dat gelijktijdig in het geheugen kan worden geladen	Niet-negatief geheel getal (`uint`)	`0` (automatisch beheer)
`OLLAMA_MAX_QUEUE`	Maximale lengte van de wachtrij voor aanvragen die wachten op verwerking	Niet-negatief geheel getal (`uint`)	`512`
`OLLAMA_MODELS`	Pad naar de map waar modellen worden opgeslagen	Absoluut of relatief pad	`$HOME/.ollama/models`
`OLLAMA_NOHISTORY`	Schakelt het opslaan van commandogeschiedenis uit in interactieve CLI-modus	`0`, `1`, `false`, `true`	`false`
`OLLAMA_NOPRUNE`	Voorkomt verwijdering (pruning) van ongebruikte model-BLOB-bestanden bij opstarten	`0`, `1`, `false`, `true`	`false`
`OLLAMA_NUM_PARALLEL`	Maximale aantal parallelle aanvragen naar één enkel model	Niet-negatief geheel getal (`uint`)	`1`
`OLLAMA_ORIGINS`	Lijst van toegestane CORS-herkomsten voor webaanvragen (komma-gescheiden)	Komma-gescheiden lijst van herkomsten (bijv. `https://myapp.com,http://localhost:3000`)	— (ingebouwde waarden toegevoegd)
`OLLAMA_FLASH_ATTENTION`	Schakelt experimentele flash-attention-optimalisatie in (versnelling op Apple Silicon en NVIDIA GPU)	`0`, `1`, `false`, `true`	`false`
`OLLAMA_KV_CACHE_TYPE`	Type kwantisatie voor de sleutel-waarde-cache (K/V-cache)	`f16`, `q8_0`, `q4_0`	— (`f16` als lege string)
`OLLAMA_LLM_LIBRARY`	Forceer gebruik van gespecificeerde LLM-bibliotheek in plaats van automatische detectie	`cpu`, `cpu_avx`, `cpu_avx2`, `cuda_v11`, `rocm_v5`, `rocm_v6`	— (automatische detectie)
`OLLAMA_SCHED_SPREAD`	Verdeel het laden van modellen gelijkmatig over alle beschikbare GPU's in plaats van slechts één te gebruiken	`0`, `1`, `false`, `true`	`false`
`OLLAMA_MULTIUSER_CACHE`	Optimaliseert prompt-caching in multi-gebruikersscenario's (vermindert duplicatie)	`0`, `1`, `false`, `true`	`false`
`OLLAMA_CONTEXT_LENGTH`	Standaard maximale contextlengte (in tokens), als het model dit niet anders specificeert	Positief geheel getal (`uint`)	`4096`
`OLLAMA_NEW_ENGINE`	Gebruik nieuwe experimentele engine in plaats van llama.cpp	`0`, `1`, `false`, `true`	`false`
`OLLAMA_AUTH`	Schakelt basisauthenticatie in tussen client en Ollama-server	`0`, `1`, `false`, `true`	`false`
`OLLAMA_INTEL_GPU`	Schakelt experimentele ondersteuning voor Intel GPU in	`0`, `1`, `false`, `true`	`false`
`OLLAMA_GPU_OVERHEAD`	Hoeveelheid VRAM (in bytes) gereserveerd per GPU (voor systeembehoeften)	Niet-negatief geheel getal (`uint64`, in bytes)	`0`
`OLLAMA_NEW_ESTIMATES`	Schakelt nieuw systeem voor geheugengrootte-schatting in dat vereist is om een model te laden	`0`, `1`, `false`, `true`	`0` (uitgeschakeld)