Ollama-installatie¶
In dit artikel
Inleiding tot Ollama¶
Ollama is een framework voor het uitvoeren en beheren van grote taalmodellen (LLM's) op lokale rekenbronnen. Het maakt het laden en implementeren van geselecteerde LLM's mogelijk en biedt toegang tot deze via een API.
Let op
Als van plan bent om GPU-versnelling te gebruiken voor het werken met LLM's, installeer dan NVIDIA-stuurprogramma's en CUDA aan het begin.
Systeemvereisten:
| Vereiste | Specificatie |
|---|---|
| Besturingssysteem | Linux: Ubuntu 22.04 of later |
| RAM | 16 GB voor het uitvoeren van modellen tot 7B |
| Schijfruimte | 12 GB voor het installeren van Ollama en basismodellen. Extra ruimte is vereist voor het opslaan van modelgegevens, afhankelijk van de gebruikte modellen |
| Processor | Aanbevolen om een moderne CPU te gebruiken met minimaal 4 cores. Voor het uitvoeren van modellen tot 13B wordt een CPU met minimaal 8 cores aanbevolen |
| Grafische verwerkingseenheid (optioneel) | Een GPU is niet vereist voor het uitvoeren van Ollama, maar kan de prestaties verbeteren, vooral bij het werken met grote modellen. Als u een GPU heeft, kunt u deze gebruiken om het trainen van aangepaste modellen te versnellen. |
Opmerking
De systeemvereisten kunnen variëren afhankelijk van de specifieke LLM's en taken die u van plan bent uit te voeren.
Ollama installeren op Linux¶
Download en installeer Ollama:
Voor Nvidia-GPU's, voeg Environment="OLLAMA_FLASH_ATTENTION=1" toe om de snelheid van token-generatie te verbeteren.
Ollama is toegankelijk op http://127.0.0.1:11434 of http://<uw_server_IP>:11434.
Ollama bijwerken op Linux¶
Om Ollama bij te werken, moet u het binaire pakket opnieuw downloaden en installeren:
Opmerking
Als u geen toegang heeft tot Ollama, moet u mogelijk de volgende regels toevoegen aan het servicemap /etc/systemd/system/ollama.service in de sectie [Service]:
en de service opnieuw opstarten met de volgende opdrachten:
Taalmodellen LLM installeren¶
U kunt de lijst met beschikbare taalmodellen vinden op deze pagina.
Om een model te installeren, klikt u op de naam en selecteert u vervolgens de grootte en het type van het model op de volgende pagina. Kopieer het installatiecommando uit het rechtervenster en voer het uit in uw terminal/commandoregel:
Opmerking
Aanbevolen modellen zijn gemarkeerd met de latest-tag.
Let op
Om aanvaardbare prestaties te waarborgen, moet de grootte van het model minimaal twee keer kleiner zijn dan de beschikbare RAM-geheugen op de server en ⅔ van het beschikbare videogeheugen op de GPU. Bijvoorbeeld, een model van 8 GB vereist 16 GB RAM en 12 GB videogeheugen op de GPU.
Na het downloaden van het model, start de service opnieuw op:
Voor meer informatie over Ollama, kunt u de ontwikkelaarsdocumentatie lezen.
Omgevingsvariabelen¶
Stel deze variabelen in de Ollama-service in als Environment="VARIABLE=VALUE".
| Variabele | Beschrijving | Mogelijke waarden / formaat | Standaardwaarde |
|---|---|---|---|
OLLAMA_DEBUG | Niveau van logboekdetails: INFO (standaard), DEBUG of TRACE | 0, 1, false, true of geheel getal ≥2 (TRACE-niveau) | 0 (INFO-niveau) |
OLLAMA_HOST | Adres en poort waar de Ollama-server draait | [http://\|https://]<host>[:<port>] (bijv. 127.0.0.1:11434, https://ollama.local) | 127.0.0.1:11434 |
OLLAMA_KEEP_ALIVE | Tijd waarin het model geladen blijft in het geheugen na de laatste aanvraag | Duurstring (5m, 1h, 30s) of geheel getal (seconden); negatief > onbeperkt | 5m |
OLLAMA_LOAD_TIMEOUT | Maximale wachttijd voor het laden van een model voordat time-out optreedt (om hangen te detecteren) | Duurstring of geheel getal (seconden); ≤0 > onbeperkt | 5m |
OLLAMA_MAX_LOADED_MODELS | Maximale aantal modellen dat gelijktijdig in het geheugen kan worden geladen | Niet-negatief geheel getal (uint) | 0 (automatisch beheer) |
OLLAMA_MAX_QUEUE | Maximale lengte van de wachtrij voor aanvragen die wachten op verwerking | Niet-negatief geheel getal (uint) | 512 |
OLLAMA_MODELS | Pad naar de map waar modellen worden opgeslagen | Absoluut of relatief pad | $HOME/.ollama/models |
OLLAMA_NOHISTORY | Schakelt het opslaan van commandogeschiedenis uit in interactieve CLI-modus | 0, 1, false, true | false |
OLLAMA_NOPRUNE | Voorkomt verwijdering (pruning) van ongebruikte model-BLOB-bestanden bij opstarten | 0, 1, false, true | false |
OLLAMA_NUM_PARALLEL | Maximale aantal parallelle aanvragen naar één enkel model | Niet-negatief geheel getal (uint) | 1 |
OLLAMA_ORIGINS | Lijst van toegestane CORS-herkomsten voor webaanvragen (komma-gescheiden) | Komma-gescheiden lijst van herkomsten (bijv. https://myapp.com,http://localhost:3000) | — (ingebouwde waarden toegevoegd) |
OLLAMA_FLASH_ATTENTION | Schakelt experimentele flash-attention-optimalisatie in (versnelling op Apple Silicon en NVIDIA GPU) | 0, 1, false, true | false |
OLLAMA_KV_CACHE_TYPE | Type kwantisatie voor de sleutel-waarde-cache (K/V-cache) | f16, q8_0, q4_0 | — (f16 als lege string) |
OLLAMA_LLM_LIBRARY | Forceer gebruik van gespecificeerde LLM-bibliotheek in plaats van automatische detectie | cpu, cpu_avx, cpu_avx2, cuda_v11, rocm_v5, rocm_v6 | — (automatische detectie) |
OLLAMA_SCHED_SPREAD | Verdeel het laden van modellen gelijkmatig over alle beschikbare GPU's in plaats van slechts één te gebruiken | 0, 1, false, true | false |
OLLAMA_MULTIUSER_CACHE | Optimaliseert prompt-caching in multi-gebruikersscenario's (vermindert duplicatie) | 0, 1, false, true | false |
OLLAMA_CONTEXT_LENGTH | Standaard maximale contextlengte (in tokens), als het model dit niet anders specificeert | Positief geheel getal (uint) | 4096 |
OLLAMA_NEW_ENGINE | Gebruik nieuwe experimentele engine in plaats van llama.cpp | 0, 1, false, true | false |
OLLAMA_AUTH | Schakelt basisauthenticatie in tussen client en Ollama-server | 0, 1, false, true | false |
OLLAMA_INTEL_GPU | Schakelt experimentele ondersteuning voor Intel GPU in | 0, 1, false, true | false |
OLLAMA_GPU_OVERHEAD | Hoeveelheid VRAM (in bytes) gereserveerd per GPU (voor systeembehoeften) | Niet-negatief geheel getal (uint64, in bytes) | 0 |
OLLAMA_NEW_ESTIMATES | Schakelt nieuw systeem voor geheugengrootte-schatting in dat vereist is om een model te laden | 0, 1, false, true | 0 (uitgeschakeld) |