Ollama-ի տեղակայում¶
Այս հոդվածում
Ollama-ի ներածություն¶
Ollama-ն շրջանակ է մեծ լեզվական մոդելները (LLM) տեղական հաշվողական ռեսուրսների վրա աշխատեցնելու և կառավարելու համար: Այն հնարավորություն է տալիս բեռնել և տեղակայել ընտրված LLM-ներ և ապահովում դրանց հասանելիությունը API-ի միջոցով:
Զգուշացում
Եթե պլանավորում եք օգտագործել GPU արագացում LLM-ների հետ աշխատելիս, խնդրում ենք սկզբում տեղակայել NVIDIA դրայվերները և CUDA-ն:
Համակարգի պահանջներ.
| Պահանջ | Տեխնիկական բնութագիր |
|---|---|
| Օպերացիոն համակարգ | Linux: Ubuntu 22.04 կամ ավելի նոր |
| RAM | 16 GB՝ մինչև 7B չափի մոդելները աշխատեցնելու համար |
| Դիսկային տարածություն | 12 GB՝ Ollama-ն և հիմնական մոդելները տեղակայելու համար: Օգտագործվող մոդելներից կախված անհրաժեշտ է լրացուցիչ տարածություն մոդելների տվյալները պահպանելու համար |
| Պրոցեսոր | Նախընտրելի է օգտագործել ժամանակակից CPU՝ առնվազն 4 միջուկով: Մինչև 13B չափի մոդելները աշխատեցնելու համար խորհուրդ է տրվում օգտագործել առնվազն 8 միջուկով CPU |
| Գրաֆիկական մշակման բլոկ (ըստ ցանկության) | GPU-ն պարտադիր չէ Ollama-ն աշխատեցնելու համար, սակայն կարող է բարելավել արդյունավետությունը, հատկապես մեծ մոդելների հետ աշխատելիս: Եթե ունեք GPU, կարող եք այն օգտագործել՝ սեփական մոդելների ուսուցումը արագացնելու համար: |
Նշում
Համակարգի պահանջները կարող են տարբեր լինել՝ կախված կոնկրետ LLM-ներից և ձեր կողմից կատարվելիք խնդիրներից:
Ollama-ի տեղակայումը Linux-ում¶
Բեռնեք և տեղակայեք Ollama-ն.
Nvidia GPU-ների համար ավելացրեք Environment="OLLAMA_FLASH_ATTENTION=1"՝ տոկենների գեներացման արագությունը բարելավելու համար:
Ollama-ն հասանելի կլինի http://127.0.0.1:11434 կամ http://<you_server_IP>:11434 հասցեներով:
Ollama-ի թարմացումը Linux-ում¶
Ollama-ն թարմացնելու համար անհրաժեշտ կլինի նորից բեռնել և տեղակայել դրա բինար փաթեթը.
Նշում
Եթե չունեք հասանելիություն Ollama-ին, հնարավոր է, որ անհրաժեշտ լինի ավելացնել հետևյալ տողերը /etc/systemd/system/ollama.service ծառայության ֆայլի [Service] բաժնում.
և վերագործարկել ծառայությունը հետևյալ հրամաններով.
Լեզվական մոդելների (LLM) տեղակայում¶
Հասանելի լեզվական մոդելների ցանկը կարող եք գտնել այս էջում:
Մոդելը տեղակայելու համար սեղմեք դրա անվան վրա, այնուհետև հաջորդ էջում ընտրեք մոդելի չափը և տեսակը: Պատճենեք տեղակայման հրամանը աջ կողմի պատուհանից և կատարեք այն ձեր տերմինալում/հրամանների տողում.
Նշում
Նախընտրելի մոդելները նշված են latest թեգով:
Զգուշացում
Քաղաքավարի արդյունավետություն ապահովելու համար մոդելի չափը պետք է լինի առնվազն երկու անգամ փոքր սերվերի վրա հասանելի RAM-ի քանակից և GPU-ի հասանելի տեսաշտկի ⅔-ից: Օրինակ՝ 8GB չափի մոդելը պահանջում է 16GB RAM և 12GB տեսաշտկ GPU-ի վրա:
Մոդելը բեռնելուց հետո վերագործարկեք ծառայությունը.
Ollama-ի մասին ավելի մանրամասն տեղեկատվության համար կարող եք կարդալ զարգացնողների փաստաթղթերը:
Միջավայրի փոփոխականներ¶
Կարգավորեք այս փոփոխականները Ollama ծառայության մեջ՝ որպես Environment="VARIABLE=VALUE":
| Փոփոխական | Նկարագրություն | Հնարավոր արժեքներ / ֆորմատ | Լռելյայն արժեք |
|---|---|---|---|
OLLAMA_DEBUG | Գրանցման մանրամասնության մակարդակ. INFO (լռելյայն), DEBUG կամ TRACE | 0, 1, false, true կամ ամբողջ թիվ ≥2 (TRACE մակարդակ) | 0 (INFO մակարդակ) |
OLLAMA_HOST | Հասցե և պորտ, որտեղ աշխատում է Ollama սերվերը | [http://\|https://]<host>[:<port>] (օրինակ՝ 127.0.0.1:11434, https://ollama.local) | 127.0.0.1:11434 |
OLLAMA_KEEP_ALIVE | Ժամանակահատված, որի ընթացքում մոդելը մնում է բեռնված հիշողության մեջ վերջին հարցումից հետո | Ժամանակահատվածի շղթայակցված տող (5m, 1h, 30s) կամ ամբողջ թիվ (վայրկյաններ); բացասական > անսահմանափակ | 5m |
OLLAMA_LOAD_TIMEOUT | Առավելագույն սպասման ժամանակը մոդելի բեռնման համար՝ թայմ-աութից առաջ (կախվածությունները հայտնաբերելու համար) | Ժամանակահատվածի շղթայակցված տող կամ ամբողջ թիվ (վայրկյաններ); ≤0 > անսահմանափակ | 5m |
OLLAMA_MAX_LOADED_MODELS | Մոդելների առավելագույն քանակ, որոնք կարող են միաժամանակ բեռնվել հիշողության մեջ | Բացասական չլինող ամբողջ թիվ (uint) | 0 (ավտոմատ կառավարում) |
OLLAMA_MAX_QUEUE | Հարցումների հերթի առավելագույն երկարությունը՝ սպասելով մշակմանը | Բացասական չլինող ամբողջ թիվ (uint) | 512 |
OLLAMA_MODELS | Ճանապարհ դեպի այն թղթապանակը, որտեղ պահվում են մոդելները | Անհրաժեշտ կամ հարաբերական ճանապարհ | $HOME/.ollama/models |
OLLAMA_NOHISTORY | Անջատում է հրամանների պատմության պահպանումը ինտերակտիվ CLI ռեժիմում | 0, 1, false, true | false |
OLLAMA_NOPRUNE | Կանխում է անօգտագործվող մոդելի BLOB ֆայլերի ջնջումը (pruning) միացման ժամանակ | 0, 1, false, true | false |
OLLAMA_NUM_PARALLEL | Միաժամանակյա հարցումների առավելագույն քանակը մեկ մոդելի հասցեին | Բացասական չլինող ամբողջ թիվ (uint) | 1 |
OLLAMA_ORIGINS | Թույլատրված CORS-միջավայրերի ցանկը վեբ հարցումների համար (տարանջատված ստորակետներով) | Տարանջատված ստորակետներով միջավայրերի ցանկ (օրինակ՝ https://myapp.com,http://localhost:3000) | — (ներկառուցված արժեքներ են ավելացվում) |
OLLAMA_FLASH_ATTENTION | Միացնում է փորձնական flash attention օպտիմիզացիան (արագացում Apple Silicon և NVIDIA GPU-ի վրա) | 0, 1, false, true | false |
OLLAMA_KV_CACHE_TYPE | Հիշողության բանալի-արժեքի (K/V cache) քվանտացիայի տեսակը | f16, q8_0, q4_0 | — (f16, եթե շղթայակցված տողը դատարկ է) |
OLLAMA_LLM_LIBRARY | Կիրառել նշված LLM գրադարանը՝ ավտոմատ հայտնաբերման փոխարեն | cpu, cpu_avx, cpu_avx2, cuda_v11, rocm_v5, rocm_v6 | — (ավտոմատ հայտնաբերում) |
OLLAMA_SCHED_SPREAD | Հավասարաչափ բաշխել մոդելի բեռնման բեռը բոլոր հասանելի GPU-ների միջև՝ օգտագործելով միայն մեկի փոխարեն | 0, 1, false, true | false |
OLLAMA_MULTIUSER_CACHE | Օպտիմիզացնում է պրոմպտի կեշինգը բազմաօգտատեր սցենարներում (նվազեցնում է կրկնությունը) | 0, 1, false, true | false |
OLLAMA_CONTEXT_LENGTH | Լռելյայն առավելագույն համատեքստի երկարությունը (տոկեններով), եթե մոդելը չի նշում այլ կերպ | Դրական ամբողջ թիվ (uint) | 4096 |
OLLAMA_NEW_ENGINE | Օգտագործել նոր փորձնական շարժիչը՝ llama.cpp-ի փոխարեն | 0, 1, false, true | false |
OLLAMA_AUTH | Միացնում է հիմնական ինքնությունը հաշվարկի և Ollama սերվերի միջև | 0, 1, false, true | false |
OLLAMA_INTEL_GPU | Միացնում է փորձնական աջակցությունը Intel GPU-ի համար | 0, 1, false, true | false |
OLLAMA_GPU_OVERHEAD | VRAM-ի քանակը (բայթերով), որը պահպանվում է յուրաքանչյուր GPU-ի համար (համակարգի կարիքների համար) | Բացասական չլինող ամբողջ թիվ (uint64, բայթերով) | 0 |
OLLAMA_NEW_ESTIMATES | Միացնում է նոր հիշողության չափի գնահատման համակարգը, որն անհրաժեշտ է մոդելը բեռնելու համար | 0, 1, false, true | 0 (անջատված) |