Ollama-ի տեղակայում¶

Այս հոդվածում

Ollama-ի ներածություն

Ollama-ի տեղակայումը Linux-ում

Ollama-ի թարմացումը Linux-ում

Լեզվական մոդելների (LLM) տեղակայում

Միջավայրի փոփոխականներ

Ollama-ի ներածություն¶

Ollama-ն շրջանակ է մեծ լեզվական մոդելները (LLM) տեղական հաշվողական ռեսուրսների վրա աշխատեցնելու և կառավարելու համար: Այն հնարավորություն է տալիս բեռնել և տեղակայել ընտրված LLM-ներ և ապահովում դրանց հասանելիությունը API-ի միջոցով:

Զգուշացում

Եթե պլանավորում եք օգտագործել GPU արագացում LLM-ների հետ աշխատելիս, խնդրում ենք սկզբում տեղակայել NVIDIA դրայվերները և CUDA-ն:

Համակարգի պահանջներ.

Պահանջ	Տեխնիկական բնութագիր
Օպերացիոն համակարգ	Linux: Ubuntu 22.04 կամ ավելի նոր
RAM	16 GB՝ մինչև 7B չափի մոդելները աշխատեցնելու համար
Դիսկային տարածություն	12 GB՝ Ollama-ն և հիմնական մոդելները տեղակայելու համար: Օգտագործվող մոդելներից կախված անհրաժեշտ է լրացուցիչ տարածություն մոդելների տվյալները պահպանելու համար
Պրոցեսոր	Նախընտրելի է օգտագործել ժամանակակից CPU՝ առնվազն 4 միջուկով: Մինչև 13B չափի մոդելները աշխատեցնելու համար խորհուրդ է տրվում օգտագործել առնվազն 8 միջուկով CPU
Գրաֆիկական մշակման բլոկ (ըստ ցանկության)	GPU-ն պարտադիր չէ Ollama-ն աշխատեցնելու համար, սակայն կարող է բարելավել արդյունավետությունը, հատկապես մեծ մոդելների հետ աշխատելիս: Եթե ունեք GPU, կարող եք այն օգտագործել՝ սեփական մոդելների ուսուցումը արագացնելու համար:

Նշում

Համակարգի պահանջները կարող են տարբեր լինել՝ կախված կոնկրետ LLM-ներից և ձեր կողմից կատարվելիք խնդիրներից:

Ollama-ի տեղակայումը Linux-ում¶

Բեռնեք և տեղակայեք Ollama-ն.

curl -fsSL https://ollama.com/install.sh | sh

Nvidia GPU-ների համար ավելացրեք Environment="OLLAMA_FLASH_ATTENTION=1"՝ տոկենների գեներացման արագությունը բարելավելու համար:

Ollama-ն հասանելի կլինի http://127.0.0.1:11434 կամ http://<you_server_IP>:11434 հասցեներով:

Ollama-ի թարմացումը Linux-ում¶

Ollama-ն թարմացնելու համար անհրաժեշտ կլինի նորից բեռնել և տեղակայել դրա բինար փաթեթը.

curl -fsSL https://ollama.com/install.sh | sh

Նշում

Եթե չունեք հասանելիություն Ollama-ին, հնարավոր է, որ անհրաժեշտ լինի ավելացնել հետևյալ տողերը /etc/systemd/system/ollama.service ծառայության ֆայլի [Service] բաժնում.

Environment="OLLAMA_HOST=0.0.0.0" 
Environment="OLLAMA_ORIGINS=*"

և վերագործարկել ծառայությունը հետևյալ հրամաններով.

systemctl daemon-reload
service ollama restart

Լեզվական մոդելների (LLM) տեղակայում¶

Հասանելի լեզվական մոդելների ցանկը կարող եք գտնել այս էջում:

Մոդելը տեղակայելու համար սեղմեք դրա անվան վրա, այնուհետև հաջորդ էջում ընտրեք մոդելի չափը և տեսակը: Պատճենեք տեղակայման հրամանը աջ կողմի պատուհանից և կատարեք այն ձեր տերմինալում/հրամանների տողում.

ollama run llama3

Նշում

Նախընտրելի մոդելները նշված են latest թեգով:

Զգուշացում

Քաղաքավարի արդյունավետություն ապահովելու համար մոդելի չափը պետք է լինի առնվազն երկու անգամ փոքր սերվերի վրա հասանելի RAM-ի քանակից և GPU-ի հասանելի տեսաշտկի ⅔-ից: Օրինակ՝ 8GB չափի մոդելը պահանջում է 16GB RAM և 12GB տեսաշտկ GPU-ի վրա:

Մոդելը բեռնելուց հետո վերագործարկեք ծառայությունը.

service ollama restart

Ollama-ի մասին ավելի մանրամասն տեղեկատվության համար կարող եք կարդալ զարգացնողների փաստաթղթերը:

Միջավայրի փոփոխականներ¶

Կարգավորեք այս փոփոխականները Ollama ծառայության մեջ՝ որպես Environment="VARIABLE=VALUE":

Փոփոխական	Նկարագրություն	Հնարավոր արժեքներ / ֆորմատ	Լռելյայն արժեք
`OLLAMA_DEBUG`	Գրանցման մանրամասնության մակարդակ. INFO (լռելյայն), DEBUG կամ TRACE	`0`, `1`, `false`, `true` կամ ամբողջ թիվ ≥2 (TRACE մակարդակ)	`0` (INFO մակարդակ)
`OLLAMA_HOST`	Հասցե և պորտ, որտեղ աշխատում է Ollama սերվերը	`[http://\\|https://]<host>[:<port>]` (օրինակ՝ `127.0.0.1:11434`, `https://ollama.local`)	`127.0.0.1:11434`
`OLLAMA_KEEP_ALIVE`	Ժամանակահատված, որի ընթացքում մոդելը մնում է բեռնված հիշողության մեջ վերջին հարցումից հետո	Ժամանակահատվածի շղթայակցված տող (`5m`, `1h`, `30s`) կամ ամբողջ թիվ (վայրկյաններ); բացասական > անսահմանափակ	`5m`
`OLLAMA_LOAD_TIMEOUT`	Առավելագույն սպասման ժամանակը մոդելի բեռնման համար՝ թայմ-աութից առաջ (կախվածությունները հայտնաբերելու համար)	Ժամանակահատվածի շղթայակցված տող կամ ամբողջ թիվ (վայրկյաններ); ≤0 > անսահմանափակ	`5m`
`OLLAMA_MAX_LOADED_MODELS`	Մոդելների առավելագույն քանակ, որոնք կարող են միաժամանակ բեռնվել հիշողության մեջ	Բացասական չլինող ամբողջ թիվ (`uint`)	`0` (ավտոմատ կառավարում)
`OLLAMA_MAX_QUEUE`	Հարցումների հերթի առավելագույն երկարությունը՝ սպասելով մշակմանը	Բացասական չլինող ամբողջ թիվ (`uint`)	`512`
`OLLAMA_MODELS`	Ճանապարհ դեպի այն թղթապանակը, որտեղ պահվում են մոդելները	Անհրաժեշտ կամ հարաբերական ճանապարհ	`$HOME/.ollama/models`
`OLLAMA_NOHISTORY`	Անջատում է հրամանների պատմության պահպանումը ինտերակտիվ CLI ռեժիմում	`0`, `1`, `false`, `true`	`false`
`OLLAMA_NOPRUNE`	Կանխում է անօգտագործվող մոդելի BLOB ֆայլերի ջնջումը (pruning) միացման ժամանակ	`0`, `1`, `false`, `true`	`false`
`OLLAMA_NUM_PARALLEL`	Միաժամանակյա հարցումների առավելագույն քանակը մեկ մոդելի հասցեին	Բացասական չլինող ամբողջ թիվ (`uint`)	`1`
`OLLAMA_ORIGINS`	Թույլատրված CORS-միջավայրերի ցանկը վեբ հարցումների համար (տարանջատված ստորակետներով)	Տարանջատված ստորակետներով միջավայրերի ցանկ (օրինակ՝ `https://myapp.com,http://localhost:3000`)	— (ներկառուցված արժեքներ են ավելացվում)
`OLLAMA_FLASH_ATTENTION`	Միացնում է փորձնական flash attention օպտիմիզացիան (արագացում Apple Silicon և NVIDIA GPU-ի վրա)	`0`, `1`, `false`, `true`	`false`
`OLLAMA_KV_CACHE_TYPE`	Հիշողության բանալի-արժեքի (K/V cache) քվանտացիայի տեսակը	`f16`, `q8_0`, `q4_0`	— (`f16`, եթե շղթայակցված տողը դատարկ է)
`OLLAMA_LLM_LIBRARY`	Կիրառել նշված LLM գրադարանը՝ ավտոմատ հայտնաբերման փոխարեն	`cpu`, `cpu_avx`, `cpu_avx2`, `cuda_v11`, `rocm_v5`, `rocm_v6`	— (ավտոմատ հայտնաբերում)
`OLLAMA_SCHED_SPREAD`	Հավասարաչափ բաշխել մոդելի բեռնման բեռը բոլոր հասանելի GPU-ների միջև՝ օգտագործելով միայն մեկի փոխարեն	`0`, `1`, `false`, `true`	`false`
`OLLAMA_MULTIUSER_CACHE`	Օպտիմիզացնում է պրոմպտի կեշինգը բազմաօգտատեր սցենարներում (նվազեցնում է կրկնությունը)	`0`, `1`, `false`, `true`	`false`
`OLLAMA_CONTEXT_LENGTH`	Լռելյայն առավելագույն համատեքստի երկարությունը (տոկեններով), եթե մոդելը չի նշում այլ կերպ	Դրական ամբողջ թիվ (`uint`)	`4096`
`OLLAMA_NEW_ENGINE`	Օգտագործել նոր փորձնական շարժիչը՝ llama.cpp-ի փոխարեն	`0`, `1`, `false`, `true`	`false`
`OLLAMA_AUTH`	Միացնում է հիմնական ինքնությունը հաշվարկի և Ollama սերվերի միջև	`0`, `1`, `false`, `true`	`false`
`OLLAMA_INTEL_GPU`	Միացնում է փորձնական աջակցությունը Intel GPU-ի համար	`0`, `1`, `false`, `true`	`false`
`OLLAMA_GPU_OVERHEAD`	VRAM-ի քանակը (բայթերով), որը պահպանվում է յուրաքանչյուր GPU-ի համար (համակարգի կարիքների համար)	Բացասական չլինող ամբողջ թիվ (`uint64`, բայթերով)	`0`
`OLLAMA_NEW_ESTIMATES`	Միացնում է նոր հիշողության չափի գնահատման համակարգը, որն անհրաժեշտ է մոդելը բեռնելու համար	`0`, `1`, `false`, `true`	`0` (անջատված)