Անցնել պարունակությանը

Ollama-ի տեղակայում

Այս հոդվածում

Ollama-ի ներածություն

Ollama-ն շրջանակ է մեծ լեզվական մոդելները (LLM) տեղական հաշվողական ռեսուրսների վրա աշխատեցնելու և կառավարելու համար: Այն հնարավորություն է տալիս բեռնել և տեղակայել ընտրված LLM-ներ և ապահովում դրանց հասանելիությունը API-ի միջոցով:

Զգուշացում

Եթե պլանավորում եք օգտագործել GPU արագացում LLM-ների հետ աշխատելիս, խնդրում ենք սկզբում տեղակայել NVIDIA դրայվերները և CUDA-ն:

Համակարգի պահանջներ.

Պահանջ Տեխնիկական բնութագիր
Օպերացիոն համակարգ Linux: Ubuntu 22.04 կամ ավելի նոր
RAM 16 GB՝ մինչև 7B չափի մոդելները աշխատեցնելու համար
Դիսկային տարածություն 12 GB՝ Ollama-ն և հիմնական մոդելները տեղակայելու համար: Օգտագործվող մոդելներից կախված անհրաժեշտ է լրացուցիչ տարածություն մոդելների տվյալները պահպանելու համար
Պրոցեսոր Նախընտրելի է օգտագործել ժամանակակից CPU՝ առնվազն 4 միջուկով: Մինչև 13B չափի մոդելները աշխատեցնելու համար խորհուրդ է տրվում օգտագործել առնվազն 8 միջուկով CPU
Գրաֆիկական մշակման բլոկ (ըստ ցանկության) GPU-ն պարտադիր չէ Ollama-ն աշխատեցնելու համար, սակայն կարող է բարելավել արդյունավետությունը, հատկապես մեծ մոդելների հետ աշխատելիս: Եթե ունեք GPU, կարող եք այն օգտագործել՝ սեփական մոդելների ուսուցումը արագացնելու համար:

Նշում

Համակարգի պահանջները կարող են տարբեր լինել՝ կախված կոնկրետ LLM-ներից և ձեր կողմից կատարվելիք խնդիրներից:

Ollama-ի տեղակայումը Linux-ում

Բեռնեք և տեղակայեք Ollama-ն.

curl -fsSL https://ollama.com/install.sh | sh

Nvidia GPU-ների համար ավելացրեք Environment="OLLAMA_FLASH_ATTENTION=1"՝ տոկենների գեներացման արագությունը բարելավելու համար:

Ollama-ն հասանելի կլինի http://127.0.0.1:11434 կամ http://<you_server_IP>:11434 հասցեներով:

Ollama-ի թարմացումը Linux-ում

Ollama-ն թարմացնելու համար անհրաժեշտ կլինի նորից բեռնել և տեղակայել դրա բինար փաթեթը.

curl -fsSL https://ollama.com/install.sh | sh

Նշում

Եթե չունեք հասանելիություն Ollama-ին, հնարավոր է, որ անհրաժեշտ լինի ավելացնել հետևյալ տողերը /etc/systemd/system/ollama.service ծառայության ֆայլի [Service] բաժնում.

Environment="OLLAMA_HOST=0.0.0.0" 
Environment="OLLAMA_ORIGINS=*"

և վերագործարկել ծառայությունը հետևյալ հրամաններով.

systemctl daemon-reload
service ollama restart

Լեզվական մոդելների (LLM) տեղակայում

Հասանելի լեզվական մոդելների ցանկը կարող եք գտնել այս էջում:

Մոդելը տեղակայելու համար սեղմեք դրա անվան վրա, այնուհետև հաջորդ էջում ընտրեք մոդելի չափը և տեսակը: Պատճենեք տեղակայման հրամանը աջ կողմի պատուհանից և կատարեք այն ձեր տերմինալում/հրամանների տողում.

ollama run llama3

Նշում

Նախընտրելի մոդելները նշված են latest թեգով:

Զգուշացում

Քաղաքավարի արդյունավետություն ապահովելու համար մոդելի չափը պետք է լինի առնվազն երկու անգամ փոքր սերվերի վրա հասանելի RAM-ի քանակից և GPU-ի հասանելի տեսաշտկի ⅔-ից: Օրինակ՝ 8GB չափի մոդելը պահանջում է 16GB RAM և 12GB տեսաշտկ GPU-ի վրա:

Մոդելը բեռնելուց հետո վերագործարկեք ծառայությունը.

service ollama restart

Ollama-ի մասին ավելի մանրամասն տեղեկատվության համար կարող եք կարդալ զարգացնողների փաստաթղթերը:

Միջավայրի փոփոխականներ

Կարգավորեք այս փոփոխականները Ollama ծառայության մեջ՝ որպես Environment="VARIABLE=VALUE":

Փոփոխական Նկարագրություն Հնարավոր արժեքներ / ֆորմատ Լռելյայն արժեք
OLLAMA_DEBUG Գրանցման մանրամասնության մակարդակ. INFO (լռելյայն), DEBUG կամ TRACE 0, 1, false, true կամ ամբողջ թիվ ≥2 (TRACE մակարդակ) 0 (INFO մակարդակ)
OLLAMA_HOST Հասցե և պորտ, որտեղ աշխատում է Ollama սերվերը [http://\|https://]<host>[:<port>] (օրինակ՝ 127.0.0.1:11434, https://ollama.local) 127.0.0.1:11434
OLLAMA_KEEP_ALIVE Ժամանակահատված, որի ընթացքում մոդելը մնում է բեռնված հիշողության մեջ վերջին հարցումից հետո Ժամանակահատվածի շղթայակցված տող (5m, 1h, 30s) կամ ամբողջ թիվ (վայրկյաններ); բացասական > անսահմանափակ 5m
OLLAMA_LOAD_TIMEOUT Առավելագույն սպասման ժամանակը մոդելի բեռնման համար՝ թայմ-աութից առաջ (կախվածությունները հայտնաբերելու համար) Ժամանակահատվածի շղթայակցված տող կամ ամբողջ թիվ (վայրկյաններ); ≤0 > անսահմանափակ 5m
OLLAMA_MAX_LOADED_MODELS Մոդելների առավելագույն քանակ, որոնք կարող են միաժամանակ բեռնվել հիշողության մեջ Բացասական չլինող ամբողջ թիվ (uint) 0 (ավտոմատ կառավարում)
OLLAMA_MAX_QUEUE Հարցումների հերթի առավելագույն երկարությունը՝ սպասելով մշակմանը Բացասական չլինող ամբողջ թիվ (uint) 512
OLLAMA_MODELS Ճանապարհ դեպի այն թղթապանակը, որտեղ պահվում են մոդելները Անհրաժեշտ կամ հարաբերական ճանապարհ $HOME/.ollama/models
OLLAMA_NOHISTORY Անջատում է հրամանների պատմության պահպանումը ինտերակտիվ CLI ռեժիմում 0, 1, false, true false
OLLAMA_NOPRUNE Կանխում է անօգտագործվող մոդելի BLOB ֆայլերի ջնջումը (pruning) միացման ժամանակ 0, 1, false, true false
OLLAMA_NUM_PARALLEL Միաժամանակյա հարցումների առավելագույն քանակը մեկ մոդելի հասցեին Բացասական չլինող ամբողջ թիվ (uint) 1
OLLAMA_ORIGINS Թույլատրված CORS-միջավայրերի ցանկը վեբ հարցումների համար (տարանջատված ստորակետներով) Տարանջատված ստորակետներով միջավայրերի ցանկ (օրինակ՝ https://myapp.com,http://localhost:3000) — (ներկառուցված արժեքներ են ավելացվում)
OLLAMA_FLASH_ATTENTION Միացնում է փորձնական flash attention օպտիմիզացիան (արագացում Apple Silicon և NVIDIA GPU-ի վրա) 0, 1, false, true false
OLLAMA_KV_CACHE_TYPE Հիշողության բանալի-արժեքի (K/V cache) քվանտացիայի տեսակը f16, q8_0, q4_0 — (f16, եթե շղթայակցված տողը դատարկ է)
OLLAMA_LLM_LIBRARY Կիրառել նշված LLM գրադարանը՝ ավտոմատ հայտնաբերման փոխարեն cpu, cpu_avx, cpu_avx2, cuda_v11, rocm_v5, rocm_v6 — (ավտոմատ հայտնաբերում)
OLLAMA_SCHED_SPREAD Հավասարաչափ բաշխել մոդելի բեռնման բեռը բոլոր հասանելի GPU-ների միջև՝ օգտագործելով միայն մեկի փոխարեն 0, 1, false, true false
OLLAMA_MULTIUSER_CACHE Օպտիմիզացնում է պրոմպտի կեշինգը բազմաօգտատեր սցենարներում (նվազեցնում է կրկնությունը) 0, 1, false, true false
OLLAMA_CONTEXT_LENGTH Լռելյայն առավելագույն համատեքստի երկարությունը (տոկեններով), եթե մոդելը չի նշում այլ կերպ Դրական ամբողջ թիվ (uint) 4096
OLLAMA_NEW_ENGINE Օգտագործել նոր փորձնական շարժիչը՝ llama.cpp-ի փոխարեն 0, 1, false, true false
OLLAMA_AUTH Միացնում է հիմնական ինքնությունը հաշվարկի և Ollama սերվերի միջև 0, 1, false, true false
OLLAMA_INTEL_GPU Միացնում է փորձնական աջակցությունը Intel GPU-ի համար 0, 1, false, true false
OLLAMA_GPU_OVERHEAD VRAM-ի քանակը (բայթերով), որը պահպանվում է յուրաքանչյուր GPU-ի համար (համակարգի կարիքների համար) Բացասական չլինող ամբողջ թիվ (uint64, բայթերով) 0
OLLAMA_NEW_ESTIMATES Միացնում է նոր հիշողության չափի գնահատման համակարգը, որն անհրաժեշտ է մոդելը բեռնելու համար 0, 1, false, true 0 (անջատված)
question_mark
Is there anything I can help you with?
question_mark
AI Assistant ×