Ollama Kurulumu¶
Bu makalede
Ollama'ya Giriş¶
Ollama, büyük dil modellerini (LLM'ler) yerel hesaplama kaynaklarında çalıştırmak ve yönetmek için kullanılan bir çerçevedir. Seçilen LLM'lerin yüklenmesini ve dağıtılmasını sağlar ve bunlara bir API aracılığıyla erişim imkanı sunar.
Dikkat
LLM'lerle çalışmak için GPU hızlandırmayı kullanmayı planlıyorsanız, lütfen başlangıçta NVIDIA sürücülerini ve CUDA'yı yükleyin.
Sistem Gereksinimleri:
| Gereksinim | Özellik |
|---|---|
| İşletim Sistemi | Linux: Ubuntu 22.04 veya üzeri |
| RAM | 7B'ye kadar modelleri çalıştırmak için 16 GB |
| Disk Alanı | Ollama ve temel modelleri kurmak için 12 GB. Kullanılan modellere bağlı olarak model verilerini depolamak için ek alan gereklidir |
| İşlemci | En az 4 çekirdeğe sahip modern bir CPU kullanılması önerilir. 13B'ye kadar modelleri çalıştırmak için en az 8 çekirdeğe sahip bir CPU önerilir |
| Grafik İşlem Birimi (isteğe bağlı) | Ollama'yı çalıştırmak için GPU gerekli değildir, ancak özellikle büyük modellerle çalışırken performansı artırabilir. GPU'nuz varsa, özel modellerin eğitimini hızlandırmak için kullanabilirsiniz. |
Not
Sistem gereksinimleri, gerçekleştirmeyi planladığınız belirli LLM'lere ve görevlere göre değişiklik gösterebilir.
Linux'ta Ollama Kurulumu¶
Ollama'yı indirin ve yükleyin:
Nvidia GPU'lar için, token oluşturma hızını artırmak üzere Environment="OLLAMA_FLASH_ATTENTION=1" ekleyin.
Ollama, http://127.0.0.1:11434 veya http://<sunucu_IP_adresiniz>:11434 adresinden erişilebilir olacaktır.
Linux'ta Ollama Güncellemesi¶
Ollama'yı güncellemek için, ikili paketini yeniden indirmeniz ve yüklemeniz gerekir:
Not
Ollama'ya erişiminiz yoksa, hizmet dosyasına /etc/systemd/system/ollama.service [Service] bölümüne aşağıdaki satırları eklemeniz gerekebilir:
ve hizmeti aşağıdaki komutlarla yeniden başlatın:
LLM Dil Modelleri Kurulumu¶
Kullanılabilir dil modellerinin listesini bu sayfada bulabilirsiniz.
Bir modeli kurmak için, adının üzerine tıklayın ve ardından bir sonraki sayfada modelin boyutunu ve türünü seçin. Sağdaki pencereden kurulum komutunu kopyalayın ve terminalinizde/komut satırında çalıştırın:
Not
Önerilen modeller latest etiketiyle işaretlenmiştir.
Dikkat
Kabul edilebilir performansı sağlamak için, modelin boyutu sunucuda bulunan RAM miktarının en az iki katı küçük olmalı ve GPU'daki kullanılabilir video belleğinin ⅔'ü kadar olmalıdır. Örneğin, 8GB boyutundaki bir model, 16GB RAM ve GPU'da 12GB video belleği gerektirir.
Modeli indirdikten sonra hizmeti yeniden başlatın:
Ollama hakkında daha fazla bilgi için geliştirici dokümantasyonunu okuyabilirsiniz.
Ortam Değişkenleri¶
Bu değişkenleri Ollama hizmetinde Environment="DEĞİŞKEN=DEĞER" olarak ayarlayın.
| Değişken | Açıklama | Olası değerler / format | Varsayılan değer |
|---|---|---|---|
OLLAMA_DEBUG | Günlük kaydı ayrıntı düzeyi: INFO (varsayılan), DEBUG veya TRACE | 0, 1, false, true veya 2'den büyük veya eşit tam sayı (TRACE düzeyi) | 0 (INFO düzeyi) |
OLLAMA_HOST | Ollama sunucusunun çalıştığı adres ve bağlantı noktası | [http://\|https://]<host>[:<port>] (örneğin, 127.0.0.1:11434, https://ollama.local) | 127.0.0.1:11434 |
OLLAMA_KEEP_ALIVE | Son istekten sonra modelin bellekte yüklü kalma süresi | Süre değeri (5m, 1h, 30s) veya tam sayı (saniye); negatif > sonsuza kadar | 5m |
OLLAMA_LOAD_TIMEOUT | Zaman aşımı oluşmadan önce bir modelin yüklenmesi için maksimum bekleme süresi (takılmaları tespit etmek için) | Süre değeri veya tam sayı (saniye); ≤0 > sonsuza kadar | 5m |
OLLAMA_MAX_LOADED_MODELS | Belleğe aynı anda yüklenebilecek maksimum model sayısı | Negatif olmayan tam sayı (uint) | 0 (otomatik yönetim) |
OLLAMA_MAX_QUEUE | İşlenmeyi bekleyen istek kuyruğunun maksimum uzunluğu | Negatif olmayan tam sayı (uint) | 512 |
OLLAMA_MODELS | Modellerin depolandığı dizinin yolu | Mutlak veya göreli yol | $HOME/.ollama/models |
OLLAMA_NOHISTORY | Etkileşimli CLI modunda komut geçmişinin kaydedilmesini devre dışı bırakır | 0, 1, false, true | false |
OLLAMA_NOPRUNE | Kullanılmayan model BLOB dosyalarının başlangıçta silinmesini (budamasını) önler | 0, 1, false, true | false |
OLLAMA_NUM_PARALLEL | Tek bir modele yapılan paralel isteklerin maksimum sayısı | Negatif olmayan tam sayı (uint) | 1 |
OLLAMA_ORIGINS | Web istekleri için izin verilen CORS kaynaklarının listesi (virgülle ayrılmış) | Virgülle ayrılmış kaynaklar listesi (örneğin, https://myapp.com,http://localhost:3000) | — (dahili değerler eklendi) |
OLLAMA_FLASH_ATTENTION | Deneysel flash dikkat optimizasyonunu etkinleştirir (Apple Silicon ve NVIDIA GPU'da hızlandırma) | 0, 1, false, true | false |
OLLAMA_KV_CACHE_TYPE | K/V önbelleği için nicelleme türü | f16, q8_0, q4_0 | — (boş dizgi ise f16) |
OLLAMA_LLM_LIBRARY | Otomatik algılama yerine belirtilen LLM kütüphanesinin kullanımını zorlar | cpu, cpu_avx, cpu_avx2, cuda_v11, rocm_v5, rocm_v6 | — (otomatik algılama) |
OLLAMA_SCHED_SPREAD | Model yükleme yükünü yalnızca birini kullanmak yerine tüm kullanılabilir GPU'lar arasında eşit şekilde dağıtır | 0, 1, false, true | false |
OLLAMA_MULTIUSER_CACHE | Çoklu kullanıcı senaryolarında istem önbellekleme işlemini optimize eder (tekrarlamayı azaltır) | 0, 1, false, true | false |
OLLAMA_CONTEXT_LENGTH | Model aksi belirtilmedikçe, varsayılan maksimum bağlam uzunluğu (token cinsinden) | Pozitif tam sayı (uint) | 4096 |
OLLAMA_NEW_ENGINE | llama.cpp yerine yeni deneysel motoru kullan | 0, 1, false, true | false |
OLLAMA_AUTH | İstemci ve Ollama sunucusu arasında temel kimlik doğrulamayı etkinleştirir | 0, 1, false, true | false |
OLLAMA_INTEL_GPU | Intel GPU için deneysel desteği etkinleştirir | 0, 1, false, true | false |
OLLAMA_GPU_OVERHEAD | Her GPU için ayrılan VRAM miktarı (bayt cinsinden) (sistem ihtiyaçları için) | Negatif olmayan tam sayı (uint64, bayt cinsinden) | 0 |
OLLAMA_NEW_ESTIMATES | Bir modeli yüklemek için gereken yeni bellek boyutu tahmin sistemini etkinleştirir | 0, 1, false, true | 0 (devre dışı) |