Ollama Kurulum¶
Bu makalede
Ollama Hakkında Giriş¶
Ollama, büyük dil modellerini (LLMs) yerel bilgisayar kaynaklarında çalıştırma ve yönetme için bir çerçevedir. Belirlenen LLM'leri yükleyip dağıtmayı sağlar ve bunlara API aracılığıyla erişim sunar.
Dikkat
Büyük dil modelleriyle çalışmak için GPU hızlandırması planlıyorsanız, kurulumun başında NVIDIA sürücülerini ve CUDA'yı yüklemeniz gerekir.
Sistem Gereksinimleri:
| Gereksinim | Spesifikasyon |
|---|---|
| İşletim Sistemi | Linux: Ubuntu 22.04 veya sonrası |
| RAM | Modellere kadar çalıştırmak için 16 GB |
| Disk Alanı | Ollama ve temel modelleri yüklemek için 12 GB. Kullanılan modellere bağlı olarak model verilerini depolamak için ekstra alan gereklidir |
| İşlemci | En az 4 çekirdekli modern bir CPU kullanmanız önerilir. 13B'ye kadar olan modelleri çalıştırmak için en az 8 çekirdekli bir CPU önerilir |
| Grafik İşlem Birimi (isteğe bağlı) | Ollama'yı çalıştırmak için GPU gereklidir değildir, ancak büyük modellerle çalışırken performansı artırabilir. Özel modellerin eğitimini hızlandırmak için bir GPU'nuz varsa bunu kullanabilirsiniz |
Not
Sistem gereksinimleri planladığınız spesifik LLM'ler ve görevlere bağlı olarak değişebilir.
Linux'ta Ollama Kurulumu¶
Ollama'yı indirip kurun:
Nvidia GPU'lar için, jeton üretim hızını artırmak amacıyla Environment="OLLAMA_FLASH_ATTENTION=1" ekleyin.
Ollama http://127.0.0.1:11434 veya http://<you_server_IP>:11434 adresinde erişilebilir olacak.
Linux'ta Ollama Güncellemesi¶
Ollama'yu güncellemek için, yeniden indirip yüklemeniz gerekecek:
Not
Erişiminiz yoksa Ollama ekleyebilirsiniz /etc/systemd/system/ollama.service hizmet dosyasına aşağıdaki satırları [Service] bölümüne:
ve hizmeti şu komutlarla yeniden başlatın:
Dil Modeli LLM Yüklemesi¶
Yerleşik dil modellerinin listesini bu sayfada bulabilirsiniz.
Bir modeli yüklemek için adını tıklayın ve ardından sonraki sayfada boyutu ve tipini seçin. Sağ tarafındaki pencereden kurulum komutunu kopyalayıp terminalinizde veya komut satırında çalıştırın:
Not
Önerilen modeller latest etiketiyle işaretlenmiştir.
Dikkat
Kabul edilebilir performans sağlamak için modelin boyutu, sunucudaki mevcut RAM miktarının en az iki katı ve GPU üzerindeki kullanılabilir video belleğinin ⅔'ü kadar olmalıdır. Örneğin, 8GB boyutunda bir model 16GB RAM ve 12GB GPU videolama gerektirir.
Modeli indirdikten sonra hizmeti yeniden başlatın:
Daha fazla bilgi için geliştirici belgelerine bakabilirsiniz.
Ortam Değişkenleri¶
Ollama hizmetinde değişkenleri Environment="VARIABLE=VALUE" olarak ayarlayın.
| Değişken | Açıklama | Olası değerler / format | Varsayılan değer |
|---|---|---|---|
OLLAMA_DEBUG | Kayıt detay seviyesi: INFO (varsayılan), DEBUG veya TRACE | 0, 1, false, true, veya ≥2 olan bir tamsayı (TRACE seviyesi) | 0 (INFO seviyesi) |
OLLAMA_HOST | Ollama sunucusunun çalıştığı adres ve bağlantı noktası | [http://\|https://]<host>[:<port>] (örneğin, 127.0.0.1:11434, https://ollama.local) | 127.0.0.1:11434 |
OLLAMA_KEEP_ALIVE | Son istekten sonra model bellekte ne kadar süre yüklenmiş kalacak | Süre dizgisi (5m, 1h, 30s) veya saniye cinsinden tamsayı; negatif → sonsuz | 5m |
OLLAMA_LOAD_TIMEOUT | Modelin yüklenmesi için maksimum bekletme süresi (donma algılamak için) | Süre dizgisi veya saniye cinsinden tamsayı; ≤0 → sonsuz | 5m |
OLLAMA_MAX_LOADED_MODELS | Bellekte aynı anda yüklenebilecek maksimum model sayısı | Sıfır veya pozitif tamsayı (uint) | 0 (otomatik yönetim) |
OLLAMA_MAX_QUEUE | İşleme bekleyen istek kuyruğunun maksimum uzunluğu | Sıfır veya pozitif tamsayı (uint) | 512 |
OLLAMA_MODELS | Modellerin saklandığı dizinin yolu | Mutlak veya göreli yol | $HOME/.ollama/models |
OLLAMA_NOHISTORY | İnteraktif CLI modunda komut geçmişini kaydetmeyi devre dışı bırak | 0, 1, false, true | false |
OLLAMA_NOPRUNE | Başlangıçta kullanılmayan model BLOB dosyalarının (pruning) silinmesini önle | 0, 1, false, true | false |
OLLAMA_NUM_PARALLEL | Tek bir modele yapılacak maksimum paralel istek sayısı | Sıfır veya pozitif tamsayı (uint) | 1 |
OLLAMA_ORIGINS | Web istekleri için izin verilen CORS-kökenlerinin listesi (virgülle ayrılmış) | Kökenlerin virgülle ayrılmış listesi (örneğin, https://myapp.com,http://localhost:3000) | — (varsayılan değerler eklendi) |
OLLAMA_FLASH_ATTENTION | Apple Silicon ve NVIDIA GPU'da hızlandırma için deneyimsel flash attention optimizasyonunu etkinleştir | 0, 1, false, true | false |
OLLAMA_KV_CACHE_TYPE | Anahtar-değer önbelleği (K/V önbellek) için kullanılacak kuantizasyon türü | f16, q8_0, q4_0 | — (f16 boş dizgeyse) |
OLLAMA_LLM_LIBRARY | Otomatik algılamayı zorla belirtilen LLM kütüphanesinin kullanılması | cpu, cpu_avx, cpu_avx2, cuda_v11, rocm_v5, rocm_v6 | — (otomatik algılama) |
OLLAMA_SCHED_SPREAD | Model yükleme yükünü tek bir GPU yerine tüm mevcut GPU'larda eşit olarak yayma | 0, 1, false, true | false |
OLLAMA_MULTIUSER_CACHE | Çok kullanıcılı senaryolarda istek önbellekleme optimizasyonu (çiftelemeden kaçınmak için) | 0, 1, false, true | false |
OLLAMA_CONTEXT_LENGTH | Model farklı belirtmezse varsayılan maksimum bağlam uzunluğu (token cinsinden) | Pozitif tamsayı (uint) | 4096 |
OLLAMA_NEW_ENGINE | llama.cpp yerine yeni deneyimsel motorun kullanılması | 0, 1, false, true | false |
OLLAMA_AUTH | Ollama sunucusu ile istemci arasında temel kimlik doğrulamasını etkinleştir | 0, 1, false, true | false |
OLLAMA_INTEL_GPU | Intel GPU için deneyimsel desteği etkinleştir | 0, 1, false, true | false |
OLLAMA_GPU_OVERHEAD | Her bir GPU'ya (sistem ihtiyaçları için) ayırılan VRAM miktarı (bayt cinsinden) | Sıfır veya pozitif tamsayı (uint64, baytlar cinsinden) | 0 |
OLLAMA_NEW_ESTIMATES | Bir modeli yüklemek için gerekli yeni bellek boyutu tahmini sistemi etkinleştir | 0, 1, false, true | 0 (devre dışı) |
Bu sayfanın bazı içerikleri ya da yazıları AI tarafından oluşturulmuş veya çevrilmiş olabilir.