Ana içeriğe geç

Ollama Kurulum

Bu makalede

Ollama Hakkında Giriş

Ollama, büyük dil modellerini (LLMs) yerel bilgisayar kaynaklarında çalıştırma ve yönetme için bir çerçevedir. Belirlenen LLM'leri yükleyip dağıtmayı sağlar ve bunlara API aracılığıyla erişim sunar.

Dikkat

Büyük dil modelleriyle çalışmak için GPU hızlandırması planlıyorsanız, kurulumun başında NVIDIA sürücülerini ve CUDA'yı yüklemeniz gerekir.

Sistem Gereksinimleri:

Gereksinim Spesifikasyon
İşletim Sistemi Linux: Ubuntu 22.04 veya sonrası
RAM Modellere kadar çalıştırmak için 16 GB
Disk Alanı Ollama ve temel modelleri yüklemek için 12 GB. Kullanılan modellere bağlı olarak model verilerini depolamak için ekstra alan gereklidir
İşlemci En az 4 çekirdekli modern bir CPU kullanmanız önerilir. 13B'ye kadar olan modelleri çalıştırmak için en az 8 çekirdekli bir CPU önerilir
Grafik İşlem Birimi (isteğe bağlı) Ollama'yı çalıştırmak için GPU gereklidir değildir, ancak büyük modellerle çalışırken performansı artırabilir. Özel modellerin eğitimini hızlandırmak için bir GPU'nuz varsa bunu kullanabilirsiniz

Not

Sistem gereksinimleri planladığınız spesifik LLM'ler ve görevlere bağlı olarak değişebilir.

Linux'ta Ollama Kurulumu

Ollama'yı indirip kurun:

curl -fsSL https://ollama.com/install.sh | sh

Nvidia GPU'lar için, jeton üretim hızını artırmak amacıyla Environment="OLLAMA_FLASH_ATTENTION=1" ekleyin.

Ollama http://127.0.0.1:11434 veya http://<you_server_IP>:11434 adresinde erişilebilir olacak.

Linux'ta Ollama Güncellemesi

Ollama'yu güncellemek için, yeniden indirip yüklemeniz gerekecek:

curl -fsSL https://ollama.com/install.sh | sh

Not

Erişiminiz yoksa Ollama ekleyebilirsiniz /etc/systemd/system/ollama.service hizmet dosyasına aşağıdaki satırları [Service] bölümüne:

Environment="OLLAMA_HOST=0.0.0.0" 
Environment="OLLAMA_ORIGINS=*"

ve hizmeti şu komutlarla yeniden başlatın:

systemctl daemon-reload
service ollama restart

Dil Modeli LLM Yüklemesi

Yerleşik dil modellerinin listesini bu sayfada bulabilirsiniz.

Bir modeli yüklemek için adını tıklayın ve ardından sonraki sayfada boyutu ve tipini seçin. Sağ tarafındaki pencereden kurulum komutunu kopyalayıp terminalinizde veya komut satırında çalıştırın:

ollama run llama3

Not

Önerilen modeller latest etiketiyle işaretlenmiştir.

Dikkat

Kabul edilebilir performans sağlamak için modelin boyutu, sunucudaki mevcut RAM miktarının en az iki katı ve GPU üzerindeki kullanılabilir video belleğinin ⅔'ü kadar olmalıdır. Örneğin, 8GB boyutunda bir model 16GB RAM ve 12GB GPU videolama gerektirir.

Modeli indirdikten sonra hizmeti yeniden başlatın:

service ollama restart

Daha fazla bilgi için geliştirici belgelerine bakabilirsiniz.

Ortam Değişkenleri

Ollama hizmetinde değişkenleri Environment="VARIABLE=VALUE" olarak ayarlayın.

Değişken Açıklama Olası değerler / format Varsayılan değer
OLLAMA_DEBUG Kayıt detay seviyesi: INFO (varsayılan), DEBUG veya TRACE 0, 1, false, true, veya ≥2 olan bir tamsayı (TRACE seviyesi) 0 (INFO seviyesi)
OLLAMA_HOST Ollama sunucusunun çalıştığı adres ve bağlantı noktası [http://\|https://]<host>[:<port>] (örneğin, 127.0.0.1:11434, https://ollama.local) 127.0.0.1:11434
OLLAMA_KEEP_ALIVE Son istekten sonra model bellekte ne kadar süre yüklenmiş kalacak Süre dizgisi (5m, 1h, 30s) veya saniye cinsinden tamsayı; negatif → sonsuz 5m
OLLAMA_LOAD_TIMEOUT Modelin yüklenmesi için maksimum bekletme süresi (donma algılamak için) Süre dizgisi veya saniye cinsinden tamsayı; ≤0 → sonsuz 5m
OLLAMA_MAX_LOADED_MODELS Bellekte aynı anda yüklenebilecek maksimum model sayısı Sıfır veya pozitif tamsayı (uint) 0 (otomatik yönetim)
OLLAMA_MAX_QUEUE İşleme bekleyen istek kuyruğunun maksimum uzunluğu Sıfır veya pozitif tamsayı (uint) 512
OLLAMA_MODELS Modellerin saklandığı dizinin yolu Mutlak veya göreli yol $HOME/.ollama/models
OLLAMA_NOHISTORY İnteraktif CLI modunda komut geçmişini kaydetmeyi devre dışı bırak 0, 1, false, true false
OLLAMA_NOPRUNE Başlangıçta kullanılmayan model BLOB dosyalarının (pruning) silinmesini önle 0, 1, false, true false
OLLAMA_NUM_PARALLEL Tek bir modele yapılacak maksimum paralel istek sayısı Sıfır veya pozitif tamsayı (uint) 1
OLLAMA_ORIGINS Web istekleri için izin verilen CORS-kökenlerinin listesi (virgülle ayrılmış) Kökenlerin virgülle ayrılmış listesi (örneğin, https://myapp.com,http://localhost:3000) — (varsayılan değerler eklendi)
OLLAMA_FLASH_ATTENTION Apple Silicon ve NVIDIA GPU'da hızlandırma için deneyimsel flash attention optimizasyonunu etkinleştir 0, 1, false, true false
OLLAMA_KV_CACHE_TYPE Anahtar-değer önbelleği (K/V önbellek) için kullanılacak kuantizasyon türü f16, q8_0, q4_0 — (f16 boş dizgeyse)
OLLAMA_LLM_LIBRARY Otomatik algılamayı zorla belirtilen LLM kütüphanesinin kullanılması cpu, cpu_avx, cpu_avx2, cuda_v11, rocm_v5, rocm_v6 — (otomatik algılama)
OLLAMA_SCHED_SPREAD Model yükleme yükünü tek bir GPU yerine tüm mevcut GPU'larda eşit olarak yayma 0, 1, false, true false
OLLAMA_MULTIUSER_CACHE Çok kullanıcılı senaryolarda istek önbellekleme optimizasyonu (çiftelemeden kaçınmak için) 0, 1, false, true false
OLLAMA_CONTEXT_LENGTH Model farklı belirtmezse varsayılan maksimum bağlam uzunluğu (token cinsinden) Pozitif tamsayı (uint) 4096
OLLAMA_NEW_ENGINE llama.cpp yerine yeni deneyimsel motorun kullanılması 0, 1, false, true false
OLLAMA_AUTH Ollama sunucusu ile istemci arasında temel kimlik doğrulamasını etkinleştir 0, 1, false, true false
OLLAMA_INTEL_GPU Intel GPU için deneyimsel desteği etkinleştir 0, 1, false, true false
OLLAMA_GPU_OVERHEAD Her bir GPU'ya (sistem ihtiyaçları için) ayırılan VRAM miktarı (bayt cinsinden) Sıfır veya pozitif tamsayı (uint64, baytlar cinsinden) 0
OLLAMA_NEW_ESTIMATES Bir modeli yüklemek için gerekli yeni bellek boyutu tahmini sistemi etkinleştir 0, 1, false, true 0 (devre dışı)

Bu sayfanın bazı içerikleri ya da yazıları AI tarafından oluşturulmuş veya çevrilmiş olabilir.