Ana içeriğe geç

Ollama Kurulumu

Bu makalede

Ollama'ya Giriş

Ollama, büyük dil modellerini (LLM'ler) yerel hesaplama kaynaklarında çalıştırmak ve yönetmek için kullanılan bir çerçevedir. Seçilen LLM'lerin yüklenmesini ve dağıtılmasını sağlar ve bunlara bir API aracılığıyla erişim imkanı sunar.

Dikkat

LLM'lerle çalışmak için GPU hızlandırmayı kullanmayı planlıyorsanız, lütfen başlangıçta NVIDIA sürücülerini ve CUDA'yı yükleyin.

Sistem Gereksinimleri:

Gereksinim Özellik
İşletim Sistemi Linux: Ubuntu 22.04 veya üzeri
RAM 7B'ye kadar modelleri çalıştırmak için 16 GB
Disk Alanı Ollama ve temel modelleri kurmak için 12 GB. Kullanılan modellere bağlı olarak model verilerini depolamak için ek alan gereklidir
İşlemci En az 4 çekirdeğe sahip modern bir CPU kullanılması önerilir. 13B'ye kadar modelleri çalıştırmak için en az 8 çekirdeğe sahip bir CPU önerilir
Grafik İşlem Birimi (isteğe bağlı) Ollama'yı çalıştırmak için GPU gerekli değildir, ancak özellikle büyük modellerle çalışırken performansı artırabilir. GPU'nuz varsa, özel modellerin eğitimini hızlandırmak için kullanabilirsiniz.

Not

Sistem gereksinimleri, gerçekleştirmeyi planladığınız belirli LLM'lere ve görevlere göre değişiklik gösterebilir.

Linux'ta Ollama Kurulumu

Ollama'yı indirin ve yükleyin:

curl -fsSL https://ollama.com/install.sh | sh

Nvidia GPU'lar için, token oluşturma hızını artırmak üzere Environment="OLLAMA_FLASH_ATTENTION=1" ekleyin.

Ollama, http://127.0.0.1:11434 veya http://<sunucu_IP_adresiniz>:11434 adresinden erişilebilir olacaktır.

Linux'ta Ollama Güncellemesi

Ollama'yı güncellemek için, ikili paketini yeniden indirmeniz ve yüklemeniz gerekir:

curl -fsSL https://ollama.com/install.sh | sh

Not

Ollama'ya erişiminiz yoksa, hizmet dosyasına /etc/systemd/system/ollama.service [Service] bölümüne aşağıdaki satırları eklemeniz gerekebilir:

Environment="OLLAMA_HOST=0.0.0.0" 
Environment="OLLAMA_ORIGINS=*"

ve hizmeti aşağıdaki komutlarla yeniden başlatın:

systemctl daemon-reload
service ollama restart

LLM Dil Modelleri Kurulumu

Kullanılabilir dil modellerinin listesini bu sayfada bulabilirsiniz.

Bir modeli kurmak için, adının üzerine tıklayın ve ardından bir sonraki sayfada modelin boyutunu ve türünü seçin. Sağdaki pencereden kurulum komutunu kopyalayın ve terminalinizde/komut satırında çalıştırın:

ollama run llama3

Not

Önerilen modeller latest etiketiyle işaretlenmiştir.

Dikkat

Kabul edilebilir performansı sağlamak için, modelin boyutu sunucuda bulunan RAM miktarının en az iki katı küçük olmalı ve GPU'daki kullanılabilir video belleğinin ⅔'ü kadar olmalıdır. Örneğin, 8GB boyutundaki bir model, 16GB RAM ve GPU'da 12GB video belleği gerektirir.

Modeli indirdikten sonra hizmeti yeniden başlatın:

service ollama restart

Ollama hakkında daha fazla bilgi için geliştirici dokümantasyonunu okuyabilirsiniz.

Ortam Değişkenleri

Bu değişkenleri Ollama hizmetinde Environment="DEĞİŞKEN=DEĞER" olarak ayarlayın.

Değişken Açıklama Olası değerler / format Varsayılan değer
OLLAMA_DEBUG Günlük kaydı ayrıntı düzeyi: INFO (varsayılan), DEBUG veya TRACE 0, 1, false, true veya 2'den büyük veya eşit tam sayı (TRACE düzeyi) 0 (INFO düzeyi)
OLLAMA_HOST Ollama sunucusunun çalıştığı adres ve bağlantı noktası [http://\|https://]<host>[:<port>] (örneğin, 127.0.0.1:11434, https://ollama.local) 127.0.0.1:11434
OLLAMA_KEEP_ALIVE Son istekten sonra modelin bellekte yüklü kalma süresi Süre değeri (5m, 1h, 30s) veya tam sayı (saniye); negatif > sonsuza kadar 5m
OLLAMA_LOAD_TIMEOUT Zaman aşımı oluşmadan önce bir modelin yüklenmesi için maksimum bekleme süresi (takılmaları tespit etmek için) Süre değeri veya tam sayı (saniye); ≤0 > sonsuza kadar 5m
OLLAMA_MAX_LOADED_MODELS Belleğe aynı anda yüklenebilecek maksimum model sayısı Negatif olmayan tam sayı (uint) 0 (otomatik yönetim)
OLLAMA_MAX_QUEUE İşlenmeyi bekleyen istek kuyruğunun maksimum uzunluğu Negatif olmayan tam sayı (uint) 512
OLLAMA_MODELS Modellerin depolandığı dizinin yolu Mutlak veya göreli yol $HOME/.ollama/models
OLLAMA_NOHISTORY Etkileşimli CLI modunda komut geçmişinin kaydedilmesini devre dışı bırakır 0, 1, false, true false
OLLAMA_NOPRUNE Kullanılmayan model BLOB dosyalarının başlangıçta silinmesini (budamasını) önler 0, 1, false, true false
OLLAMA_NUM_PARALLEL Tek bir modele yapılan paralel isteklerin maksimum sayısı Negatif olmayan tam sayı (uint) 1
OLLAMA_ORIGINS Web istekleri için izin verilen CORS kaynaklarının listesi (virgülle ayrılmış) Virgülle ayrılmış kaynaklar listesi (örneğin, https://myapp.com,http://localhost:3000) — (dahili değerler eklendi)
OLLAMA_FLASH_ATTENTION Deneysel flash dikkat optimizasyonunu etkinleştirir (Apple Silicon ve NVIDIA GPU'da hızlandırma) 0, 1, false, true false
OLLAMA_KV_CACHE_TYPE K/V önbelleği için nicelleme türü f16, q8_0, q4_0 — (boş dizgi ise f16)
OLLAMA_LLM_LIBRARY Otomatik algılama yerine belirtilen LLM kütüphanesinin kullanımını zorlar cpu, cpu_avx, cpu_avx2, cuda_v11, rocm_v5, rocm_v6 — (otomatik algılama)
OLLAMA_SCHED_SPREAD Model yükleme yükünü yalnızca birini kullanmak yerine tüm kullanılabilir GPU'lar arasında eşit şekilde dağıtır 0, 1, false, true false
OLLAMA_MULTIUSER_CACHE Çoklu kullanıcı senaryolarında istem önbellekleme işlemini optimize eder (tekrarlamayı azaltır) 0, 1, false, true false
OLLAMA_CONTEXT_LENGTH Model aksi belirtilmedikçe, varsayılan maksimum bağlam uzunluğu (token cinsinden) Pozitif tam sayı (uint) 4096
OLLAMA_NEW_ENGINE llama.cpp yerine yeni deneysel motoru kullan 0, 1, false, true false
OLLAMA_AUTH İstemci ve Ollama sunucusu arasında temel kimlik doğrulamayı etkinleştirir 0, 1, false, true false
OLLAMA_INTEL_GPU Intel GPU için deneysel desteği etkinleştirir 0, 1, false, true false
OLLAMA_GPU_OVERHEAD Her GPU için ayrılan VRAM miktarı (bayt cinsinden) (sistem ihtiyaçları için) Negatif olmayan tam sayı (uint64, bayt cinsinden) 0
OLLAMA_NEW_ESTIMATES Bir modeli yüklemek için gereken yeni bellek boyutu tahmin sistemini etkinleştirir 0, 1, false, true 0 (devre dışı)