Ollama Kurulumu¶

Bu makalede

Ollama'ya Giriş

Linux'ta Ollama Kurulumu

Linux'ta Ollama Güncellemesi

LLM Dil Modelleri Kurulumu

Ortam Değişkenleri

Ollama'ya Giriş¶

Ollama, büyük dil modellerini (LLM'ler) yerel hesaplama kaynaklarında çalıştırmak ve yönetmek için kullanılan bir çerçevedir. Seçilen LLM'lerin yüklenmesini ve dağıtılmasını sağlar ve bunlara bir API aracılığıyla erişim imkanı sunar.

Dikkat

LLM'lerle çalışmak için GPU hızlandırmayı kullanmayı planlıyorsanız, lütfen başlangıçta NVIDIA sürücülerini ve CUDA'yı yükleyin.

Sistem Gereksinimleri:

Gereksinim	Özellik
İşletim Sistemi	Linux: Ubuntu 22.04 veya üzeri
RAM	7B'ye kadar modelleri çalıştırmak için 16 GB
Disk Alanı	Ollama ve temel modelleri kurmak için 12 GB. Kullanılan modellere bağlı olarak model verilerini depolamak için ek alan gereklidir
İşlemci	En az 4 çekirdeğe sahip modern bir CPU kullanılması önerilir. 13B'ye kadar modelleri çalıştırmak için en az 8 çekirdeğe sahip bir CPU önerilir
Grafik İşlem Birimi (isteğe bağlı)	Ollama'yı çalıştırmak için GPU gerekli değildir, ancak özellikle büyük modellerle çalışırken performansı artırabilir. GPU'nuz varsa, özel modellerin eğitimini hızlandırmak için kullanabilirsiniz.

Not

Sistem gereksinimleri, gerçekleştirmeyi planladığınız belirli LLM'lere ve görevlere göre değişiklik gösterebilir.

Linux'ta Ollama Kurulumu¶

Ollama'yı indirin ve yükleyin:

curl -fsSL https://ollama.com/install.sh | sh

Nvidia GPU'lar için, token oluşturma hızını artırmak üzere Environment="OLLAMA_FLASH_ATTENTION=1" ekleyin.

Ollama, http://127.0.0.1:11434 veya http://<sunucu_IP_adresiniz>:11434 adresinden erişilebilir olacaktır.

Linux'ta Ollama Güncellemesi¶

Ollama'yı güncellemek için, ikili paketini yeniden indirmeniz ve yüklemeniz gerekir:

curl -fsSL https://ollama.com/install.sh | sh

Not

Ollama'ya erişiminiz yoksa, hizmet dosyasına /etc/systemd/system/ollama.service [Service] bölümüne aşağıdaki satırları eklemeniz gerekebilir:

Environment="OLLAMA_HOST=0.0.0.0" 
Environment="OLLAMA_ORIGINS=*"

ve hizmeti aşağıdaki komutlarla yeniden başlatın:

systemctl daemon-reload
service ollama restart

LLM Dil Modelleri Kurulumu¶

Kullanılabilir dil modellerinin listesini bu sayfada bulabilirsiniz.

Bir modeli kurmak için, adının üzerine tıklayın ve ardından bir sonraki sayfada modelin boyutunu ve türünü seçin. Sağdaki pencereden kurulum komutunu kopyalayın ve terminalinizde/komut satırında çalıştırın:

ollama run llama3

Not

Önerilen modeller latest etiketiyle işaretlenmiştir.

Dikkat

Kabul edilebilir performansı sağlamak için, modelin boyutu sunucuda bulunan RAM miktarının en az iki katı küçük olmalı ve GPU'daki kullanılabilir video belleğinin ⅔'ü kadar olmalıdır. Örneğin, 8GB boyutundaki bir model, 16GB RAM ve GPU'da 12GB video belleği gerektirir.

Modeli indirdikten sonra hizmeti yeniden başlatın:

service ollama restart

Ollama hakkında daha fazla bilgi için geliştirici dokümantasyonunu okuyabilirsiniz.

Ortam Değişkenleri¶

Bu değişkenleri Ollama hizmetinde Environment="DEĞİŞKEN=DEĞER" olarak ayarlayın.

Değişken	Açıklama	Olası değerler / format	Varsayılan değer
`OLLAMA_DEBUG`	Günlük kaydı ayrıntı düzeyi: INFO (varsayılan), DEBUG veya TRACE	`0`, `1`, `false`, `true` veya 2'den büyük veya eşit tam sayı (TRACE düzeyi)	`0` (INFO düzeyi)
`OLLAMA_HOST`	Ollama sunucusunun çalıştığı adres ve bağlantı noktası	`[http://\\|https://]<host>[:<port>]` (örneğin, `127.0.0.1:11434`, `https://ollama.local`)	`127.0.0.1:11434`
`OLLAMA_KEEP_ALIVE`	Son istekten sonra modelin bellekte yüklü kalma süresi	Süre değeri (`5m`, `1h`, `30s`) veya tam sayı (saniye); negatif > sonsuza kadar	`5m`
`OLLAMA_LOAD_TIMEOUT`	Zaman aşımı oluşmadan önce bir modelin yüklenmesi için maksimum bekleme süresi (takılmaları tespit etmek için)	Süre değeri veya tam sayı (saniye); ≤0 > sonsuza kadar	`5m`
`OLLAMA_MAX_LOADED_MODELS`	Belleğe aynı anda yüklenebilecek maksimum model sayısı	Negatif olmayan tam sayı (`uint`)	`0` (otomatik yönetim)
`OLLAMA_MAX_QUEUE`	İşlenmeyi bekleyen istek kuyruğunun maksimum uzunluğu	Negatif olmayan tam sayı (`uint`)	`512`
`OLLAMA_MODELS`	Modellerin depolandığı dizinin yolu	Mutlak veya göreli yol	`$HOME/.ollama/models`
`OLLAMA_NOHISTORY`	Etkileşimli CLI modunda komut geçmişinin kaydedilmesini devre dışı bırakır	`0`, `1`, `false`, `true`	`false`
`OLLAMA_NOPRUNE`	Kullanılmayan model BLOB dosyalarının başlangıçta silinmesini (budamasını) önler	`0`, `1`, `false`, `true`	`false`
`OLLAMA_NUM_PARALLEL`	Tek bir modele yapılan paralel isteklerin maksimum sayısı	Negatif olmayan tam sayı (`uint`)	`1`
`OLLAMA_ORIGINS`	Web istekleri için izin verilen CORS kaynaklarının listesi (virgülle ayrılmış)	Virgülle ayrılmış kaynaklar listesi (örneğin, `https://myapp.com,http://localhost:3000`)	— (dahili değerler eklendi)
`OLLAMA_FLASH_ATTENTION`	Deneysel flash dikkat optimizasyonunu etkinleştirir (Apple Silicon ve NVIDIA GPU'da hızlandırma)	`0`, `1`, `false`, `true`	`false`
`OLLAMA_KV_CACHE_TYPE`	K/V önbelleği için nicelleme türü	`f16`, `q8_0`, `q4_0`	— (boş dizgi ise `f16`)
`OLLAMA_LLM_LIBRARY`	Otomatik algılama yerine belirtilen LLM kütüphanesinin kullanımını zorlar	`cpu`, `cpu_avx`, `cpu_avx2`, `cuda_v11`, `rocm_v5`, `rocm_v6`	— (otomatik algılama)
`OLLAMA_SCHED_SPREAD`	Model yükleme yükünü yalnızca birini kullanmak yerine tüm kullanılabilir GPU'lar arasında eşit şekilde dağıtır	`0`, `1`, `false`, `true`	`false`
`OLLAMA_MULTIUSER_CACHE`	Çoklu kullanıcı senaryolarında istem önbellekleme işlemini optimize eder (tekrarlamayı azaltır)	`0`, `1`, `false`, `true`	`false`
`OLLAMA_CONTEXT_LENGTH`	Model aksi belirtilmedikçe, varsayılan maksimum bağlam uzunluğu (token cinsinden)	Pozitif tam sayı (`uint`)	`4096`
`OLLAMA_NEW_ENGINE`	llama.cpp yerine yeni deneysel motoru kullan	`0`, `1`, `false`, `true`	`false`
`OLLAMA_AUTH`	İstemci ve Ollama sunucusu arasında temel kimlik doğrulamayı etkinleştirir	`0`, `1`, `false`, `true`	`false`
`OLLAMA_INTEL_GPU`	Intel GPU için deneysel desteği etkinleştirir	`0`, `1`, `false`, `true`	`false`
`OLLAMA_GPU_OVERHEAD`	Her GPU için ayrılan VRAM miktarı (bayt cinsinden) (sistem ihtiyaçları için)	Negatif olmayan tam sayı (`uint64`, bayt cinsinden)	`0`
`OLLAMA_NEW_ESTIMATES`	Bir modeli yüklemek için gereken yeni bellek boyutu tahmin sistemini etkinleştirir	`0`, `1`, `false`, `true`	`0` (devre dışı)