Skip to content

Ollama Kurulum

Bu makalede

Ollama Hakkında Giriş

Ollama, büyük dil modellerini (LLMs) yerel bilgisayar kaynaklarında çalıştırma ve yönetme için bir çerçevedir. Belirlenen LLM'leri yükleyip dağıtmayı sağlar ve bunlara API aracılığıyla erişim sunar.

Dikkat

Büyük dil modelleriyle çalışmak için GPU hızlandırması planlıyorsanız, kurulumun başında NVIDIA sürücülerini ve CUDA'yı yüklemeniz gerekir.

Sistem Gereksinimleri:

Gereksinim Spesifikasyon
İşletim Sistemi Linux: Ubuntu 22.04 veya sonrası
RAM Modellere kadar çalıştırmak için 16 GB
Disk Alanı Ollama ve temel modelleri yüklemek için 12 GB. Kullanılan modellere bağlı olarak model verilerini depolamak için ekstra alan gereklidir
İşlemci En az 4 çekirdekli modern bir CPU kullanmanız önerilir. 13B'ye kadar olan modelleri çalıştırmak için en az 8 çekirdekli bir CPU önerilir
Grafik İşlem Birimi (isteğe bağlı) Ollama'yı çalıştırmak için GPU gereklidir değildir, ancak büyük modellerle çalışırken performansı artırabilir. Özel modellerin eğitimini hızlandırmak için bir GPU'nuz varsa bunu kullanabilirsiniz

Not

Sistem gereksinimleri planladığınız spesifik LLM'ler ve görevlere bağlı olarak değişebilir.

Linux'ta Ollama Kurulumu

Ollama'yı indirip kurun:

curl -fsSL https://ollama.com/install.sh | sh

Nvidia GPU'lar için, jeton üretim hızını artırmak amacıyla Environment="OLLAMA_FLASH_ATTENTION=1" ekleyin.

Ollama http://127.0.0.1:11434 veya http://<you_server_IP>:11434 adresinde erişilebilir olacak.

Linux'ta Ollama Güncellemesi

Ollama'yu güncellemek için, yeniden indirip yüklemeniz gerekecek:

curl -fsSL https://ollama.com/install.sh | sh

Not

Erişiminiz yoksa Ollama ekleyebilirsiniz /etc/systemd/system/ollama.service hizmet dosyasına aşağıdaki satırları [Service] bölümüne:

Environment="OLLAMA_HOST=0.0.0.0" 
Environment="OLLAMA_ORIGINS=*"

ve hizmeti şu komutlarla yeniden başlatın:

systemctl daemon-reload
service ollama restart

Dil Modeli LLM Yüklemesi

Yerleşik dil modellerinin listesini bu sayfada bulabilirsiniz.

Bir modeli yüklemek için adını tıklayın ve ardından sonraki sayfada boyutu ve tipini seçin. Sağ tarafındaki pencereden kurulum komutunu kopyalayıp terminalinizde veya komut satırında çalıştırın:

ollama run llama3

Not

Önerilen modeller latest etiketiyle işaretlenmiştir.

Dikkat

Kabul edilebilir performans sağlamak için modelin boyutu, sunucudaki mevcut RAM miktarının en az iki katı ve GPU üzerindeki kullanılabilir video belleğinin ⅔'ü kadar olmalıdır. Örneğin, 8GB boyutunda bir model 16GB RAM ve 12GB GPU videolama gerektirir.

Modeli indirdikten sonra hizmeti yeniden başlatın:

service ollama restart

Daha fazla bilgi için geliştirici belgelerine bakabilirsiniz.

Ortam Değişkenleri

Ollama hizmetinde değişkenleri Environment="VARIABLE=VALUE" olarak ayarlayın.

Değişken Açıklama
OLLAMA_DEBUG Ekstra hata ayıklama bilgilerini göster (örn. OLLAMA_DEBUG=1)
OLLAMA_HOST Ollama sunucusu için IP adresi (varsayılan 127.0.0.1:11434)
OLLAMA_KEEP_ALIVE Modellerin bellekte ne kadar süre kalacağını tanımlar (varsayılan 5m)
OLLAMA_MAX_LOADED_MODELS Yüklü modellerin maksimum sayısı (varsayılan 1)
OLLAMA_MAX_QUEUE Kuyruğun uzunluğunu, bekleyen isteklerin kaç tane olabileceğini tanımlar (512 varsayılan)
OLLAMA_MODELS Modeller dizininin yolu
OLLAMA_NUM_PARALLEL Maksimum eşzamanlı istek sayısı (varsayılan 1)
OLLAMA_NOPRUNE Başlangıçta model bloblarının kesilmesini devre dışı bırak
OLLAMA_ORIGINS İzin verilen kökenlerin virgülle ayrılmış listesi
OLLAMA_TMPDIR Geçici dosyaların konumu
OLLAMA_FLASH_ATTENTION 1 olarak ayarlamak Apple Silicon Mac'ler ve NVIDIA grafik kartlarında jeton üretim hızını artırır
OLLAMA_LLM_LIBRARY LLM kütüphanesini otomatik algılama atlamak için ayarlamanıza izin verir (Dinamik LLM kütüphaneleri [rocm_v6 cpu cpu_avx cpu_avx2 cuda_v11 rocm_v5])
OLLAMA_MAX_VRAM Maksimum VRAM (OLLAMA_MAX_VRAM=<bytes>)
OLLAMA_NOHISTORY 1 olarak ayarlamak Ollama çalıştırmalarında tarihi devre dışı bırakır
OLLAMA_SCHED_SPREAD Tüm kullanılabilir video sürücülerinde modelleri çalıştırın (varsayılan olarak 0)
OLLAMA_MULTIUSER_CACHE Çoklu kullanıcı senaryolarında istek önbelleğini optimize edin
OLLAMA_CONTEXT_LENGTH Bağlam boyutunu ayarlayın (varsayılan olarak 2048 ile aynı)
OLLAMA_NEW_ENGINE Yeni motoru, llama.cpp yerine kullanmayı etkinleştirin

Bu sayfanın bazı içerikleri ya da yazıları AI tarafından oluşturulmuş veya çevrilmiş olabilir.

question_mark
Size bir şeyde yardımcı olabilir miyim?
question_mark
AI Asistanı ×