Saltar a contenido

Instalación de Ollama

En este artículo

Introducción a Ollama

Ollama es un framework para ejecutar y gestionar modelos de lenguaje grandes (LLMs) en recursos informáticos locales. Permite cargar y desplegar LLMs seleccionados y proporciona acceso a ellos a través de una API.

Atención

Si planea utilizar aceleración por GPU para trabajar con LLMs, instale los controladores NVIDIA y CUDA al principio.

Requisitos del sistema:

Requisito Especificación
Sistema Operativo Linux: Ubuntu 22.04 o posterior
RAM 16 GB para ejecutar modelos de hasta 7B
Espacio en disco 12 GB para instalar Ollama y modelos básicos. Se requiere espacio adicional para almacenar datos de modelos dependiendo de los modelos utilizados
Procesador Se recomienda utilizar una CPU moderna con al menos 4 núcleos. Para ejecutar modelos de hasta 13B, se recomienda una CPU con al menos 8 núcleos
Unidad de procesamiento gráfico (opcional) No se requiere una GPU para ejecutar Ollama, pero puede mejorar el rendimiento, especialmente al trabajar con modelos grandes. Si dispone de una GPU, puede utilizarla para acelerar el entrenamiento de modelos personalizados.

Nota

Los requisitos del sistema pueden variar dependiendo de los LLMs específicos y las tareas que planea realizar.

Instalación de Ollama en Linux

Descargue e instale Ollama:

curl -fsSL https://ollama.com/install.sh | sh

Para GPUs Nvidia, añada Environment="OLLAMA_FLASH_ATTENTION=1" para mejorar la velocidad de generación de tokens.

Ollama será accesible en http://127.0.0.1:11434 o http://<IP_de_su_servidor>:11434.

Actualización de Ollama en Linux

Para actualizar Ollama, deberá volver a descargar e instalar su paquete binario:

curl -fsSL https://ollama.com/install.sh | sh

Nota

Si no tiene acceso a Ollama, es posible que deba añadir las siguientes líneas al archivo de servicio /etc/systemd/system/ollama.service en la sección [Service]:

Environment="OLLAMA_HOST=0.0.0.0" 
Environment="OLLAMA_ORIGINS=*"

y reiniciar el servicio con los siguientes comandos:

systemctl daemon-reload
service ollama restart

Instalación de modelos de lenguaje LLM

Puede encontrar la lista de modelos de lenguaje disponibles en esta página.

Para instalar un modelo, haga clic en su nombre y luego seleccione el tamaño y tipo del modelo en la siguiente página. Copie el comando de instalación desde la ventana de la derecha y ejecútelo en su terminal/línea de comandos:

ollama run llama3

Nota

Los modelos recomendados están marcados con la etiqueta latest.

Atención

Para garantizar un rendimiento aceptable, el tamaño del modelo debe ser al menos dos veces menor que la cantidad de RAM disponible en el servidor y ⅔ de la memoria de vídeo disponible en la GPU. Por ejemplo, un modelo de tamaño 8GB requiere 16GB de RAM y 12GB de memoria de vídeo en la GPU.

Tras descargar el modelo, reinicie el servicio:

service ollama restart

Para más información sobre Ollama, puede leer la documentación del desarrollador.

Variables de entorno

Establezca estas variables en el servicio de Ollama como Environment="VARIABLE=VALOR".

Variable Descripción Valores posibles / formato Valor predeterminado
OLLAMA_DEBUG Nivel de detalle de registro: INFO (predeterminado), DEBUG o TRACE 0, 1, false, true o entero ≥2 (nivel TRACE) 0 (nivel INFO)
OLLAMA_HOST Dirección y puerto donde se ejecuta el servidor Ollama [http://\|https://]<host>[:<port>] (p. ej., 127.0.0.1:11434, https://ollama.local) 127.0.0.1:11434
OLLAMA_KEEP_ALIVE Tiempo durante el cual el modelo permanece cargado en memoria tras la última solicitud Cadena de duración (5m, 1h, 30s) o entero (segundos); negativo > indefinidamente 5m
OLLAMA_LOAD_TIMEOUT Tiempo máximo de espera para cargar un modelo antes del tiempo de espera (para detectar bloqueos) Cadena de duración o entero (segundos); ≤0 > indefinidamente 5m
OLLAMA_MAX_LOADED_MODELS Número máximo de modelos que pueden cargarse simultáneamente en memoria Entero no negativo (uint) 0 (gestión automática)
OLLAMA_MAX_QUEUE Longitud máxima de la cola de solicitudes pendientes de procesamiento Entero no negativo (uint) 512
OLLAMA_MODELS Ruta al directorio donde se almacenan los modelos Ruta absoluta o relativa $HOME/.ollama/models
OLLAMA_NOHISTORY Desactiva el guardado del historial de comandos en el modo CLI interactivo 0, 1, false, true false
OLLAMA_NOPRUNE Evita la eliminación (poda) de archivos BLOB de modelos no utilizados al inicio 0, 1, false, true false
OLLAMA_NUM_PARALLEL Número máximo de solicitudes paralelas a un único modelo Entero no negativo (uint) 1
OLLAMA_ORIGINS Lista de orígenes CORS permitidos para solicitudes web (separados por comas) Lista de orígenes separados por comas (p. ej., https://myapp.com,http://localhost:3000) — (se añaden valores integrados)
OLLAMA_FLASH_ATTENTION Habilita la optimización experimental de atención flash (aceleración en Apple Silicon y GPU NVIDIA) 0, 1, false, true false
OLLAMA_KV_CACHE_TYPE Tipo de cuantización para la caché de clave-valor (caché K/V) f16, q8_0, q4_0 — (f16 si la cadena está vacía)
OLLAMA_LLM_LIBRARY Fuerza el uso de la biblioteca LLM especificada en lugar de la detección automática cpu, cpu_avx, cpu_avx2, cuda_v11, rocm_v5, rocm_v6 — (detección automática)
OLLAMA_SCHED_SPREAD Distribuye la carga de carga de modelos uniformemente entre todas las GPUs disponibles en lugar de utilizar solo una 0, 1, false, true false
OLLAMA_MULTIUSER_CACHE Optimiza la caché de prompts en escenarios multiusuario (reduce la duplicación) 0, 1, false, true false
OLLAMA_CONTEXT_LENGTH Longitud máxima de contexto predeterminada (en tokens), si el modelo no especifica lo contrario Entero positivo (uint) 4096
OLLAMA_NEW_ENGINE Utiliza el nuevo motor experimental en lugar de llama.cpp 0, 1, false, true false
OLLAMA_AUTH Habilita la autenticación básica entre cliente y servidor Ollama 0, 1, false, true false
OLLAMA_INTEL_GPU Habilita el soporte experimental para GPU Intel 0, 1, false, true false
OLLAMA_GPU_OVERHEAD Cantidad de VRAM (en bytes) reservada por GPU (para necesidades del sistema) Entero no negativo (uint64, en bytes) 0
OLLAMA_NEW_ESTIMATES Habilita el nuevo sistema de estimación de tamaño de memoria necesario para cargar un modelo 0, 1, false, true 0 (desactivado)

Parte del contenido de esta página fue creado o traducido utilizando IA.

question_mark
Is there anything I can help you with?
question_mark
AI Assistant ×