Instalación de Ollama¶

En este artículo

Introducción a Ollama

Instalación de Ollama en Linux

Actualización de Ollama en Linux

Instalación de modelos de lenguaje LLM

Variables de entorno

Introducción a Ollama¶

Ollama es un framework para ejecutar y gestionar modelos de lenguaje grandes (LLMs) en recursos informáticos locales. Permite cargar y desplegar LLMs seleccionados y proporciona acceso a ellos a través de una API.

Atención

Si planea utilizar aceleración por GPU para trabajar con LLMs, instale los controladores NVIDIA y CUDA al principio.

Requisitos del sistema:

Requisito	Especificación
Sistema Operativo	Linux: Ubuntu 22.04 o posterior
RAM	16 GB para ejecutar modelos de hasta 7B
Espacio en disco	12 GB para instalar Ollama y modelos básicos. Se requiere espacio adicional para almacenar datos de modelos dependiendo de los modelos utilizados
Procesador	Se recomienda utilizar una CPU moderna con al menos 4 núcleos. Para ejecutar modelos de hasta 13B, se recomienda una CPU con al menos 8 núcleos
Unidad de procesamiento gráfico (opcional)	No se requiere una GPU para ejecutar Ollama, pero puede mejorar el rendimiento, especialmente al trabajar con modelos grandes. Si dispone de una GPU, puede utilizarla para acelerar el entrenamiento de modelos personalizados.

Nota

Los requisitos del sistema pueden variar dependiendo de los LLMs específicos y las tareas que planea realizar.

Instalación de Ollama en Linux¶

Descargue e instale Ollama:

curl -fsSL https://ollama.com/install.sh | sh

Para GPUs Nvidia, añada Environment="OLLAMA_FLASH_ATTENTION=1" para mejorar la velocidad de generación de tokens.

Ollama será accesible en http://127.0.0.1:11434 o http://<IP_de_su_servidor>:11434.

Actualización de Ollama en Linux¶

Para actualizar Ollama, deberá volver a descargar e instalar su paquete binario:

curl -fsSL https://ollama.com/install.sh | sh

Nota

Si no tiene acceso a Ollama, es posible que deba añadir las siguientes líneas al archivo de servicio /etc/systemd/system/ollama.service en la sección [Service]:

Environment="OLLAMA_HOST=0.0.0.0" 
Environment="OLLAMA_ORIGINS=*"

y reiniciar el servicio con los siguientes comandos:

systemctl daemon-reload
service ollama restart

Instalación de modelos de lenguaje LLM¶

Puede encontrar la lista de modelos de lenguaje disponibles en esta página.

Para instalar un modelo, haga clic en su nombre y luego seleccione el tamaño y tipo del modelo en la siguiente página. Copie el comando de instalación desde la ventana de la derecha y ejecútelo en su terminal/línea de comandos:

ollama run llama3

Nota

Los modelos recomendados están marcados con la etiqueta latest.

Atención

Para garantizar un rendimiento aceptable, el tamaño del modelo debe ser al menos dos veces menor que la cantidad de RAM disponible en el servidor y ⅔ de la memoria de vídeo disponible en la GPU. Por ejemplo, un modelo de tamaño 8GB requiere 16GB de RAM y 12GB de memoria de vídeo en la GPU.

Tras descargar el modelo, reinicie el servicio:

service ollama restart

Para más información sobre Ollama, puede leer la documentación del desarrollador.

Variables de entorno¶

Establezca estas variables en el servicio de Ollama como Environment="VARIABLE=VALOR".

Variable	Descripción	Valores posibles / formato	Valor predeterminado
`OLLAMA_DEBUG`	Nivel de detalle de registro: INFO (predeterminado), DEBUG o TRACE	`0`, `1`, `false`, `true` o entero ≥2 (nivel TRACE)	`0` (nivel INFO)
`OLLAMA_HOST`	Dirección y puerto donde se ejecuta el servidor Ollama	`[http://\\|https://]<host>[:<port>]` (p. ej., `127.0.0.1:11434`, `https://ollama.local`)	`127.0.0.1:11434`
`OLLAMA_KEEP_ALIVE`	Tiempo durante el cual el modelo permanece cargado en memoria tras la última solicitud	Cadena de duración (`5m`, `1h`, `30s`) o entero (segundos); negativo > indefinidamente	`5m`
`OLLAMA_LOAD_TIMEOUT`	Tiempo máximo de espera para cargar un modelo antes del tiempo de espera (para detectar bloqueos)	Cadena de duración o entero (segundos); ≤0 > indefinidamente	`5m`
`OLLAMA_MAX_LOADED_MODELS`	Número máximo de modelos que pueden cargarse simultáneamente en memoria	Entero no negativo (`uint`)	`0` (gestión automática)
`OLLAMA_MAX_QUEUE`	Longitud máxima de la cola de solicitudes pendientes de procesamiento	Entero no negativo (`uint`)	`512`
`OLLAMA_MODELS`	Ruta al directorio donde se almacenan los modelos	Ruta absoluta o relativa	`$HOME/.ollama/models`
`OLLAMA_NOHISTORY`	Desactiva el guardado del historial de comandos en el modo CLI interactivo	`0`, `1`, `false`, `true`	`false`
`OLLAMA_NOPRUNE`	Evita la eliminación (poda) de archivos BLOB de modelos no utilizados al inicio	`0`, `1`, `false`, `true`	`false`
`OLLAMA_NUM_PARALLEL`	Número máximo de solicitudes paralelas a un único modelo	Entero no negativo (`uint`)	`1`
`OLLAMA_ORIGINS`	Lista de orígenes CORS permitidos para solicitudes web (separados por comas)	Lista de orígenes separados por comas (p. ej., `https://myapp.com,http://localhost:3000`)	— (se añaden valores integrados)
`OLLAMA_FLASH_ATTENTION`	Habilita la optimización experimental de atención flash (aceleración en Apple Silicon y GPU NVIDIA)	`0`, `1`, `false`, `true`	`false`
`OLLAMA_KV_CACHE_TYPE`	Tipo de cuantización para la caché de clave-valor (caché K/V)	`f16`, `q8_0`, `q4_0`	— (`f16` si la cadena está vacía)
`OLLAMA_LLM_LIBRARY`	Fuerza el uso de la biblioteca LLM especificada en lugar de la detección automática	`cpu`, `cpu_avx`, `cpu_avx2`, `cuda_v11`, `rocm_v5`, `rocm_v6`	— (detección automática)
`OLLAMA_SCHED_SPREAD`	Distribuye la carga de carga de modelos uniformemente entre todas las GPUs disponibles en lugar de utilizar solo una	`0`, `1`, `false`, `true`	`false`
`OLLAMA_MULTIUSER_CACHE`	Optimiza la caché de prompts en escenarios multiusuario (reduce la duplicación)	`0`, `1`, `false`, `true`	`false`
`OLLAMA_CONTEXT_LENGTH`	Longitud máxima de contexto predeterminada (en tokens), si el modelo no especifica lo contrario	Entero positivo (`uint`)	`4096`
`OLLAMA_NEW_ENGINE`	Utiliza el nuevo motor experimental en lugar de llama.cpp	`0`, `1`, `false`, `true`	`false`
`OLLAMA_AUTH`	Habilita la autenticación básica entre cliente y servidor Ollama	`0`, `1`, `false`, `true`	`false`
`OLLAMA_INTEL_GPU`	Habilita el soporte experimental para GPU Intel	`0`, `1`, `false`, `true`	`false`
`OLLAMA_GPU_OVERHEAD`	Cantidad de VRAM (en bytes) reservada por GPU (para necesidades del sistema)	Entero no negativo (`uint64`, en bytes)	`0`
`OLLAMA_NEW_ESTIMATES`	Habilita el nuevo sistema de estimación de tamaño de memoria necesario para cargar un modelo	`0`, `1`, `false`, `true`	`0` (desactivado)

Parte del contenido de esta página fue creado o traducido utilizando IA.