Instalación de Ollama¶
En este artículo
Introducción a Ollama¶
Ollama es un framework para ejecutar y gestionar modelos de lenguaje grandes (LLMs) en recursos informáticos locales. Permite cargar y desplegar LLMs seleccionados y proporciona acceso a ellos a través de una API.
Atención
Si planea utilizar aceleración por GPU para trabajar con LLMs, instale los controladores NVIDIA y CUDA al principio.
Requisitos del sistema:
| Requisito | Especificación |
|---|---|
| Sistema Operativo | Linux: Ubuntu 22.04 o posterior |
| RAM | 16 GB para ejecutar modelos de hasta 7B |
| Espacio en disco | 12 GB para instalar Ollama y modelos básicos. Se requiere espacio adicional para almacenar datos de modelos dependiendo de los modelos utilizados |
| Procesador | Se recomienda utilizar una CPU moderna con al menos 4 núcleos. Para ejecutar modelos de hasta 13B, se recomienda una CPU con al menos 8 núcleos |
| Unidad de procesamiento gráfico (opcional) | No se requiere una GPU para ejecutar Ollama, pero puede mejorar el rendimiento, especialmente al trabajar con modelos grandes. Si dispone de una GPU, puede utilizarla para acelerar el entrenamiento de modelos personalizados. |
Nota
Los requisitos del sistema pueden variar dependiendo de los LLMs específicos y las tareas que planea realizar.
Instalación de Ollama en Linux¶
Descargue e instale Ollama:
Para GPUs Nvidia, añada Environment="OLLAMA_FLASH_ATTENTION=1" para mejorar la velocidad de generación de tokens.
Ollama será accesible en http://127.0.0.1:11434 o http://<IP_de_su_servidor>:11434.
Actualización de Ollama en Linux¶
Para actualizar Ollama, deberá volver a descargar e instalar su paquete binario:
Nota
Si no tiene acceso a Ollama, es posible que deba añadir las siguientes líneas al archivo de servicio /etc/systemd/system/ollama.service en la sección [Service]:
y reiniciar el servicio con los siguientes comandos:
Instalación de modelos de lenguaje LLM¶
Puede encontrar la lista de modelos de lenguaje disponibles en esta página.
Para instalar un modelo, haga clic en su nombre y luego seleccione el tamaño y tipo del modelo en la siguiente página. Copie el comando de instalación desde la ventana de la derecha y ejecútelo en su terminal/línea de comandos:
Nota
Los modelos recomendados están marcados con la etiqueta latest.
Atención
Para garantizar un rendimiento aceptable, el tamaño del modelo debe ser al menos dos veces menor que la cantidad de RAM disponible en el servidor y ⅔ de la memoria de vídeo disponible en la GPU. Por ejemplo, un modelo de tamaño 8GB requiere 16GB de RAM y 12GB de memoria de vídeo en la GPU.
Tras descargar el modelo, reinicie el servicio:
Para más información sobre Ollama, puede leer la documentación del desarrollador.
Variables de entorno¶
Establezca estas variables en el servicio de Ollama como Environment="VARIABLE=VALOR".
| Variable | Descripción | Valores posibles / formato | Valor predeterminado |
|---|---|---|---|
OLLAMA_DEBUG | Nivel de detalle de registro: INFO (predeterminado), DEBUG o TRACE | 0, 1, false, true o entero ≥2 (nivel TRACE) | 0 (nivel INFO) |
OLLAMA_HOST | Dirección y puerto donde se ejecuta el servidor Ollama | [http://\|https://]<host>[:<port>] (p. ej., 127.0.0.1:11434, https://ollama.local) | 127.0.0.1:11434 |
OLLAMA_KEEP_ALIVE | Tiempo durante el cual el modelo permanece cargado en memoria tras la última solicitud | Cadena de duración (5m, 1h, 30s) o entero (segundos); negativo > indefinidamente | 5m |
OLLAMA_LOAD_TIMEOUT | Tiempo máximo de espera para cargar un modelo antes del tiempo de espera (para detectar bloqueos) | Cadena de duración o entero (segundos); ≤0 > indefinidamente | 5m |
OLLAMA_MAX_LOADED_MODELS | Número máximo de modelos que pueden cargarse simultáneamente en memoria | Entero no negativo (uint) | 0 (gestión automática) |
OLLAMA_MAX_QUEUE | Longitud máxima de la cola de solicitudes pendientes de procesamiento | Entero no negativo (uint) | 512 |
OLLAMA_MODELS | Ruta al directorio donde se almacenan los modelos | Ruta absoluta o relativa | $HOME/.ollama/models |
OLLAMA_NOHISTORY | Desactiva el guardado del historial de comandos en el modo CLI interactivo | 0, 1, false, true | false |
OLLAMA_NOPRUNE | Evita la eliminación (poda) de archivos BLOB de modelos no utilizados al inicio | 0, 1, false, true | false |
OLLAMA_NUM_PARALLEL | Número máximo de solicitudes paralelas a un único modelo | Entero no negativo (uint) | 1 |
OLLAMA_ORIGINS | Lista de orígenes CORS permitidos para solicitudes web (separados por comas) | Lista de orígenes separados por comas (p. ej., https://myapp.com,http://localhost:3000) | — (se añaden valores integrados) |
OLLAMA_FLASH_ATTENTION | Habilita la optimización experimental de atención flash (aceleración en Apple Silicon y GPU NVIDIA) | 0, 1, false, true | false |
OLLAMA_KV_CACHE_TYPE | Tipo de cuantización para la caché de clave-valor (caché K/V) | f16, q8_0, q4_0 | — (f16 si la cadena está vacía) |
OLLAMA_LLM_LIBRARY | Fuerza el uso de la biblioteca LLM especificada en lugar de la detección automática | cpu, cpu_avx, cpu_avx2, cuda_v11, rocm_v5, rocm_v6 | — (detección automática) |
OLLAMA_SCHED_SPREAD | Distribuye la carga de carga de modelos uniformemente entre todas las GPUs disponibles en lugar de utilizar solo una | 0, 1, false, true | false |
OLLAMA_MULTIUSER_CACHE | Optimiza la caché de prompts en escenarios multiusuario (reduce la duplicación) | 0, 1, false, true | false |
OLLAMA_CONTEXT_LENGTH | Longitud máxima de contexto predeterminada (en tokens), si el modelo no especifica lo contrario | Entero positivo (uint) | 4096 |
OLLAMA_NEW_ENGINE | Utiliza el nuevo motor experimental en lugar de llama.cpp | 0, 1, false, true | false |
OLLAMA_AUTH | Habilita la autenticación básica entre cliente y servidor Ollama | 0, 1, false, true | false |
OLLAMA_INTEL_GPU | Habilita el soporte experimental para GPU Intel | 0, 1, false, true | false |
OLLAMA_GPU_OVERHEAD | Cantidad de VRAM (en bytes) reservada por GPU (para necesidades del sistema) | Entero no negativo (uint64, en bytes) | 0 |
OLLAMA_NEW_ESTIMATES | Habilita el nuevo sistema de estimación de tamaño de memoria necesario para cargar un modelo | 0, 1, false, true | 0 (desactivado) |
Parte del contenido de esta página fue creado o traducido utilizando IA.