Resolución de problemas de GPU¶
En este artículo
- Después de actualizar controladores o software en Ubuntu, se produce un error de NVML: Incompatibilidad de versiones del controlador/biblioteca
- Instalación del controlador Nvidia: Módulos del kernel no compilados
- Error de instalación del controlador Nvidia: No se pueden firmar los módulos del kernel
- Errores al instalar PyTorch y sus módulos en Ubuntu para GPUs Blackwell (RTX 5090 o RTX 6000 PRO)
Después de actualizar controladores o software en Ubuntu, se produce un error de NVML: Incompatibilidad de versiones del controlador/biblioteca¶
Si encuentra un error como Failed to initialize NVML: Driver/library version mismatch después de la instalación, es necesario reconectar los módulos del kernel de Nvidia eliminándolos y ejecutando nvidia-smi nuevamente para reinicializarlos:
sudo rmmod -f nvidia-modeset
sudo rmmod nvidia_uvm
sudo rmmod nvidia_drm
sudo rmmod nvidia-peermem
sudo rmmod nvidia
sudo nvidia-smi
El error también puede ocurrir debido a que la partición /boot está llena durante las actualizaciones simultáneas del kernel del sistema y la imposibilidad de construir nuevos discos RAM iniciales (initrd) con los módulos de la tarjeta gráfica. Para solucionarlo, utilice esta instrucción.
Si el error persiste, se recomienda eliminar los paquetes de controladores de Nvidia
y reinstalarlos (y CUDA) de nuevo.
Instalación del controlador Nvidia: Módulos del kernel no compilados¶
Si encuentra un error durante la instalación de los controladores de Nvidia como este:
# command: 'make' -j128 KERNEL_UNAME=6.8.0-64-generic IGNORE_CC_MISMATCH=1 SYSSRC=/lib/modules/6.8.0-64-generic/build LD=/usr/bin/ld.bfd CONFIG_X86_KERNEL_IBT= modules
Makefile:63: WARNING: Unable to locate the compiler x86_64-linux-gnu-gcc-12 from CONFIG_CC_VERSION_TEXT in the kernel configuration.
make[1]: Entering directory '/usr/src/linux-headers-6.8.0-64-generic'
warning: the compiler differs from the one used to build the kernel
The kernel was built by: x86_64-linux-gnu-gcc-12 (Ubuntu 12.3.0-1ubuntu1~22.04) 12.3.0
You are using: cc (Ubuntu 11.4.0-1ubuntu1~22.04) 11.4.0
SYMLINK /var/lib/dkms/nvidia/575.57.08/build/nvidia/nv-kernel.o
SYMLINK /var/lib/dkms/nvidia/575.57.08/build/nvidia-modeset/nv-modeset-kernel.o
significa que la versión 12 de GCC no está instalada en su sistema. Instálela usando el comando:
y reinstálelos (y CUDA) nuevamente.
Error de instalación del controlador Nvidia: No se pueden firmar los módulos del kernel¶
Durante la instalación de los controladores de la tarjeta gráfica, es posible que vea un error indicando que el sistema no puede encontrar el paquete update-secureboot-policy y firmar los módulos, incluso aunque Secure Boot esté deshabilitado en la BIOS:
Building initial module nvidia/575.57.08 for 6.8.0-64-generic
Sign command: /usr/bin/kmodsign
Binary update-secureboot-policy not found, modules won't be signed
Para resolver este problema, instale el paquete shim-signed con el comando:
y reinstálelos (y CUDA) nuevamente.
Errores al instalar PyTorch y sus módulos en Ubuntu para GPUs Blackwell (RTX 5090 o RTX 6000 PRO)¶
Al instalar la versión estable de PyTorch en esta familia de tarjetas gráficas, pueden ocurrir errores. Utilice la versión de compilación nocturna con su soporte ejecutando el siguiente comando:
pip install --upgrade --force-reinstall torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu130
Donde cu130 es la versión de CUDA (13.0). Si tiene una versión anterior (12.8), utilice la ruta https://download.pytorch.org/whl/nightly/cu128.
Parte del contenido de esta página fue creado o traducido utilizando IA.