Oplossen van GPU-problemen¶
In dit artikel
- Na het updaten van drivers of software in Ubuntu treedt een NVML-fout op: Driver/library version mismatch
- Installatie van Nvidia-drivers: Kernelmodules niet gecompileerd
- Fout bij installatie van Nvidia-drivers: Kan kernelmodules niet ondertekenen
- Fouten bij het installeren van PyTorch en modules op Ubuntu voor Blackwell-GPU's (RTX 5090 of RTX 6000 PRO)
Na het updaten van drivers of software in Ubuntu treedt een NVML-fout op: Driver/library version mismatch¶
Als u na de installatie een foutmelding krijgt zoals Failed to initialize NVML: Driver/library version mismatch, is het noodzakelijk om de Nvidia-kernelmodules opnieuw te verbinden door ze te verwijderen en nvidia-smi opnieuw uit te voeren voor herinitialisatie:
sudo rmmod -f nvidia-modeset
sudo rmmod nvidia_uvm
sudo rmmod nvidia_drm
sudo rmmod nvidia-peermem
sudo rmmod nvidia
sudo nvidia-smi
De fout kan ook optreden als de /boot-partitie vol is tijdens gelijktijdige systeemkernel-updates en het niet mogelijk is om nieuwe initiële RAM-schijven (initrd) te bouwen met videokaartmodules. Om dit op te lossen, gebruikt u deze instructie.
Als de fout aanhoudt, wordt aanbevolen om de Nvidia-driverpakketten te verwijderen
en ze (en CUDA) opnieuw te installeren.
Installatie van Nvidia-drivers: Kernelmodules niet gecompileerd¶
Als u tijdens de installatie van Nvidia-drivers een foutmelding krijgt zoals deze:
# command: 'make' -j128 KERNEL_UNAME=6.8.0-64-generic IGNORE_CC_MISMATCH=1 SYSSRC=/lib/modules/6.8.0-64-generic/build LD=/usr/bin/ld.bfd CONFIG_X86_KERNEL_IBT= modules
Makefile:63: WARNING: Unable to locate the compiler x86_64-linux-gnu-gcc-12 from CONFIG_CC_VERSION_TEXT in the kernel configuration.
make[1]: Entering directory '/usr/src/linux-headers-6.8.0-64-generic'
warning: the compiler differs from the one used to build the kernel
The kernel was built by: x86_64-linux-gnu-gcc-12 (Ubuntu 12.3.0-1ubuntu1~22.04) 12.3.0
You are using: cc (Ubuntu 11.4.0-1ubuntu1~22.04) 11.4.0
SYMLINK /var/lib/dkms/nvidia/575.57.08/build/nvidia/nv-kernel.o
SYMLINK /var/lib/dkms/nvidia/575.57.08/build/nvidia-modeset/nv-modeset-kernel.o
betekent dit dat GCC-versie 12 niet op uw systeem is geïnstalleerd. Installeer deze met het volgende commando:
en installeer ze (en CUDA) opnieuw.
Fout bij installatie van Nvidia-drivers: Kan kernelmodules niet ondertekenen¶
Tijdens de installatie van videokaartdrivers kunt u een foutmelding zien dat het systeem het pakket update-secureboot-policy niet kan vinden en de modules niet kan ondertekenen, zelfs al is Secure Boot uitgeschakeld in de BIOS:
Building initial module nvidia/575.57.08 for 6.8.0-64-generic
Sign command: /usr/bin/kmodsign
Binary update-secureboot-policy not found, modules won't be signed
Om dit probleem op te lossen, installeert u het pakket shim-signed met het volgende commando:
en installeer ze (en CUDA) opnieuw.
Fouten bij het installeren van PyTorch en modules op Ubuntu voor Blackwell-GPU's (RTX 5090 of RTX 6000 PRO)¶
Bij het installeren van de stabiele versie van PyTorch op deze familie van videokaarten kunnen fouten optreden. Gebruik de nightly-build-versie met ondersteuning door het volgende commando uit te voeren:
pip install --upgrade --force-reinstall torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu130
Waarbij cu130 de CUDA-versie (13.0) is. Als u een eerdere versie (12.8) heeft, gebruikt u het pad https://download.pytorch.org/whl/nightly/cu128.