Ga naar inhoud

Oplossen van GPU-problemen

In dit artikel

Na het updaten van drivers of software in Ubuntu treedt een NVML-fout op: Driver/library version mismatch

Als u na de installatie een foutmelding krijgt zoals Failed to initialize NVML: Driver/library version mismatch, is het noodzakelijk om de Nvidia-kernelmodules opnieuw te verbinden door ze te verwijderen en nvidia-smi opnieuw uit te voeren voor herinitialisatie:

sudo rmmod -f nvidia-modeset
sudo rmmod nvidia_uvm
sudo rmmod nvidia_drm
sudo rmmod nvidia-peermem
sudo rmmod nvidia
sudo nvidia-smi

De fout kan ook optreden als de /boot-partitie vol is tijdens gelijktijdige systeemkernel-updates en het niet mogelijk is om nieuwe initiële RAM-schijven (initrd) te bouwen met videokaartmodules. Om dit op te lossen, gebruikt u deze instructie.

Als de fout aanhoudt, wordt aanbevolen om de Nvidia-driverpakketten te verwijderen

sudo apt purge -s "nvidia*" "libnvidia*"
sudo apt autoremove
sudo apt --fix-broken install

en ze (en CUDA) opnieuw te installeren.

Installatie van Nvidia-drivers: Kernelmodules niet gecompileerd

Als u tijdens de installatie van Nvidia-drivers een foutmelding krijgt zoals deze:

# command: 'make' -j128 KERNEL_UNAME=6.8.0-64-generic IGNORE_CC_MISMATCH=1 SYSSRC=/lib/modules/6.8.0-64-generic/build LD=/usr/bin/ld.bfd CONFIG_X86_KERNEL_IBT= modules
Makefile:63: WARNING: Unable to locate the compiler x86_64-linux-gnu-gcc-12 from CONFIG_CC_VERSION_TEXT in the kernel configuration.
make[1]: Entering directory '/usr/src/linux-headers-6.8.0-64-generic'
warning: the compiler differs from the one used to build the kernel
  The kernel was built by: x86_64-linux-gnu-gcc-12 (Ubuntu 12.3.0-1ubuntu1~22.04) 12.3.0
  You are using:           cc (Ubuntu 11.4.0-1ubuntu1~22.04) 11.4.0
  SYMLINK /var/lib/dkms/nvidia/575.57.08/build/nvidia/nv-kernel.o
  SYMLINK /var/lib/dkms/nvidia/575.57.08/build/nvidia-modeset/nv-modeset-kernel.o

betekent dit dat GCC-versie 12 niet op uw systeem is geïnstalleerd. Installeer deze met het volgende commando:

sudo apt install gcc-12 g++-12

en installeer ze (en CUDA) opnieuw.

Fout bij installatie van Nvidia-drivers: Kan kernelmodules niet ondertekenen

Tijdens de installatie van videokaartdrivers kunt u een foutmelding zien dat het systeem het pakket update-secureboot-policy niet kan vinden en de modules niet kan ondertekenen, zelfs al is Secure Boot uitgeschakeld in de BIOS:

Building initial module nvidia/575.57.08 for 6.8.0-64-generic
Sign command: /usr/bin/kmodsign
Binary update-secureboot-policy not found, modules won't be signed

Om dit probleem op te lossen, installeert u het pakket shim-signed met het volgende commando:

sudo apt install shim-signed

en installeer ze (en CUDA) opnieuw.

Fouten bij het installeren van PyTorch en modules op Ubuntu voor Blackwell-GPU's (RTX 5090 of RTX 6000 PRO)

Bij het installeren van de stabiele versie van PyTorch op deze familie van videokaarten kunnen fouten optreden. Gebruik de nightly-build-versie met ondersteuning door het volgende commando uit te voeren:

pip install --upgrade --force-reinstall torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu130

Waarbij cu130 de CUDA-versie (13.0) is. Als u een eerdere versie (12.8) heeft, gebruikt u het pad https://download.pytorch.org/whl/nightly/cu128.

question_mark
Is there anything I can help you with?
question_mark
AI Assistant ×