Aller au contenu

Résolution des problèmes GPU

Dans cet article

Après la mise à jour des pilotes ou des logiciels sous Ubuntu, une erreur NVML se produit : Incompatibilité de version pilote/bibliothèque

Si vous rencontrez une erreur semblable à Failed to initialize NVML: Driver/library version mismatch après l'installation, il est nécessaire de reconnecter les modules noyau Nvidia en les supprimant et en exécutant à nouveau nvidia-smi pour une réinitialisation :

sudo rmmod -f nvidia-modeset
sudo rmmod nvidia_uvm
sudo rmmod nvidia_drm
sudo rmmod nvidia-peermem
sudo rmmod nvidia
sudo nvidia-smi

L'erreur peut également survenir en raison de la partition /boot pleine lors de mises à jour simultanées du noyau système et de l'impossibilité de construire de nouveaux disques RAM initiaux (initrd) avec les modules de la carte graphique. Pour résoudre ce problème, utilisez cette instruction.

Si l'erreur persiste, il est recommandé de supprimer les paquets de pilotes Nvidia

sudo apt purge -s "nvidia*" "libnvidia*"
sudo apt autoremove
sudo apt --fix-broken install

et de les réinstaller (ainsi que CUDA) à nouveau.

Installation du pilote Nvidia : Modules noyau non compilés

Si vous rencontrez une erreur lors de l'installation des pilotes Nvidia semblable à celle-ci :

# command: 'make' -j128 KERNEL_UNAME=6.8.0-64-generic IGNORE_CC_MISMATCH=1 SYSSRC=/lib/modules/6.8.0-64-generic/build LD=/usr/bin/ld.bfd CONFIG_X86_KERNEL_IBT= modules
Makefile:63: WARNING: Unable to locate the compiler x86_64-linux-gnu-gcc-12 from CONFIG_CC_VERSION_TEXT in the kernel configuration.
make[1]: Entering directory '/usr/src/linux-headers-6.8.0-64-generic'
warning: the compiler differs from the one used to build the kernel
  The kernel was built by: x86_64-linux-gnu-gcc-12 (Ubuntu 12.3.0-1ubuntu1~22.04) 12.3.0
  You are using:           cc (Ubuntu 11.4.0-1ubuntu1~22.04) 11.4.0
  SYMLINK /var/lib/dkms/nvidia/575.57.08/build/nvidia/nv-kernel.o
  SYMLINK /var/lib/dkms/nvidia/575.57.08/build/nvidia-modeset/nv-modeset-kernel.o

cela signifie que la version 12 de GCC n'est pas installée sur votre système. Installez-la à l'aide de la commande :

sudo apt install gcc-12 g++-12

et réinstallez-les (ainsi que CUDA) à nouveau.

Erreur d'installation du pilote Nvidia : Impossible de signer les modules noyau

Lors de l'installation des pilotes de carte graphique, vous pourriez voir une erreur indiquant que le système ne trouve pas le paquet update-secureboot-policy et ne peut pas signer les modules, même si le Secure Boot est désactivé dans le BIOS :

Building initial module nvidia/575.57.08 for 6.8.0-64-generic
Sign command: /usr/bin/kmodsign
Binary update-secureboot-policy not found, modules won't be signed

Pour résoudre ce problème, installez le paquet shim-signed avec la commande :

sudo apt install shim-signed

et réinstallez-les (ainsi que CUDA) à nouveau.

Erreurs lors de l'installation de PyTorch et de ses modules sous Ubuntu pour les GPU Blackwell (RTX 5090 ou RTX 6000 PRO)

Lors de l'installation de la version stable de PyTorch sur cette famille de cartes graphiques, des erreurs peuvent survenir. Utilisez la version de construction nocturne (nightly build) avec leur support en exécutant la commande suivante :

pip install --upgrade --force-reinstall torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu130

cu130 est la version CUDA (13.0). Si vous avez une version antérieure (12.8), utilisez le chemin https://download.pytorch.org/whl/nightly/cu128.