GPU խնդիրների լուծում¶
Այս հոդվածում
- Ubuntu-ում դրայվերների կամ ծրագրային ապահովման թարմացումից հետո առաջանում է NVML սխալանք. Driver/library version mismatch
- Nvidia դրայվերի տեղադրում. Կորնելային մոդուլները չեն կոմպիլյացվում
- Nvidia դրայվերի տեղադրման սխալանք. Անհնար է ստորագրել կորնելային մոդուլները
- PyTorch-ի և դրա մոդուլների տեղադրման սխալանքներ Ubuntu-ում Blackwell GPU-ների համար (RTX 5090 կամ RTX 6000 PRO)
Ubuntu-ում դրայվերների կամ ծրագրային ապահովման թարմացումից հետո առաջանում է NVML սխալանք. Driver/library version mismatch¶
Եթե տեղադրումից հետո հանդիպում եք Failed to initialize NVML: Driver/library version mismatch նման սխալանքի, անհրաժեշտ է վերագործարկել Nvidia կորնելային մոդուլները՝ դրանք հեռացնելով և նորից գործարկելով nvidia-smi հրամանը վերաձևակերպման համար.
sudo rmmod -f nvidia-modeset
sudo rmmod nvidia_uvm
sudo rmmod nvidia_drm
sudo rmmod nvidia-peermem
sudo rmmod nvidia
sudo nvidia-smi
Սխալանքը կարող է առաջանալ նաև /boot բաժնի լցվածության պատճառով՝ համակարգի կորնելի միաժամանակյա թարմացումների ընթացքում և նոր սկզբնական RAM սկավառակների (initrd) կառուցման անհնարինության պատճառով՝ վիդեո քարտի մոդուլներով։ Դա շտկելու համար օգտագործեք այս հրահանգը։
Եթե սխալանքը շարունակվում է, խորհուրդ է տրվում հեռացնել Nvidia դրայվերի փաթեթները.
և վերականգնել դրանք (և CUDA-ն) նորից։
Nvidia դրայվերի տեղադրում. Կորնելային մոդուլները չեն կոմպիլյացվում¶
Եթե Nvidia դրայվերների տեղադրման ընթացքում հանդիպում եք նման սխալանքի.
# command: 'make' -j128 KERNEL_UNAME=6.8.0-64-generic IGNORE_CC_MISMATCH=1 SYSSRC=/lib/modules/6.8.0-64-generic/build LD=/usr/bin/ld.bfd CONFIG_X86_KERNEL_IBT= modules
Makefile:63: WARNING: Unable to locate the compiler x86_64-linux-gnu-gcc-12 from CONFIG_CC_VERSION_TEXT in the kernel configuration.
make[1]: Entering directory '/usr/src/linux-headers-6.8.0-64-generic'
warning: the compiler differs from the one used to build the kernel
The kernel was built by: x86_64-linux-gnu-gcc-12 (Ubuntu 12.3.0-1ubuntu1~22.04) 12.3.0
You are using: cc (Ubuntu 11.4.0-1ubuntu1~22.04) 11.4.0
SYMLINK /var/lib/dkms/nvidia/575.57.08/build/nvidia/nv-kernel.o
SYMLINK /var/lib/dkms/nvidia/575.57.08/build/nvidia-modeset/nv-modeset-kernel.o
սա նշանակում է, որ ձեր համակարգում տեղադրված չէ GCC 12 տարբերակը։ Տեղադրեք այն հետևյալ հրամանով.
և վերականգնեք դրանք (և CUDA-ն) նորից։
Nvidia դրայվերի տեղադրման սխալանք. Անհնար է ստորագրել կորնելային մոդուլները¶
Գրաֆիկական քարտի դրայվերների տեղադրման ընթացքում կարող եք տեսնել սխալանք, որ համակարգը չի կարողանում գտնել update-secureboot-policy փաթեթը և ստորագրել մոդուլները, նույնիսկ եթե Secure Boot-ը անջատված է BIOS-ում.
Building initial module nvidia/575.57.08 for 6.8.0-64-generic
Sign command: /usr/bin/kmodsign
Binary update-secureboot-policy not found, modules won't be signed
Այս խնդիրը լուծելու համար տեղադրեք shim-signed փաթեթը հետևյալ հրամանով.
և վերականգնեք դրանք (և CUDA-ն) նորից։
PyTorch-ի և դրա մոդուլների տեղադրման սխալանքներ Ubuntu-ում Blackwell GPU-ների համար (RTX 5090 կամ RTX 6000 PRO)¶
Այս ընտանիքի գրաֆիկական քարտերի համար PyTorch-ի կայուն տարբերակը տեղադրելիս կարող են առաջանալ սխալանքներ։ Օգտագործեք nightly build տարբերակը՝ դրանց աջակցությամբ՝ գործարկելով հետևյալ հրամանը.
pip install --upgrade --force-reinstall torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu130
Որտեղ cu130-ը CUDA-ի տարբերակն է (13.0)։ Եթե ունեք ավելի վաղ տարբերակ (12.8), օգտագործեք https://download.pytorch.org/whl/nightly/cu128 ճանապարհը։