Անցնել պարունակությանը

GPU խնդիրների լուծում

Այս հոդվածում

Ubuntu-ում դրայվերների կամ ծրագրային ապահովման թարմացումից հետո առաջանում է NVML սխալանք. Driver/library version mismatch

Եթե տեղադրումից հետո հանդիպում եք Failed to initialize NVML: Driver/library version mismatch նման սխալանքի, անհրաժեշտ է վերագործարկել Nvidia կորնելային մոդուլները՝ դրանք հեռացնելով և նորից գործարկելով nvidia-smi հրամանը վերաձևակերպման համար.

sudo rmmod -f nvidia-modeset
sudo rmmod nvidia_uvm
sudo rmmod nvidia_drm
sudo rmmod nvidia-peermem
sudo rmmod nvidia
sudo nvidia-smi

Սխալանքը կարող է առաջանալ նաև /boot բաժնի լցվածության պատճառով՝ համակարգի կորնելի միաժամանակյա թարմացումների ընթացքում և նոր սկզբնական RAM սկավառակների (initrd) կառուցման անհնարինության պատճառով՝ վիդեո քարտի մոդուլներով։ Դա շտկելու համար օգտագործեք այս հրահանգը։

Եթե սխալանքը շարունակվում է, խորհուրդ է տրվում հեռացնել Nvidia դրայվերի փաթեթները.

sudo apt purge -s "nvidia*" "libnvidia*"
sudo apt autoremove
sudo apt --fix-broken install

և վերականգնել դրանք (և CUDA-ն) նորից։

Nvidia դրայվերի տեղադրում. Կորնելային մոդուլները չեն կոմպիլյացվում

Եթե Nvidia դրայվերների տեղադրման ընթացքում հանդիպում եք նման սխալանքի.

# command: 'make' -j128 KERNEL_UNAME=6.8.0-64-generic IGNORE_CC_MISMATCH=1 SYSSRC=/lib/modules/6.8.0-64-generic/build LD=/usr/bin/ld.bfd CONFIG_X86_KERNEL_IBT= modules
Makefile:63: WARNING: Unable to locate the compiler x86_64-linux-gnu-gcc-12 from CONFIG_CC_VERSION_TEXT in the kernel configuration.
make[1]: Entering directory '/usr/src/linux-headers-6.8.0-64-generic'
warning: the compiler differs from the one used to build the kernel
  The kernel was built by: x86_64-linux-gnu-gcc-12 (Ubuntu 12.3.0-1ubuntu1~22.04) 12.3.0
  You are using:           cc (Ubuntu 11.4.0-1ubuntu1~22.04) 11.4.0
  SYMLINK /var/lib/dkms/nvidia/575.57.08/build/nvidia/nv-kernel.o
  SYMLINK /var/lib/dkms/nvidia/575.57.08/build/nvidia-modeset/nv-modeset-kernel.o

սա նշանակում է, որ ձեր համակարգում տեղադրված չէ GCC 12 տարբերակը։ Տեղադրեք այն հետևյալ հրամանով.

sudo apt install gcc-12 g++-12

և վերականգնեք դրանք (և CUDA-ն) նորից։

Nvidia դրայվերի տեղադրման սխալանք. Անհնար է ստորագրել կորնելային մոդուլները

Գրաֆիկական քարտի դրայվերների տեղադրման ընթացքում կարող եք տեսնել սխալանք, որ համակարգը չի կարողանում գտնել update-secureboot-policy փաթեթը և ստորագրել մոդուլները, նույնիսկ եթե Secure Boot-ը անջատված է BIOS-ում.

Building initial module nvidia/575.57.08 for 6.8.0-64-generic
Sign command: /usr/bin/kmodsign
Binary update-secureboot-policy not found, modules won't be signed

Այս խնդիրը լուծելու համար տեղադրեք shim-signed փաթեթը հետևյալ հրամանով.

sudo apt install shim-signed

և վերականգնեք դրանք (և CUDA-ն) նորից։

PyTorch-ի և դրա մոդուլների տեղադրման սխալանքներ Ubuntu-ում Blackwell GPU-ների համար (RTX 5090 կամ RTX 6000 PRO)

Այս ընտանիքի գրաֆիկական քարտերի համար PyTorch-ի կայուն տարբերակը տեղադրելիս կարող են առաջանալ սխալանքներ։ Օգտագործեք nightly build տարբերակը՝ դրանց աջակցությամբ՝ գործարկելով հետևյալ հրամանը.

pip install --upgrade --force-reinstall torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu130

Որտեղ cu130-ը CUDA-ի տարբերակն է (13.0)։ Եթե ունեք ավելի վաղ տարբերակ (12.8), օգտագործեք https://download.pytorch.org/whl/nightly/cu128 ճանապարհը։

question_mark
Is there anything I can help you with?
question_mark
AI Assistant ×