서버 운영 관리 [ Tip ]

김종하 에반젤리스트

리눅스 커널 업데이트시 발생하는 nvidia-smi 실행 문제 해결 방안

리눅스 커널 업데이트시 발생하는 그래픽카드 모니터링 툴 nvidia-smi 실행 문제에 관해 설명합니다.

 

원인 : 커널 업데이트로 인한 변경 부팅 커널 순서 변경 등


 

※ Linux 4.15.0-22-generic x86_64

 

 

그래픽카드 드라이버는 커널 4.15.0-22 버전에서 설치했고 nvidia-smi가 작동하는것을 볼수 있습니다.

 

※ Linux 4.15.0-118-generic x86_64


리눅스를 업데이트하고 리부팅한뒤 커널 4.15.0-118 버전에서 nvidia-smi를 실행하려하면 아래와 같은 메세지를 확인 할수 있습니다.
이 메세지는 그래픽카드 드라이버가 최신이어도 똑같이 발생합니다.

root@localhost:~# nvidia-smi
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

번역
NVIDIA-SMI가 NVIDIA 드라이버와 통신 할 수 없기 때문에 실패했습니다. 최신 NVIDIA 드라이버가 설치되어 실행 중인지 확인하십시오.

 

해결 방법 : 그래픽카드 드라이버 재설치




※ iwinv GPU 클라우드 제공 이미지에 설치된 버전입니다.

Ubuntu 20.04

wget http://kr.download.nvidia.com/XFree86/Linux-x86_64/450.57/NVIDIA-Linux-x86_64-450.57.run
chmod 755 NVIDIA-Linux-x86_64-450.57.run
sh NVIDIA-Linux-x86_64-450.57.run


CentOS 8

wget https://kr.download.nvidia.com/tesla/440.33.01/NVIDIA-Linux-x86_64-440.33.01.run
chmod 755 NVIDIA-Linux-x86_64-440.33.01.run
sh NVIDIA-Linux-x86_64-440.33.01.run


Ubuntu 18.04, 16.04 CentOS 7

wget http://kr.download.nvidia.com/XFree86/Linux-x86_64/410.104/NVIDIA-Linux-x86_64-410.104.run
chmod 755 NVIDIA-Linux-x86_64-410.104.run
sh NVIDIA-Linux-x86_64-410.104.run

 

 

1. "Continue installation"를 선택합니다.

 

 

2. "OK"를 선택합니다.

 

 

3. "OK"를 선택합니다.

 

 

4. "No"를 선택합니다.

 

 

5. 위와 같은 내용이 나온다면 정상적으로 설치가 완료된것이며 "OK"를 선택합니다.

 

 

6. nvidia-smi를 사용하여 정상적으로 작동하는지 확인합니다.