리눅스 커널 업데이트시 발생하는 nvidia-smi 실행 문제 해결 방안
리눅스 커널 업데이트시 발생하는 그래픽카드 모니터링 툴 nvidia-smi 실행 문제에 관해 설명합니다.
원인 : 커널 업데이트로 인한 변경 부팅 커널 순서 변경 등
※ Linux 4.15.0-22-generic x86_64
그래픽카드 드라이버는 커널 4.15.0-22 버전에서 설치했고 nvidia-smi가 작동하는것을 볼수 있습니다.
※ Linux 4.15.0-118-generic x86_64
리눅스를 업데이트하고 리부팅한뒤 커널 4.15.0-118 버전에서 nvidia-smi를 실행하려하면 아래와 같은 메세지를 확인 할수 있습니다.
이 메세지는 그래픽카드 드라이버가 최신이어도 똑같이 발생합니다.
root@localhost:~# nvidia-smi NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running. 번역 NVIDIA-SMI가 NVIDIA 드라이버와 통신 할 수 없기 때문에 실패했습니다. 최신 NVIDIA 드라이버가 설치되어 실행 중인지 확인하십시오. |
해결 방법 : 그래픽카드 드라이버 재설치
※ iwinv GPU 클라우드 제공 이미지에 설치된 버전입니다.
Ubuntu 20.04
wget http://kr.download.nvidia.com/XFree86/Linux-x86_64/450.57/NVIDIA-Linux-x86_64-450.57.run |
CentOS 8
wget https://kr.download.nvidia.com/tesla/440.33.01/NVIDIA-Linux-x86_64-440.33.01.run chmod 755 NVIDIA-Linux-x86_64-440.33.01.run sh NVIDIA-Linux-x86_64-440.33.01.run |
Ubuntu 18.04, 16.04 CentOS 7
wget http://kr.download.nvidia.com/XFree86/Linux-x86_64/410.104/NVIDIA-Linux-x86_64-410.104.run chmod 755 NVIDIA-Linux-x86_64-410.104.run sh NVIDIA-Linux-x86_64-410.104.run |
1. "Continue installation"를 선택합니다.
2. "OK"를 선택합니다.
3. "OK"를 선택합니다.
4. "No"를 선택합니다.
5. 위와 같은 내용이 나온다면 정상적으로 설치가 완료된것이며 "OK"를 선택합니다.
6. nvidia-smi를 사용하여 정상적으로 작동하는지 확인합니다.