[AI/LLM] NVIDIA GPU 모니터링 완벽 가이드 (정의, 구성요소, 실습)
·
AI Study/[LLM]
1. 들어가며딥러닝 모델을 학습시키다 보면 "CUDA out of memory" 오류를 만나거나, 비싼 GPU를 샀는데 정작 사용률(Util)이 0%에서 놀고 있는 현상을 자주 목격합니다. 혹은 서버실의 온도가 너무 높아져서 GPU 성능이 강제로 저하되는 쓰로틀링(Throttling)이 걸리기도 하죠.이 모든 문제의 원인을 파악하고 해결하기 위한 첫걸음은 바로 GPU 모니터링입니다.이번 포스팅에서는 NVIDIA GPU 상태를 확인하는 가장 기본적인 명령어 nvidia-smi의 상세한 해석법부터, 시각적으로 화려한 nvitop, 그리고 Python 코드로 직접 모니터링 시스템을 구축하는 방법까지 A to Z를 정리해 보겠습니다. 2. NVIDIA GPU 모니터링이란? 2.1 개요 및 정의GPU 모니터링은 ..