[IT_Tips] GPU, CPU, TPU, NPU 완벽 비교 (AI 개발을 위한 하드웨어 총정리)
·
Tech Archive/[IT_Tips]
1. 들어가며딥러닝 모델을 학습시키려는데 "GPU가 없어서 학습이 너무 느려요", "코랩(Colab)에서 TPU를 쓰라는데 그게 뭐죠?", "스마트폰에는 NPU가 들어간다는데 GPU랑 다른 건가요?" 같은 질문을 한 번쯤 해보셨을 겁니다.과거에는 CPU 하나로 모든 것을 처리했지만, AI 시대가 도래하면서 행렬 연산(Matrix Multiplication)에 특화된 다양한 가속기(Accelerator)들이 등장했습니다. 이들은 서로 다른 아키텍처와 목적을 가지고 있으며, 상황에 따라 적절한 하드웨어를 선택하는 것이 비용과 시간을 절약하는 지름길입니다.이번 포스팅에서는 AI 반도체의 4대장인 CPU, GPU, TPU, NPU의 개념과 차이점, 그리고 실전 활용법까지 A to Z를 파헤쳐 보겠습니다.2. C..
[AI/LLM] NVIDIA GPU 모니터링 완벽 가이드 (정의, 구성요소, 실습)
·
AI Study/[LLM]
1. 들어가며딥러닝 모델을 학습시키다 보면 "CUDA out of memory" 오류를 만나거나, 비싼 GPU를 샀는데 정작 사용률(Util)이 0%에서 놀고 있는 현상을 자주 목격합니다. 혹은 서버실의 온도가 너무 높아져서 GPU 성능이 강제로 저하되는 쓰로틀링(Throttling)이 걸리기도 하죠.이 모든 문제의 원인을 파악하고 해결하기 위한 첫걸음은 바로 GPU 모니터링입니다.이번 포스팅에서는 NVIDIA GPU 상태를 확인하는 가장 기본적인 명령어 nvidia-smi의 상세한 해석법부터, 시각적으로 화려한 nvitop, 그리고 Python 코드로 직접 모니터링 시스템을 구축하는 방법까지 A to Z를 정리해 보겠습니다. 2. NVIDIA GPU 모니터링이란? 2.1 개요 및 정의GPU 모니터링은 ..