[AI/LLM] LLM 모델 양자화 A to Z (GGUF, GPTQ, AWQ, BF16, FP8 등)
·
AI Study/[LLM]
1. 들어가며AI Engineer라면 최근 공개된 OpenAI의 gpt-oss-120b (117B 파라미터)에 관심이 많으실 겁니다.그런데 OpenAI는 "이 모델이 H100(80GB) 한 장에 거뜬히 돌아간다"고 말합니다."잠깐, 117B 모델이면 FP16(16비트) 원본 기준으로 VRAM이 117B * 2 bytes = ~234 GB 필요한 거 아냐? H100 1대로는 부족한데?"맞습니다. 이 모델이 H100 한 장에 올라가는 비결은, OpenAI가 MXFP4라는 OpenAI 전용 4비트 부동소수점 포맷으로 모델을 '양자화(Quantization)'해서 배포했기 때문입니다.양자화(Quantization)는 모델의 가중치(weight)를 저장하는 숫자의 정밀도를 낮춰서 파일 크기를 '압축'하는 기술입니..