[AI/LLM] MoE (Mixture of Experts)란 무엇인가? (정의, 구성요소, 장단점, 실습)
·
AI Study/[LLM]
1. 들어가며GPT-4, Gemini 같은 최신 LLM(거대언어모델)들은 파라미터 수가 수천억 개에 달합니다. 모델이 커질수록 성능은 좋아지지만, 그만큼 엄청난 계산 비용(VRAM, FLOPs)을 요구합니다. 모든 입력 토큰에 대해 수천억 개의 파라미터를 전부 사용해야 하기 때문이죠."천재 한 명이 모든 걸 다 하기보다, 각 분야 전문가 여러 명에게 일을 나눠주면 훨씬 효율적이지 않을까?"이 질문에서 시작된 기술이 바로 MoE (Mixture of Experts)입니다. 모델의 크기(Capacity)는 키우면서도, 실제 계산에 사용되는 비용(Cost)은 획기적으로 줄이는 마법 같은 기술이죠. 최근 Mistral 8x7B, GPT-4, DeepSeek-V2 등 SOTA(State-of-the-Art) 모델..