[AI/LLM] Speculative Decoding 기술과 실전 구현 (EAGLE, Medusa, N-gram)
·
AI Study/[LLM]
1. 들어가며2편에서 배운 Speculative Decoding은 혁신적이었지만, 현업 적용엔 큰 장벽이 있었습니다. "내 Llama-3-70B랑 토크나이저가 완벽히 호환되면서, 사이즈는 1/50인 Tiny 모델을 어디서 구하지?"적절한 Draft Model(조수)을 찾는 건 매우 어렵고, 찾더라도 GPU 메모리에 모델 2개를 동시에 올리는 건 부담스럽습니다. 그래서 AI 연구진들은 "별도의 모델 없이(Model-less)" 가속화하는 방법들을 고안해냈습니다.3편에서는 현재 가장 핫한 최신 기술인 Medusa, EAGLE, 그리고 가장 쉬운 N-gram 방식을 소개하고, 현업 표준인 vLLM에서 이를 구동하는 상세 명령어를 정리합니다. 2. 기술 1: Medusa2.1 정의 및 작동 원리Medusa는 별..