[AI/LLM] Speculative Decoding의 정의 및 원리 (Draft & Verify)
·
AI Study/[LLM]
1. 들어가며LLM 추론 속도를 높이는 방법은 많습니다. 양자화(Quantization)를 해서 모델을 가볍게 만들거나, 가지치기(Pruning)를 해서 덜 중요한 연산을 날릴 수도 있죠. 하지만 이들은 필연적으로 모델의 정확도(품질) 손실을 가져옵니다.그런데 **"모델의 출력 결과는 100% 똑같은데, 속도만 2~3배 빨라지는 기술"**이 있다면 믿으시겠습니까? 그것이 바로 **Speculative Decoding (추측 디코딩)**입니다.2. Speculative Decoding이란? (정의와 개념)**Speculative Decoding (추측 디코딩)**은 LLM 추론 가속화 기법 중 하나로, **"작고 빠른 모델(Draft Model)이 먼저 여러 토큰을 추측(Speculate)하고, 크고 정확..