'encoding' 태그의 글 목록

1. 들어가며2편에서 배운 Speculative Decoding은 혁신적이었지만, 현업 적용엔 큰 장벽이 있었습니다. "내 Llama-3-70B랑 토크나이저가 완벽히 호환되면서, 사이즈는 1/50인 Tiny 모델을 어디서 구하지?"적절한 Draft Model(조수)을 찾는 건 매우 어렵고, 찾더라도 GPU 메모리에 모델 2개를 동시에 올리는 건 부담스럽습니다. 그래서 AI 연구진들은 "별도의 모델 없이(Model-less)" 가속화하는 방법들을 고안해냈습니다.3편에서는 현재 가장 핫한 최신 기술인 Medusa, EAGLE, 그리고 가장 쉬운 N-gram 방식을 소개하고, 현업 표준인 vLLM에서 이를 구동하는 상세 명령어를 정리합니다. 2. 기술 1: Medusa2.1 정의 및 작동 원리Medusa는 별..

1. 들어가며LLM 추론 속도를 높이는 방법은 많습니다. 양자화(Quantization)를 해서 모델을 가볍게 만들거나, 가지치기(Pruning)를 해서 덜 중요한 연산을 날릴 수도 있죠. 하지만 이들은 필연적으로 모델의 정확도(품질) 손실을 가져옵니다.그런데 **"모델의 출력 결과는 100% 똑같은데, 속도만 2~3배 빨라지는 기술"**이 있다면 믿으시겠습니까? 그것이 바로 **Speculative Decoding (추측 디코딩)**입니다.2. Speculative Decoding이란? (정의와 개념)**Speculative Decoding (추측 디코딩)**은 LLM 추론 가속화 기법 중 하나로, **"작고 빠른 모델(Draft Model)이 먼저 여러 토큰을 추측(Speculate)하고, 크고 정확..

1. 들어가며우리가 챗봇에게 "오늘 날씨 어때?"라고 입력하면 AI는 바로 알아듣는 것 같지만, 사실 내부에서는 엄청난 번역 작업이 일어납니다. AI는 '날씨'라는 단어의 의미를 이해하는 것이 아니라, 수많은 숫자 계산 끝에 '맑음'이라는 숫자를 뱉어내는 확률 계산기이기 때문입니다.LLM(Large Language Model)이 텍스트를 생성하는 과정을 이해하려면 먼저 **Encoding(입력)**과 Decoding(출력), 그리고 그 사이에서 발생하는 구조적 병목 현상을 알아야 합니다. 오늘은 Speculative Decoding이라는 고급 기술을 이해하기 위한 필수 기초 체력을 길러보겠습니다.2. Encoding: 인간의 언어를 기계의 언어(숫자)로컴퓨터는 0과 1밖에 모릅니다. 그래서 우리는 텍스트..

티스토리툴바