[AI/LLM] LLM 속도 파헤쳐보기 (TTFT, TPOT, Throughput 개념)
·
AI Study/[LLM]
1. 들어가며AI/ML 엔지니어로서 LLM을 다루다 보면 "모델 서빙 속도"를 리포트해야 할 일이 정말 많습니다.이때 "우리 모델 빨라요"라고 말하는 건, 솔직히 아무 의미가 없습니다. "뭐가, 어떻게, 얼마나" 빠른지 숫자로 말해야 진짜 엔지니어죠."LLM이 빠르다"고 할 때, 우리는 보통 3~4가지의 완전히 다른 지표를 봅니다.이번에는 이 핵심 지표들(TTFT, TPOT, Latency, Throughput)의 '개념'부터 '간단한 측정 코드'까지 확실히 짚고 넘어가겠습니다.2. TTFT (Time to First Token) - 체감 속도정의: 첫 번째 토큰까지 걸린 시간의미: 사용자가 프롬프트를 입력하고 '전송' 버튼을 눌렀을 때, LLM이 '첫 번째 토큰(단어)'을 뱉어낼 때까지 걸린 시간입니다..