'ContinuousBatching' 태그의 글 목록

1. 들어가며: Ollama는 편한데, 왜 현업에선 vLLM을 쓸까?AI 엔지니어라면 로컬에서 Ollama나 Hugging Face의 transformers.pipeline()을 국룰처럼 씁니다. (저도 간단한 테스트는 Ollama를 애용하고 있습니다.) ollama run ... 명령어 하나로 모델 다운부터 API 서버까지 다 해결되니까요.하지만 이걸로 실제 서비스를 운영한다고 상상해 보세요.사용자 3명이 동시에 접속하는 순간, 서버는 멈칫거리기 시작합니다. 왜일까요? Ollama나 기본 pipeline은 '처리량(Throughput)'을 전혀 고려하지 않고, 한 번에 하나씩(혹은 비효율적인 배치로) 요청을 처리하기 때문입니다.이때 필요한 것이 바로 vLLM입니다. vLLM은 "LLM 추론 성능을 극한..