'LLM Serving' 태그의 글 목록

1. 들어가며이전 포스팅에서 vLLM을 띄우는 법을 알아봤습니다. 하지만 현업에서 docker run --gpus all -p 8000:8000 -v ... (옵션 10줄) ... 같은 명령어를 터미널에 매번 복붙하고 있다면... 그건 재앙의 시작이죠."어? 저번에 썼던 GPU 메모리 옵션이 뭐였지?""새 모델로 바꾸려는데, 명령어 어디부터 고쳐야 해?""HF_TOKEN이 스크립트에 그대로 노출되네?"이때, docker-compose는 복잡한 docker run 명령어를 '설정 파일'로 관리하게 해줍니다. "어떤 모델을, 어떤 GPU로, 어떤 옵션을 줘서" 띄울지 명시하는 '설계도' 그 자체죠.오늘은 최신 멀티모달 모델인 Qwen3-VL을 docker-compose로 완벽하게 띄우는 실전 꿀팁을 A to..

1. 들어가며: pip install 대신 Docker이전 게시글에서 vLLM의 '미친' 이론(PagedAttention)을 봤습니다. 이제 이 괴물 같은 놈을 서버에 설치할 차례죠.물론 pip install vllm? 됩니다. (요즘엔 uv pip install vllm이 더 빠르죠.) 하지만 현업에서 서버에 pip으로 직접 설치하는 순간, 지옥이 펼쳐집니다. 며칠 뒤 import가 꼬이고, NVIDIA 드라이버와 CUDA 버전이 충돌해서 밤새 머리를 쥐어뜯게 되죠.이럴 땐 역시 Docker가 편합니다..근데 docker run --gpus all ...로 시작하는 긴 명령어를 매번 치는 건 더 귀찮습니다. (저는 보통 docker-compose.yml로 만들어서 컨테이너를 올립니다.)이번에는 dock..

1. 들어가며: Ollama는 편한데, 왜 현업에선 vLLM을 쓸까?AI 엔지니어라면 로컬에서 Ollama나 Hugging Face의 transformers.pipeline()을 국룰처럼 씁니다. (저도 간단한 테스트는 Ollama를 애용하고 있습니다.) ollama run ... 명령어 하나로 모델 다운부터 API 서버까지 다 해결되니까요.하지만 이걸로 실제 서비스를 운영한다고 상상해 보세요.사용자 3명이 동시에 접속하는 순간, 서버는 멈칫거리기 시작합니다. 왜일까요? Ollama나 기본 pipeline은 '처리량(Throughput)'을 전혀 고려하지 않고, 한 번에 하나씩(혹은 비효율적인 배치로) 요청을 처리하기 때문입니다.이때 필요한 것이 바로 vLLM입니다. vLLM은 "LLM 추론 성능을 극한..

티스토리툴바