[AI/LLM] Docker + vLLM으로 Qwen3-VL 모델 서빙하기
·
AI Study/[LLM]
1. 들어가며이전 포스팅에서 vLLM을 띄우는 법을 알아봤습니다. 하지만 현업에서 docker run --gpus all -p 8000:8000 -v ... (옵션 10줄) ... 같은 명령어를 터미널에 매번 복붙하고 있다면... 그건 재앙의 시작이죠."어? 저번에 썼던 GPU 메모리 옵션이 뭐였지?""새 모델로 바꾸려는데, 명령어 어디부터 고쳐야 해?""HF_TOKEN이 스크립트에 그대로 노출되네?"이때, docker-compose는 복잡한 docker run 명령어를 '설정 파일'로 관리하게 해줍니다. "어떤 모델을, 어떤 GPU로, 어떤 옵션을 줘서" 띄울지 명시하는 '설계도' 그 자체죠.오늘은 최신 멀티모달 모델인 Qwen3-VL을 docker-compose로 완벽하게 띄우는 실전 꿀팁을 A to..