[AI/SLM] SLM (소형 언어 모델)이란 무엇인가? (정의, 핵심 기술, 장단점, 대표 모델, 실습)
·
AI Study/[LLM]
1. 들어가며2023년이 GPT-4와 같은 초거대 언어 모델(LLM)의 해였다면, 2024년과 2025년은 SLM(Small Language Model, 소형 언어 모델)의 해라고 해도 과언이 아닙니다.LLM은 놀라운 성능을 보여주지만, 천문학적인 운영 비용, 느린 응답 속도, 그리고 클라우드에 데이터를 보내야 하는 보안 문제라는 명확한 한계가 존재합니다. 이에 대한 해답으로 등장한 것이 바로 SLM입니다."내 노트북, 내 스마트폰에서 인터넷 없이 돌아가는 고성능 AI."이번 포스팅에서는 빅테크 기업들이 사활을 걸고 있는 SLM의 정의와 핵심 기술(경량화), 그리고 파이썬을 이용해 내 컴퓨터에서 직접 SLM을 구동하는 방법까지 A to Z를 정리해 보겠습니다.2. SLM(Small Language Mod..
[AI/LLM] MoE (Mixture of Experts)란 무엇인가? (정의, 구성요소, 장단점, 실습)
·
AI Study/[LLM]
1. 들어가며GPT-4, Gemini 같은 최신 LLM(거대언어모델)들은 파라미터 수가 수천억 개에 달합니다. 모델이 커질수록 성능은 좋아지지만, 그만큼 엄청난 계산 비용(VRAM, FLOPs)을 요구합니다. 모든 입력 토큰에 대해 수천억 개의 파라미터를 전부 사용해야 하기 때문이죠."천재 한 명이 모든 걸 다 하기보다, 각 분야 전문가 여러 명에게 일을 나눠주면 훨씬 효율적이지 않을까?"이 질문에서 시작된 기술이 바로 MoE (Mixture of Experts)입니다. 모델의 크기(Capacity)는 키우면서도, 실제 계산에 사용되는 비용(Cost)은 획기적으로 줄이는 마법 같은 기술이죠. 최근 Mistral 8x7B, GPT-4, DeepSeek-V2 등 SOTA(State-of-the-Art) 모델..
[AI/LLM] Docker + vLLM으로 Qwen3-VL 모델 서빙하기
·
AI Study/[LLM]
1. 들어가며이전 포스팅에서 vLLM을 띄우는 법을 알아봤습니다. 하지만 현업에서 docker run --gpus all -p 8000:8000 -v ... (옵션 10줄) ... 같은 명령어를 터미널에 매번 복붙하고 있다면... 그건 재앙의 시작이죠."어? 저번에 썼던 GPU 메모리 옵션이 뭐였지?""새 모델로 바꾸려는데, 명령어 어디부터 고쳐야 해?""HF_TOKEN이 스크립트에 그대로 노출되네?"이때, docker-compose는 복잡한 docker run 명령어를 '설정 파일'로 관리하게 해줍니다. "어떤 모델을, 어떤 GPU로, 어떤 옵션을 줘서" 띄울지 명시하는 '설계도' 그 자체죠.오늘은 최신 멀티모달 모델인 Qwen3-VL을 docker-compose로 완벽하게 띄우는 실전 꿀팁을 A to..
[AI/LLM] Docker로 vLLM 모델 서빙 및 서버 구축 A to Z
·
AI Study/[LLM]
1. 들어가며: pip install 대신 Docker이전 게시글에서 vLLM의 '미친' 이론(PagedAttention)을 봤습니다. 이제 이 괴물 같은 놈을 서버에 설치할 차례죠.물론 pip install vllm? 됩니다. (요즘엔 uv pip install vllm이 더 빠르죠.) 하지만 현업에서 서버에 pip으로 직접 설치하는 순간, 지옥이 펼쳐집니다. 며칠 뒤 import가 꼬이고, NVIDIA 드라이버와 CUDA 버전이 충돌해서 밤새 머리를 쥐어뜯게 되죠.이럴 땐 역시 Docker가 편합니다..근데 docker run --gpus all ...로 시작하는 긴 명령어를 매번 치는 건 더 귀찮습니다. (저는 보통 docker-compose.yml로 만들어서 컨테이너를 올립니다.)이번에는 dock..
[AI/LLM] 현업에서 vLLM을 사용하는 이유 (vLLM 소개 및 Ollama와 비교)
·
AI Study/[LLM]
1. 들어가며: Ollama는 편한데, 왜 현업에선 vLLM을 쓸까?AI 엔지니어라면 로컬에서 Ollama나 Hugging Face의 transformers.pipeline()을 국룰처럼 씁니다. (저도 간단한 테스트는 Ollama를 애용하고 있습니다.) ollama run ... 명령어 하나로 모델 다운부터 API 서버까지 다 해결되니까요.하지만 이걸로 실제 서비스를 운영한다고 상상해 보세요.사용자 3명이 동시에 접속하는 순간, 서버는 멈칫거리기 시작합니다. 왜일까요? Ollama나 기본 pipeline은 '처리량(Throughput)'을 전혀 고려하지 않고, 한 번에 하나씩(혹은 비효율적인 배치로) 요청을 처리하기 때문입니다.이때 필요한 것이 바로 vLLM입니다. vLLM은 "LLM 추론 성능을 극한..