[AI/LLM] 온프레미스 AI(On-premise AI) 완벽 가이드 (정의, 구성요소, 특징 및 장단점, 활용분야, 실습)
·
AI Study/[LLM]
1. 들어가며최근 챗GPT(ChatGPT), 클로드(Claude)와 같은 뛰어난 생성형 AI가 업무 생산성을 혁신적으로 높여주고 있습니다. 하지만 많은 기업, 특히 금융·의료·공공기관 등 규제가 엄격한 산업군에서는 AI 도입을 주저하고 있습니다.그 이유는 단 하나, '데이터 보안(Security)과 기밀 유출 우려' 때문입니다. 클라우드 기반의 AI에 기업의 민감한 문서, 고객 개인정보, 소스 코드 등을 입력하는 순간 데이터가 외부 서버로 전송되기 때문입니다. 실제로 일부 대기업에서는 사내 기밀 유출 사고 이후 퍼블릭 생성형 AI의 사내 접속을 전면 차단하기도 했습니다.이러한 클라우드 AI의 근본적인 한계를 극복하고, 우리 회사만의 안전한 AI 환경을 구축하기 위해 등장한 대안이 바로 '온프레미스 AI(..
[AI/LLM] 현업에서 vLLM을 사용하는 이유 (vLLM 소개 및 Ollama와 비교)
·
AI Study/[LLM]
1. 들어가며: Ollama는 편한데, 왜 현업에선 vLLM을 쓸까?AI 엔지니어라면 로컬에서 Ollama나 Hugging Face의 transformers.pipeline()을 국룰처럼 씁니다. (저도 간단한 테스트는 Ollama를 애용하고 있습니다.) ollama run ... 명령어 하나로 모델 다운부터 API 서버까지 다 해결되니까요.하지만 이걸로 실제 서비스를 운영한다고 상상해 보세요.사용자 3명이 동시에 접속하는 순간, 서버는 멈칫거리기 시작합니다. 왜일까요? Ollama나 기본 pipeline은 '처리량(Throughput)'을 전혀 고려하지 않고, 한 번에 하나씩(혹은 비효율적인 배치로) 요청을 처리하기 때문입니다.이때 필요한 것이 바로 vLLM입니다. vLLM은 "LLM 추론 성능을 극한..