[AI/LLM] Qdrant란 무엇인가? (정의 및 장단점, Docker기반 세팅, Python 실습)
·
AI Study/[LLM]
1. 들어가며: AI 시대의 데이터베이스, Vector DBChatGPT와 RAG(검색 증강 생성)가 등장하면서 데이터베이스의 패러다임이 바뀌었습니다.기존 RDB(관계형 DB)나 NoSQL은 "키워드 매칭(LIKE 검색)"은 잘하지만, "의미(Meaning)"를 이해하지 못합니다. "배고파"를 검색해서 "맛집 리스트"를 찾아내려면 텍스트를 숫자로 변환한 '벡터(Vector)'를 다뤄야 합니다.이 벡터 데이터를 저장하고, 0.1초 만에 가장 유사한 데이터를 찾아주는 엔진이 바로 Vector Database입니다. 오늘은 그중에서도 성능, 편의성, 기능의 3박자를 모두 갖춘 Qdrant를 완벽하게 파헤쳐 보겠습니다. 2. Qdrant란 무엇인가?Qdrant는 벡터 유사도 검색 엔진이자 데이터베이스입니다. 단..
[AI/RAG] RAG를 위한 Embedding Model 선정, Vector DB 구축
·
AI Study/[LLM]
1. 들어가며: 컴퓨터가 '의미'를 이해하는 방법2편에서 우리는 데이터를 잘게 쪼갰습니다(Chunking). 이제 이 텍스트 조각들을 컴퓨터가 이해할 수 있는 **'숫자(벡터)'**로 바꿔야 합니다.사람: "배가 고프다" $\leftrightarrow$ "맛집을 찾는다" (의미 연결)컴퓨터 (임베딩 전): "배가 고프다" $\neq$ "맛집을 찾는다" (글자 다름)컴퓨터 (임베딩 후): [0.1, 0.5, ...] $\approx$ [0.12, 0.48, ...] (유사함!)임베딩은 텍스트를 N차원 공간의 좌표로 변환하여, 의미적 거리를 계산할 수 있게 해주는 마법입니다. 2. 임베딩 모델 선정 (MTEB 리더보드 활용법)"아무 모델이나 쓰면 안 되나요?" $\rightarrow$ 안 됩니다.임베딩 모델..