[AI/NLP] 최신 임베딩 모델과 원리 (BERT, OpenAI, MTEB, 거리 계산)
·
AI Study/[LLM]
1. 들어가며: "배(Ship)와 배(Pear)를 구분하라"1편의 Word2Vec은 단어를 벡터로 바꾸는 혁명을 일으켰지만, 한계가 명확했습니다."나는 배를 탔다"와 "나는 배를 먹었다"에서, Word2Vec은 두 '배'를 똑같은 벡터 [0.1, 0.5]로 변환합니다. 문맥을 전혀 고려하지 못하기 때문이죠.하지만 검색(RAG)이나 챗봇에서 이런 일이 벌어지면 큰일 납니다. "맛있는 과일"을 검색했는데 "조선소 건조 선박" 문서가 튀어나올 테니까요.이 문제를 해결하기 위해 등장한 것이 바로 Transformer 기반의 **문맥적 임베딩(Contextualized Embedding)**입니다.2. 문맥을 이해하는 혁명: BERT와 SBERT2.1 BERT (Bidirectional Encoder Repres..