[AI/RAG] RAG의 시작, 데이터 파이프라인 (LlamaParse, Semantic Chunking)
·
AI Study/[LLM]
1. 들어가며: "Garbage In, Garbage Out"1편에서 우리는 RAG가 '오픈북 테스트'라는 것을 배웠습니다.그런데 만약 교과서(데이터)가 찢어져 있거나, 페이지가 뒤섞여 있다면 어떨까요? 아무리 똑똑한 학생(GPT-4)도 시험을 망칠 수밖에 없습니다.RAG 구축 실패의 70%는 **'데이터 전처리'**에서 발생합니다.표가 깨져서 들어오거나, 문장의 중간이 뚝 끊겨서 의미가 왜곡되는 경우죠.2편에서는 여러분의 지저분한 데이터를 **'LLM이 떠먹기 좋은 형태'**로 가공하는 최신 파이프라인 구축법을 다룹니다.2. 데이터 로드 (Loader): 비정형 데이터 정복하기가장 먼저 할 일은 PDF, 웹페이지, 엑셀 파일 등을 텍스트로 가져오는 것입니다. 2-1. 기본: PDF, Web, CSV (..