'분류 전체보기' 카테고리의 글 목록 (5 Page)

1. 들어가며Python으로 개발을 하다 보면, 프로젝트가 커질수록 의존성 관리(Dependency Management)가 골칫거리가 됩니다. 우리는 보통 pip freeze > requirements.txt 명령어로 패키지 목록을 저장하곤 합니다. 하지만 이 방식에는 치명적인 단점이 있습니다.의존성의 의존성: 내가 설치한 패키지(requests)와 그것이 의존하는 패키지(urllib3, certifi 등)가 뒤섞여 관리됩니다.버전 충돌: 패키지 A와 B가 서로 다른 버전의 패키지 C를 요구할 때, pip는 이를 명확하게 해결해주지 못해 충돌이 발생합니다.환경 분리: 가상환경(venv, virtualenv)을 매번 수동으로 생성하고 활성화해야 하는 번거로움이 있습니다.이러한 문제들을 해결하기 위해 등장한..

1. 들어가며인공지능(AI)과 빅데이터 시대에서 가장 중요한 자원은 바로 '데이터'입니다. 하지만 인터넷상의 수많은 유용한 정보들은 정형화된 엑셀 파일이나 CSV가 아니라, 복잡한 HTML 코드로 이루어진 웹페이지 속에 숨겨져 있습니다.수천 개의 상품 가격을 비교하거나, 뉴스 기사의 트렌드를 분석하고 싶을 때, 일일이 '복사-붙여넣기'를 할 수는 없습니다. 이때 필요한 기술이 바로 웹 스크래핑(Web Scraping)입니다. 그리고 파이썬 생태계에서 웹 스크래핑 입문부터 실무까지 가장 널리, 그리고 사랑받으며 사용되는 라이브러리가 바로 BeautifulSoup입니다.이번 포스팅에서는 BeautifulSoup의 정의부터 핵심 기능, 장단점, 그리고 실제 데이터를 수집하는 End-to-End 파이프라인까지 ..

1. 들어가며: "파이썬의 자유로움, 때로는 독이 된다"파이썬 개발자라면 누구나 한 번쯤 겪어봤을 상황이 있습니다.API로 {"age": "20"}이라는 문자열 데이터가 들어왔는데, 코드에서는 숫자로 계산하려다 에러가 터지는 경우죠. 이를 막으려면 수많은 if isinstance(age, int): 같은 방어 코드를 짜야 합니다.Pydantic은 이 지루하고 반복적인 작업을 파이썬의 Type Hint(타입 힌트) 문법을 이용해 우아하게 해결해 줍니다. 단순한 검증을 넘어 데이터를 알맞은 타입으로 변환(Parsing)해 주는 강력한 도구, Pydantic의 세계로 여러분을 초대합니다.2. Pydantic이란?링크: https://docs.pydantic.dev/latest/ Welcome to Pydant..

1. 들어가며RAG(검색 증강 생성) 시스템을 구축하거나 LLM을 학습시킬 때 가장 큰 골칫거리는 무엇일까요? 바로 데이터 전처리입니다.회사에 쌓여있는 문서는 PDF, Word, Excel, PowerPoint 등 다양한 포맷으로 존재합니다. 이를 단순히 텍스트만 추출(Plain Text)하면 표 구조가 깨지거나 제목과 본문의 구분이 사라져, AI가 문맥을 제대로 이해하지 못합니다.이때 Markdown(마크다운)은 최고의 해결책입니다. # 제목, | 표 | 와 같이 구조를 명확히 유지하면서도 토큰 효율성이 좋기 때문이죠.오늘 소개할 MarkItDown은 마이크로소프트가 개발한 오픈소스 도구로, "세상의 모든 파일을 가장 쉽고 빠르게 마크다운으로 변환"해주는 강력한 유틸리티입니다. 단순 변환을 넘어 OCR..

1. 들어가며: "왜 데이터베이스로는 검색이 느릴까?"우리가 흔히 쓰는 MySQL이나 Oracle 같은 관계형 데이터베이스(RDBMS)는 데이터를 정형화하여 저장하는 데 최적화되어 있습니다. 하지만 "특정 단어가 포함된 텍스트"를 찾으려면 어떻게 해야 할까요? 보통 LIKE %검색어% 쿼리를 사용합니다.하지만 데이터가 수억 건이 넘어가면 이 방식은 모든 행을 다 뒤져야 하므로(Full Scan), 속도가 급격히 느려집니다. 또한, "애플"을 검색했을 때 "Apple"이나 "사과"까지 찾고 싶다면 RDBMS로는 구현이 매우 복잡해집니다.이러한 문제를 해결하기 위해 등장한 것이 바로 Elastic Search(엘라스틱 서치)입니다. "검색을 위한 데이터베이스"로서, 압도적인 속도와 유연성을 자랑하는 이 기술..

1. 들어가며대규모 언어 모델(LLM)은 놀라운 지능을 가졌지만, 두 가지 치명적인 한계가 있습니다. 첫째는 "학습 시점 이후의 정보는 모른다"는 것이고, 둘째는 "외부 세상과 단절되어 있다"는 것입니다.이를 해결하기 위해 우리는 지금까지 복잡한 API 연동 코드를 직접 짜거나, LangChain 같은 프레임워크에 의존해 왔습니다. 하지만 AI 에이전트와 도구(Tool)의 수가 폭발적으로 늘어나면서, 모든 AI 모델과 모든 도구를 일일이 연결하는 것(M×N 문제)은 불가능에 가까워졌습니다.이때 등장한 것이 바로 MCP(Model Context Protocol)입니다. 마치 컴퓨터 주변기기를 연결할 때 제조사 상관없이 USB-C 하나로 통일하듯, AI 모델이 외부 데이터나 시스템과 소통하는 방식을 표준화한..

1. 들어가며안녕하세요! 딥러닝 완전 정복 시리즈, 그 네 번째 시간입니다.지난 3편에서는 순서를 기억하는 RNN에 대해 배웠습니다. 하지만 RNN은 문장을 처음부터 끝까지 순서대로 읽어야 해서 속도가 느리고, 문장이 길어지면 앞의 내용을 까먹는(장기 의존성) 문제가 있었습니다."순서대로 읽지 말고, 문장 전체를 한 번에 보면서 중요한 단어끼리 연결하면 안 될까?"이 혁명적인 아이디어로 2017년 구글이 발표한 논문이 바로 **"Attention Is All You Need"**입니다. 그리고 여기서 탄생한 모델이 **트랜스포머(Transformer)**입니다.오늘날의 ChatGPT, BERT, 그리고 수많은 AI 모델의 어머니가 된 트랜스포머의 모든 것을 파헤쳐 봅시다!2. 트랜스포머(Transform..

1. 들어가며안녕하세요! 딥러닝 완전 정복 시리즈, 그 세 번째 시간입니다.1편 ANN과 2편 CNN은 **"현재의 입력"**만 보고 판단하는 모델이었습니다.하지만 우리가 사는 세상의 데이터는 대부분 **"순서(Sequence)"**와 **"맥락(Context)"**을 가지고 있습니다."배가 고파서 밥을 [ ]" $\rightarrow$ 빈칸을 채우려면 앞의 내용을 기억해야 합니다.주가 예측 $\rightarrow$ 어제의 가격이 오늘의 가격에 영향을 줍니다.이렇게 이전의 정보를 기억하고, 현재의 판단에 활용하는 신경망이 바로 **RNN (Recurrent Neural Network)**입니다. 자연어 처리(NLP)와 시계열 분석의 근간이 되는 RNN의 모든 것을 파헤쳐 봅시다!2. RNN (Recurr..

1. 들어가며안녕하세요! 딥러닝 완전 정복 시리즈, 그 두 번째 시간입니다.지난 1편에서는 뇌를 모방한 인공신경망(ANN)에 대해 배웠습니다. 하지만 ANN은 이미지 같은 2차원 데이터를 1차원으로 펴서(Flatten) 처리하기 때문에, 픽셀 간의 공간적 정보(위치, 패턴)를 잃어버린다는 치명적인 단점이 있었습니다."눈, 코, 입의 위치가 바뀌어도 얼굴을 알아볼 수는 없을까?"이 질문에서 시작된 것이 바로 합성곱 신경망 (CNN, Convolutional Neural Network)입니다. 자율주행, 얼굴 인식, 의료 영상 분석 등 현대 AI 기술의 핵심인 CNN의 모든 것을 파헤쳐 봅시다!2. CNN (Convolutional Neural Network)이란? 2.1 정의 및 배경CNN은 **이미지의 ..

1. 들어가며안녕하세요! 인공지능과 딥러닝의 세계에 오신 것을 환영합니다. 이번 시리즈에서는 현대 AI 기술의 핵심인 **딥러닝(Deep Learning)**의 주요 모델들을 5편에 걸쳐 하나씩 완벽하게 파헤쳐 볼 예정입니다.그 첫 번째 주인공은 바로 **ANN (Artificial Neural Network)**입니다. 우리가 흔히 말하는 '딥러닝'은 사실 ANN의 은닉층(Hidden Layer)을 깊게 쌓은 것을 의미합니다. 즉, ANN을 이해하지 못하면 CNN, Transformers 같은 최신 기술을 이해하는 것은 불가능합니다.인간의 뇌 구조에서 영감을 받아 탄생한 ANN의 원리부터, 파이썬을 활용한 실전 모델링까지 A to Z를 정리해 드립니다.2. ANN (Artificial Neural Ne..

티스토리툴바