'분류 전체보기' 카테고리의 글 목록 (7 Page)

1. 들어가며: "AI가 '맥락'을 이해하려면?"최근 챗GPT와 같은 거대언어모델(LLM)이 등장하면서 AI는 놀라운 발전을 이루었지만, 여전히 치명적인 약점이 있습니다. 바로 '맥락(Context)의 부재'와 '환각(Hallucination)'입니다.예를 들어, "기생충 감독의 다른 스릴러 영화 추천해줘"라고 물었을 때, LLM은 '기생충', '감독', '스릴러'라는 단어의 통계적 확률만 계산할 뿐, "봉준호는 사람이고, 기생충을 만들었으며, 그 영화의 장르가 스릴러다"라는 사실 관계를 명확히 구조화해서 알고 있는 것은 아닙니다.이러한 한계를 극복하고 AI에게 세상을 바라보는 '지능형 지도'를 쥐여주는 기술이 바로 온톨로지(Ontology)입니다. 온톨로지는 단순한 데이터 저장을 넘어, 지식 간의 관계..

1. 들어가며안녕하세요!지금까지 배운 머신러닝(Random Forest, SVM 등)도 훌륭하지만, 비정형 데이터(이미지, 음성, 자연어)를 처리하는 데에는 한계가 있었습니다. "고양이 사진"을 엑셀 파일처럼 행과 열로 예쁘게 정리할 수는 없으니까요.딥러닝(Deep Learning)은 인간의 뇌 신경망(Neural Network)을 모방하여, 데이터의 복잡한 패턴을 스스로 학습(Representation Learning)하는 기술입니다. ChatGPT, 알파고, 자율주행차의 핵심 엔진이기도 하죠.이번 편에서는 딥러닝의 작동 원리인 인공 신경망(ANN)부터 최신 트랜스포머(Transformer)까지, 그리고 왜 딥러닝이 머신러닝의 판도를 뒤집었는지 상세하게 파헤쳐 보겠습니다. 2. 딥러닝(Deep Lear..

1. 들어가며안녕하세요!지금까지 배운 머신러닝은 이미 주어진 데이터를 학습하는 '정적인 학습'이었습니다. 하지만 AI가 현실 세계에서 로봇처럼 움직이거나, 게임을 플레이하려면 어떻게 해야 할까요? 데이터셋을 미리 만들어두는 건 불가능에 가깝습니다.이때 필요한 것이 강화 학습(Reinforcement Learning, RL)입니다. AI가 스스로 환경과 상호작용하며 "당근(보상)과 채찍(벌)"을 통해 최적의 행동을 배우는 과정이죠. 알파고부터 ChatGPT의 RLHF까지, 현대 AI의 정점을 찍고 있는 강화 학습의 세계로 떠나봅시다.2. 강화 학습(Reinforcement Learning)이란?강화 학습은 에이전트(Agent)가 환경(Environment)과 상호작용하며, 보상(Reward)을 최대화하는 ..

1. 들어가며안녕하세요!지금까지 우리는 정답을 알려주는 지도 학습과, 정답 없이 패턴을 찾는 비지도 학습을 배웠습니다. 그런데 현업에서 데이터를 다루다 보면 아주 난감한 상황에 부닥칩니다.상황: 의료 영상(MRI) 분석 모델을 만들어야 함.문제: MRI 이미지는 수만 장(Unlabeled)이 있는데, 의사 선생님이 직접 병변을 표시해 준 정답 데이터(Labeled)는 비용 문제로 100장밖에 없음.고민: 100장으로 지도 학습을 하자니 성능이 안 나오고, 수만 장을 비지도 학습으로 돌리자니 병변을 정확히 분류할 수가 없음.이때 등장하는 구세주가 바로 준지도 학습(Semi-supervised Learning)입니다. "소량의 라벨 데이터 + 대량의 비라벨 데이터"를 섞어서 성능을 폭발적으로 끌어올리는 기술..

1. 들어가며안녕하세요!지금까지 배운 지도 학습(Supervised Learning)은 선생님이 옆에서 "이건 고양이야", "이건 강아지야"라고 정답을 알려주는 방식이었습니다. 하지만 현실 세계의 데이터는 대부분 정답(Label)이 없습니다.쇼핑몰 방문 로그 (구매할지 안 할지 모름)공장 센서 데이터 (언제 고장 날지 모름)수만 장의 문서 파일 (무슨 내용인지 분류 안 됨)비지도 학습(Unsupervised Learning)은 이렇게 라벨이 없는 데이터 속에서 AI가 스스로 패턴, 구조, 관계를 찾아내는 기술입니다. 데이터 분석의 꽃이자, 현대 AI(생성형 AI)의 기반이 되는 비지도 학습을 완벽하게 파헤쳐 보겠습니다.2. 비지도 학습이란?비지도 학습은 레이블(정답)이 없는 데이터를 입력받아 데이터 자체..

1. 들어가며안녕하세요! 지난 시간까지 데이터 전처리라는 긴 터널을 지났습니다. 이제 드디어 **"모델을 학습시킨다"**는 진짜 머신러닝의 세계로 들어갑니다.그중에서도 가장 널리 쓰이고 강력한 지도 학습(Supervised Learning)을 완벽하게 마스터해 보겠습니다.이번 편에서는 지도 학습의 정의부터 시작해, 회귀와 분류의 차이, 그리고 현업에서 쓰이는 거의 모든 지도 학습 알고리즘(선형/로지스틱 회귀, 의사결정 트리, SVM, KNN, 나이브 베이즈, 랜덤 포레스트, 부스팅 계열 등)을 상세하게 파헤칩니다.2. 지도 학습(Supervised Learning)이란?지도 학습은 레이블(Label)이 지정된 데이터 세트, 즉 **'실측 정보(Ground Truth)'**를 사용하여 AI 모델을 학습시키..

1. 들어가며지난 1편에서는 데이터 전처리의 기초를 다졌습니다. 하지만 실제 현업 데이터는 수백 개의 불필요한 변수가 섞여 있거나, 특정 클래스(예: 불량품)가 극도로 적은 불균형 상태인 경우가 대부분입니다.이번 2편에서는 머신러닝 모델의 성능을 결정짓는 핵심 기술인 특징 엔지니어링(Feature Engineering)의 고급 기법들을 심층 분석합니다. 단순한 코드 나열이 아니라, "이 기법을 왜 써야 하며, 무엇을 조심해야 하는지"에 집중했습니다.2. 특징 엔지니어링(Feature Engineering)이란?특징 엔지니어링은 원시 데이터(Raw Data)를 머신러닝 모델이 학습하기 좋은 형태의 **특징(Feature)**으로 변환, 생성, 선택하는 모든 과정을 말합니다."데이터 과학 프로젝트 시간의 8..

1. 들어가며많은 분들이 머신러닝을 공부할 때 모델(알고리즘)부터 들여다보지만, 사실 현업에서 가장 중요한 것은 "데이터를 바라보는 관점"과 "데이터를 다루는 기술"입니다. 모델은 도구일 뿐, 그 도구에 들어가는 재료(데이터)가 상했다면 결과는 뻔하기 때문입니다.1편에서는 머신러닝의 정의와 이를 지탱하는 수학적 기초(통계, 선형대수), 그리고 모델 성능을 좌우하는 데이터 엔지니어링(특징 추출, 불균형 처리, 유출 방지)의 모든 것을 아주 상세하게 다룹니다.2. 머신러닝(Machine Learning)이란 무엇인가?머신러닝(기계 학습)은 인공지능(AI)의 하위 집합으로, 데이터의 패턴을 "학습"하여 새로운 데이터에 대해 정확한 "추론"을 할 수 있게 만드는 알고리즘 기술입니다.사람이 일일이 규칙을 입력하는..

1. 들어가며데이터 사이언스나 AI 프로젝트를 하다 보면 이런 상황을 자주 마주합니다."10GB짜리 CSV를 Pandas로 로딩하고 전처리하는 데만 30분이 걸려요. 매번 이래야 하나요?""딥러닝 모델 학습시키는 데 3일이 걸렸습니다. 내일 이어서 하려면 어떻게 저장하죠?"데이터를 텍스트(csv, json)로 저장하자니 구조가 복잡하고, 다시 불러올 때 형 변환(Parsing) 과정에서 시간이 너무 오래 걸립니다.이때 필요한 것이 바로 Pickle(피클)입니다. 오이를 피클로 절여서 오래 보관하듯, 파이썬의 모든 객체(리스트, 딕셔너리, 클래스, 학습된 모델 등)를 "있는 그대로" 얼려서 파일로 저장해 주는 강력한 도구입니다.2. Pickle이란?Pickle은 파이썬 객체 구조를 이진(Binary) 데이..

1. 들어가며: AI 시대의 데이터베이스, Vector DBChatGPT와 RAG(검색 증강 생성)가 등장하면서 데이터베이스의 패러다임이 바뀌었습니다.기존 RDB(관계형 DB)나 NoSQL은 "키워드 매칭(LIKE 검색)"은 잘하지만, "의미(Meaning)"를 이해하지 못합니다. "배고파"를 검색해서 "맛집 리스트"를 찾아내려면 텍스트를 숫자로 변환한 '벡터(Vector)'를 다뤄야 합니다.이 벡터 데이터를 저장하고, 0.1초 만에 가장 유사한 데이터를 찾아주는 엔진이 바로 Vector Database입니다. 오늘은 그중에서도 성능, 편의성, 기능의 3박자를 모두 갖춘 Qdrant를 완벽하게 파헤쳐 보겠습니다. 2. Qdrant란 무엇인가?Qdrant는 벡터 유사도 검색 엔진이자 데이터베이스입니다. 단..

티스토리툴바