[AI/ML] 랜덤 포레스트(Random Forest) 완벽 가이드 (정의, 특징 및 장단점, 모델 학습 과정)
·
ML & DL
1. 들어가며안녕하세요! 머신러닝 알고리즘 완전 정복 시리즈, 여섯 번째 시간입니다.지난 5편에서는 스무고개 하듯 정답을 찾아가는 의사결정 나무(Decision Tree)를 배웠습니다. 직관적이지만, 학습 데이터에 너무 민감하게 반응해서 조금만 데이터가 달라져도 결과가 휘청거리는(과적합) 단점이 있었죠."한 명의 천재보다 열 명의 범재가 낫다"는 말이 있죠?랜덤 포레스트(Random Forest)는 이 격언을 머신러닝에 그대로 적용한 모델입니다. 수십, 수백 그루의 나무를 심어 숲(Forest)을 만들고, 그들의 의견을 종합해 결론을 내립니다.머신러닝 입문자가 가장 먼저 "와, 성능 좋다!"라고 느끼게 되는 마법 같은 알고리즘, 랜덤 포레스트의 세계로 떠나봅시다!2. 랜덤 포레스트(Random Fores..
[AI/ML] 의사결정 나무 (Decision Tree) 완벽 가이드 (정의, 특징 및 장단점, 모델 학습 과정)
·
ML & DL
1. 들어가며안녕하세요! 머신러닝 알고리즘 완전 정복 시리즈, 다섯 번째 시간입니다.지난 4편에서는 수학적으로 완벽한 경계를 찾는 SVM에 대해 다뤘습니다. 오늘은 머신러닝 모델 중 가장 '사람의 생각'과 닮아있는 알고리즘, 의사결정 나무(Decision Tree)를 소개합니다."날개가 있나요? (네/아니오)" $\rightarrow$ "날 수 있나요? (네/아니오)"마치 스무고개 놀이를 하듯 질문을 던지며 정답을 찾아가는 이 모델은, 결과가 왜 그렇게 나왔는지 설명해야 하는 화이트박스(White-box) 모델의 대표주자입니다.랜덤 포레스트나 XGBoost 같은 강력한 최신 모델들의 '뿌리'가 되는 의사결정 나무의 모든 것을 파헤쳐 보겠습니다!2. 의사결정 나무(Decision Tree)란? 2.1 정의..
[AI/ML] SVM (Support Vector Machine) 완벽 가이드 (정의, 특징 및 장단점, 모델 학습 과정)
·
ML & DL
1. 들어가며안녕하세요! 머신러닝 알고리즘 완전 정복 시리즈, 그 네 번째 시간입니다.1편 로지스틱 회귀, 2편 KNN, 3편 나이브 베이즈를 거쳐, 오늘은 머신러닝 분류 알고리즘의 '수학적 결정체'라 불리는 SVM (Support Vector Machine, 서포트 벡터 머신)을 다룹니다.데이터를 나누는 수많은 선 중에서 "어떤 선이 가장 좋은 선일까?"라는 질문에, 수학적으로 가장 완벽한 답을 제시하는 알고리즘이죠. 딥러닝이 등장하기 전까지 머신러닝의 제왕으로 군림했던 SVM의 매력을 파헤쳐 봅시다!2. SVM (Support Vector Machine)이란? 2.1 정의SVM은 데이터를 분류하기 위해 **가장 최적의 경계선(결정 경계, Decision Boundary)**을 정의하는 지도 학습(Su..
[AI/ML] 나이브 베이즈 (Naive Bayes) 완벽 가이드 (정의, 특징 및 장단점, 모델 학습 과정)
·
ML & DL
1. 들어가며안녕하세요! 머신러닝 알고리즘 완전 정복 시리즈, 그 세 번째 시간입니다.1편에서는 확률로 분류하는 로지스틱 회귀를, 2편에서는 거리로 분류하는 KNN을 배웠습니다.오늘 다룰 **나이브 베이즈 (Naive Bayes)**는 또 다른 매력을 가진 친구입니다. 바로 **"조건부 확률"**이라는 통계학의 강력한 무기를 사용하는 알고리즘이죠.이름에 'Naive(순진한)'라는 단어가 붙어있다고 얕보면 안 됩니다. 이 친구는 스팸 메일 필터링의 시초이자, 텍스트 분류 분야에서 여전히 강력한 성능을 자랑하는 '숨은 고수'니까요. 그럼 나이브 베이즈의 세계로 떠나볼까요?2. 나이브 베이즈(Naive Bayes)란? 2.1 정의나이브 베이즈는 **베이즈 정리(Bayes' Theorem)**를 기반으로, 데이..
[AI/ML] KNN (K-Nearest Neighbors) 완벽 가이드 (정의, 특징 및 장단점, 모델 학습 과정)
·
ML & DL
1. 들어가며안녕하세요! 머신러닝 알고리즘 완전 정복 시리즈, 그 두 번째 시간입니다.지난 시간엔 로지스틱 회귀를 통해 확률 기반의 분류를 배웠습니다. 오늘은 머신러닝 모델 중 가장 직관적이고 이해하기 쉬운 알고리즘, KNN (K-Nearest Neighbors, K-최근접 이웃)에 대해 알아보겠습니다."끼리끼리 논다(유유상종)"는 말 들어보셨죠? KNN은 바로 이 원리를 그대로 수학적으로 구현한 모델입니다. 복잡한 수식 없이도 강력한 성능을 발휘하는 KNN의 세계로 떠나봅시다!2. KNN (K-Nearest Neighbors)이란? 2.2 정의KNN은 "새로운 데이터가 들어왔을 때, 기존 데이터 중 가장 가까운 K개의 이웃을 찾아, 그 이웃들이 가장 많이 속한 범주(Class)로 분류하거나 평균값을 예..
[AI/ML] 비지도 학습(Unsupervised Learning) 파헤쳐 보기 (군집화, 차원 축소, 연관 규칙, 이상 탐지 등)
·
ML & DL
1. 들어가며안녕하세요!지금까지 배운 지도 학습(Supervised Learning)은 선생님이 옆에서 "이건 고양이야", "이건 강아지야"라고 정답을 알려주는 방식이었습니다. 하지만 현실 세계의 데이터는 대부분 정답(Label)이 없습니다.쇼핑몰 방문 로그 (구매할지 안 할지 모름)공장 센서 데이터 (언제 고장 날지 모름)수만 장의 문서 파일 (무슨 내용인지 분류 안 됨)비지도 학습(Unsupervised Learning)은 이렇게 라벨이 없는 데이터 속에서 AI가 스스로 패턴, 구조, 관계를 찾아내는 기술입니다. 데이터 분석의 꽃이자, 현대 AI(생성형 AI)의 기반이 되는 비지도 학습을 완벽하게 파헤쳐 보겠습니다.2. 비지도 학습이란?비지도 학습은 레이블(정답)이 없는 데이터를 입력받아 데이터 자체..
[AI/ML] 지도 학습(Supervised Learning) 파헤쳐 보기(정의 및 알고리즘 모델 종류)
·
ML & DL
1. 들어가며안녕하세요! 지난 시간까지 데이터 전처리라는 긴 터널을 지났습니다. 이제 드디어 **"모델을 학습시킨다"**는 진짜 머신러닝의 세계로 들어갑니다.그중에서도 가장 널리 쓰이고 강력한 지도 학습(Supervised Learning)을 완벽하게 마스터해 보겠습니다.이번 편에서는 지도 학습의 정의부터 시작해, 회귀와 분류의 차이, 그리고 현업에서 쓰이는 거의 모든 지도 학습 알고리즘(선형/로지스틱 회귀, 의사결정 트리, SVM, KNN, 나이브 베이즈, 랜덤 포레스트, 부스팅 계열 등)을 상세하게 파헤칩니다.2. 지도 학습(Supervised Learning)이란?지도 학습은 레이블(Label)이 지정된 데이터 세트, 즉 **'실측 정보(Ground Truth)'**를 사용하여 AI 모델을 학습시키..