[AI/ML] CatBoost 완벽 가이드 (정의, 특징 및 장단점, 모델 학습 과정)
·
ML & DL
1. 들어가며안녕하세요! 머신러닝 알고리즘 완전 정복 시리즈, 그 마지막 열 번째 시간입니다.지난 8편과 9편에서 부스팅의 양대 산맥인 XGBoost와 LightGBM을 다뤘습니다. 두 모델 모두 훌륭하지만, 공통적인 골칫거리가 하나 있었죠. 바로 **"범주형 데이터(Categorical Feature)를 숫자로 바꿔줘야 한다"**는 것입니다.(예: "서울", "부산" $\rightarrow$ 0, 1)이 귀찮은 작업을 알아서 해주고, 심지어 성능까지 더 좋은 모델이 있다면 어떨까요?Yandex가 개발한 부스팅의 신흥 강자, **CatBoost (Categorical Boosting)**를 소개합니다."전처리 귀찮아!"를 외치던 데이터 과학자들에게 한 줄기 빛과 같은 CatBoost의 매력을 낱낱이 파헤..
[AI/ML] LightGBM 완벽 가이드 (정의, 특징 및 장단점, 모델 학습 과정)
·
ML & DL
1. 들어가며안녕하세요! 머신러닝 알고리즘 완전 정복 시리즈, 아홉 번째 시간입니다.지난 8편에서는 캐글의 제왕 XGBoost에 대해 알아봤습니다. 성능은 최고지만, 데이터가 수천만 건이 넘어가면 학습 시간이 너무 오래 걸린다는 단점이 있었죠."성능은 그대로 유지하면서, 더 빨리 학습할 수는 없을까?"이 질문에 마이크로소프트(Microsoft)가 내놓은 답이 바로 **LightGBM (Light Gradient Boosting Machine)**입니다.이름처럼 가볍지만 성능은 결코 가볍지 않은, 빅데이터 시대의 필수 알고리즘 LightGBM을 파헤쳐 봅시다!2. LightGBM이란? 2.1 정의LightGBM은 Gradient Boosting 프레임워크를 기반으로 하되, **속도(Speed)**와 **메..
[AI/ML] XGBoost (eXtreme Gradient Boosting) 완벽 가이드 (정의, 특징 및 장단점, 모델 학습 과정)
·
ML & DL
1. 들어가며안녕하세요! 머신러닝 알고리즘 완전 정복 시리즈, 여덟 번째 시간입니다.지난 7편에서는 오답(잔차)을 줄여나가는 강력한 알고리즘 **Gradient Boosting (GBM)**을 배웠습니다. 하지만 GBM은 학습 속도가 느리고, 과적합에 취약하다는 치명적인 단점이 있었죠."성능은 좋은데 너무 느려요..."이 불만을 해결하기 위해 등장한 구세주가 바로 **XGBoost (eXtreme Gradient Boosting)**입니다.이름부터 'Extreme(극한)'이 붙은 이 모델은 시스템 최적화와 알고리즘 개선을 통해 속도를 비약적으로 높였고, 수많은 머신러닝 대회를 휩쓸며 "갓(God)부스트"라는 찬사를 받았습니다. 도대체 무엇이 그렇게 특별한지, 지금부터 파헤쳐 봅시다!2. XGBoost란?..
[AI/ML] Gradient Boosting(GBM) 완벽 가이드 (정의, 특징 및 장단점, 모델 학습 과정)
·
ML & DL
1. 들어가며안녕하세요! 머신러닝 알고리즘 완전 정복 시리즈, 일곱 번째 시간입니다.지난 6편에서는 여러 나무의 의견을 모으는 든든한 숲, **랜덤 포레스트(Random Forest)**를 배웠습니다. 랜덤 포레스트는 안정적이고 강력하지만, "조금 더 성능을 높일 수는 없을까?"라는 욕심은 끝이 없죠.그래서 등장한 것이 바로 **Gradient Boosting (GBM)**입니다.랜덤 포레스트가 "동시에" 여러 나무를 심는다면, GBM은 "순서대로" 나무를 심습니다. 첫 번째 나무가 틀린 문제를 두 번째 나무가 고치고, 두 번째가 틀린 걸 세 번째가 고치는 식이죠.머신러닝 대회를 휩쓰는 XGBoost, LightGBM의 뿌리가 되는 Gradient Boosting의 원리를 파헤쳐 봅시다!2. Gradie..
[AI/ML] 랜덤 포레스트(Random Forest) 완벽 가이드 (정의, 특징 및 장단점, 모델 학습 과정)
·
ML & DL
1. 들어가며안녕하세요! 머신러닝 알고리즘 완전 정복 시리즈, 여섯 번째 시간입니다.지난 5편에서는 스무고개 하듯 정답을 찾아가는 의사결정 나무(Decision Tree)를 배웠습니다. 직관적이지만, 학습 데이터에 너무 민감하게 반응해서 조금만 데이터가 달라져도 결과가 휘청거리는(과적합) 단점이 있었죠."한 명의 천재보다 열 명의 범재가 낫다"는 말이 있죠?랜덤 포레스트(Random Forest)는 이 격언을 머신러닝에 그대로 적용한 모델입니다. 수십, 수백 그루의 나무를 심어 숲(Forest)을 만들고, 그들의 의견을 종합해 결론을 내립니다.머신러닝 입문자가 가장 먼저 "와, 성능 좋다!"라고 느끼게 되는 마법 같은 알고리즘, 랜덤 포레스트의 세계로 떠나봅시다!2. 랜덤 포레스트(Random Fores..
[AI/ML] 의사결정 나무 (Decision Tree) 완벽 가이드 (정의, 특징 및 장단점, 모델 학습 과정)
·
ML & DL
1. 들어가며안녕하세요! 머신러닝 알고리즘 완전 정복 시리즈, 다섯 번째 시간입니다.지난 4편에서는 수학적으로 완벽한 경계를 찾는 SVM에 대해 다뤘습니다. 오늘은 머신러닝 모델 중 가장 '사람의 생각'과 닮아있는 알고리즘, 의사결정 나무(Decision Tree)를 소개합니다."날개가 있나요? (네/아니오)" $\rightarrow$ "날 수 있나요? (네/아니오)"마치 스무고개 놀이를 하듯 질문을 던지며 정답을 찾아가는 이 모델은, 결과가 왜 그렇게 나왔는지 설명해야 하는 화이트박스(White-box) 모델의 대표주자입니다.랜덤 포레스트나 XGBoost 같은 강력한 최신 모델들의 '뿌리'가 되는 의사결정 나무의 모든 것을 파헤쳐 보겠습니다!2. 의사결정 나무(Decision Tree)란? 2.1 정의..
[AI/ML] SVM (Support Vector Machine) 완벽 가이드 (정의, 특징 및 장단점, 모델 학습 과정)
·
ML & DL
1. 들어가며안녕하세요! 머신러닝 알고리즘 완전 정복 시리즈, 그 네 번째 시간입니다.1편 로지스틱 회귀, 2편 KNN, 3편 나이브 베이즈를 거쳐, 오늘은 머신러닝 분류 알고리즘의 '수학적 결정체'라 불리는 SVM (Support Vector Machine, 서포트 벡터 머신)을 다룹니다.데이터를 나누는 수많은 선 중에서 "어떤 선이 가장 좋은 선일까?"라는 질문에, 수학적으로 가장 완벽한 답을 제시하는 알고리즘이죠. 딥러닝이 등장하기 전까지 머신러닝의 제왕으로 군림했던 SVM의 매력을 파헤쳐 봅시다!2. SVM (Support Vector Machine)이란? 2.1 정의SVM은 데이터를 분류하기 위해 **가장 최적의 경계선(결정 경계, Decision Boundary)**을 정의하는 지도 학습(Su..
[AI/ML] 나이브 베이즈 (Naive Bayes) 완벽 가이드 (정의, 특징 및 장단점, 모델 학습 과정)
·
ML & DL
1. 들어가며안녕하세요! 머신러닝 알고리즘 완전 정복 시리즈, 그 세 번째 시간입니다.1편에서는 확률로 분류하는 로지스틱 회귀를, 2편에서는 거리로 분류하는 KNN을 배웠습니다.오늘 다룰 **나이브 베이즈 (Naive Bayes)**는 또 다른 매력을 가진 친구입니다. 바로 **"조건부 확률"**이라는 통계학의 강력한 무기를 사용하는 알고리즘이죠.이름에 'Naive(순진한)'라는 단어가 붙어있다고 얕보면 안 됩니다. 이 친구는 스팸 메일 필터링의 시초이자, 텍스트 분류 분야에서 여전히 강력한 성능을 자랑하는 '숨은 고수'니까요. 그럼 나이브 베이즈의 세계로 떠나볼까요?2. 나이브 베이즈(Naive Bayes)란? 2.1 정의나이브 베이즈는 **베이즈 정리(Bayes' Theorem)**를 기반으로, 데이..
[AI/ML] KNN (K-Nearest Neighbors) 완벽 가이드 (정의, 특징 및 장단점, 모델 학습 과정)
·
ML & DL
1. 들어가며안녕하세요! 머신러닝 알고리즘 완전 정복 시리즈, 그 두 번째 시간입니다.지난 시간엔 로지스틱 회귀를 통해 확률 기반의 분류를 배웠습니다. 오늘은 머신러닝 모델 중 가장 직관적이고 이해하기 쉬운 알고리즘, KNN (K-Nearest Neighbors, K-최근접 이웃)에 대해 알아보겠습니다."끼리끼리 논다(유유상종)"는 말 들어보셨죠? KNN은 바로 이 원리를 그대로 수학적으로 구현한 모델입니다. 복잡한 수식 없이도 강력한 성능을 발휘하는 KNN의 세계로 떠나봅시다!2. KNN (K-Nearest Neighbors)이란? 2.2 정의KNN은 "새로운 데이터가 들어왔을 때, 기존 데이터 중 가장 가까운 K개의 이웃을 찾아, 그 이웃들이 가장 많이 속한 범주(Class)로 분류하거나 평균값을 예..
[AI/ML] 로지스틱 회귀 (Logistic Regression) 완벽 가이드 (정의, 특징 및 장단점, 모델 학습 과정)
·
ML & DL
1. 들어가며안녕하세요! 인공지능과 머신러닝의 세계에 오신 것을 환영합니다.오늘부터 총 10편에 걸쳐 머신러닝의 핵심 알고리즘들을 하나씩 완벽하게 파헤쳐 보는 시리즈를 연재합니다.그 첫 번째 주인공은 바로 로지스틱 회귀 (Logistic Regression)입니다.이름에 '회귀(Regression)'가 들어가서 헷갈릴 수 있지만, 사실 이 친구는 머신러닝 분류(Classification) 문제의 가장 기초이자 핵심이 되는 알고리즘입니다.스팸 메일 필터링부터 질병 진단까지, 우리 일상 곳곳에 숨어 있는 로지스틱 회귀의 모든 것을 A to Z로 정리해 드립니다. 2. 로지스틱 회귀(Logistic Regression)란? 2.1 정의로지스틱 회귀는 데이터가 어떤 범주에 속할 확률을 0과 1 사이의 값으로 예..