반응형

이번 시리즈에서는 분류 모델의 핵심 개념부터 실전 적용까지 다음 흐름으로 정리했습니다.
1️⃣ 결정 트리(Decision Tree)
- 데이터 분할 기준
- 정보 이득(Information Gain, 엔트로피 기반)
- 지니 계수(Gini Index)
- 장점
- 직관적인 규칙 기반 모델 (If–Else)
- 스케일링 영향 적음
- 단점
- 트리 깊이가 깊어질수록 과적합(Overfitting) 발생
- 과적합 제어 파라미터
- max_depth
- min_samples_split
- min_samples_leaf
- ❌ Learning Rate는 결정트리 파라미터가 아님 (부스팅 계열에서 사용)
2️⃣ 앙상블 학습(Ensemble Learning)
✔️ Voting
- Hard Voting: 다수결
- Soft Voting: 클래스 확률 평균 → 일반적으로 성능 우수
✔️ Bagging
- 대표 모델: Random Forest
- 여러 결정트리를 병렬·독립적으로 학습
- 과적합 감소 효과
✔️ Boosting
- 이전 모델의 오류를 다음 모델이 보완
- 대표 모델:
- AdaBoost
- Gradient Boosting
- XGBoost / LightGBM
- 장점:
- 높은 예측 성능
- 규제(Regularization), GPU 지원 가능
3️⃣ Stacking
- 여러 베이스 모델의 예측 결과 자체를 새로운 피처로 사용
- 이를 기반으로 메타 모델이 최종 예측 수행
- 핵심 포인트:
- 베이스 모델의 예측값
- 교차 검증 기반 스태킹(CV Stacking)을 통해 데이터 누수 방지
4️⃣ 불균형 데이터 문제 (Imbalanced Data)
- 신용카드 사기, 암 진단 등에서 Accuracy는 부적절
- 중요 지표:
- Recall: 실제 양성을 얼마나 놓치지 않는가
- Precision: 양성 예측의 정확성
- F1 Score: 정밀도·재현율 균형
- ROC-AUC: 전체 분류 성능
5️⃣ Feature Engineering 핵심
✔️ 데이터 분포 변환
- StandardScaler
- log1p() / expm1()
- 왜곡된 분포 → 정규분포에 가깝게 변환
✔️ 이상치 제거 (IQR)
- 25%~75% 범위(IQR) 밖 데이터 제거
- 특정 피처(V14 등) 선택적으로 적용
✔️ SMOTE
- 소수 클래스 합성 데이터 생성
- 반드시 학습 데이터에만 적용
- 재현율 상승 ↔ 정밀도 하락 트레이드오프 존재
6️⃣ Feature Selection
- 목적
- 과적합 방지
- 모델 해석력 향상
- 기법
- RFE / RFECV
- SelectFromModel
- Permutation Importance
- 주의점
- Tree 기반 Feature Importance는 절대 기준 아님
- 테스트 데이터 기준의 Permutation Importance가 더 신뢰도 높음
🧠 퀴즈로 복습하기 (정답 포함)
Q1. 결정 트리가 데이터를 분할할 때 사용하는 기준은?
- ✅ 정보 이득(Information Gain), 지니 계수(Gini Index)
Q2. 결정 트리의 대표적인 단점은?
- ✅ 과적합(Overfitting)
Q3. 결정 트리의 과적합을 제어하지 않는 파라미터는?
- ✅ Learning Rate
Q4. Soft Voting이 Hard Voting보다 성능이 좋은 이유는?
- ✅ 클래스 예측 확률을 평균하여 더 세밀한 판단이 가능하기 때문
Q5. XGBoost / LightGBM의 특징이 아닌 것은?
- ✅ 선형 회귀 문제에만 특화됨 ❌
Q6. 하이퍼 파라미터 튜닝의 목적은?
- ✅ 모델 예측 성능을 최대한 끌어올리기 위함
Q7. 불균형 데이터에서 가장 중요하게 봐야 할 지표는?
- ✅ Recall 또는 Precision
Q8. 모델 성능 향상과 과적합 방지를 위해 일부 피처만 선택하는 과정은?
- ✅ Feature Selection
Q9. 배깅과 부스팅의 학습 방식 차이는?
- ✅ 배깅: 병렬·독립 / 부스팅: 순차적 학습
Q10. 스태킹에서 메타 모델이 학습하는 데이터는?
- ✅ 베이스 모델들의 예측 결과
반응형
'Programming' 카테고리의 다른 글
| 경사하강법(Gradient Descent) 이해하기 – 선형 회귀 실습으로 개념 완전 정리 (0) | 2026.01.02 |
|---|---|
| 회귀(Regression)란 무엇인가 – 개념부터 머신러닝까지 (0) | 2026.01.02 |
| Feature Selection 실전 : 정리모델 성능과 해석력을 동시에 잡는 방법 (0) | 2026.01.01 |
| Stacking Ensemble 실습 : Basic Stacking과 교차검증 기반 Stacking 이해하기 (0) | 2025.12.31 |
| Credit Card Fraud Detection 3편 : 이상치 제거(IQR)와 SMOTE 오버샘플링을 통한 성능 개선 (0) | 2025.12.26 |