Programming

내용 요약 정리 (Classification · Tree · Ensemble · Feature Engineering)

Lucas.Kim 2026. 1. 2. 01:18
반응형

이번 시리즈에서는 분류 모델의 핵심 개념부터 실전 적용까지 다음 흐름으로 정리했습니다.

1️⃣ 결정 트리(Decision Tree)

  • 데이터 분할 기준
    • 정보 이득(Information Gain, 엔트로피 기반)
    • 지니 계수(Gini Index)
  • 장점
    • 직관적인 규칙 기반 모델 (If–Else)
    • 스케일링 영향 적음
  • 단점
    • 트리 깊이가 깊어질수록 과적합(Overfitting) 발생
  • 과적합 제어 파라미터
    • max_depth
    • min_samples_split
    • min_samples_leaf
  • Learning Rate는 결정트리 파라미터가 아님 (부스팅 계열에서 사용)

2️⃣ 앙상블 학습(Ensemble Learning)

✔️ Voting

  • Hard Voting: 다수결
  • Soft Voting: 클래스 확률 평균 → 일반적으로 성능 우수

✔️ Bagging

  • 대표 모델: Random Forest
  • 여러 결정트리를 병렬·독립적으로 학습
  • 과적합 감소 효과

✔️ Boosting

  • 이전 모델의 오류를 다음 모델이 보완
  • 대표 모델:
    • AdaBoost
    • Gradient Boosting
    • XGBoost / LightGBM
  • 장점:
    • 높은 예측 성능
    • 규제(Regularization), GPU 지원 가능

3️⃣ Stacking

  • 여러 베이스 모델의 예측 결과 자체를 새로운 피처로 사용
  • 이를 기반으로 메타 모델이 최종 예측 수행
  • 핵심 포인트:
    • 베이스 모델의 예측값
    • 교차 검증 기반 스태킹(CV Stacking)을 통해 데이터 누수 방지

4️⃣ 불균형 데이터 문제 (Imbalanced Data)

  • 신용카드 사기, 암 진단 등에서 Accuracy는 부적절
  • 중요 지표:
    • Recall: 실제 양성을 얼마나 놓치지 않는가
    • Precision: 양성 예측의 정확성
    • F1 Score: 정밀도·재현율 균형
    • ROC-AUC: 전체 분류 성능

5️⃣ Feature Engineering 핵심

✔️ 데이터 분포 변환

  • StandardScaler
  • log1p() / expm1()
  • 왜곡된 분포 → 정규분포에 가깝게 변환

✔️ 이상치 제거 (IQR)

  • 25%~75% 범위(IQR) 밖 데이터 제거
  • 특정 피처(V14 등) 선택적으로 적용

✔️ SMOTE

  • 소수 클래스 합성 데이터 생성
  • 반드시 학습 데이터에만 적용
  • 재현율 상승 ↔ 정밀도 하락 트레이드오프 존재

6️⃣ Feature Selection

  • 목적
    • 과적합 방지
    • 모델 해석력 향상
  • 기법
    • RFE / RFECV
    • SelectFromModel
    • Permutation Importance
  • 주의점
    • Tree 기반 Feature Importance는 절대 기준 아님
    • 테스트 데이터 기준의 Permutation Importance가 더 신뢰도 높음

🧠 퀴즈로 복습하기 (정답 포함)

Q1. 결정 트리가 데이터를 분할할 때 사용하는 기준은?

  • ✅ 정보 이득(Information Gain), 지니 계수(Gini Index)

Q2. 결정 트리의 대표적인 단점은?

  • ✅ 과적합(Overfitting)

Q3. 결정 트리의 과적합을 제어하지 않는 파라미터는?

  • ✅ Learning Rate

Q4. Soft Voting이 Hard Voting보다 성능이 좋은 이유는?

  • ✅ 클래스 예측 확률을 평균하여 더 세밀한 판단이 가능하기 때문

Q5. XGBoost / LightGBM의 특징이 아닌 것은?

  • ✅ 선형 회귀 문제에만 특화됨 ❌

Q6. 하이퍼 파라미터 튜닝의 목적은?

  • ✅ 모델 예측 성능을 최대한 끌어올리기 위함

Q7. 불균형 데이터에서 가장 중요하게 봐야 할 지표는?

  • ✅ Recall 또는 Precision

Q8. 모델 성능 향상과 과적합 방지를 위해 일부 피처만 선택하는 과정은?

  • ✅ Feature Selection

Q9. 배깅과 부스팅의 학습 방식 차이는?

  • ✅ 배깅: 병렬·독립 / 부스팅: 순차적 학습

Q10. 스태킹에서 메타 모델이 학습하는 데이터는?

  • ✅ 베이스 모델들의 예측 결과
반응형