내용 요약 정리 (Classification · Tree · Ensemble

EastLight

We all try to make things work, no one sets out to fail. Let's give it a try first and decide afterward.

Today :
Yesterday :

선형회귀, 데이터분석, MachineLearning, 회귀분석, 차원축소, Machine Learning, 군집화, 데이터전처리, XGBoost, Feature Engineering, LightGBM, 피처엔지니어링, linearRegression, 머신러닝회귀, regression, 머신러닝, ensemble learning, 비지도학습, unsupervised learning, kmeans,

Programming

내용 요약 정리 (Classification · Tree · Ensemble · Feature Engineering)

Lucas.Kim 2026. 1. 2. 01:18

이번 시리즈에서는 분류 모델의 핵심 개념부터 실전 적용까지 다음 흐름으로 정리했습니다.

1️⃣ 결정 트리(Decision Tree)

데이터 분할 기준
- 정보 이득(Information Gain, 엔트로피 기반)
- 지니 계수(Gini Index)
장점
- 직관적인 규칙 기반 모델 (If–Else)
- 스케일링 영향 적음
단점
- 트리 깊이가 깊어질수록 과적합(Overfitting) 발생
과적합 제어 파라미터
- max_depth
- min_samples_split
- min_samples_leaf
❌ Learning Rate는 결정트리 파라미터가 아님 (부스팅 계열에서 사용)

2️⃣ 앙상블 학습(Ensemble Learning)

✔️ Voting

Hard Voting: 다수결
Soft Voting: 클래스 확률 평균 → 일반적으로 성능 우수

✔️ Bagging

대표 모델: Random Forest
여러 결정트리를 병렬·독립적으로 학습
과적합 감소 효과

✔️ Boosting

이전 모델의 오류를 다음 모델이 보완
대표 모델:
- AdaBoost
- Gradient Boosting
- XGBoost / LightGBM
장점:
- 높은 예측 성능
- 규제(Regularization), GPU 지원 가능

3️⃣ Stacking

여러 베이스 모델의 예측 결과 자체를 새로운 피처로 사용
이를 기반으로 메타 모델이 최종 예측 수행
핵심 포인트:
- 베이스 모델의 예측값
- 교차 검증 기반 스태킹(CV Stacking)을 통해 데이터 누수 방지

4️⃣ 불균형 데이터 문제 (Imbalanced Data)

신용카드 사기, 암 진단 등에서 Accuracy는 부적절
중요 지표:
- Recall: 실제 양성을 얼마나 놓치지 않는가
- Precision: 양성 예측의 정확성
- F1 Score: 정밀도·재현율 균형
- ROC-AUC: 전체 분류 성능

5️⃣ Feature Engineering 핵심

✔️ 데이터 분포 변환

StandardScaler
log1p() / expm1()
왜곡된 분포 → 정규분포에 가깝게 변환

✔️ 이상치 제거 (IQR)

25%~75% 범위(IQR) 밖 데이터 제거
특정 피처(V14 등) 선택적으로 적용

✔️ SMOTE

소수 클래스 합성 데이터 생성
반드시 학습 데이터에만 적용
재현율 상승 ↔ 정밀도 하락 트레이드오프 존재

6️⃣ Feature Selection

목적
- 과적합 방지
- 모델 해석력 향상
기법
- RFE / RFECV
- SelectFromModel
- Permutation Importance
주의점
- Tree 기반 Feature Importance는 절대 기준 아님
- 테스트 데이터 기준의 Permutation Importance가 더 신뢰도 높음

🧠 퀴즈로 복습하기 (정답 포함)

Q1. 결정 트리가 데이터를 분할할 때 사용하는 기준은?

✅ 정보 이득(Information Gain), 지니 계수(Gini Index)

Q2. 결정 트리의 대표적인 단점은?

✅ 과적합(Overfitting)

Q3. 결정 트리의 과적합을 제어하지 않는 파라미터는?

✅ Learning Rate

Q4. Soft Voting이 Hard Voting보다 성능이 좋은 이유는?

✅ 클래스 예측 확률을 평균하여 더 세밀한 판단이 가능하기 때문

Q5. XGBoost / LightGBM의 특징이 아닌 것은?

✅ 선형 회귀 문제에만 특화됨 ❌

Q6. 하이퍼 파라미터 튜닝의 목적은?

✅ 모델 예측 성능을 최대한 끌어올리기 위함

Q7. 불균형 데이터에서 가장 중요하게 봐야 할 지표는?

✅ Recall 또는 Precision

Q8. 모델 성능 향상과 과적합 방지를 위해 일부 피처만 선택하는 과정은?

✅ Feature Selection

Q9. 배깅과 부스팅의 학습 방식 차이는?

✅ 배깅: 병렬·독립 / 부스팅: 순차적 학습

Q10. 스태킹에서 메타 모델이 학습하는 데이터는?

✅ 베이스 모델들의 예측 결과

저작자표시 비영리 변경금지 (새창열림)

'Programming' 카테고리의 다른 글

경사하강법(Gradient Descent) 이해하기 – 선형 회귀 실습으로 개념 완전 정리 (0)	2026.01.02
회귀(Regression)란 무엇인가 – 개념부터 머신러닝까지 (0)	2026.01.02
Feature Selection 실전 : 정리모델 성능과 해석력을 동시에 잡는 방법 (0)	2026.01.01
Stacking Ensemble 실습 : Basic Stacking과 교차검증 기반 Stacking 이해하기 (0)	2025.12.31
Credit Card Fraud Detection 3편 : 이상치 제거(IQR)와 SMOTE 오버샘플링을 통한 성능 개선 (0)	2025.12.26

현재글내용 요약 정리 (Classification · Tree · Ensemble · Feature Engineering)

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

내용 요약 정리 (Classification · Tree · Ensemble · Feature Engineering)

1️⃣ 결정 트리(Decision Tree)

2️⃣ 앙상블 학습(Ensemble Learning)

✔️ Voting

✔️ Bagging

✔️ Boosting

3️⃣ Stacking

4️⃣ 불균형 데이터 문제 (Imbalanced Data)

5️⃣ Feature Engineering 핵심

✔️ 데이터 분포 변환

✔️ 이상치 제거 (IQR)

✔️ SMOTE

6️⃣ Feature Selection

🧠 퀴즈로 복습하기 (정답 포함)

Q1. 결정 트리가 데이터를 분할할 때 사용하는 기준은?

Q2. 결정 트리의 대표적인 단점은?

Q3. 결정 트리의 과적합을 제어하지 않는 파라미터는?

Q4. Soft Voting이 Hard Voting보다 성능이 좋은 이유는?

Q5. XGBoost / LightGBM의 특징이 아닌 것은?

Q6. 하이퍼 파라미터 튜닝의 목적은?

Q7. 불균형 데이터에서 가장 중요하게 봐야 할 지표는?

Q8. 모델 성능 향상과 과적합 방지를 위해 일부 피처만 선택하는 과정은?

Q9. 배깅과 부스팅의 학습 방식 차이는?

Q10. 스태킹에서 메타 모델이 학습하는 데이터는?

'Programming' 카테고리의 다른 글

'Programming'의 다른글

티스토리툴바

내용 요약 정리 (Classification · Tree · Ensemble · Feature Engineering)

1️⃣ 결정 트리(Decision Tree)

2️⃣ 앙상블 학습(Ensemble Learning)

✔️ Voting

✔️ Bagging

✔️ Boosting

3️⃣ Stacking

4️⃣ 불균형 데이터 문제 (Imbalanced Data)

5️⃣ Feature Engineering 핵심

✔️ 데이터 분포 변환

✔️ 이상치 제거 (IQR)

✔️ SMOTE

6️⃣ Feature Selection

🧠 퀴즈로 복습하기 (정답 포함)

Q1. 결정 트리가 데이터를 분할할 때 사용하는 기준은?

Q2. 결정 트리의 대표적인 단점은?

Q3. 결정 트리의 과적합을 제어하지 않는 파라미터는?

Q4. Soft Voting이 Hard Voting보다 성능이 좋은 이유는?

Q5. XGBoost / LightGBM의 특징이 아닌 것은?

Q6. 하이퍼 파라미터 튜닝의 목적은?

Q7. 불균형 데이터에서 가장 중요하게 봐야 할 지표는?

Q8. 모델 성능 향상과 과적합 방지를 위해 일부 피처만 선택하는 과정은?

Q9. 배깅과 부스팅의 학습 방식 차이는?

Q10. 스태킹에서 메타 모델이 학습하는 데이터는?

'Programming' 카테고리의 다른 글

'Programming'의 다른글

관련글

티스토리툴바