반응형

ensemble learning 5

내용 요약 정리 (Classification · Tree · Ensemble · Feature Engineering)

이번 시리즈에서는 분류 모델의 핵심 개념부터 실전 적용까지 다음 흐름으로 정리했습니다.1️⃣ 결정 트리(Decision Tree)데이터 분할 기준정보 이득(Information Gain, 엔트로피 기반)지니 계수(Gini Index)장점직관적인 규칙 기반 모델 (If–Else)스케일링 영향 적음단점트리 깊이가 깊어질수록 과적합(Overfitting) 발생과적합 제어 파라미터max_depthmin_samples_splitmin_samples_leaf❌ Learning Rate는 결정트리 파라미터가 아님 (부스팅 계열에서 사용)2️⃣ 앙상블 학습(Ensemble Learning)✔️ VotingHard Voting: 다수결Soft Voting: 클래스 확률 평균 → 일반적으로 성능 우수✔️ Bagging대표..

Programming 2026.01.02

Stacking Ensemble 실습 : Basic Stacking과 교차검증 기반 Stacking 이해하기

1. Stacking 앙상블 개요Stacking(스태킹) 은 여러 개의 서로 다른 모델이 만든 예측 결과 자체를 새로운 피처로 사용하여또 다른 모델(메타 모델, Meta Model)이 최종 예측을 수행하는 앙상블 기법입니다.즉,1단계(Base Model) : 여러 개의 서로 다른 모델이 예측 수행2단계(Meta Model) : 각 모델의 예측 결과를 입력값으로 다시 학습하는 구조를 가집니다.“모델들의 판단 결과를 다시 하나의 모델에게 맡기는 방식”이라고 이해하면 됩니다.2. Basic Stacking Model 구조⚠️ 주의점Basic Stacking은 테스트 데이터를 메타 모델 학습에 재사용하기 때문에데이터 누수(Data Leakage) 와 오버피팅 위험이 있습니다.→ 개념 이해용으로는 적절하지만, 실..

Programming 2025.12.31

앙상블 학습 2편: 배깅(Bagging)과 랜덤 포레스트(Random Forest) 완전 이해

1편에서는 앙상블 학습의 개념과 가장 직관적인 방식인 **보팅(Voting)**을 살펴보았습니다.이번 **2편에서는 배깅(Bagging)**과, 배깅의 대표적인 알고리즘인 **랜덤 포레스트(Random Forest)**를 다룹니다.랜덤 포레스트는구현이 비교적 쉽고성능이 안정적이며다양한 데이터 유형에서 좋은 성능을 보이는가장 실무 친화적인 앙상블 알고리즘 중 하나입니다.1. 배깅(Bagging)이란 무엇인가배깅(Bagging)은Bootstrap Aggregating의 줄임말로,학습 데이터에서 여러 개의 샘플을 랜덤하게 추출해 각각의 모델을 학습시키고,이들의 예측 결과를 결합하는 앙상블 기법을 의미합니다.배깅의 핵심 아이디어는 다음과 같습니다.같은 알고리즘을 사용하되서로 다른 데이터 샘플로 여러 모델을 학습..

Programming 2025.12.17

앙상블 학습(Ensemble Learning) 완전 정리 1편: 개념 이해와 보팅(Voting) 실습

머신러닝 모델의 성능을 높이는 방법은 크게 두 가지입니다.하나는 단일 모델을 정교하게 튜닝하는 것,다른 하나는 여러 모델의 예측 결과를 결합하는 것입니다.후자의 대표적인 방법이 바로 **앙상블 학습(Ensemble Learning)**입니다.이번 글에서는 앙상블 학습의 기본 개념과 종류를 정리하고,그중 가장 직관적인 방법인 보팅(Voting) 기법을 실제 코드 실습으로 살펴봅니다.1. 앙상블 학습이란 무엇인가앙상블 학습이란여러 개의 분류기(Classifier)를 생성하고, 이들의 예측 결과를 결합하여 단일 모델보다 더 좋은 예측 성능을 얻는 기법을 의미합니다.이는 현실 세계의 의사결정 방식과 매우 유사합니다.한 명의 전문가 의견보다,👉 여러 전문가가 각자의 관점에서 판단한 결과를 종합하는 것이 더 신뢰..

Programming 2025.12.17

결정트리(Decision Tree) 완전 정리: 개념부터 앙상블, 하이퍼파라미터, 시각화까지

머신러닝의 분류(Classification) 문제는 가장 기본적이면서도 실무에서 가장 많이 활용되는 영역입니다.분류란 학습 데이터로 주어진 피처(Feature)와 레이블(Label)을 머신러닝 알고리즘으로 학습하여 모델을 생성하고, 새로운 데이터가 주어졌을 때 미지의 레이블 값을 예측하는 과정를 의미합니다.대표적인 분류 알고리즘에는 다음과 같은 것들이 있습니다.나이브 베이즈(Naive Bayes)로지스틱 회귀(Logistic Regression)결정트리(Decision Tree)서포트 벡터 머신(SVM)최근접 이웃(KNN)심층 신경망(DNN)여러 모델을 결합한 앙상블(Ensemble)이 글에서는 그중에서도 가장 직관적이고, 앙상블의 핵심 기반이 되는 결정트리 알고리즘을 중심으로 개념부터 실습, 시각화까지..

Programming 2025.12.16
반응형