Programming

머신러닝 완전 입문 가이드 5편 : 회귀·분류 모델 하이퍼파라미터 완전 정리(Linear Regression부터 CatBoost까지)

Lucas.Kim 2025. 12. 8. 12:32
반응형

앞선 시리즈에서 모델의 **파라미터(Parameter)**와 하이퍼파라미터(Hyperparameter) 차이를 학습했습니다.
이번 글에서는 실제 머신러닝 모델들이 어떤 하이퍼파라미터를 가지고 있으며,
이 값들을 어떻게 조정하면 성능을 높일 수 있는지 정리합니다.

정리 대상 모델

  • 선형 모델: LinearRegression, SGDRegressor
  • 규제 모델: Ridge, Lasso, ElasticNet
  • 특성 확장: PolynomialFeatures
  • 트리 기반 회귀: DecisionTreeRegressor
  • 분류 모델: Decision Tree, Voting, Bagging
  • Boosting 계열: AdaBoost, Gradient Boosting, XGBoost, LightGBM, CatBoost

머신러닝 실전에서는 “어떤 하이퍼파라미터를 어떻게 조정할 것인가?”가 성능 차이를 낳습니다.
이번 글을 통해 모델별 핵심 포인트를 한눈에 정리해보겠습니다.

1. LinearRegression — 가장 기본적인 회귀 모델

LinearRegression은 입력 × 가중치 + 절편 형태의 직선 관계를 가정하는 기본 모델입니다.

특징

  • scikit-learn의 OLS 방식으로 계수를 자동 계산
  • 사실상 튜닝이 필요 없는 모델
  • 피처 간 상관성이 높을수록 불안정

하이퍼파라미터(일반적으로 튜닝 대상 아님)

  • fit_intercept
  • copy_X
  • n_jobs

활용 예시

  • 주택가격 예측
  • 단순 경향 분석(연비 vs 배기량 등)

2. SGDRegressor

대규모 데이터 또는 스트리밍 데이터 처리가 필요할 때 사용합니다.
경사하강법(SGD) 기반이므로 학습률 조정이 핵심입니다.

주요 하이퍼파라미터

penalty L1, L2, elasticnet 규제
alpha 규제 강도
l1_ratio elasticnet 시 L1 비율
max_iter 반복 횟수
learning_rate 학습률 정책
eta0 초기 학습률

사용 예시

실시간 센서 데이터 예측, API 요청량 예측 등에서 효과적

3. 규제 회귀 모델: Ridge, Lasso, ElasticNet

규제가 필요한 이유

  • 피처 개수가 많음
  • 피처 간 상관관계가 높음(다중공선성)
  • 노이즈가 많은 데이터
    → 회귀계수가 지나치게 커져 과적합 발생

규제는 “모델이 너무 똑똑해지지 않게 적당히 제어하는 장치”입니다.

(1) Ridge — L2 규제

가중치 제곱을 패널티로 부여

  • 주요 하이퍼파라미터: alpha
  • 특징: 안정적, 과적합 완화에 좋음

(2) Lasso — L1 규제

가중치 절댓값을 패널티로 부여

  • 주요 하이퍼파라미터: alpha
  • 특징: 일부 계수를 0으로 만들어 피처 선택 효과

(3) ElasticNet — L1 + L2 혼합

  • 주요 하이퍼파라미터:
    • alpha
    • l1_ratio (L1 비율)
  • 특징: Ridge + Lasso 장점 결합

4. PolynomialFeatures + 선형 모델

비선형 관계를 선형 모델로 표현할 수 있도록 변수를 확장합니다.

주요 하이퍼파라미터

  • degree: 다항식 차수

활용 예시

곡선 형태의 트렌드가 있는 데이터(예: 엔진 배기량과 연비)

주의

degree↑ → 과적합 위험↑

5. DecisionTreeRegressor — 비선형 패턴에 강한 회귀 모델

CART 알고리즘 기반으로, 분류 트리와 구조는 동일하지만 리프에서 평균값을 예측합니다.

주요 하이퍼파라미터

  • max_depth
  • min_samples_leaf
  • min_samples_split
  • max_features

특징

  • 해석이 쉬움
  • 규제를 하지 않으면 과적합 매우 심함

6. 분류 모델의 하이퍼파라미터

6-1. DecisionTreeClassifier

회귀 모델과 동일한 하이퍼파라미터 구조

핵심 조절 포인트

  • max_depth
  • min_samples_split
  • min_samples_leaf
  • max_features
    → 과적합 방지

7. Ensemble: Voting & Bagging

7-1. Voting Classifier

서로 다른 모델을 결합해 성능 향상

  • voting: hard 또는 soft
  • weights: 모델별 가중치
  • estimators: 사용할 모델 목록

특징: 데이터가 작거나 모델 해석력이 필요할 때 유용

7-2. Bagging (Bootstrap Aggregating)

같은 모델을 여러 개 학습시키고 평균·투표로 결합하는 방식

  • base_estimator
  • n_estimators
  • oob_score
  • n_jobs

대표 모델: RandomForestClassifier

특징: 분산 감소, 안정적 성능, 과적합에 강함

8. Boosting 계열 모델 핵심 정리

Boosting은 순차적 학습을 통해 이전 모델의 오류를 보완합니다.

(1) AdaBoost

  • n_estimators
  • learning_rate
  • base_estimator

특징: 틀린 샘플에 더 많은 가중치를 부여하며 개선

(2) Gradient Boosting

  • learning_rate
  • n_estimators
  • max_depth
  • min_samples_split / min_samples_leaf

Bias–Variance 균형 조정이 핵심

(3) XGBoost

빠른 속도 + 강력한 성능

  • max_depth
  • eta(learning_rate)
  • reg_lambda(L2)
  • reg_alpha(L1)
  • nthread

특징: 대규모 데이터에서도 매우 효율적

(4) LightGBM

Leaf-wise 분할로 높은 성능

  • num_leaves
  • learning_rate
  • max_depth
  • min_data_in_leaf

특징: 대용량 데이터에 최적화, 매우 빠름

(5) CatBoost

범주형 데이터를 자동 처리

  • iterations
  • learning_rate
  • depth
  • cat_features

특징: 카테고리형 변수 비중이 높은 데이터에서 최강 성능

 

이번 시리즈에서는 회귀·분류 모델의 핵심 하이퍼파라미터를 모두 정리했습니다.

학습 포인트

  • LinearRegression은 튜닝이 거의 필요 없음
  • 규제 모델은 과적합 방지에 필수
  • 트리 모델은 max_depth 조절이 성능 핵심
  • Ensemble과 Boosting은 하이퍼파라미터에 따라 성능 차이가 매우 크게 발생
  • XGBoost, LightGBM, CatBoost는 실제 산업 현장에서 가장 많이 쓰이는 강력한 모델들
반응형