
앞선 시리즈에서 모델의 **파라미터(Parameter)**와 하이퍼파라미터(Hyperparameter) 차이를 학습했습니다.
이번 글에서는 실제 머신러닝 모델들이 어떤 하이퍼파라미터를 가지고 있으며,
이 값들을 어떻게 조정하면 성능을 높일 수 있는지 정리합니다.
정리 대상 모델
- 선형 모델: LinearRegression, SGDRegressor
- 규제 모델: Ridge, Lasso, ElasticNet
- 특성 확장: PolynomialFeatures
- 트리 기반 회귀: DecisionTreeRegressor
- 분류 모델: Decision Tree, Voting, Bagging
- Boosting 계열: AdaBoost, Gradient Boosting, XGBoost, LightGBM, CatBoost
머신러닝 실전에서는 “어떤 하이퍼파라미터를 어떻게 조정할 것인가?”가 성능 차이를 낳습니다.
이번 글을 통해 모델별 핵심 포인트를 한눈에 정리해보겠습니다.
1. LinearRegression — 가장 기본적인 회귀 모델
LinearRegression은 입력 × 가중치 + 절편 형태의 직선 관계를 가정하는 기본 모델입니다.
특징
- scikit-learn의 OLS 방식으로 계수를 자동 계산
- 사실상 튜닝이 필요 없는 모델
- 피처 간 상관성이 높을수록 불안정
하이퍼파라미터(일반적으로 튜닝 대상 아님)
- fit_intercept
- copy_X
- n_jobs
활용 예시
- 주택가격 예측
- 단순 경향 분석(연비 vs 배기량 등)
2. SGDRegressor
대규모 데이터 또는 스트리밍 데이터 처리가 필요할 때 사용합니다.
경사하강법(SGD) 기반이므로 학습률 조정이 핵심입니다.
주요 하이퍼파라미터
| penalty | L1, L2, elasticnet 규제 |
| alpha | 규제 강도 |
| l1_ratio | elasticnet 시 L1 비율 |
| max_iter | 반복 횟수 |
| learning_rate | 학습률 정책 |
| eta0 | 초기 학습률 |
사용 예시
실시간 센서 데이터 예측, API 요청량 예측 등에서 효과적
3. 규제 회귀 모델: Ridge, Lasso, ElasticNet
규제가 필요한 이유
- 피처 개수가 많음
- 피처 간 상관관계가 높음(다중공선성)
- 노이즈가 많은 데이터
→ 회귀계수가 지나치게 커져 과적합 발생
규제는 “모델이 너무 똑똑해지지 않게 적당히 제어하는 장치”입니다.
(1) Ridge — L2 규제
가중치 제곱을 패널티로 부여
- 주요 하이퍼파라미터: alpha
- 특징: 안정적, 과적합 완화에 좋음
(2) Lasso — L1 규제
가중치 절댓값을 패널티로 부여
- 주요 하이퍼파라미터: alpha
- 특징: 일부 계수를 0으로 만들어 피처 선택 효과
(3) ElasticNet — L1 + L2 혼합
- 주요 하이퍼파라미터:
- alpha
- l1_ratio (L1 비율)
- 특징: Ridge + Lasso 장점 결합
4. PolynomialFeatures + 선형 모델
비선형 관계를 선형 모델로 표현할 수 있도록 변수를 확장합니다.
주요 하이퍼파라미터
- degree: 다항식 차수
활용 예시
곡선 형태의 트렌드가 있는 데이터(예: 엔진 배기량과 연비)
주의
degree↑ → 과적합 위험↑
5. DecisionTreeRegressor — 비선형 패턴에 강한 회귀 모델
CART 알고리즘 기반으로, 분류 트리와 구조는 동일하지만 리프에서 평균값을 예측합니다.
주요 하이퍼파라미터
- max_depth
- min_samples_leaf
- min_samples_split
- max_features
특징
- 해석이 쉬움
- 규제를 하지 않으면 과적합 매우 심함
6. 분류 모델의 하이퍼파라미터
6-1. DecisionTreeClassifier
회귀 모델과 동일한 하이퍼파라미터 구조
핵심 조절 포인트
- max_depth
- min_samples_split
- min_samples_leaf
- max_features
→ 과적합 방지
7. Ensemble: Voting & Bagging
7-1. Voting Classifier
서로 다른 모델을 결합해 성능 향상
- voting: hard 또는 soft
- weights: 모델별 가중치
- estimators: 사용할 모델 목록
특징: 데이터가 작거나 모델 해석력이 필요할 때 유용
7-2. Bagging (Bootstrap Aggregating)
같은 모델을 여러 개 학습시키고 평균·투표로 결합하는 방식
- base_estimator
- n_estimators
- oob_score
- n_jobs
대표 모델: RandomForestClassifier
특징: 분산 감소, 안정적 성능, 과적합에 강함
8. Boosting 계열 모델 핵심 정리
Boosting은 순차적 학습을 통해 이전 모델의 오류를 보완합니다.
(1) AdaBoost
- n_estimators
- learning_rate
- base_estimator
특징: 틀린 샘플에 더 많은 가중치를 부여하며 개선
(2) Gradient Boosting
- learning_rate
- n_estimators
- max_depth
- min_samples_split / min_samples_leaf
Bias–Variance 균형 조정이 핵심
(3) XGBoost
빠른 속도 + 강력한 성능
- max_depth
- eta(learning_rate)
- reg_lambda(L2)
- reg_alpha(L1)
- nthread
특징: 대규모 데이터에서도 매우 효율적
(4) LightGBM
Leaf-wise 분할로 높은 성능
- num_leaves
- learning_rate
- max_depth
- min_data_in_leaf
특징: 대용량 데이터에 최적화, 매우 빠름
(5) CatBoost
범주형 데이터를 자동 처리
- iterations
- learning_rate
- depth
- cat_features
특징: 카테고리형 변수 비중이 높은 데이터에서 최강 성능
이번 시리즈에서는 회귀·분류 모델의 핵심 하이퍼파라미터를 모두 정리했습니다.
학습 포인트
- LinearRegression은 튜닝이 거의 필요 없음
- 규제 모델은 과적합 방지에 필수
- 트리 모델은 max_depth 조절이 성능 핵심
- Ensemble과 Boosting은 하이퍼파라미터에 따라 성능 차이가 매우 크게 발생
- XGBoost, LightGBM, CatBoost는 실제 산업 현장에서 가장 많이 쓰이는 강력한 모델들
'Programming' 카테고리의 다른 글
| 딥러닝 기초 개념과 학습 프로세스 완벽 정리 (0) | 2025.12.09 |
|---|---|
| 머신러닝 완전 입문 가이드 6편 : 분류·회귀 모델 평가 지표 완전 정리 (Accuracy, Precision, Recall, F1, ROC-AUC, MAE, RMSE, R²) (1) | 2025.12.09 |
| 머신러닝 완전 입문 가이드 4편 : 파라미터(Parameter)와 하이퍼파라미터(Hyperparameter)의 개념과 차이 (1) | 2025.12.08 |
| 머신러닝 완전 입문 가이드 3편 : 왜 검증(Validation)이 중요한가? 검증 방식과 평가지표 완전 이해 (0) | 2025.12.08 |
| 머신러닝 완전 입문 가이드 2편: 분류(Classification)와 결정트리·앙상블 알고리즘 완전 이해하기 (0) | 2025.12.08 |