EastLight

We all try to make things work, no one sets out to fail. Let's give it a try first and decide afterward.

Today :
Yesterday :

Machine Learning, LightGBM, linearRegression, ensemble learning, regression, MachineLearning, 선형회귀, XGBoost, 머신러닝, unsupervised learning, 머신러닝회귀, 데이터분석, 회귀분석, kmeans, 피처엔지니어링, 비지도학습, 차원축소, Feature Engineering, 군집화, 데이터전처리,

Programming

머신러닝 완전 입문 가이드 5편 : 회귀·분류 모델 하이퍼파라미터 완전 정리(Linear Regression부터 CatBoost까지)

Lucas.Kim 2025. 12. 8. 12:32

앞선 시리즈에서 모델의 **파라미터(Parameter)**와 하이퍼파라미터(Hyperparameter) 차이를 학습했습니다.
이번 글에서는 실제 머신러닝 모델들이 어떤 하이퍼파라미터를 가지고 있으며,
이 값들을 어떻게 조정하면 성능을 높일 수 있는지 정리합니다.

정리 대상 모델

선형 모델: LinearRegression, SGDRegressor
규제 모델: Ridge, Lasso, ElasticNet
특성 확장: PolynomialFeatures
트리 기반 회귀: DecisionTreeRegressor
분류 모델: Decision Tree, Voting, Bagging
Boosting 계열: AdaBoost, Gradient Boosting, XGBoost, LightGBM, CatBoost

머신러닝 실전에서는 “어떤 하이퍼파라미터를 어떻게 조정할 것인가?”가 성능 차이를 낳습니다.
이번 글을 통해 모델별 핵심 포인트를 한눈에 정리해보겠습니다.

1. LinearRegression — 가장 기본적인 회귀 모델

LinearRegression은 입력 × 가중치 + 절편 형태의 직선 관계를 가정하는 기본 모델입니다.

특징

scikit-learn의 OLS 방식으로 계수를 자동 계산
사실상 튜닝이 필요 없는 모델
피처 간 상관성이 높을수록 불안정

하이퍼파라미터(일반적으로 튜닝 대상 아님)

fit_intercept
copy_X
n_jobs

활용 예시

주택가격 예측
단순 경향 분석(연비 vs 배기량 등)

2. SGDRegressor

대규모 데이터 또는 스트리밍 데이터 처리가 필요할 때 사용합니다.
경사하강법(SGD) 기반이므로 학습률 조정이 핵심입니다.

주요 하이퍼파라미터

penalty	L1, L2, elasticnet 규제
alpha	규제 강도
l1_ratio	elasticnet 시 L1 비율
max_iter	반복 횟수
learning_rate	학습률 정책
eta0	초기 학습률

사용 예시

실시간 센서 데이터 예측, API 요청량 예측 등에서 효과적

3. 규제 회귀 모델: Ridge, Lasso, ElasticNet

규제가 필요한 이유

피처 개수가 많음
피처 간 상관관계가 높음(다중공선성)
노이즈가 많은 데이터
→ 회귀계수가 지나치게 커져 과적합 발생

규제는 “모델이 너무 똑똑해지지 않게 적당히 제어하는 장치”입니다.

(1) Ridge — L2 규제

가중치 제곱을 패널티로 부여

주요 하이퍼파라미터: alpha
특징: 안정적, 과적합 완화에 좋음

(2) Lasso — L1 규제

가중치 절댓값을 패널티로 부여

주요 하이퍼파라미터: alpha
특징: 일부 계수를 0으로 만들어 피처 선택 효과

(3) ElasticNet — L1 + L2 혼합

주요 하이퍼파라미터:
- alpha
- l1_ratio (L1 비율)
특징: Ridge + Lasso 장점 결합

4. PolynomialFeatures + 선형 모델

비선형 관계를 선형 모델로 표현할 수 있도록 변수를 확장합니다.

주요 하이퍼파라미터

degree: 다항식 차수

활용 예시

곡선 형태의 트렌드가 있는 데이터(예: 엔진 배기량과 연비)

주의

degree↑ → 과적합 위험↑

5. DecisionTreeRegressor — 비선형 패턴에 강한 회귀 모델

CART 알고리즘 기반으로, 분류 트리와 구조는 동일하지만 리프에서 평균값을 예측합니다.

주요 하이퍼파라미터

max_depth
min_samples_leaf
min_samples_split
max_features

특징

해석이 쉬움
규제를 하지 않으면 과적합 매우 심함

6. 분류 모델의 하이퍼파라미터

6-1. DecisionTreeClassifier

회귀 모델과 동일한 하이퍼파라미터 구조

핵심 조절 포인트

max_depth
min_samples_split
min_samples_leaf
max_features
→ 과적합 방지

7. Ensemble: Voting & Bagging

7-1. Voting Classifier

서로 다른 모델을 결합해 성능 향상

voting: hard 또는 soft
weights: 모델별 가중치
estimators: 사용할 모델 목록

특징: 데이터가 작거나 모델 해석력이 필요할 때 유용

7-2. Bagging (Bootstrap Aggregating)

같은 모델을 여러 개 학습시키고 평균·투표로 결합하는 방식

base_estimator
n_estimators
oob_score
n_jobs

대표 모델: RandomForestClassifier

특징: 분산 감소, 안정적 성능, 과적합에 강함

8. Boosting 계열 모델 핵심 정리

Boosting은 순차적 학습을 통해 이전 모델의 오류를 보완합니다.

(1) AdaBoost

n_estimators
learning_rate
base_estimator

특징: 틀린 샘플에 더 많은 가중치를 부여하며 개선

(2) Gradient Boosting

learning_rate
n_estimators
max_depth
min_samples_split / min_samples_leaf

Bias–Variance 균형 조정이 핵심

(3) XGBoost

빠른 속도 + 강력한 성능

max_depth
eta(learning_rate)
reg_lambda(L2)
reg_alpha(L1)
nthread

특징: 대규모 데이터에서도 매우 효율적

(4) LightGBM

Leaf-wise 분할로 높은 성능

num_leaves
learning_rate
max_depth
min_data_in_leaf

특징: 대용량 데이터에 최적화, 매우 빠름

(5) CatBoost

범주형 데이터를 자동 처리

iterations
learning_rate
depth
cat_features

특징: 카테고리형 변수 비중이 높은 데이터에서 최강 성능

이번 시리즈에서는 회귀·분류 모델의 핵심 하이퍼파라미터를 모두 정리했습니다.

학습 포인트

LinearRegression은 튜닝이 거의 필요 없음
규제 모델은 과적합 방지에 필수
트리 모델은 max_depth 조절이 성능 핵심
Ensemble과 Boosting은 하이퍼파라미터에 따라 성능 차이가 매우 크게 발생
XGBoost, LightGBM, CatBoost는 실제 산업 현장에서 가장 많이 쓰이는 강력한 모델들

저작자표시 비영리 변경금지 (새창열림)

'Programming' 카테고리의 다른 글

딥러닝 기초 개념과 학습 프로세스 완벽 정리 (0)	2025.12.09
머신러닝 완전 입문 가이드 6편 : 분류·회귀 모델 평가 지표 완전 정리 (Accuracy, Precision, Recall, F1, ROC-AUC, MAE, RMSE, R²) (1)	2025.12.09
머신러닝 완전 입문 가이드 4편 : 파라미터(Parameter)와 하이퍼파라미터(Hyperparameter)의 개념과 차이 (1)	2025.12.08
머신러닝 완전 입문 가이드 3편 : 왜 검증(Validation)이 중요한가? 검증 방식과 평가지표 완전 이해 (0)	2025.12.08
머신러닝 완전 입문 가이드 2편: 분류(Classification)와 결정트리·앙상블 알고리즘 완전 이해하기 (0)	2025.12.08

현재글머신러닝 완전 입문 가이드 5편 : 회귀·분류 모델 하이퍼파라미터 완전 정리(Linear Regression부터 CatBoost까지)

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

머신러닝 완전 입문 가이드 5편 : 회귀·분류 모델 하이퍼파라미터 완전 정리(Linear Regression부터 CatBoost까지)

1. LinearRegression — 가장 기본적인 회귀 모델

특징

하이퍼파라미터(일반적으로 튜닝 대상 아님)

활용 예시

2. SGDRegressor

주요 하이퍼파라미터

사용 예시

3. 규제 회귀 모델: Ridge, Lasso, ElasticNet

(1) Ridge — L2 규제

(2) Lasso — L1 규제

(3) ElasticNet — L1 + L2 혼합

4. PolynomialFeatures + 선형 모델

주요 하이퍼파라미터

활용 예시

주의

5. DecisionTreeRegressor — 비선형 패턴에 강한 회귀 모델

주요 하이퍼파라미터

특징

6. 분류 모델의 하이퍼파라미터

6-1. DecisionTreeClassifier

7. Ensemble: Voting & Bagging

7-1. Voting Classifier

7-2. Bagging (Bootstrap Aggregating)

8. Boosting 계열 모델 핵심 정리

(1) AdaBoost

(2) Gradient Boosting

(3) XGBoost

(4) LightGBM

(5) CatBoost

'Programming' 카테고리의 다른 글

'Programming'의 다른글

티스토리툴바

머신러닝 완전 입문 가이드 5편 : 회귀·분류 모델 하이퍼파라미터 완전 정리(Linear Regression부터 CatBoost까지)

1. LinearRegression — 가장 기본적인 회귀 모델

특징

하이퍼파라미터(일반적으로 튜닝 대상 아님)

활용 예시

2. SGDRegressor

주요 하이퍼파라미터

사용 예시

3. 규제 회귀 모델: Ridge, Lasso, ElasticNet

(1) Ridge — L2 규제

(2) Lasso — L1 규제

(3) ElasticNet — L1 + L2 혼합

4. PolynomialFeatures + 선형 모델

주요 하이퍼파라미터

활용 예시

주의

5. DecisionTreeRegressor — 비선형 패턴에 강한 회귀 모델

주요 하이퍼파라미터

특징

6. 분류 모델의 하이퍼파라미터

6-1. DecisionTreeClassifier

7. Ensemble: Voting & Bagging

7-1. Voting Classifier

7-2. Bagging (Bootstrap Aggregating)

8. Boosting 계열 모델 핵심 정리

(1) AdaBoost

(2) Gradient Boosting

(3) XGBoost

(4) LightGBM

(5) CatBoost

'Programming' 카테고리의 다른 글

'Programming'의 다른글

관련글

티스토리툴바