
이번 글은 회귀 분석 전반을 마무리하는 종합 요약 글입니다.
앞선 실습(선형 회귀 → 규제 회귀 → 트리 기반 회귀 → 앙상블/스태킹)을 관통하는 개념·용어·정의를 입문자도 이해할 수 있도록 차분히 정리합니다.
1. 회귀 분석(Regression)의 목적
회귀 분석의 핵심 목적은 다음과 같습니다.
- 연속적인 숫자 값을 예측하는 것
(예: 주택 가격, 매출액, 수요량, 온도 등)
❌ 범주(클래스)를 맞히는 문제는 분류(Classification)
✅ 숫자 값을 예측하는 문제는 회귀(Regression) 입니다.
2. 선형 회귀와 비용 함수(RSS)
2-1. 선형 회귀(Linear Regression)
선형 회귀는 입력 피처(Feature)와 타겟(Target) 사이의 관계를 **직선(선형 함수)**으로 가정합니다.
y=w1x1+w2x2+⋯+by = w_1x_1 + w_2x_2 + \cdots + b
- xx : 피처(독립 변수)
- yy : 타겟(종속 변수)
- ww : 회귀 계수(가중치)
- bb : 절편
2-2. RSS (Residual Sum of Squares)
RSS는 선형 회귀에서 사용하는 대표적인 비용 함수(Cost Function) 입니다.
- 잔차(Residual) = 실제값 − 예측값
- RSS = 잔차를 제곱해서 모두 더한 값
RSS=∑(ytrue−ypred)2RSS = \sum (y_{true} - y_{pred})^2
👉 RSS를 최소화하는 회귀 계수를 찾는 것이 학습의 목표입니다.
3. 경사 하강법(Gradient Descent)
경사 하강법은 RSS 같은 비용 함수를 최소화하기 위한 최적화 알고리즘입니다.
- 기울기(미분값)를 이용해
- 비용 함수가 가장 빠르게 감소하는 방향으로
- 반복적으로 파라미터를 업데이트합니다.
✔ 학습률(learning rate)이 너무 크면 발산
✔ 너무 작으면 학습 속도가 매우 느려집니다.
4. 과소적합 vs 과대적합
4-1. 과소적합(Underfitting)
- 모델이 너무 단순
- 데이터 패턴을 제대로 학습하지 못함
- 훈련/테스트 성능 모두 낮음
예: 단순 선형 회귀로 복잡한 관계를 예측
4-2. 과대적합(Overfitting)
- 모델이 너무 복잡
- 훈련 데이터에만 과도하게 맞춤
- 테스트 데이터 성능 급격히 저하
예: 고차 다항 회귀, 규제 없는 트리 모델
5. 규제(Regularization) 회귀
과대적합을 막기 위해 회귀 계수에 페널티를 주는 기법입니다.
5-1. 릿지 회귀(Ridge, L2)
- 계수의 **제곱합(L2)**에 페널티
- 계수를 작게 만들지만 0으로 만들지는 않음
- 다중공선성 문제 완화
5-2. 라쏘 회귀(Lasso, L1)
- 계수의 **절댓값합(L1)**에 페널티
- 중요하지 않은 피처의 계수를 0으로 만듦
- 피처 선택 효과 발생
5-3. 엘라스틱넷(ElasticNet)
- L1 + L2 규제 결합
- 릿지와 라쏘의 장점을 모두 활용
- 피처 수가 많고 상관성이 높은 경우 유리
6. 로지스틱 회귀(Logistic Regression)
이름에 회귀가 들어가지만 분류(Classification) 모델입니다.
- 선형 회귀 결과에 시그모이드 함수 적용
- 출력값: 0~1 사이의 확률
- 이진 분류 문제에 주로 사용
7. CART 기반 회귀 트리
7-1. 회귀 트리(Regression Tree)
- 데이터를 조건 분기로 나눔
- 각 리프 노드는 평균값을 예측
- 비선형 관계를 잘 학습
7-2. 트리 기반 앙상블
- XGBoost / LightGBM
- 여러 트리를 결합해 성능 향상
- 비선형·복잡한 데이터에 매우 강력
8. 데이터 변환과 인코딩
8-1. 왜곡도(Skewness)와 로그 변환
- 타겟이나 피처가 한쪽으로 치우친 경우(Right Skew)
- 로그 변환(log1p) 적용
- 분포를 정규분포에 가깝게 만들어 성능 개선
8-2. 원-핫 인코딩(One-Hot Encoding)
- 범주형 데이터를 숫자로 변환
- 각 범주를 0/1 컬럼으로 분리
- 선형 모델이 범주 간 순서 오해를 방지
9. 회귀 모델 평가 지표
- RMSE: 큰 오차에 더 민감
- MAE: 절대 오차 평균
- R² Score: 설명력 지표
👉 실무에서는 RMSE + 교차 검증이 가장 많이 사용됩니다.
마무리 정리
회귀 분석은 단순히 모델을 돌리는 것이 아니라,
- 데이터 분포 이해
- 적절한 변환
- 규제와 하이퍼파라미터 튜닝
- 모델 결합(앙상블, 스태킹)
까지 전 과정이 유기적으로 연결되어 있습니다.
이번 시리즈를 통해 회귀의 큰 흐름을 확실히 잡았다면, 다음 단계로는 실전 데이터셋 적용과 모델 해석으로 확장할 수 있습니다.
'Programming' 카테고리의 다른 글
| 신용카드 데이터 세트 PCA 변환과 분류 성능 비교 (1) | 2026.01.11 |
|---|---|
| 차원 축소(Dimension Reduction) 이해와 PCA 실습 (0) | 2026.01.11 |
| 캐글 주택가격 예측 : 고급 회귀 기법 (3편) : 회귀 트리 모델 · 예측 혼합 · 스태킹(Stacking) 앙상블 (0) | 2026.01.09 |
| 캐글 주택가격 예측 프로젝트 (2편) : 교차검증, 하이퍼파라미터 튜닝, 왜도 보정, 이상치 제거를 통한 성능 고도화 (0) | 2026.01.09 |
| 캐글 주택가격 예측 프로젝트 (1편) : 고급 회귀 기법을 위한 데이터 이해와 선형 회귀 모델 분석 (0) | 2026.01.09 |