Programming

회귀(Regression) 핵심 개념 최종 요약 정리

Lucas.Kim 2026. 1. 9. 14:59
반응형

이번 글은 회귀 분석 전반을 마무리하는 종합 요약 글입니다.
앞선 실습(선형 회귀 → 규제 회귀 → 트리 기반 회귀 → 앙상블/스태킹)을 관통하는 개념·용어·정의를 입문자도 이해할 수 있도록 차분히 정리합니다.

 

1. 회귀 분석(Regression)의 목적

회귀 분석의 핵심 목적은 다음과 같습니다.

  • 연속적인 숫자 값을 예측하는 것
    (예: 주택 가격, 매출액, 수요량, 온도 등)

❌ 범주(클래스)를 맞히는 문제는 분류(Classification)
✅ 숫자 값을 예측하는 문제는 회귀(Regression) 입니다.


2. 선형 회귀와 비용 함수(RSS)

2-1. 선형 회귀(Linear Regression)

선형 회귀는 입력 피처(Feature)와 타겟(Target) 사이의 관계를 **직선(선형 함수)**으로 가정합니다.

y=w1x1+w2x2+⋯+by = w_1x_1 + w_2x_2 + \cdots + b

  • xx : 피처(독립 변수)
  • yy : 타겟(종속 변수)
  • ww : 회귀 계수(가중치)
  • bb : 절편

2-2. RSS (Residual Sum of Squares)

RSS는 선형 회귀에서 사용하는 대표적인 비용 함수(Cost Function) 입니다.

  • 잔차(Residual) = 실제값 − 예측값
  • RSS = 잔차를 제곱해서 모두 더한 값

RSS=∑(ytrue−ypred)2RSS = \sum (y_{true} - y_{pred})^2

👉 RSS를 최소화하는 회귀 계수를 찾는 것이 학습의 목표입니다.


3. 경사 하강법(Gradient Descent)

경사 하강법은 RSS 같은 비용 함수를 최소화하기 위한 최적화 알고리즘입니다.

  • 기울기(미분값)를 이용해
  • 비용 함수가 가장 빠르게 감소하는 방향으로
  • 반복적으로 파라미터를 업데이트합니다.

✔ 학습률(learning rate)이 너무 크면 발산
✔ 너무 작으면 학습 속도가 매우 느려집니다.


4. 과소적합 vs 과대적합

4-1. 과소적합(Underfitting)

  • 모델이 너무 단순
  • 데이터 패턴을 제대로 학습하지 못함
  • 훈련/테스트 성능 모두 낮음

예: 단순 선형 회귀로 복잡한 관계를 예측


4-2. 과대적합(Overfitting)

  • 모델이 너무 복잡
  • 훈련 데이터에만 과도하게 맞춤
  • 테스트 데이터 성능 급격히 저하

예: 고차 다항 회귀, 규제 없는 트리 모델


5. 규제(Regularization) 회귀

과대적합을 막기 위해 회귀 계수에 페널티를 주는 기법입니다.

5-1. 릿지 회귀(Ridge, L2)

  • 계수의 **제곱합(L2)**에 페널티
  • 계수를 작게 만들지만 0으로 만들지는 않음
  • 다중공선성 문제 완화

5-2. 라쏘 회귀(Lasso, L1)

  • 계수의 **절댓값합(L1)**에 페널티
  • 중요하지 않은 피처의 계수를 0으로 만듦
  • 피처 선택 효과 발생

5-3. 엘라스틱넷(ElasticNet)

  • L1 + L2 규제 결합
  • 릿지와 라쏘의 장점을 모두 활용
  • 피처 수가 많고 상관성이 높은 경우 유리

6. 로지스틱 회귀(Logistic Regression)

이름에 회귀가 들어가지만 분류(Classification) 모델입니다.

  • 선형 회귀 결과에 시그모이드 함수 적용
  • 출력값: 0~1 사이의 확률
  • 이진 분류 문제에 주로 사용

7. CART 기반 회귀 트리

7-1. 회귀 트리(Regression Tree)

  • 데이터를 조건 분기로 나눔
  • 각 리프 노드는 평균값을 예측
  • 비선형 관계를 잘 학습

7-2. 트리 기반 앙상블

  • XGBoost / LightGBM
  • 여러 트리를 결합해 성능 향상
  • 비선형·복잡한 데이터에 매우 강력

8. 데이터 변환과 인코딩

8-1. 왜곡도(Skewness)와 로그 변환

  • 타겟이나 피처가 한쪽으로 치우친 경우(Right Skew)
  • 로그 변환(log1p) 적용
  • 분포를 정규분포에 가깝게 만들어 성능 개선

8-2. 원-핫 인코딩(One-Hot Encoding)

  • 범주형 데이터를 숫자로 변환
  • 각 범주를 0/1 컬럼으로 분리
  • 선형 모델이 범주 간 순서 오해를 방지

9. 회귀 모델 평가 지표

  • RMSE: 큰 오차에 더 민감
  • MAE: 절대 오차 평균
  • R² Score: 설명력 지표

👉 실무에서는 RMSE + 교차 검증이 가장 많이 사용됩니다.


마무리 정리

회귀 분석은 단순히 모델을 돌리는 것이 아니라,

  • 데이터 분포 이해
  • 적절한 변환
  • 규제와 하이퍼파라미터 튜닝
  • 모델 결합(앙상블, 스태킹)

까지 전 과정이 유기적으로 연결되어 있습니다.
이번 시리즈를 통해 회귀의 큰 흐름을 확실히 잡았다면, 다음 단계로는 실전 데이터셋 적용과 모델 해석으로 확장할 수 있습니다.

반응형