Programming

회귀(Regression)란 무엇인가 – 개념부터 머신러닝까지

Lucas.Kim 2026. 1. 2. 01:32
반응형

1. 회귀(Regression)의 개념

회귀는 현대 통계학을 이루는 가장 중요한 축 중 하나입니다.
회귀 분석은 단순한 예측 기법을 넘어, 변수 간의 관계를 수학적으로 설명하는 방법입니다.

회귀 분석의 기원은 영국의 통계학자 **프랜시스 갈톤(Francis Galton)**의 연구에서 시작되었다고 알려져 있습니다.
갈톤은 유전 연구 과정에서 흥미로운 현상을 발견했습니다.

  • 부모의 키가 매우 크더라도 자식의 키는 무한정 커지지 않음
  • 부모의 키가 매우 작더라도 자식의 키는 무한정 작아지지 않음

즉, 데이터는 극단으로 치우치기보다는 **평균으로 되돌아가려는 경향(regression to the mean)**을 가진다는 사실입니다.
이 개념이 바로 **회귀(regression)**라는 이름의 출발점입니다.


2. 회귀 분석이란?

회귀 분석은 다음과 같은 목적을 가집니다.

  • **하나의 종속 변수(Y)**와
  • 하나 이상의 독립 변수(X) 간의 관계를 모델링하는 기법입니다.

예를 들어 다음과 같은 문제에 사용됩니다.

  • 아파트 가격 예측
    • 방 개수
    • 아파트 면적
    • 주변 학군
    • 인근 지하철역 개수

이때 머신러닝 회귀의 핵심은 다음과 같습니다.

주어진 피처(X)와 결정값(Y) 데이터를 기반으로 학습을 수행하여
**최적의 회귀 계수(Weight, W)**를 찾아내는 것


3. 회귀의 핵심 요소 – 회귀 계수

회귀에서 가장 중요한 개념은 **회귀 계수(W)**입니다.

  • 회귀 계수는 각 독립 변수가 종속 변수에 얼마나 영향을 미치는지를 나타냅니다.
  • 회귀 모델의 성능은 결국 이 회귀 계수를 얼마나 잘 찾느냐에 달려 있습니다.

회귀는 다음 기준으로 분류할 수 있습니다.

1) 회귀 계수의 형태

  • 선형 회귀
  • 비선형 회귀

2) 독립 변수 개수

  • 단일 회귀 (단일 X)
  • 다중 회귀 (여러 X)

4. 분류(Classification)와 회귀(Regression)의 차이

머신러닝에서 회귀와 분류는 예측 대상이 다릅니다.

  • Classification
    • 예측값: 범주형 값
    • 예: 0 또는 1, 클래스 A/B
  • Regression
    • 예측값: 연속형 숫자
    • 예: 가격, 점수, 수치

로지스틱 회귀(Logistic Regression)는 이름에 회귀가 붙어 있지만,
실제로는 분류 문제를 해결하는 모델입니다.


5. 선형 회귀 모델의 종류

1️⃣ 일반 선형 회귀 (Linear Regression)

  • RSS(Residual Sum of Squares)를 최소화
  • 규제(Regularization)를 적용하지 않음
  • 과적합 위험 존재

2️⃣ 릿지 회귀 (Ridge Regression)

  • 선형 회귀 + L2 규제
  • 회귀 계수를 0에 가깝게 축소
  • 모든 피처를 유지하면서 과적합 완화

3️⃣ 라쏘 회귀 (Lasso Regression)

  • 선형 회귀 + L1 규제
  • 중요하지 않은 피처의 계수를 0으로 만듦
  • 자동 피처 선택 효과

4️⃣ 엘라스틱넷 (ElasticNet)

  • L1 + L2 규제를 동시에 적용
  • 릿지와 라쏘의 장점을 결합

5️⃣ 로지스틱 회귀 (Logistic Regression)

  • 선형 모델이지만 분류 문제에 사용
  • 시그모이드 함수로 확률값 출력

6. 회귀 모델의 목표 – RSS 최소화

최적의 회귀 모델이란 다음을 의미합니다.

전체 데이터의 잔차(오차)의 합이 최소가 되는 모델

여기서 사용되는 대표적인 오류 측정 방식이 **RSS(Residual Sum of Squares)**입니다.

RSS란?

  • 예측값과 실제값의 차이를 제곱하여 더한 값
  • 수식적으로는 다음과 같습니다.
RSS = Σ (실제값 - 예측값)²

RSS를 사용하는 이유는 다음과 같습니다.

  • 오차의 부호를 제거
  • 미분 계산을 쉽게 하기 위함

7. RSS에서 중요한 관점 전환

RSS를 이해할 때 매우 중요한 포인트가 있습니다.

  • 독립 변수 X와 종속 변수 Y는 상수
  • RSS의 중심 변수는 회귀 계수 W

즉, 머신러닝 회귀는 다음 문제를 푸는 것입니다.

RSS를 최소로 만드는 W(회귀 계수)는 무엇인가?

RSS는 비용 함수(Cost Function) 또는 **손실 함수(Loss Function)**라고 불립니다.


8. 비용 함수는 어떻게 최소화할까?

회귀 계수(W)가 적다면 방정식으로 해결할 수 있습니다.
하지만 실제 머신러닝 문제에서는 다음과 같은 한계가 존재합니다.

  • 피처 수가 많음
  • 고차원 방정식 계산이 매우 복잡

이 문제를 해결하는 대표적인 방법이 **경사 하강법(Gradient Descent)**입니다.


9. 경사 하강법(Gradient Descent)

경사 하강법은 비용 함수를 최소화하는 반복적 최적화 알고리즘입니다.

  • 현재 위치에서
  • 기울기(미분값)를 계산
  • 오류가 줄어드는 방향으로 W를 업데이트

예를 들어,

  • 초기 오류값이 100이라면
  • 다음 반복에서 90
  • 그다음은 80
  • 더 이상 줄어들지 않을 때까지 반복

오류가 더 이상 감소하지 않는 지점의 W가
최적의 회귀 계수가 됩니다.


10. 미분과 비용 함수의 관계

  • 미분은 함수의 증가/감소 방향을 알려줍니다.
  • 비용 함수의 기울기가 0이 되는 지점이
    • 오류가 최소인 지점
    • 즉, 최적의 회귀 계수입니다.

경사 하강법은 이 원리를 기반으로 작동합니다.

반응형