
1. 회귀(Regression)의 개념
회귀는 현대 통계학을 이루는 가장 중요한 축 중 하나입니다.
회귀 분석은 단순한 예측 기법을 넘어, 변수 간의 관계를 수학적으로 설명하는 방법입니다.
회귀 분석의 기원은 영국의 통계학자 **프랜시스 갈톤(Francis Galton)**의 연구에서 시작되었다고 알려져 있습니다.
갈톤은 유전 연구 과정에서 흥미로운 현상을 발견했습니다.
- 부모의 키가 매우 크더라도 자식의 키는 무한정 커지지 않음
- 부모의 키가 매우 작더라도 자식의 키는 무한정 작아지지 않음
즉, 데이터는 극단으로 치우치기보다는 **평균으로 되돌아가려는 경향(regression to the mean)**을 가진다는 사실입니다.
이 개념이 바로 **회귀(regression)**라는 이름의 출발점입니다.
2. 회귀 분석이란?
회귀 분석은 다음과 같은 목적을 가집니다.
- **하나의 종속 변수(Y)**와
- 하나 이상의 독립 변수(X) 간의 관계를 모델링하는 기법입니다.
예를 들어 다음과 같은 문제에 사용됩니다.
- 아파트 가격 예측
- 방 개수
- 아파트 면적
- 주변 학군
- 인근 지하철역 개수
이때 머신러닝 회귀의 핵심은 다음과 같습니다.
주어진 피처(X)와 결정값(Y) 데이터를 기반으로 학습을 수행하여
**최적의 회귀 계수(Weight, W)**를 찾아내는 것
3. 회귀의 핵심 요소 – 회귀 계수
회귀에서 가장 중요한 개념은 **회귀 계수(W)**입니다.
- 회귀 계수는 각 독립 변수가 종속 변수에 얼마나 영향을 미치는지를 나타냅니다.
- 회귀 모델의 성능은 결국 이 회귀 계수를 얼마나 잘 찾느냐에 달려 있습니다.
회귀는 다음 기준으로 분류할 수 있습니다.
1) 회귀 계수의 형태
- 선형 회귀
- 비선형 회귀
2) 독립 변수 개수
- 단일 회귀 (단일 X)
- 다중 회귀 (여러 X)
4. 분류(Classification)와 회귀(Regression)의 차이
머신러닝에서 회귀와 분류는 예측 대상이 다릅니다.
- Classification
- 예측값: 범주형 값
- 예: 0 또는 1, 클래스 A/B
- Regression
- 예측값: 연속형 숫자
- 예: 가격, 점수, 수치
로지스틱 회귀(Logistic Regression)는 이름에 회귀가 붙어 있지만,
실제로는 분류 문제를 해결하는 모델입니다.
5. 선형 회귀 모델의 종류
1️⃣ 일반 선형 회귀 (Linear Regression)
- RSS(Residual Sum of Squares)를 최소화
- 규제(Regularization)를 적용하지 않음
- 과적합 위험 존재
2️⃣ 릿지 회귀 (Ridge Regression)
- 선형 회귀 + L2 규제
- 회귀 계수를 0에 가깝게 축소
- 모든 피처를 유지하면서 과적합 완화
3️⃣ 라쏘 회귀 (Lasso Regression)
- 선형 회귀 + L1 규제
- 중요하지 않은 피처의 계수를 0으로 만듦
- 자동 피처 선택 효과
4️⃣ 엘라스틱넷 (ElasticNet)
- L1 + L2 규제를 동시에 적용
- 릿지와 라쏘의 장점을 결합
5️⃣ 로지스틱 회귀 (Logistic Regression)
- 선형 모델이지만 분류 문제에 사용
- 시그모이드 함수로 확률값 출력
6. 회귀 모델의 목표 – RSS 최소화
최적의 회귀 모델이란 다음을 의미합니다.
전체 데이터의 잔차(오차)의 합이 최소가 되는 모델
여기서 사용되는 대표적인 오류 측정 방식이 **RSS(Residual Sum of Squares)**입니다.
RSS란?
- 예측값과 실제값의 차이를 제곱하여 더한 값
- 수식적으로는 다음과 같습니다.
RSS = Σ (실제값 - 예측값)²
RSS를 사용하는 이유는 다음과 같습니다.
- 오차의 부호를 제거
- 미분 계산을 쉽게 하기 위함
7. RSS에서 중요한 관점 전환
RSS를 이해할 때 매우 중요한 포인트가 있습니다.
- 독립 변수 X와 종속 변수 Y는 상수
- RSS의 중심 변수는 회귀 계수 W
즉, 머신러닝 회귀는 다음 문제를 푸는 것입니다.
RSS를 최소로 만드는 W(회귀 계수)는 무엇인가?
RSS는 비용 함수(Cost Function) 또는 **손실 함수(Loss Function)**라고 불립니다.
8. 비용 함수는 어떻게 최소화할까?
회귀 계수(W)가 적다면 방정식으로 해결할 수 있습니다.
하지만 실제 머신러닝 문제에서는 다음과 같은 한계가 존재합니다.
- 피처 수가 많음
- 고차원 방정식 계산이 매우 복잡
이 문제를 해결하는 대표적인 방법이 **경사 하강법(Gradient Descent)**입니다.
9. 경사 하강법(Gradient Descent)
경사 하강법은 비용 함수를 최소화하는 반복적 최적화 알고리즘입니다.
- 현재 위치에서
- 기울기(미분값)를 계산
- 오류가 줄어드는 방향으로 W를 업데이트
예를 들어,
- 초기 오류값이 100이라면
- 다음 반복에서 90
- 그다음은 80
- 더 이상 줄어들지 않을 때까지 반복
오류가 더 이상 감소하지 않는 지점의 W가
최적의 회귀 계수가 됩니다.
10. 미분과 비용 함수의 관계
- 미분은 함수의 증가/감소 방향을 알려줍니다.
- 비용 함수의 기울기가 0이 되는 지점이
- 오류가 최소인 지점
- 즉, 최적의 회귀 계수입니다.
경사 하강법은 이 원리를 기반으로 작동합니다.
'Programming' 카테고리의 다른 글
| LinearRegression 클래스와 선형 회귀 평가 지표 정리 (0) | 2026.01.02 |
|---|---|
| 경사하강법(Gradient Descent) 이해하기 – 선형 회귀 실습으로 개념 완전 정리 (0) | 2026.01.02 |
| 내용 요약 정리 (Classification · Tree · Ensemble · Feature Engineering) (0) | 2026.01.02 |
| Feature Selection 실전 : 정리모델 성능과 해석력을 동시에 잡는 방법 (0) | 2026.01.01 |
| Stacking Ensemble 실습 : Basic Stacking과 교차검증 기반 Stacking 이해하기 (0) | 2025.12.31 |