Programming

LinearRegression 클래스와 선형 회귀 평가 지표 정리

Lucas.Kim 2026. 1. 2. 01:49
반응형

1. LinearRegression 클래스란?

LinearRegression 클래스는 규제를 적용하지 않은 선형 회귀 모델을 구현한 클래스입니다.
사이킷런에서 제공하는 기본 회귀 모델로, OLS(Ordinary Least Squares) 추정 방식을 사용합니다.

OLS의 핵심 목표는 다음과 같습니다.

실제 값과 예측 값의 차이(Residual)의 제곱합
RSS(Residual Sum of Squares) 를 최소화하는 회귀 계수 WW를 찾는 것

LinearRegression의 주요 특징

  • 규제(Regularization)를 적용하지 않음
  • 입력 데이터 X, y를 기반으로 회귀 계수 추정
  • 학습 후 회귀 계수는 coef_ 속성에 저장됨
  • 절편(intercept)은 intercept_ 속성에 저장됨

즉, LinearRegression은 **가장 기본이 되는 기준 모델(Baseline Model)**로 활용되며,
이후 Ridge, Lasso와 같은 규제 모델과의 성능 비교 기준이 됩니다.


2. 선형 회귀의 다중 공선성(Multicollinearity) 문제

선형 회귀는 입력 피처 간의 독립성에 매우 민감한 모델입니다.

다중 공선성이란?

  • 두 개 이상의 독립 변수(피처) 간에 상관관계가 매우 높은 경우
  • 회귀 계수의 분산이 커지고, 모델이 작은 데이터 변화에도 민감해짐
  • 결과적으로 예측 성능이 불안정해지는 현상

다중 공선성이 발생하면?

  • 회귀 계수가 비정상적으로 커지거나 작아짐
  • 피처 중요도 해석이 어려워짐
  • 테스트 데이터에서 성능 저하 가능성 증가

일반적인 해결 방법

  • 상관관계가 높은 피처 제거
  • 도메인 지식을 활용한 중요 피처 선별
  • 규제(Regularization) 적용
    • Ridge (L2)
    • Lasso (L1)
    • ElasticNet (L1 + L2)

3. 회귀 모델 평가 지표

회귀 모델의 성능 평가는 실제 값과 예측 값의 차이를 기준으로 합니다.
분류와 달리 Accuracy 개념을 사용하지 않습니다.


3.1 MAE (Mean Absolute Error)

  • 실제 값과 예측 값의 차이를 절대값으로 변환 후 평균
  • 이상치에 비교적 덜 민감

특징

  • 해석이 직관적
  • 모든 오류를 동일한 비중으로 반영

3.2 MSE (Mean Squared Error)

  • 오차를 제곱한 뒤 평균
  • 큰 오류에 대해 더 큰 패널티 부여

특징

  • 미분이 쉬워 최적화에 유리
  • 이상치에 매우 민감

3.3 RMSE (Root Mean Squared Error)

  • MSE에 제곱근을 취한 값
  • 실제 오류 크기와 단위가 동일

특징

  • MAE보다 큰 오류에 더 민감
  • 예측 실패 비용이 큰 문제에 적합

예시로 오류값이
[10, 20, 10, 10, 100] 인 경우,
RMSE는 MAE보다 훨씬 크게 나타나며 큰 오류에 대한 패널티를 강조합니다.


3.4 MSLE (Mean Squared Log Error)

  • 예측 값과 실제 값에 로그를 적용한 후 MSE 계산

사용 목적

  • 값의 크기가 큰 데이터에서 발생하는 과도한 오류 영향 완화
  • 성장률, 비율 예측 문제에 유리

3.5 RMSLE (Root Mean Squared Log Error)

  • MSLE에 제곱근 적용
  • 로그 스케일에서의 평균 오류 크기

특징

  • 큰 값에서의 오차 영향을 완화
  • 상대적 오차 평가에 적합

3.6 R² (결정 계수)

  • 분산 기반 평가 지표
  • 실제 값의 분산 대비 예측 값의 분산 비율

R2=1−RSSTSSR^2 = 1 - \frac{RSS}{TSS}

특징

  • 값의 범위: −∞∼1-\infty \sim 1
  • 1에 가까울수록 예측 성능이 우수
  • 음수일 경우 평균값 예측보다도 성능이 나쁨

4. 정리

  • LinearRegression은 규제 없는 OLS 기반 선형 회귀 모델
  • 다중 공선성은 선형 회귀 성능과 해석을 크게 저하시킴
  • 회귀 평가 지표는 문제 특성에 따라 선택해야 함
    • 큰 오류가 중요한 경우 → RMSE
    • 안정적인 평균 오류 → MAE
    • 값의 스케일 차이가 큰 경우 → RMSLE
  • 단일 지표에 의존하기보다 복수 지표를 함께 해석하는 것이 중요
반응형