회귀(Regression) 핵심 개념 최종 요약 정리

EastLight

We all try to make things work, no one sets out to fail. Let's give it a try first and decide afterward.

Today :
Yesterday :

kmeans, 군집화, 회귀분석, ensemble learning, 데이터전처리, 머신러닝회귀, 데이터분석, 선형회귀, LightGBM, Machine Learning, 차원축소, unsupervised learning, MachineLearning, 피처엔지니어링, 비지도학습, regression, 머신러닝, linearRegression, XGBoost, Feature Engineering,

Programming

회귀(Regression) 핵심 개념 최종 요약 정리

Lucas.Kim 2026. 1. 9. 14:59

이번 글은 회귀 분석 전반을 마무리하는 종합 요약 글입니다.
앞선 실습(선형 회귀 → 규제 회귀 → 트리 기반 회귀 → 앙상블/스태킹)을 관통하는 개념·용어·정의를 입문자도 이해할 수 있도록 차분히 정리합니다.

1. 회귀 분석(Regression)의 목적

회귀 분석의 핵심 목적은 다음과 같습니다.

연속적인 숫자 값을 예측하는 것
(예: 주택 가격, 매출액, 수요량, 온도 등)

❌ 범주(클래스)를 맞히는 문제는 분류(Classification)
✅ 숫자 값을 예측하는 문제는 회귀(Regression) 입니다.

2. 선형 회귀와 비용 함수(RSS)

2-1. 선형 회귀(Linear Regression)

선형 회귀는 입력 피처(Feature)와 타겟(Target) 사이의 관계를 **직선(선형 함수)**으로 가정합니다.

y=w1x1+w2x2+⋯+by = w_1x_1 + w_2x_2 + \cdots + b

xx : 피처(독립 변수)
yy : 타겟(종속 변수)
ww : 회귀 계수(가중치)
bb : 절편

2-2. RSS (Residual Sum of Squares)

RSS는 선형 회귀에서 사용하는 대표적인 비용 함수(Cost Function) 입니다.

잔차(Residual) = 실제값 − 예측값
RSS = 잔차를 제곱해서 모두 더한 값

RSS=∑(ytrue−ypred)2RSS = \sum (y_{true} - y_{pred})^2

👉 RSS를 최소화하는 회귀 계수를 찾는 것이 학습의 목표입니다.

3. 경사 하강법(Gradient Descent)

경사 하강법은 RSS 같은 비용 함수를 최소화하기 위한 최적화 알고리즘입니다.

기울기(미분값)를 이용해
비용 함수가 가장 빠르게 감소하는 방향으로
반복적으로 파라미터를 업데이트합니다.

✔ 학습률(learning rate)이 너무 크면 발산
✔ 너무 작으면 학습 속도가 매우 느려집니다.

4. 과소적합 vs 과대적합

4-1. 과소적합(Underfitting)

모델이 너무 단순
데이터 패턴을 제대로 학습하지 못함
훈련/테스트 성능 모두 낮음

예: 단순 선형 회귀로 복잡한 관계를 예측

4-2. 과대적합(Overfitting)

모델이 너무 복잡
훈련 데이터에만 과도하게 맞춤
테스트 데이터 성능 급격히 저하

예: 고차 다항 회귀, 규제 없는 트리 모델

5. 규제(Regularization) 회귀

과대적합을 막기 위해 회귀 계수에 페널티를 주는 기법입니다.

5-1. 릿지 회귀(Ridge, L2)

계수의 **제곱합(L2)**에 페널티
계수를 작게 만들지만 0으로 만들지는 않음
다중공선성 문제 완화

5-2. 라쏘 회귀(Lasso, L1)

계수의 **절댓값합(L1)**에 페널티
중요하지 않은 피처의 계수를 0으로 만듦
피처 선택 효과 발생

5-3. 엘라스틱넷(ElasticNet)

L1 + L2 규제 결합
릿지와 라쏘의 장점을 모두 활용
피처 수가 많고 상관성이 높은 경우 유리

6. 로지스틱 회귀(Logistic Regression)

이름에 회귀가 들어가지만 분류(Classification) 모델입니다.

선형 회귀 결과에 시그모이드 함수 적용
출력값: 0~1 사이의 확률
이진 분류 문제에 주로 사용

7. CART 기반 회귀 트리

7-1. 회귀 트리(Regression Tree)

데이터를 조건 분기로 나눔
각 리프 노드는 평균값을 예측
비선형 관계를 잘 학습

7-2. 트리 기반 앙상블

XGBoost / LightGBM
여러 트리를 결합해 성능 향상
비선형·복잡한 데이터에 매우 강력

8. 데이터 변환과 인코딩

8-1. 왜곡도(Skewness)와 로그 변환

타겟이나 피처가 한쪽으로 치우친 경우(Right Skew)
로그 변환(log1p) 적용
분포를 정규분포에 가깝게 만들어 성능 개선

8-2. 원-핫 인코딩(One-Hot Encoding)

범주형 데이터를 숫자로 변환
각 범주를 0/1 컬럼으로 분리
선형 모델이 범주 간 순서 오해를 방지

9. 회귀 모델 평가 지표

RMSE: 큰 오차에 더 민감
MAE: 절대 오차 평균
R² Score: 설명력 지표

👉 실무에서는 RMSE + 교차 검증이 가장 많이 사용됩니다.

마무리 정리

회귀 분석은 단순히 모델을 돌리는 것이 아니라,

데이터 분포 이해
적절한 변환
규제와 하이퍼파라미터 튜닝
모델 결합(앙상블, 스태킹)

까지 전 과정이 유기적으로 연결되어 있습니다.
이번 시리즈를 통해 회귀의 큰 흐름을 확실히 잡았다면, 다음 단계로는 실전 데이터셋 적용과 모델 해석으로 확장할 수 있습니다.

저작자표시 비영리 변경금지 (새창열림)

'Programming' 카테고리의 다른 글

신용카드 데이터 세트 PCA 변환과 분류 성능 비교 (1)	2026.01.11
차원 축소(Dimension Reduction) 이해와 PCA 실습 (0)	2026.01.11
캐글 주택가격 예측 : 고급 회귀 기법 (3편) : 회귀 트리 모델 · 예측 혼합 · 스태킹(Stacking) 앙상블 (0)	2026.01.09
캐글 주택가격 예측 프로젝트 (2편) : 교차검증, 하이퍼파라미터 튜닝, 왜도 보정, 이상치 제거를 통한 성능 고도화 (0)	2026.01.09
캐글 주택가격 예측 프로젝트 (1편) : 고급 회귀 기법을 위한 데이터 이해와 선형 회귀 모델 분석 (0)	2026.01.09

현재글회귀(Regression) 핵심 개념 최종 요약 정리

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

회귀(Regression) 핵심 개념 최종 요약 정리

1. 회귀 분석(Regression)의 목적

2. 선형 회귀와 비용 함수(RSS)

2-1. 선형 회귀(Linear Regression)

2-2. RSS (Residual Sum of Squares)

3. 경사 하강법(Gradient Descent)

4. 과소적합 vs 과대적합

4-1. 과소적합(Underfitting)

4-2. 과대적합(Overfitting)

5. 규제(Regularization) 회귀

5-1. 릿지 회귀(Ridge, L2)

5-2. 라쏘 회귀(Lasso, L1)

5-3. 엘라스틱넷(ElasticNet)

6. 로지스틱 회귀(Logistic Regression)

7. CART 기반 회귀 트리

7-1. 회귀 트리(Regression Tree)

7-2. 트리 기반 앙상블

8. 데이터 변환과 인코딩

8-1. 왜곡도(Skewness)와 로그 변환

8-2. 원-핫 인코딩(One-Hot Encoding)

9. 회귀 모델 평가 지표

마무리 정리

'Programming' 카테고리의 다른 글

'Programming'의 다른글

티스토리툴바

회귀(Regression) 핵심 개념 최종 요약 정리

1. 회귀 분석(Regression)의 목적

2. 선형 회귀와 비용 함수(RSS)

2-1. 선형 회귀(Linear Regression)

2-2. RSS (Residual Sum of Squares)

3. 경사 하강법(Gradient Descent)

4. 과소적합 vs 과대적합

4-1. 과소적합(Underfitting)

4-2. 과대적합(Overfitting)

5. 규제(Regularization) 회귀

5-1. 릿지 회귀(Ridge, L2)

5-2. 라쏘 회귀(Lasso, L1)

5-3. 엘라스틱넷(ElasticNet)

6. 로지스틱 회귀(Logistic Regression)

7. CART 기반 회귀 트리

7-1. 회귀 트리(Regression Tree)

7-2. 트리 기반 앙상블

8. 데이터 변환과 인코딩

8-1. 왜곡도(Skewness)와 로그 변환

8-2. 원-핫 인코딩(One-Hot Encoding)

9. 회귀 모델 평가 지표

마무리 정리

'Programming' 카테고리의 다른 글

'Programming'의 다른글

관련글

티스토리툴바