반응형

regression 6

회귀(Regression) 핵심 개념 최종 요약 정리

이번 글은 회귀 분석 전반을 마무리하는 종합 요약 글입니다.앞선 실습(선형 회귀 → 규제 회귀 → 트리 기반 회귀 → 앙상블/스태킹)을 관통하는 개념·용어·정의를 입문자도 이해할 수 있도록 차분히 정리합니다. 1. 회귀 분석(Regression)의 목적회귀 분석의 핵심 목적은 다음과 같습니다.연속적인 숫자 값을 예측하는 것(예: 주택 가격, 매출액, 수요량, 온도 등)❌ 범주(클래스)를 맞히는 문제는 분류(Classification)✅ 숫자 값을 예측하는 문제는 회귀(Regression) 입니다.2. 선형 회귀와 비용 함수(RSS)2-1. 선형 회귀(Linear Regression)선형 회귀는 입력 피처(Feature)와 타겟(Target) 사이의 관계를 **직선(선형 함수)**으로 가정합니다.y=w1x..

Programming 2026.01.09

캐글 주택가격 예측 프로젝트 (2편) : 교차검증, 하이퍼파라미터 튜닝, 왜도 보정, 이상치 제거를 통한 성능 고도화

1. 5-Fold 교차 검증으로 모델 일반화 성능 확인1편에서는 단일 train/test split 기준 성능을 확인했습니다.하지만 이는 데이터 분할에 따라 결과가 흔들릴 수 있습니다.따라서 교차 검증(Cross Validation) 을 통해 모델의 일반화 성능을 평가합니다.from sklearn.model_selection import cross_val_scoredef get_avg_rmse_cv(models): """ 여러 회귀 모델에 대해 5-Fold 교차 검증 기반 RMSE 리스트와 평균 RMSE를 출력하는 함수 목적: - 특정 데이터 분할에 의존하지 않고 - 모델의 '일반화 성능'을 안정적으로 평가하기 위함 """ for model in mode..

Programming 2026.01.09

캐글 주택가격 예측 프로젝트 (1편) : 고급 회귀 기법을 위한 데이터 이해와 선형 회귀 모델 분석

이번 프로젝트는 Kaggle의 House Prices: Advanced Regression Techniques 데이터셋을 활용하여단순 선형회귀를 넘어 로그 변환, 이상치·결측치 처리, 규제 회귀 모델 비교까지 진행하는 고급 회귀 프로젝트입니다.전체 프로젝트 구성은 다음 3편으로 나뉩니다.1편 (이번 글)데이터 이해타겟값 로그 변환결측치 처리 & 원-핫 인코딩선형 회귀 / Ridge / Lasso 성능 비교 및 회귀계수 분석2편이상치 제거트리 기반 회귀 모델(RandomForest, GBM 등)3편혼합 모델스태킹(Stacking) 기반 최종 성능 개선1. 데이터 로드 및 기본 환경 설정import warningswarnings.filterwarnings('ignore')import pandas as pdi..

Programming 2026.01.09

규제 선형회귀(Regularized Linear Regression)와 Ridge 회귀 실습

1. 규제 선형회귀 개요앞서 다항회귀에서 degree=15와 같이 차수를 과도하게 늘렸을 때,모든 데이터 포인트를 지나치게 정확히 맞추려는 과대적합(Overfitting) 이 발생했습니다.이 경우 다음과 같은 문제가 나타납니다.회귀식이 지나치게 복잡해짐회귀계수(W)가 비정상적으로 커짐학습 데이터에는 잘 맞지만, 새로운 데이터에 대한 예측 성능 급격히 저하이를 해결하기 위해 등장한 개념이 규제(Regularization) 입니다.2. 규제의 핵심 아이디어✔ 최적의 회귀 모델이란?학습 데이터의 오차를 최소화하면서, 회귀계수의 크기도 적절히 제어하는 모델이를 비용 함수(Cost Function) 관점에서 표현하면 다음과 같습니다.Cost = RSS(오차) + α × (회귀계수 패널티) RSS: 실제값과 예측값..

Programming 2026.01.05

다항 회귀(Polynomial Regression)를 이용한 보스턴 주택가격 예측

1. 왜 다항 회귀를 사용하는가앞서 살펴본 일반 선형회귀(Linear Regression) 는 각 피처와 타깃 값 사이의 관계를 직선으로 가정합니다.하지만 실제 데이터에서는 다음과 같은 문제가 자주 발생합니다.피처와 타깃 간 관계가 곡선 형태단순 직선으로는 패턴을 충분히 설명하지 못함언더피팅(Underfitting) 발생이때 사용하는 방법이 다항 회귀(Polynomial Regression) 입니다.다항 회귀는피처를 다항식 형태로 확장한 뒤, 선형 회귀 모델을 적용하는 방식으로, 비선형 패턴을 보다 유연하게 학습할 수 있습니다.2. 실습 데이터: 보스턴 주택가격 데이터독립 변수(X) : 범죄율, 방 개수, 주택 노후도, 세금 등 13개 피처종속 변수(y) : 주택 가격(PRICE)from sklearn...

Programming 2026.01.05

회귀(Regression)란 무엇인가 – 개념부터 머신러닝까지

1. 회귀(Regression)의 개념회귀는 현대 통계학을 이루는 가장 중요한 축 중 하나입니다.회귀 분석은 단순한 예측 기법을 넘어, 변수 간의 관계를 수학적으로 설명하는 방법입니다.회귀 분석의 기원은 영국의 통계학자 **프랜시스 갈톤(Francis Galton)**의 연구에서 시작되었다고 알려져 있습니다.갈톤은 유전 연구 과정에서 흥미로운 현상을 발견했습니다.부모의 키가 매우 크더라도 자식의 키는 무한정 커지지 않음부모의 키가 매우 작더라도 자식의 키는 무한정 작아지지 않음즉, 데이터는 극단으로 치우치기보다는 **평균으로 되돌아가려는 경향(regression to the mean)**을 가진다는 사실입니다.이 개념이 바로 **회귀(regression)**라는 이름의 출발점입니다.2. 회귀 분석이란?회..

Programming 2026.01.02
반응형