반응형

linearRegression 5

캐글 주택가격 예측 프로젝트 (1편) : 고급 회귀 기법을 위한 데이터 이해와 선형 회귀 모델 분석

이번 프로젝트는 Kaggle의 House Prices: Advanced Regression Techniques 데이터셋을 활용하여단순 선형회귀를 넘어 로그 변환, 이상치·결측치 처리, 규제 회귀 모델 비교까지 진행하는 고급 회귀 프로젝트입니다.전체 프로젝트 구성은 다음 3편으로 나뉩니다.1편 (이번 글)데이터 이해타겟값 로그 변환결측치 처리 & 원-핫 인코딩선형 회귀 / Ridge / Lasso 성능 비교 및 회귀계수 분석2편이상치 제거트리 기반 회귀 모델(RandomForest, GBM 등)3편혼합 모델스태킹(Stacking) 기반 최종 성능 개선1. 데이터 로드 및 기본 환경 설정import warningswarnings.filterwarnings('ignore')import pandas as pdi..

Programming 2026.01.09

다항 회귀(Polynomial Regression)의 이해와 실습

1. 다항 회귀란 무엇인가다항 회귀(Polynomial Regression)는 독립변수를 다항식 형태로 확장한 뒤 선형회귀 모델을 적용하는 방식입니다.핵심적으로 다음 두 가지를 반드시 구분해야 합니다.다항 회귀는 비선형 회귀처럼 보이지만 선형 회귀 모델입니다.회귀에서 말하는 선형/비선형 기준은👉 독립변수가 아니라 회귀 계수(가중치)가 선형인지 여부입니다.즉,y=w0+w1x+w2x2+w3x3y = w_0 + w_1x + w_2x^2 + w_3x^3y=w0​+w1​x+w2​x2+w3​x3위 식은 x는 비선형이지만, w는 선형이므로 선형 회귀 모델입니다.2. PolynomialFeatures 클래스 개요PolynomialFeatures는 원본 단항 피처를 다항 피처로 확장하는 전처리 클래스입니다.차수(deg..

Programming 2026.01.05

LinearRegression 클래스와 보스턴 주택 가격 예측 실습

1. LinearRegression 클래스 개요LinearRegression 클래스는 규제를 적용하지 않은 기본 선형 회귀 모델입니다.사이킷런에서는 이 모델을 OLS(Ordinary Least Squares) 방식으로 구현합니다.OLS의 핵심 목적은 다음과 같습니다.예측값과 실제값의 차이(잔차, Residual)의 제곱합인RSS(Residual Sum of Squares) 를 최소화하는 회귀 계수 WWW를 찾는 것모델 학습이 완료되면 다음 정보가 자동으로 저장됩니다.coef_ : 각 피처에 대한 회귀 계수intercept_ : 절편 값2. 선형 회귀의 다중 공선성 문제선형 회귀는 입력 피처 간 독립성에 매우 민감합니다.다중 공선성이란?피처들 간 상관관계가 매우 높은 경우회귀 계수의 분산이 커짐데이터가 조..

Programming 2026.01.05

LinearRegression 클래스와 선형 회귀 평가 지표 정리

1. LinearRegression 클래스란?LinearRegression 클래스는 규제를 적용하지 않은 선형 회귀 모델을 구현한 클래스입니다.사이킷런에서 제공하는 기본 회귀 모델로, OLS(Ordinary Least Squares) 추정 방식을 사용합니다.OLS의 핵심 목표는 다음과 같습니다.실제 값과 예측 값의 차이(Residual)의 제곱합RSS(Residual Sum of Squares) 를 최소화하는 회귀 계수 WWW를 찾는 것LinearRegression의 주요 특징규제(Regularization)를 적용하지 않음입력 데이터 X, y를 기반으로 회귀 계수 추정학습 후 회귀 계수는 coef_ 속성에 저장됨절편(intercept)은 intercept_ 속성에 저장됨즉, LinearRegressio..

Programming 2026.01.02

머신러닝 완전 입문 가이드 5편 : 회귀·분류 모델 하이퍼파라미터 완전 정리(Linear Regression부터 CatBoost까지)

앞선 시리즈에서 모델의 **파라미터(Parameter)**와 하이퍼파라미터(Hyperparameter) 차이를 학습했습니다.이번 글에서는 실제 머신러닝 모델들이 어떤 하이퍼파라미터를 가지고 있으며,이 값들을 어떻게 조정하면 성능을 높일 수 있는지 정리합니다.정리 대상 모델선형 모델: LinearRegression, SGDRegressor규제 모델: Ridge, Lasso, ElasticNet특성 확장: PolynomialFeatures트리 기반 회귀: DecisionTreeRegressor분류 모델: Decision Tree, Voting, BaggingBoosting 계열: AdaBoost, Gradient Boosting, XGBoost, LightGBM, CatBoost머신러닝 실전에서는 “어떤 하..

Programming 2025.12.08
반응형