반응형

MachineLearning 7

캐글 주택가격 예측 프로젝트 (1편) : 고급 회귀 기법을 위한 데이터 이해와 선형 회귀 모델 분석

이번 프로젝트는 Kaggle의 House Prices: Advanced Regression Techniques 데이터셋을 활용하여단순 선형회귀를 넘어 로그 변환, 이상치·결측치 처리, 규제 회귀 모델 비교까지 진행하는 고급 회귀 프로젝트입니다.전체 프로젝트 구성은 다음 3편으로 나뉩니다.1편 (이번 글)데이터 이해타겟값 로그 변환결측치 처리 & 원-핫 인코딩선형 회귀 / Ridge / Lasso 성능 비교 및 회귀계수 분석2편이상치 제거트리 기반 회귀 모델(RandomForest, GBM 등)3편혼합 모델스태킹(Stacking) 기반 최종 성능 개선1. 데이터 로드 및 기본 환경 설정import warningswarnings.filterwarnings('ignore')import pandas as pdi..

Programming 2026.01.09

다항 회귀(Polynomial Regression)를 이용한 보스턴 주택가격 예측

1. 왜 다항 회귀를 사용하는가앞서 살펴본 일반 선형회귀(Linear Regression) 는 각 피처와 타깃 값 사이의 관계를 직선으로 가정합니다.하지만 실제 데이터에서는 다음과 같은 문제가 자주 발생합니다.피처와 타깃 간 관계가 곡선 형태단순 직선으로는 패턴을 충분히 설명하지 못함언더피팅(Underfitting) 발생이때 사용하는 방법이 다항 회귀(Polynomial Regression) 입니다.다항 회귀는피처를 다항식 형태로 확장한 뒤, 선형 회귀 모델을 적용하는 방식으로, 비선형 패턴을 보다 유연하게 학습할 수 있습니다.2. 실습 데이터: 보스턴 주택가격 데이터독립 변수(X) : 범죄율, 방 개수, 주택 노후도, 세금 등 13개 피처종속 변수(y) : 주택 가격(PRICE)from sklearn...

Programming 2026.01.05

다항 회귀(Polynomial Regression)의 이해와 실습

1. 다항 회귀란 무엇인가다항 회귀(Polynomial Regression)는 독립변수를 다항식 형태로 확장한 뒤 선형회귀 모델을 적용하는 방식입니다.핵심적으로 다음 두 가지를 반드시 구분해야 합니다.다항 회귀는 비선형 회귀처럼 보이지만 선형 회귀 모델입니다.회귀에서 말하는 선형/비선형 기준은👉 독립변수가 아니라 회귀 계수(가중치)가 선형인지 여부입니다.즉,y=w0+w1x+w2x2+w3x3y = w_0 + w_1x + w_2x^2 + w_3x^3y=w0​+w1​x+w2​x2+w3​x3위 식은 x는 비선형이지만, w는 선형이므로 선형 회귀 모델입니다.2. PolynomialFeatures 클래스 개요PolynomialFeatures는 원본 단항 피처를 다항 피처로 확장하는 전처리 클래스입니다.차수(deg..

Programming 2026.01.05

머신러닝 완전 입문 가이드 6편 : 분류·회귀 모델 평가 지표 완전 정리 (Accuracy, Precision, Recall, F1, ROC-AUC, MAE, RMSE, R²)

머신러닝 모델을 만든 뒤 반드시 해야 하는 단계가 있습니다.바로 **평가(Evaluation)**입니다.아무리 복잡한 모델을 사용해도, “우리 모델이 실제로 얼마나 잘 예측하는가?”를 판단할 수 없다면 의미가 없습니다.특히 분류(Classification) 문제와 회귀(Regression) 문제는 예측 방식뿐 아니라 평가하는 방식도 완전히 다릅니다.이번 글은 머신러닝 시리즈의 마지막 편으로,지금까지 배운 모델들을 어떻게 평가해야 하는지 핵심 지표만 정리해드립니다.1. 분류 모델 평가 지표 (Classification Metrics)분류 문제는 정답이 카테고리 형태일 때 사용합니다.예: 생존/사망, 스팸/정상, 구매/비구매 등모든 분류 평가 지표의 기반이 되는 네 가지 값부터 정리합니다.TP (True P..

Programming 2025.12.09

머신러닝 완전 입문 가이드 4편 : 파라미터(Parameter)와 하이퍼파라미터(Hyperparameter)의 개념과 차이

머신러닝 모델을 만들다 보면 파라미터(Parameter)와 하이퍼파라미터(Hyperparameter)라는 용어를 자주 듣게 됩니다.두 단어는 비슷해 보이지만, 모델 학습 과정에서 수행하는 역할은 완전히 다릅니다.이 둘의 차이를 명확히 이해하면 모델 성능 개선, 튜닝 전략, 학습 구조 등을 훨씬 더 효율적으로 설계할 수 있습니다.본 글에서는파라미터란 무엇인가하이퍼파라미터란 무엇인가왜 둘의 차이가 중요한가하이퍼파라미터 튜닝의 필요성을 직관적 설명과 함께 정리합니다.1. 파라미터(Parameter): 모델이 스스로 학습하는 값파라미터는 모델이 학습 과정에서 자동으로 스스로 찾아내는 값입니다.훈련 데이터(Feature, Label)를 입력받아 손실 함수(Loss)를 최소화하는 방향으로 지속적으로 업데이트됩니다...

Programming 2025.12.08

머신러닝 완전 입문 가이드 1편: 머신러닝 개념과 학습 방식 이해하기

이 글은 머신러닝(Machine Learning)을 처음 접하는 분들이 전체적인 흐름을 쉽게 이해할 수 있도록 구성된 시리즈 1편입니다. 머신러닝이 무엇인지, 어떤 종류가 있으며 어떤 알고리즘들이 존재하는지 큰 그림을 먼저 잡아보는 맛보기 개념편입니다. 앞으로 이어질 시리즈에서는 내부 알고리즘 작동 원리, 코드 실습, 모델링 파이프라인까지 단계별로 배우게 됩니다.1. 머신러닝이란?머신러닝은 명시적으로 프로그래밍하지 않아도, 컴퓨터가 데이터를 기반으로 스스로 학습하고 성능을 향상시키는 인공지능(AI)의 핵심 분야입니다.전통적인 프로그래밍과 머신러닝의 차이방식규칙(Rules)을 사람이 직접 작성데이터에서 규칙(Pattern)을 기계가 스스로 학습입력규칙 + 데이터데이터 + 정답(Label 또는 결과)출력프로..

Programming 2025.12.08

NumPy 완전 정리: ndarray 생성부터 reshape, axis, 벡터와 행렬 연산까지 한 번에 배우기

1. NumPy ndarray란 무엇인가?NumPy의 핵심 자료구조는 ndarray (n-dimensional array) 로, 고성능 수치 계산을 위한 동질적(homogeneous) 배열 구조입니다.ndarray 특징모든 요소의 데이터 타입이 동일해야 합니다.메모리 연속 구조를 사용해 연산 속도가 빠릅니다.벡터, 행렬, 텐서 연산을 위한 다양한 내장 함수 제공.머신러닝/딥러닝 라이브러리의 기본 연산 단위로 사용됩니다.2. ndarray 생성 및 기본 속성import numpy as nplist1 = [1,2,3]array1 = np.array(list1)print(array1) # [1 2 3]print(type(array1)) # print(array1.shape) #..

Programming 2025.12.08
반응형