반응형

Feature Engineering 5

Bike Demand 예측 프로젝트 : 회귀 기반 수요 예측 실전 프로젝트 정리

1. 프로젝트 개요Bike Demand 데이터셋은 시간·날씨·계절 정보를 기반으로자전거 대여 수요(count) 를 예측하는 전형적인 회귀(Regression) 문제입니다.이 프로젝트의 목표는 다음과 같습니다.데이터 특성을 이해하고 적절한 전처리 전략을 적용RMSLE / RMSE / MAE 등 회귀 평가 지표를 정확히 이해선형 회귀 → 규제 회귀 → 트리 기반 앙상블 모델까지 단계적으로 성능 개선실제 캐글(Kaggle) Bike Demand 문제 접근 방식 체득2. 데이터 로드 및 기본 확인bike_df = pd.read_csv('./bike/train.csv')print(bike_df.shape)display(bike_df.head(3))데이터 크기: 10,886 rows × 12 columns타겟 변수..

Programming 2026.01.09

내용 요약 정리 (Classification · Tree · Ensemble · Feature Engineering)

이번 시리즈에서는 분류 모델의 핵심 개념부터 실전 적용까지 다음 흐름으로 정리했습니다.1️⃣ 결정 트리(Decision Tree)데이터 분할 기준정보 이득(Information Gain, 엔트로피 기반)지니 계수(Gini Index)장점직관적인 규칙 기반 모델 (If–Else)스케일링 영향 적음단점트리 깊이가 깊어질수록 과적합(Overfitting) 발생과적합 제어 파라미터max_depthmin_samples_splitmin_samples_leaf❌ Learning Rate는 결정트리 파라미터가 아님 (부스팅 계열에서 사용)2️⃣ 앙상블 학습(Ensemble Learning)✔️ VotingHard Voting: 다수결Soft Voting: 클래스 확률 평균 → 일반적으로 성능 우수✔️ Bagging대표..

Programming 2026.01.02

Credit Card Fraud Detection 3편 : 이상치 제거(IQR)와 SMOTE 오버샘플링을 통한 성능 개선

1. 개요이전 편에서는 데이터 분포 변환(StandardScaler, Log 변환) 까지 수행했습니다.이번 글에서는 다음 두 가지 핵심 Feature Engineering을 적용합니다.IQR 기반 이상치 제거SMOTE 오버샘플링을 통한 불균형 데이터 보정신용카드 사기 탐지 문제의 핵심은 정확도(Accuracy) 가 아니라👉 재현율(Recall) 과 ROC-AUC 입니다.즉, 사기를 놓치지 않는 것이 가장 중요합니다.2. 피처 상관관계 분석 (이상치 제거 대상 선정)import seaborn as snsimport matplotlib.pyplot as pltplt.figure(figsize=(12,12))corr = card_df.corr()sns.heatmap(corr, cmap='RdBu', anno..

Programming 2025.12.26

Credit Card Fraud Detection 2편 : 데이터 분포도 변환 후 모델 학습·예측·평가

1. 왜 데이터 분포 변환이 필요한가?신용카드 사기 탐지 데이터는 다음과 같은 특징을 가집니다.거래 금액(Amount) 은 극단적으로 한쪽에 몰린 분포를 가짐대부분의 거래는 소액이며, 일부 고액 거래가 꼬리 형태로 존재이런 왜곡된 분포(Skewed Distribution) 는선형 모델(Logistic Regression)의 학습을 방해하고거리 기반/확률 기반 모델의 성능을 저하시킴따라서 모델 학습 전에 데이터 분포를 보다 정규분포에 가깝게 변환하는 Feature Engineering이 필요합니다. 2. Amount 컬럼 분포 확인### 데이터 분포도 변환 후 모델 학습 예측 평가#중요 피쳐 분포확인import seaborn as snsplt.figure(figsize=(8,4))plt.xticks(ran..

Programming 2025.12.26

Credit Card Fraud Detection 1편 : Feature Engineering과 Baseline 모델 성능 분석

신용카드 사기 탐지는 대표적인 극심한 클래스 불균형(Class Imbalance) 문제입니다.전체 거래 중 사기 거래 비율은 0.2% 미만으로, 단순 정확도(Accuracy)만으로는 모델 성능을 제대로 평가할 수 없습니다.본 글(1편)에서는 다음을 목표로 합니다.원본 데이터의 레이블 불균형 구조 파악Feature Engineering 이전 상태에서의 Baseline 모델 성능 확인Logistic Regression, LightGBM의 기본 성능 비교왜 이후 단계에서 Feature Engineering이 필수적인지 문제의식 정리데이터 로드 및 기본 구조 확인import pandas as pdimport numpy as npimport matplotlib.pyplot as pltcard_df = pd.rea..

Programming 2025.12.26
반응형