반응형

Machine Learning 11

DBSCANDensity-Based Spatial Clustering of Applications with Noise

1. DBSCAN 개요DBSCAN은 데이터의 밀도(density) 를 기반으로 군집을 형성하는 비지도 학습 알고리즘입니다.K-Means나 GMM과 달리 군집 개수를 사전에 지정하지 않으며, 데이터 분포 자체를 보고 자동으로 군집을 탐색합니다.특히 다음과 같은 데이터에서 강력한 성능을 보입니다.복잡한 비선형 기하학 구조원형이 아닌 고리형, 곡선형 분포이상치(Noise)가 포함된 데이터2. DBSCAN의 핵심 특징 정리2-1. 장점군집 개수 자동 결정이상치(Noise)를 자연스럽게 탐지복잡한 형태의 군집도 탐색 가능2-2. 단점데이터 밀도가 크게 다르거나 균일하면 성능 저하피처 수가 많아질수록 거리 계산이 어려워짐eps, min_samples 설정에 민감3. DBSCAN의 핵심 개념 정의 (매우 중요)(1)..

Programming 2026.01.12

Gaussian Mixture Model(GMM) 군집화– K-Means의 한계를 극복하는 확률 기반 군집 알고리즘

1. 개요K-Means는 거리 기반 군집화 알고리즘으로,군집이 원형(spherical) 이고 중심점을 기준으로 고르게 퍼져 있을 때 매우 효과적입니다.하지만 실제 데이터는 다음과 같은 경우가 많습니다.군집이 길게 늘어진 타원형 분포군집마다 분산 크기가 서로 다름중심 거리보다 분포 형태가 중요한 경우이러한 상황에서는 K-Means가 군집을 잘못 나누는 문제가 발생합니다.이를 해결하기 위해 등장한 알고리즘이 Gaussian Mixture Model(GMM) 입니다.2. K-Means의 구조적 한계K-Means의 핵심 가정각 군집은 하나의 중심점(Centroid) 을 가짐모든 군집은 유사한 크기와 분산거리(Euclidean Distance)가 군집 결정의 기준👉 결과적으로 원형 군집에는 강하지만,타원형·비대..

Programming 2026.01.12

K-Means 군집화 실험을 위한 인공 데이터 생성과 중심점 시각화

1. 개요군집화 알고리즘은 정답(label)이 없는 데이터에서 패턴을 찾기 때문에,알고리즘의 동작 원리를 명확히 이해하기 위해서는 통제된 데이터로 실험하는 것이 매우 중요합니다.이번 글에서는make_blobs()를 이용해 의도적으로 군집 구조가 있는 데이터를 생성하고K-Means 알고리즘이 어떻게 중심점을 찾고 군집을 형성하는지그리고 군집 중심(Centroid)이 시각적으로 어떻게 이동·결정되는지를 단계적으로 확인합니다.2. Clustering 알고리즘 테스트용 데이터 생성 파라미터 이해Clustering 실험을 위해 사이킷런은 make_blobs()라는 함수를 제공합니다.주요 파라미터 설명n_samples생성할 전체 데이터 개수입니다. 기본값은 100이며, 실험 규모를 조절할 때 사용합니다.n_feat..

Programming 2026.01.12

군집화(Clustering) 개념과 K-Means 알고리즘 실습 정리

1. 개요군집화(Clustering)는 라벨이 없는 데이터를 대상으로,데이터 포인트 간의 유사성(similarity) 을 기준으로 여러 개의 그룹(군집)으로 나누는 비지도 학습 기법입니다.지도학습처럼 정답(label)이 존재하지 않기 때문에,“무엇이 비슷한가?”, “어떤 기준으로 묶을 것인가?”가 핵심이 됩니다.본 글에서는군집화의 기본 개념대표적인 군집 알고리즘K-Means 알고리즘의 동작 원리붓꽃(Iris) 데이터셋을 활용한 K-Means 실습과 시각화를 단계적으로 정리합니다.2. 군집화(Clustering)란 무엇인가?군집화란 데이터 포인트들을 여러 개의 군집(Cluster)으로 그룹화하는 작업을 의미합니다.🔹 군집화의 핵심 목적같은 군집 내부의 데이터들은 서로 유사서로 다른 군집 간 데이터들은 상..

Programming 2026.01.12

Bike Demand 예측 프로젝트 : 회귀 기반 수요 예측 실전 프로젝트 정리

1. 프로젝트 개요Bike Demand 데이터셋은 시간·날씨·계절 정보를 기반으로자전거 대여 수요(count) 를 예측하는 전형적인 회귀(Regression) 문제입니다.이 프로젝트의 목표는 다음과 같습니다.데이터 특성을 이해하고 적절한 전처리 전략을 적용RMSLE / RMSE / MAE 등 회귀 평가 지표를 정확히 이해선형 회귀 → 규제 회귀 → 트리 기반 앙상블 모델까지 단계적으로 성능 개선실제 캐글(Kaggle) Bike Demand 문제 접근 방식 체득2. 데이터 로드 및 기본 확인bike_df = pd.read_csv('./bike/train.csv')print(bike_df.shape)display(bike_df.head(3))데이터 크기: 10,886 rows × 12 columns타겟 변수..

Programming 2026.01.09

Lasso 회귀와 ElasticNet 회귀 이해 및 실습

1. Lasso 회귀 개요 (L1 Regularization)Lasso 회귀는 선형회귀에 L1 규제를 적용한 모델입니다.L1 규제는 회귀계수 WWW의 절대값 합에 패널티를 부여합니다.✔ Lasso 비용 함수Cost(W)=RSS(W)+α⋅∥W∥1\text{Cost}(W) = RSS(W) + \alpha \cdot \|W\|_1Cost(W)=RSS(W)+α⋅∥W∥1​RSS(W): 예측값과 실제값의 잔차 제곱합∥W∥1\|W\|_1∥W∥1​: 회귀계수 절대값의 합α\alphaα: 규제 강도✔ Lasso의 핵심 특징L2(Ridge)는 계수를 작게 만들지만L1(Lasso)는 중요하지 않은 계수를 0으로 만듦즉, 자동 피처 선택(Feature Selection) 효과를 가짐고차원 데이터나 불필요한 피처가 많은 경우 ..

Programming 2026.01.05

규제 선형회귀(Regularized Linear Regression)와 Ridge 회귀 실습

1. 규제 선형회귀 개요앞서 다항회귀에서 degree=15와 같이 차수를 과도하게 늘렸을 때,모든 데이터 포인트를 지나치게 정확히 맞추려는 과대적합(Overfitting) 이 발생했습니다.이 경우 다음과 같은 문제가 나타납니다.회귀식이 지나치게 복잡해짐회귀계수(W)가 비정상적으로 커짐학습 데이터에는 잘 맞지만, 새로운 데이터에 대한 예측 성능 급격히 저하이를 해결하기 위해 등장한 개념이 규제(Regularization) 입니다.2. 규제의 핵심 아이디어✔ 최적의 회귀 모델이란?학습 데이터의 오차를 최소화하면서, 회귀계수의 크기도 적절히 제어하는 모델이를 비용 함수(Cost Function) 관점에서 표현하면 다음과 같습니다.Cost = RSS(오차) + α × (회귀계수 패널티) RSS: 실제값과 예측값..

Programming 2026.01.05

내용 요약 정리 (Classification · Tree · Ensemble · Feature Engineering)

이번 시리즈에서는 분류 모델의 핵심 개념부터 실전 적용까지 다음 흐름으로 정리했습니다.1️⃣ 결정 트리(Decision Tree)데이터 분할 기준정보 이득(Information Gain, 엔트로피 기반)지니 계수(Gini Index)장점직관적인 규칙 기반 모델 (If–Else)스케일링 영향 적음단점트리 깊이가 깊어질수록 과적합(Overfitting) 발생과적합 제어 파라미터max_depthmin_samples_splitmin_samples_leaf❌ Learning Rate는 결정트리 파라미터가 아님 (부스팅 계열에서 사용)2️⃣ 앙상블 학습(Ensemble Learning)✔️ VotingHard Voting: 다수결Soft Voting: 클래스 확률 평균 → 일반적으로 성능 우수✔️ Bagging대표..

Programming 2026.01.02

Feature Selection 실전 : 정리모델 성능과 해석력을 동시에 잡는 방법

1. Feature Selection이란 무엇인가Feature Selection(피처 선택) 이란모델을 구성하는 수많은 피처 중에서 학습과 예측에 의미 있는 피처만 선별하는 과정을 말합니다.Feature Selection이 중요한 이유는 다음과 같습니다.불필요한 피처가 많을수록 모델 성능이 오히려 저하될 수 있습니다.모델이 어떤 기준으로 예측했는지 설명 가능한 구조를 만들 수 있습니다.피처 수가 많아질수록 오버피팅(overfitting) 발생 가능성이 커집니다.학습 속도와 추론 속도를 모두 개선할 수 있습니다.일반적으로 Feature Selection 시 다음 요소들을 함께 고려합니다.피처 값의 분포 형태결측치(null) 존재 여부피처 간 높은 상관관계타겟 값과의 독립성 여부모델 학습 결과 기반 중요도(..

Programming 2026.01.01

Credit Card Fraud Detection 1편 : Feature Engineering과 Baseline 모델 성능 분석

신용카드 사기 탐지는 대표적인 극심한 클래스 불균형(Class Imbalance) 문제입니다.전체 거래 중 사기 거래 비율은 0.2% 미만으로, 단순 정확도(Accuracy)만으로는 모델 성능을 제대로 평가할 수 없습니다.본 글(1편)에서는 다음을 목표로 합니다.원본 데이터의 레이블 불균형 구조 파악Feature Engineering 이전 상태에서의 Baseline 모델 성능 확인Logistic Regression, LightGBM의 기본 성능 비교왜 이후 단계에서 Feature Engineering이 필수적인지 문제의식 정리데이터 로드 및 기본 구조 확인import pandas as pdimport numpy as npimport matplotlib.pyplot as pltcard_df = pd.rea..

Programming 2025.12.26

(Bayesian Optimization 1편) GridSearch · RandomSearch · Bayesian Optimization 개념 완전 정리

1. 하이퍼 파라미터 튜닝이란?머신러닝 모델은 크게 두 가지 종류의 파라미터를 가집니다.모델 파라미터(Parameter)→ 학습 과정에서 데이터로부터 자동으로 학습되는 값→ 예: 회귀 계수, 트리의 분기 기준하이퍼 파라미터(Hyper Parameter)→ 사람이 직접 설정해야 하는 값→ 예: max_depth, learning_rate, n_estimators👉 하이퍼 파라미터 튜닝이란모델의 예측 성능을 최대화하기 위해이 하이퍼 파라미터들의 최적 조합을 찾는 과정입니다.2. 대표적인 하이퍼 파라미터 튜닝 방법(1) 수동 튜닝(Manual Tuning)사람이 경험과 직관에 의존해 값 조정빠르지만 재현성과 체계성 부족실무 초반 또는 베이스라인 설정용으로 사용(2) GridSearch사용자가 지정한 모든 파..

Programming 2025.12.22
반응형