
머신러닝 시리즈 1편에서는 머신러닝이 무엇인지, 지도학습·비지도학습·강화학습의 기본 구조를 살펴보았습니다.
이번 2편에서는 머신러닝의 대표적인 문제 유형 중 하나인 분류(Classification) 를 중심으로, 실제 분류 모델에서 자주 활용되는 결정트리(Decision Tree) 및 앙상블(Ensemble) 알고리즘을 체계적으로 정리합니다.
머신러닝을 처음 학습할 때 가장 빠르게 성능을 체감할 수 있는 분야가 바로 분류 문제이기 때문에, 이 기초 개념을 정확히 이해하는 것이 앞으로의 실습과 모델링에 큰 기반이 됩니다.
1. 머신러닝이란 무엇인가?
머신러닝(Machine Learning)은 데이터로부터 스스로 학습하고 경험을 쌓아 예측(Prediction)을 수행하는 기술입니다.
사람이 하나하나 규칙을 만들지 않아도, 모델이 데이터를 분석하며 패턴을 직접 찾아냅니다.
즉,
데이터 → 학습 → 규칙 발견 → 새로운 입력값 예측
이 과정이 자동으로 이루어지는 것이 머신러닝입니다.
2. 분류(Classification)란 무엇인가?
분류는 머신러닝의 대표적인 지도학습(Supervised Learning) 문제입니다.
즉, 문제(Feature) 와 정답(Label) 이 주어진 데이터를 이용해, 새로운 데이터가 어떤 클래스(Class)에 속하는지 예측합니다.
예시 1) 암 여부 예측
- Feature: 조직검사 수치, 혈액검사 정보
- Label: 암 / 정상
예시 2) 댓글 감정 분석
- Feature: 댓글 텍스트 내용
- Label: 공격적 / 비공격적
여기서
- Feature(피처) = 문제
- Label(레이블) = 정답
에 해당합니다.
3. 분류 문제의 종류
(1) 이진분류(Binary Classification)
두 개의 클래스 중 하나를 예측하는 문제입니다.
예: 스팸메일 탐지(스팸 / 정상)
(2) 다중분류(Multi-Class Classification)
세 개 이상 클래스 중 하나를 예측합니다.
예: 꽃 종류 분류(Iris setosa, versicolor, virginica)
결국 분류는 데이터를 구분하는 결정 경계(Decision Boundary) 를 학습하는 과정입니다.
4. 머신러닝 모델은 어떻게 학습 방향을 조정할까?
모델은 학습 과정에서 예측이 틀릴 때마다 손실(Loss) 을 계산합니다.
- 손실이 크다 → 기준선(Decision Boundary)을 수정하고 재학습
- 손실이 작다 → 현재 방향이 맞다는 신호
이렇게 손실을 최소화하는 방향으로 파라미터를 조정하며 모델은 점점 더 정확해집니다.
이 메커니즘을 통해 머신러닝 모델은 스스로 개선합니다.
5. 주요 분류 알고리즘 이해하기
이제 분류 모델 중에서도 실무와 대회에서 가장 많이 사용되는 두 축,
결정트리(Decision Tree) 와 앙상블(Ensemble) 을 이해해보겠습니다.
5-1. 결정트리(Decision Tree)
결정트리는 데이터를 기준에 따라 분할해 나가며 예측하는 트리 구조 모델입니다.
일종의 “스무고개 게임”처럼 질문을 반복하며 답에 가까워집니다.
구조
- Root Node: 첫 분기 기준
- Decision Node: 조건을 나누는 중간 기준
- Leaf Node: 최종 예측 결과
결정트리는 지니 불순도(Gini Impurity) 또는 엔트로피(Entropy) 를 최소화하는 방향으로 분할합니다.
단점: 과적합(Overfitting)
지나치게 많은 분기 기준을 만들면 학습 데이터에만 특화된 모델이 되어, 새로운 데이터를 잘 예측하지 못하는 문제가 발생합니다.
즉, 모델이 외워버리는 현상입니다.
5-2. 앙상블 학습(Ensemble Learning)
앙상블은 여러 개의 모델을 결합하여 하나의 강력한 모델을 만드는 방법입니다.
특히 단일 결정트리의 과적합 문제를 해결하기 위해 등장했습니다.
앙상블은 크게 3가지 방식으로 나뉩니다.
(1) 보팅(Voting)
서로 다른 여러 모델을 학습시켜 예측을 결합합니다.
- Hard Voting: 다수결
- Soft Voting: 예측 확률 평균
보팅은 작은 데이터셋에서 안정적이며 해석이 쉽습니다.
(2) 배깅(Bagging)
같은 모델을 여러 개 학습시키고 결과를 평균냅니다.
데이터 샘플링은 중복 허용 방식(bootstrapping)을 사용합니다.
대표 모델: 랜덤 포레스트(Random Forest)
랜덤 포레스트는 여러 결정트리를 결합해 예측하므로
- 노이즈에 강하고
- 과적합이 감소하며
- 안정적인 성능을 제공합니다.
(3) 부스팅(Boosting)
모델을 순차적으로 학습시키며, 이전 모델이 틀린 데이터에 더 집중합니다.
대표 알고리즘:
- AdaBoost
- Gradient Boosting
- XGBoost
- LightGBM
- CatBoost
LightGBM의 핵심 특징
LightGBM은 리프 중심(Tree-leaf-wise) 학습 방식을 사용합니다.
- 더 큰 손실을 갖는 리프부터 확장 → 높은 성능
- 분기가 자유롭고 깊어지기 때문에 과적합 가능성 증가
- 대용량 데이터 처리에 매우 강력
이를 통해 속도 + 예측 성능을 동시에 확보할 수 있습니다.
CatBoost는 범주형 변수 처리에 최적화된 알고리즘으로, 추가 인코딩 없이도 빠르고 좋은 성능을 냅니다.
'Programming' 카테고리의 다른 글
| 머신러닝 완전 입문 가이드 4편 : 파라미터(Parameter)와 하이퍼파라미터(Hyperparameter)의 개념과 차이 (1) | 2025.12.08 |
|---|---|
| 머신러닝 완전 입문 가이드 3편 : 왜 검증(Validation)이 중요한가? 검증 방식과 평가지표 완전 이해 (0) | 2025.12.08 |
| 머신러닝 완전 입문 가이드 1편: 머신러닝 개념과 학습 방식 이해하기 (0) | 2025.12.08 |
| SQL 고급: 윈도우 함수(Window Functions) & 서브쿼리(Subquery) 완전 정복 (1) | 2025.12.08 |
| SQL 중급 완전 정리: ORDER BY, GROUP BY, HAVING, INNER JOIN (0) | 2025.12.08 |