
이 글은 머신러닝(Machine Learning)을 처음 접하는 분들이 전체적인 흐름을 쉽게 이해할 수 있도록 구성된 시리즈 1편입니다. 머신러닝이 무엇인지, 어떤 종류가 있으며 어떤 알고리즘들이 존재하는지 큰 그림을 먼저 잡아보는 맛보기 개념편입니다. 앞으로 이어질 시리즈에서는 내부 알고리즘 작동 원리, 코드 실습, 모델링 파이프라인까지 단계별로 배우게 됩니다.
1. 머신러닝이란?
머신러닝은 명시적으로 프로그래밍하지 않아도, 컴퓨터가 데이터를 기반으로 스스로 학습하고 성능을 향상시키는 인공지능(AI)의 핵심 분야입니다.
전통적인 프로그래밍과 머신러닝의 차이
| 방식 | 규칙(Rules)을 사람이 직접 작성 | 데이터에서 규칙(Pattern)을 기계가 스스로 학습 |
| 입력 | 규칙 + 데이터 | 데이터 + 정답(Label 또는 결과) |
| 출력 | 프로그램이 만든 결과 | 패턴을 학습한 모델 |
2. 머신러닝의 주요 학습 방식
머신러닝은 크게 세 가지 학습 방식으로 나뉩니다.
(1) 지도 학습(Supervised Learning)
정답(Label)이 있는 데이터를 사용하여 학습하는 방식입니다. 마치 선생님이 “이게 정답이야”라고 알려주며 문제 풀이를 가르치는 방식과 비슷합니다.
활용 목적
- 예측(Regression)
- 분류(Classification)
지도 학습 지식 피라미드: 기초 개념 익히기

■ StandardScaler (스탠다드 스케일러)
변수들의 단위를 맞추기 위한 스케일링 기법입니다.
평균=0, 표준편차=1 형태로 변환하여 학습 안정성을 높입니다.
■ Linear Regression (선형 회귀)
연속값을 예측하는 가장 기본적인 모델입니다.
예: 공부시간 → 시험 점수 예측
■ LGBM Regressor
트리 기반 고성능 모델.
데이터 규모가 크거나 특징이 많은 경우에도 빠르고 정확함.
■ Random Forest Regressor
여러 결정트리를 평균 내어 안정적인 예측 수행.
과적합 방지 효과가 뛰어남.
■ 평가 지표
- MSE: 예측 오차 제곱 평균
- MAE: 예측 오차 절대값 평균
- R²: 모델 설명력(1에 가까울수록 성능 높음)
■ Feature Engineering 관련
- SelectKBest: 영향력 높은 K개 특징 선택
- Polynomial Features: 변수의 제곱/조합으로 복잡한 패턴 표현
- Log Scale: 데이터 분포를 안정화하는 변환
분류(Classification) 지식 피라미드

■ 주로 사용하는 분류 모델
- LGBM Classifier
- XGBoost Classifier
- Voting Classifier
- Decision Tree / Random Forest
- SVC (서포트 벡터 머신)
- Logistic Regression
- KNN Classifier
■ 분류 평가 지표
- Accuracy(정확도)
- Precision(정밀도)
- Recall(재현율)
- F1 Score
- Confusion Matrix(혼동 행렬)
■ 그 외 핵심 개념
- 교차검증(Cross-validation)
- 스케일링
- 차원축소(PCA)
- 앙상블(Ensemble)
- 하이퍼파라미터 튜닝
- Early Stopping
(2) 비지도 학습(Unsupervised Learning)
정답(Label) 없이 데이터 내부 구조와 패턴을 스스로 찾는 방식입니다. 사람이 정답을 제공하지 않기 때문에, 모델이 데이터 속 숨겨진 구조를 직접 발견합니다.
활용 목적
- 군집화(Clustering)
- 이상치 탐지(Anomaly Detection)
- 유사도 분석
비지도 학습 지식 피라미드

■ Scaling (스케일링)
비지도 학습에서도 스케일링은 매우 중요합니다.
■ Hierarchical Clustering (계층적 군집화)
트리 구조로 군집을 형성하며 덴드로그램으로 시각화 가능.
■ K-means
가장 많이 사용하는 군집 알고리즘.
K개의 그룹으로 데이터를 분류.
■ Silhouette Score
군집 품질 평가 지표(1에 가까울수록 좋은 군집화).
■ Anomaly Detection
비정상 패턴 탐지(보안, 금융 등 다양한 실무에 활용).
■ Similar Document Search
문서 유사도 기반 검색 혹은 추천 시스템 구성.
(3) 강화 학습(Reinforcement Learning)
행동(Action)에 대한 보상(Reward) 을 기반으로 학습하는 방식입니다.
스스로 시행착오를 겪으며 최적의 행동 전략을 찾아갑니다.
예: 게임 AI, 로봇 제어, 추천 시스템 등
머신러닝은 데이터로부터 스스로 규칙을 학습하는 지능형 시스템이며, 크게
- 지도 학습
- 비지도 학습
- 강화 학습
세 가지 방식으로 구성됩니다.
이번 글에서는 전체 구조와 핵심 개념을 맛보기 형태로 요약했습니다.
'Programming' 카테고리의 다른 글
| 머신러닝 완전 입문 가이드 3편 : 왜 검증(Validation)이 중요한가? 검증 방식과 평가지표 완전 이해 (0) | 2025.12.08 |
|---|---|
| 머신러닝 완전 입문 가이드 2편: 분류(Classification)와 결정트리·앙상블 알고리즘 완전 이해하기 (0) | 2025.12.08 |
| SQL 고급: 윈도우 함수(Window Functions) & 서브쿼리(Subquery) 완전 정복 (1) | 2025.12.08 |
| SQL 중급 완전 정리: ORDER BY, GROUP BY, HAVING, INNER JOIN (0) | 2025.12.08 |
| SQL 기초 완전 정리: SELECT부터 WHERE, DISTINCT, LIKE, NULL, 집계함수까지 (0) | 2025.12.08 |