반응형

Programming 84

Seaborn 분포 시각화 완전 정리 2 | Violin/Box/Scatter/Heatmap + Subplots 실전

📌 개요이번 글에서는 Titanic 데이터로 연속형/범주형 분포를 더 깊게 보는 시각화를 정리합니다.특히 초보자들이 자주 헷갈리는 포인트인Violin plot이 “히스토그램 + 박스플롯” 느낌인 이유Box plot이 4분위를 어떻게 보여주는지Subplots에서 ax를 넘겨 여러 그래프를 한 번에 그리는 법Scatterplot으로 관계(패턴) 확인상관관계를 Heatmap으로 한 번에 보는 법을 한 번에 정리합니다.✅ 요청하신 대로 코드는 한 줄도 줄이지 않고 그대로 포함합니다.1️⃣ Violin Plot (바이올린 플롯)✅ 개념/목적Violin plot은 **연속형 값의 분포(밀도)**를 “대칭 형태”로 보여줍니다.히스토그램처럼 분포 모양을 보여주고Box plot처럼 중앙 경향(중앙값, 사분위 등) 정보..

Programming 2026.02.15

Seaborn countplot & barplot 완전 정리 1 | 범주형 데이터 시각화 핵심 가이드

📌 개요데이터 분석에서 범주형 변수(Category Data)는 매우 자주 등장합니다.좌석 등급성별연령대제품 카테고리이러한 범주형 데이터를 시각화할 때 가장 많이 사용하는 함수가 바로:countplot()barplot()이번 글에서는 Titanic 데이터를 활용하여countplot의 의미barplot의 평균/총합 표현confidence interval 제거hue를 활용한 그룹 비교stackedbar를 흉내 낸 방식까지 모두 정리합니다.1️⃣ countplot : 범주별 건수 표현countplot은 **카테고리 값의 빈도수(건수)**를 표현합니다.X축: 범주형 변수Y축: 해당 범주의 개수#countplot : 카테고리 값에 대한 건수를 표현 , x축이 카테고리값, y축이 해당 카테고리값에대한 건수sns...

Programming 2026.02.15

Seaborn 차트 유형 완전 정리 | Histogram, Violin, Bar, Scatter, Line Plot 한 번에 이해하기

📌 개요데이터 시각화는 단순히 그래프를 그리는 것이 아니라,데이터의 차원과 변수 유형에 맞는 차트를 선택하는 과정입니다.이번 글에서는 다음을 정리합니다.주요 차트 유형과 변수 차원 이해각 차트가 적합한 데이터 구조Seaborn의 Axes-level / Figure-level 구조 차이Titanic 데이터로 히스토그램 실습1️⃣ 차트 유형과 데이터 차원✔ 1. 히스토그램 (Histogram)연속형 값의 도수 분포를 시각화합니다.X축: 연속형 값의 구간(bin)Y축: 해당 구간의 빈도수📌 예시나이, 요금, 점수, 가격 등 분포 확인👉 데이터의 분포 모양, 왜도, 이상치 여부를 파악할 수 있습니다.✔ 2. 바이올린 플롯 (Violin Plot)특정 범주별 연속형 값의 분포를 시각화합니다.분포 + 밀도 +..

Programming 2026.02.15

Matplotlib 여러 Plot 한 Axes에 그리기 & Subplots 완전 정리

📌 개요Matplotlib에서 하나의 그래프만 그리는 것은 시작에 불과합니다.실무에서는 다음과 같은 작업이 매우 중요합니다.하나의 Axes 안에 여러 개의 그래프 겹쳐 그리기서로 다른 그래프 유형(Line + Bar) 함께 표현하기Axes 객체를 직접 제어하기여러 개의 Subplots을 구성하여 대시보드 형태로 시각화하기1차원 / 2차원 axes 배열 구조 이해하기이 글에서는 위 내용을 실전 코드 기반으로 완전 정리합니다.1️⃣ 하나의 Axes에 여러 개의 Plot 그리기✔ 동일 Axes에 Line 여러 개 그리기x_value_01 = np.arange(1,100)y_value_01 = 2 * x_value_01y_value_02 = 4 * x_value_01plt.plot(x_value_01, y_v..

Programming 2026.02.15

Python Visualization Library 완전 정리 : Matplotlib

데이터 분석에서 시각화는 선택이 아니라 필수 과정입니다.특히 Python에서는 matplotlib, seaborn, pandas, plotly가 가장 많이 활용됩니다.이 글에서는 다음을 정리합니다.통계적 시각화 vs 업무 분석 시각화 차이Matplotlib 구조 (Figure & Axes)pyplot 인터페이스 이해실전 코드 기반 기본 설정 방법축, 틱, 범례, 제한 범위 설정 방법기초이지만 반드시 정확히 이해해야 할 내용입니다.1. Python 주요 시각화 라이브러리✅ Python librarymatplotlibseabornpandasplotly📊 통계적인 시각화 (Statistical)히스토그램, 바차트, 분위, 상관히트맵, 산포도→ 주로 SeabornSeaborn 특징Matplotlib 보다 쉽고..

Programming 2026.02.15

데이터 시각화 핵심 개념 한 번에 정리

Matplotlib · Seaborn · 기본 차트 유형 완전 요약데이터 분석에서 시각화는 선택이 아니라 필수입니다.모델링 이전에 데이터의 구조, 분포, 관계를 이해하는 과정이 반드시 필요하기 때문입니다.이번 글에서는 Python 데이터 시각화의 핵심 라이브러리인 Matplotlib과 Seaborn의 차이,그리고 상황별로 어떤 차트를 써야 하는지를 한 번에 정리합니다.1️⃣ Matplotlib vs Seaborn 차이✔ MatplotlibPython의 기본 시각화 라이브러리저수준(low-level) API 제공세밀한 제어 가능다만 코드가 다소 복잡✔ SeabornMatplotlib 기반의 통계 시각화 특화 라이브러리데이터프레임 기반 자동 처리기본 스타일이 세련됨범주형·통계 요약 시각화에 강점👉 정리하면..

Programming 2026.02.15

Mercari Price Suggestion— 대규모 텍스트 + 카테고리 데이터를 활용한 가격 예측 실전 프로젝트

1. 개요Mercari Price Suggestion 문제는 상품의 텍스트 정보와 메타 데이터를 활용하여상품 가격을 예측하는 회귀(Regression) 문제입니다.이 문제의 핵심 난이도는 다음과 같습니다.데이터 규모가 매우 큼 (약 148만 건)텍스트 피처(name, description) 비중이 큼범주형 피처가 매우 고차원평가 지표가 RMSLE로, 로그 변환이 필수본 글에서는전처리 → 희소 행렬 기반 피처 엔지니어링 → Ridge / LightGBM → 앙상블까지의 전체 파이프라인을 정리합니다.2. 데이터 로딩 및 타깃 분포 확인mercari_df = pd.read_csv('./mercari/train.tsv', sep='\t')print(mercari_df.shape)총 데이터 수: 1,482,535..

Programming 2026.02.14

토픽 모델링(Topic Modeling) 완전 정리— LDA 이론부터 20 Newsgroups 실습까지

1. 개요토픽 모델링(Topic Modeling)은 여러 문서 집합에 잠재되어 있는 공통된 주제(Topic)를 자동으로 추출하는 비지도 학습 기법입니다.문서 군집화나 문서 유사도 분석과 비슷해 보일 수 있으나, 토픽 모델링은 다음과 같은 차별적인 특징을 가집니다.문서마다 여러 토픽이 어떤 비율로 섞여 있는지(문서-토픽 분포) 를 제공함각 토픽이 어떤 단어들로 구성되어 있는지(토픽-단어 분포) 를 제공함즉, “이 문서는 A 토픽 70%, B 토픽 20%, C 토픽 10%로 구성되어 있다” 와 같은 해석이 가능함2. 토픽 모델링의 주요 계열토픽 모델링은 크게 행렬 분해 기반과 확률 기반으로 나눌 수 있습니다.2.1 행렬 분해 기반LSA (Latent Semantic Analysis)pLSA (probabil..

Programming 2026.02.14

감성분석(Sentiment Analysis) 정리: 지도학습 vs 감성사전(SentiWordNet/VADER) + IMDB 실습

Overview감성분석은 텍스트에 담긴 주관적인 감정/의견/평가(긍정·부정 등) 를 자동으로 판별하는 기술입니다.대표 활용처는 소셜미디어 반응 분석, 여론조사, 제품/영화 리뷰 분석, 고객 VOC 분석 등이 있습니다.이번 글은 아래 2가지 축을 “입문자 관점에서” 확실히 구분해 정리합니다.지도학습 기반 감성분석(분류 문제로 풀기)감성 어휘 사전 기반 감성분석(룰/사전 기반)SentiWordNetVADER(소셜미디어 최적화 룰 기반)그리고 IMDB 리뷰 데이터로 전처리 → 학습/평가 → 사전기반 평가까지 흐름을 한 번에 연결합니다.1) 감성분석이란?감성분석은 문서/문장/단어에 포함된 감정(positive/negative), 의견(opinion), 태도(attitude) 를 추정합니다.가장 흔한 형태는 이진..

Programming 2026.02.14

CountVectorizer부터 Pipeline/GridSearchCV까지: 뉴스그룹 분류로 배우는 피처 벡터화 + 희소행렬(COO/CSR)

텍스트 분석에서 가장 중요한 전환점은 “텍스트를 숫자 벡터로 바꾸는 것(피처 벡터화)” 입니다.이번 글에서는 아래 흐름을 코드 실행 순서 그대로 따라가며 정리합니다.사전 데이터 가공 → 토큰화 → 텍스트 정규화 → 피처 벡터화(CountVectorizer/TF-IDF)텍스트 벡터의 본질: 희소행렬(Sparse Matrix)희소행렬 저장 형식: COO vs CSR20 Newsgroups 분류 실습: 벡터화 → 학습/예측/평가 → Pipeline → GridSearchCV 최적화주의: 코드 블록은 사용자가 공유한 순서를 유지하며, 각 코드에 “무슨 코드인지/왜 쓰는지/목적” 주석을 상세히 추가했습니다.또한 중간에 출력 로그(결과)도 학습 포인트가 되므로 글 흐름상 필요한 설명을 함께 덧붙였습니다.1) 카운트..

Programming 2026.02.14

NLP(Natural Language Processing)와 텍스트 전처리 핵심 정리― 개념부터 NLTK 실습까지 한 번에 이해하기

1️⃣ NLP와 텍스트 분석의 차이부터 정리하기🔹 NLP (Natural Language Processing)NLP는 인간의 언어를 컴퓨터가 이해하고 해석하도록 만드는 기술 분야입니다.문장의 구조, 의미, 맥락까지 이해하는 데 초점을 둡니다.👉 기술 발전 방향언어 구조 이해의미 해석문맥 반영감정, 의도 파악🔹 텍스트 분석 (Text Analytics)텍스트 분석은 NLP 기술을 기반으로 비즈니스 문제 해결에 초점을 둔 분석 분야입니다.머신러닝통계언어 처리정보 추출등을 활용하여 예측 분석, 비즈니스 인텔리전스, 인사이트 도출을 수행합니다.📌 쉽게 말하면NLP = 언어 이해 기술텍스트 분석 = 이해한 언어로 분석·예측 수행2️⃣ 텍스트 분석의 주요 활용 분야① 텍스트 분류 (Text Classific..

Programming 2026.02.14
반응형