티스토리 뷰

카테고리 없음

지도·비지도·강화학습 한 번에 이해하기(예시 코드 없이 개념만)

young017 2025. 8. 24. 05:26

지도·비지도·강화학습 📚 예시 코드 없이 개념만 한 번에!

머신러닝의 대표 학습 방식은 지도학습(Supervised), 비지도학습(Unsupervised), 강화학습(Reinforcement)입니다. 무엇을 예측할지, 정답(label)이 있는지, 보상을 통해 학습하는지에 따라 접근이 달라집니다. 이 글은 개념·예시·평가·장단점·선택 가이드를 코드 없이 깔끔하게 정리합니다.

0) 한눈 비교

구분	지도학습	비지도학습	강화학습
핵심 아이디어	정답(Label)로 예측/분류를 학습	정답 없이 패턴·구조 발견	행동→보상을 반복하며 정책 학습
대표 문제	분류, 회귀	군집화, 차원축소, 이상치 탐지	게임/로보틱스, 추천 전략, 운영 최적화
데이터 요구	정답 라벨 필요(품질 중요)	라벨 불필요(양은 많을수록 유리)	환경 시뮬레이션/상호작용 로그
평가 지표(예)	정확도·정밀도·재현율·F1, RMSE/MAE	실루엣 점수, 엘보우, 재구성 오차	에피소드 평균 보상, 성공률
장점	성능/해석 용이, 목표 명확	라벨 비용 無, 숨은 구조 학습	의사결정·전략 최적화에 강함
주의	라벨링 비용·누락·편향, 데이터 누수	해석·평가 기준 설정이 어렵고 임의성	탐험/안전·샘플효율·오프라인 적용 위험

1) 지도학습(Supervised Learning)

입력 X와 정답 Y가 쌍으로 주어집니다. 모델은 X→Y 관계를 학습해 보지 못한 데이터의 Y를 예측합니다.

문제: 분류(스팸/정상, 양성/음성), 회귀(가격·수요·온도 예측)
알고리즘(예시): 로지스틱/선형 회귀, 의사결정나무·랜덤포레스트, 그래디언트부스팅, SVM, 신경망
평가: 분류—정확도·정밀도·재현율·F1·AUC / 회귀—RMSE·MAE
주의: 라벨 편향·오염, 데이터 누수, 과적합 → 교차검증·홀드아웃으로 방지

2) 비지도학습(Unsupervised Learning)

정답 없이 데이터의 내재된 구조를 찾습니다. 라벨 비용이 없고 탐색·전처리에 강합니다.

군집화: 고객 세분화(K-평균/계층/DBSCAN)
차원축소: 시각화·노이즈 제거(PCA/UMAP/오토인코더)
이상치 탐지: 신용카드 사기 탐지(아이솔레이션 포레스트/재구성 오차)
평가: 실루엣 점수, 데이비스-볼딘, 응집도/분리도, 도메인 지표
주의: 정답이 없으므로 지표 합의와 비즈니스 연결이 필수

3) 강화학습(Reinforcement Learning)

에이전트가 환경과 상호작용하며 행동을 선택하고 보상을 받습니다. 장기 보상 합을 최대화하도록 정책을 학습합니다(상태·행동·보상·감가율·에피소드).

분야: 게임·로봇 제어·재고/가격 정책·추천 전략
접근: 가치기반(Q-learning), 정책기반(Policy Gradient), 액터-크리틱
핵심 이슈: 탐험 vs 활용, 안전성, 샘플 효율(시뮬레이터 도움), 오프라인 RL의 분포 이동 위험
평가: 에피소드 평균 보상, 성공률, 안전 제약 위반률

4) 가까운 친척: 반지도·자기지도

반지도학습: 소량 라벨+대량 무라벨을 함께 사용(교사-학생, 의사 라벨)
자기지도학습: 무라벨 데이터에 과제를 만들어 표현을 학습(마스킹·대조학습) → 이후 지도학습 전이

5) 무엇을 언제 선택할까? (빠른 규칙)

명확한 목표·라벨 有 → 지도학습(표 데이터=트리 계열, 복잡 패턴=신경망)
라벨 無·탐색/세분화 필요 → 비지도학습(군집화/차원축소)
순차적 의사결정·전략 → 강화학습(시뮬레이터·안전 제약 고려)
라벨 적고 무라벨 多 → 반지도/자기지도 후 지도학습

6) 실전 평가·검증 체크리스트

데이터 분리: 학습/검증/테스트 누수 방지(시간 순서 고려)
지표 합의: 분류(F1/ROC-AUC), 회귀(RMSE/MAE), 군집(실루엣), RL(평균 보상)
베이스라인: 단순 규칙·통계모델로 기준선 확보
재현성: 시드 고정, 전처리 파이프라인 저장
설명가능성: SHAP/LIME 등으로 피처 영향 확인(민감 영역 필수)

7) 데이터·윤리·법적 체크(대한민국 기준 요지)

개인정보 — 데이터에 식별 정보(얼굴·연락처·계정 등)가 포함되면 수집 목적·항목·보유기간 고지와 동의가 필요합니다. 해외 서버·도구 사용 시 국외 이전 고지·동의가 안전합니다.

편향·차별 — 라벨 편향·대표성 부족은 결과 왜곡으로 이어집니다. 층화 샘플링·공정성 지표로 점검하세요.

8) 1분 요약

지도: 라벨로 목표 예측(분류/회귀) — 지표 합의와 누수 방지
비지도: 라벨 없이 패턴 탐색(군집/차원축소) — 해석·비즈니스 연결
강화: 보상 최대 정책 학습(의사결정) — 안전·시뮬레이터가 핵심

FAQ

Q1. 데이터가 적을 때?

소량 라벨+대량 무라벨이면 반지도/자기지도, 라벨이 조금이라도 있으면 간단한 지도학습으로 기준선을 만드세요.

Q2. 군집 결과가 ‘정답’과 다를 때?

비지도에는 정답이 없습니다. 내부 지표와 도메인 지식으로 해석하고, 필요하면 그 결과를 라벨로 만들어 지도학습으로 전환하세요.

Q3. 강화학습은 항상 시뮬레이터가 필요한가요?

실환경 실험이 위험/고비용이면 사실상 필요합니다. 오프라인 로그만으로는 분포 이동·안전 문제가 큽니다.