티스토리 뷰
목차

지도·비지도·강화학습 📚 예시 코드 없이 개념만 한 번에!
머신러닝의 대표 학습 방식은 지도학습(Supervised), 비지도학습(Unsupervised), 강화학습(Reinforcement)입니다. 무엇을 예측할지, 정답(label)이 있는지, 보상을 통해 학습하는지에 따라 접근이 달라집니다. 이 글은 개념·예시·평가·장단점·선택 가이드를 코드 없이 깔끔하게 정리합니다.
0) 한눈 비교
|
구분 |
지도학습 |
비지도학습 |
강화학습 |
|---|---|---|---|
| 핵심 아이디어 | 정답(Label)로 예측/분류를 학습 | 정답 없이 패턴·구조 발견 | 행동→보상을 반복하며 정책 학습 |
| 대표 문제 | 분류, 회귀 | 군집화, 차원축소, 이상치 탐지 | 게임/로보틱스, 추천 전략, 운영 최적화 |
| 데이터 요구 | 정답 라벨 필요(품질 중요) | 라벨 불필요(양은 많을수록 유리) | 환경 시뮬레이션/상호작용 로그 |
| 평가 지표(예) | 정확도·정밀도·재현율·F1, RMSE/MAE | 실루엣 점수, 엘보우, 재구성 오차 | 에피소드 평균 보상, 성공률 |
| 장점 | 성능/해석 용이, 목표 명확 | 라벨 비용 無, 숨은 구조 학습 | 의사결정·전략 최적화에 강함 |
| 주의 | 라벨링 비용·누락·편향, 데이터 누수 | 해석·평가 기준 설정이 어렵고 임의성 | 탐험/안전·샘플효율·오프라인 적용 위험 |
1) 지도학습(Supervised Learning)
입력 X와 정답 Y가 쌍으로 주어집니다. 모델은 X→Y 관계를 학습해 보지 못한 데이터의 Y를 예측합니다.
- 문제: 분류(스팸/정상, 양성/음성), 회귀(가격·수요·온도 예측)
- 알고리즘(예시): 로지스틱/선형 회귀, 의사결정나무·랜덤포레스트, 그래디언트부스팅, SVM, 신경망
- 평가: 분류—정확도·정밀도·재현율·F1·AUC / 회귀—RMSE·MAE
- 주의: 라벨 편향·오염, 데이터 누수, 과적합 → 교차검증·홀드아웃으로 방지
2) 비지도학습(Unsupervised Learning)
정답 없이 데이터의 내재된 구조를 찾습니다. 라벨 비용이 없고 탐색·전처리에 강합니다.
- 군집화: 고객 세분화(K-평균/계층/DBSCAN)
- 차원축소: 시각화·노이즈 제거(PCA/UMAP/오토인코더)
- 이상치 탐지: 신용카드 사기 탐지(아이솔레이션 포레스트/재구성 오차)
- 평가: 실루엣 점수, 데이비스-볼딘, 응집도/분리도, 도메인 지표
- 주의: 정답이 없으므로 지표 합의와 비즈니스 연결이 필수
3) 강화학습(Reinforcement Learning)
에이전트가 환경과 상호작용하며 행동을 선택하고 보상을 받습니다. 장기 보상 합을 최대화하도록 정책을 학습합니다(상태·행동·보상·감가율·에피소드).
- 분야: 게임·로봇 제어·재고/가격 정책·추천 전략
- 접근: 가치기반(Q-learning), 정책기반(Policy Gradient), 액터-크리틱
- 핵심 이슈: 탐험 vs 활용, 안전성, 샘플 효율(시뮬레이터 도움), 오프라인 RL의 분포 이동 위험
- 평가: 에피소드 평균 보상, 성공률, 안전 제약 위반률
4) 가까운 친척: 반지도·자기지도
- 반지도학습: 소량 라벨+대량 무라벨을 함께 사용(교사-학생, 의사 라벨)
- 자기지도학습: 무라벨 데이터에 과제를 만들어 표현을 학습(마스킹·대조학습) → 이후 지도학습 전이
5) 무엇을 언제 선택할까? (빠른 규칙)
- 명확한 목표·라벨 有 → 지도학습(표 데이터=트리 계열, 복잡 패턴=신경망)
- 라벨 無·탐색/세분화 필요 → 비지도학습(군집화/차원축소)
- 순차적 의사결정·전략 → 강화학습(시뮬레이터·안전 제약 고려)
- 라벨 적고 무라벨 多 → 반지도/자기지도 후 지도학습
6) 실전 평가·검증 체크리스트
- 데이터 분리: 학습/검증/테스트 누수 방지(시간 순서 고려)
- 지표 합의: 분류(F1/ROC-AUC), 회귀(RMSE/MAE), 군집(실루엣), RL(평균 보상)
- 베이스라인: 단순 규칙·통계모델로 기준선 확보
- 재현성: 시드 고정, 전처리 파이프라인 저장
- 설명가능성: SHAP/LIME 등으로 피처 영향 확인(민감 영역 필수)
7) 데이터·윤리·법적 체크(대한민국 기준 요지)
개인정보 — 데이터에 식별 정보(얼굴·연락처·계정 등)가 포함되면 수집 목적·항목·보유기간 고지와 동의가 필요합니다. 해외 서버·도구 사용 시 국외 이전 고지·동의가 안전합니다.
저작권 — 텍스트·이미지·음성 데이터는 라이선스 확인이 필수입니다. 인용은 필요 최소한으로, 출처·링크를 명시하고 원문 대체를 피하세요.
편향·차별 — 라벨 편향·대표성 부족은 결과 왜곡으로 이어집니다. 층화 샘플링·공정성 지표로 점검하세요.
8) 1분 요약
- 지도: 라벨로 목표 예측(분류/회귀) — 지표 합의와 누수 방지
- 비지도: 라벨 없이 패턴 탐색(군집/차원축소) — 해석·비즈니스 연결
- 강화: 보상 최대 정책 학습(의사결정) — 안전·시뮬레이터가 핵심
FAQ
Q1. 데이터가 적을 때?
소량 라벨+대량 무라벨이면 반지도/자기지도, 라벨이 조금이라도 있으면 간단한 지도학습으로 기준선을 만드세요.
Q2. 군집 결과가 ‘정답’과 다를 때?
비지도에는 정답이 없습니다. 내부 지표와 도메인 지식으로 해석하고, 필요하면 그 결과를 라벨로 만들어 지도학습으로 전환하세요.
Q3. 강화학습은 항상 시뮬레이터가 필요한가요?
실환경 실험이 위험/고비용이면 사실상 필요합니다. 오프라인 로그만으로는 분포 이동·안전 문제가 큽니다.
기본 개념은 AI란 무엇인가?, 용어 정리는 AI vs 머신러닝 vs 딥러닝 차이, 법·규정은 AI와 개인정보·저작권·표시광고를 참고하세요.