티스토리 뷰

목차


    반응형

    지도=라벨 화살표 관련 사진

    지도·비지도·강화학습 📚 예시 코드 없이 개념만 한 번에!

     

    머신러닝의 대표 학습 방식은 지도학습(Supervised), 비지도학습(Unsupervised), 강화학습(Reinforcement)입니다. 무엇을 예측할지, 정답(label)이 있는지, 보상을 통해 학습하는지에 따라 접근이 달라집니다. 이 글은 개념·예시·평가·장단점·선택 가이드를 코드 없이 깔끔하게 정리합니다.


    0) 한눈 비교

    구분

    지도학습

    비지도학습

    강화학습

    핵심 아이디어 정답(Label)로 예측/분류를 학습 정답 없이 패턴·구조 발견 행동→보상을 반복하며 정책 학습
    대표 문제 분류, 회귀 군집화, 차원축소, 이상치 탐지 게임/로보틱스, 추천 전략, 운영 최적화
    데이터 요구 정답 라벨 필요(품질 중요) 라벨 불필요(양은 많을수록 유리) 환경 시뮬레이션/상호작용 로그
    평가 지표(예) 정확도·정밀도·재현율·F1, RMSE/MAE 실루엣 점수, 엘보우, 재구성 오차 에피소드 평균 보상, 성공률
    장점 성능/해석 용이, 목표 명확 라벨 비용 無, 숨은 구조 학습 의사결정·전략 최적화에 강함
    주의 라벨링 비용·누락·편향, 데이터 누수 해석·평가 기준 설정이 어렵고 임의성 탐험/안전·샘플효율·오프라인 적용 위험

    1) 지도학습(Supervised Learning)

    입력 X와 정답 Y가 쌍으로 주어집니다. 모델은 X→Y 관계를 학습해 보지 못한 데이터의 Y를 예측합니다.

    • 문제: 분류(스팸/정상, 양성/음성), 회귀(가격·수요·온도 예측)
    • 알고리즘(예시): 로지스틱/선형 회귀, 의사결정나무·랜덤포레스트, 그래디언트부스팅, SVM, 신경망
    • 평가: 분류—정확도·정밀도·재현율·F1·AUC / 회귀—RMSE·MAE
    • 주의: 라벨 편향·오염, 데이터 누수, 과적합 → 교차검증·홀드아웃으로 방지

    2) 비지도학습(Unsupervised Learning)

    정답 없이 데이터의 내재된 구조를 찾습니다. 라벨 비용이 없고 탐색·전처리에 강합니다.

    • 군집화: 고객 세분화(K-평균/계층/DBSCAN)
    • 차원축소: 시각화·노이즈 제거(PCA/UMAP/오토인코더)
    • 이상치 탐지: 신용카드 사기 탐지(아이솔레이션 포레스트/재구성 오차)
    • 평가: 실루엣 점수, 데이비스-볼딘, 응집도/분리도, 도메인 지표
    • 주의: 정답이 없으므로 지표 합의와 비즈니스 연결이 필수

    3) 강화학습(Reinforcement Learning)

    에이전트환경과 상호작용하며 행동을 선택하고 보상을 받습니다. 장기 보상 합을 최대화하도록 정책을 학습합니다(상태·행동·보상·감가율·에피소드).

    • 분야: 게임·로봇 제어·재고/가격 정책·추천 전략
    • 접근: 가치기반(Q-learning), 정책기반(Policy Gradient), 액터-크리틱
    • 핵심 이슈: 탐험 vs 활용, 안전성, 샘플 효율(시뮬레이터 도움), 오프라인 RL의 분포 이동 위험
    • 평가: 에피소드 평균 보상, 성공률, 안전 제약 위반률

    4) 가까운 친척: 반지도·자기지도

    • 반지도학습: 소량 라벨+대량 무라벨을 함께 사용(교사-학생, 의사 라벨)
    • 자기지도학습: 무라벨 데이터에 과제를 만들어 표현을 학습(마스킹·대조학습) → 이후 지도학습 전이

    5) 무엇을 언제 선택할까? (빠른 규칙)

    • 명확한 목표·라벨 有 → 지도학습(표 데이터=트리 계열, 복잡 패턴=신경망)
    • 라벨 無·탐색/세분화 필요 → 비지도학습(군집화/차원축소)
    • 순차적 의사결정·전략 → 강화학습(시뮬레이터·안전 제약 고려)
    • 라벨 적고 무라벨 多 → 반지도/자기지도 후 지도학습

    6) 실전 평가·검증 체크리스트

    1. 데이터 분리: 학습/검증/테스트 누수 방지(시간 순서 고려)
    2. 지표 합의: 분류(F1/ROC-AUC), 회귀(RMSE/MAE), 군집(실루엣), RL(평균 보상)
    3. 베이스라인: 단순 규칙·통계모델로 기준선 확보
    4. 재현성: 시드 고정, 전처리 파이프라인 저장
    5. 설명가능성: SHAP/LIME 등으로 피처 영향 확인(민감 영역 필수)

    7) 데이터·윤리·법적 체크(대한민국 기준 요지)

    개인정보 — 데이터에 식별 정보(얼굴·연락처·계정 등)가 포함되면 수집 목적·항목·보유기간 고지와 동의가 필요합니다. 해외 서버·도구 사용 시 국외 이전 고지·동의가 안전합니다.

    저작권 — 텍스트·이미지·음성 데이터는 라이선스 확인이 필수입니다. 인용은 필요 최소한으로, 출처·링크를 명시하고 원문 대체를 피하세요.

    편향·차별 — 라벨 편향·대표성 부족은 결과 왜곡으로 이어집니다. 층화 샘플링·공정성 지표로 점검하세요.

    8) 1분 요약

    • 지도: 라벨로 목표 예측(분류/회귀) — 지표 합의와 누수 방지
    • 비지도: 라벨 없이 패턴 탐색(군집/차원축소) — 해석·비즈니스 연결
    • 강화: 보상 최대 정책 학습(의사결정) — 안전·시뮬레이터가 핵심

    FAQ

    Q1. 데이터가 적을 때?

    소량 라벨+대량 무라벨이면 반지도/자기지도, 라벨이 조금이라도 있으면 간단한 지도학습으로 기준선을 만드세요.

    Q2. 군집 결과가 ‘정답’과 다를 때?

    비지도에는 정답이 없습니다. 내부 지표와 도메인 지식으로 해석하고, 필요하면 그 결과를 라벨로 만들어 지도학습으로 전환하세요.

    Q3. 강화학습은 항상 시뮬레이터가 필요한가요?

    실환경 실험이 위험/고비용이면 사실상 필요합니다. 오프라인 로그만으로는 분포 이동·안전 문제가 큽니다.

     

    기본 개념은 AI란 무엇인가?, 용어 정리는 AI vs 머신러닝 vs 딥러닝 차이, 법·규정은 AI와 개인정보·저작권·표시광고를 참고하세요.

    반응형