Supervised vs Unsupervised Learning: 머신러닝 양대산맥, 개념부터 활용까지

안녕하세요! 머신러닝의 여정을 시작하거나, 이미 발을 들여놓으신 분들 모두에게 가장 기본적이면서도 중요한 두 가지 갈래, 바로 지도 학습(Supervised Learning)비지도 학습(Unsupervised Learning)에 대해 쉽고 명확하게 알아보는 시간을 갖겠습니다. 이 두 가지 개념을 이해하는 것은 머신러닝 프로젝트의 방향을 설정하는 첫걸음이 될 것입니다.

이 이미지는 머신러닝(Machine Learning)을 크게 두 가지로 분류한 그림으로, 왼쪽은 지도학습(Supervised Learning), 오른쪽은 비지도학습(Unsupervised Learning)을 나타냅니다.
머신러닝은 학습 데이터의 특성에 따라 크게 2가지로 구분될 수 있습니다.

1. 머신러닝, 학습 방식에 따른 분류

머신러닝은 컴퓨터가 데이터로부터 스스로 학습하여 특정 작업을 수행할 수 있도록 하는 기술입니다. 이때, '어떻게 학습하는가?'에 따라 크게 몇 가지로 나눌 수 있는데, 가장 대표적인 것이 바로 지도 학습과 비지도 학습입니다. (강화 학습이라는 또 다른 중요한 분야도 있지만, 오늘은 이 두 가지에 집중해보겠습니다.)

이 둘을 가르는 가장 핵심적인 차이는 '정답' 데이터의 유무입니다.

2. Supervised Learning (지도 학습) 이란?

지도 학습(Supervised Learning)은 이름에서 알 수 있듯이, '지도'를 받으며 학습하는 방식입니다. 여기서 지도는 바로 정답(Label 또는 Target)이 붙어있는 데이터를 의미합니다.

  • 입력: 지도 학습 모델은 문제(Input Data 또는 Feature)와 함께 해당 문제에 대한 정답(Label)을 함께 입력받습니다.
  • 학습 과정: 모델은 주어진 문제와 정답의 관계를 학습합니다. "이러한 특징을 가진 데이터는 이런 정답을 갖는구나!" 하고 패턴을 익히는 것이죠.
  • 목표: 학습이 완료된 모델은 새로운, 정답이 없는 데이터가 주어졌을 때, 학습한 패턴을 기반으로 정답을 예측하는 것을 목표로 합니다.
입력 데이터(사과 이미지)와 해당 정답 라벨("이것은 사과입니다")을 함께 모델에 주고, 모델은 새로운 입력이 들어오면 이를 바탕으로 "이것은 사과입니다!"라고 예측한다.
지도 학습 (source)

지도 학습은 '사과' 이미지(Input data)와 '이것들은 사과다'(Annotations/정답)라는 정보를 함께 모델에 제공하여 학습시킵니다. 이렇게 학습된 모델은 새로운 사과 이미지가 주어졌을 때 '사과!'라고 예측할 수 있게 됩니다.

지도 학습의 주요 유형:

  • 분류 (Classification): 주어진 데이터를 미리 정의된 여러 개의 범주(Class) 중 하나로 예측합니다.
    • 예시: 스팸 메일 필터링 (스팸/정상), 이미지 속 객체 인식 (고양이/강아지/자동차), 질병 진단 (양성/음성)
  • 회귀 (Regression): 연속적인 숫자 값을 예측합니다.
    • 예시: 주택 가격 예측, 주가 예측, 기온 예측

3. Unsupervised Learning (비지도 학습) 이란?

비지도 학습(Unsupervised Learning)은 지도 학습과는 반대로, 정답(Label)이 없는 데이터를 사용합니다. 즉, '지도'해주는 선생님 없이 데이터 스스로 숨겨진 구조나 패턴을 찾아내도록 하는 학습 방식입니다.

  • 입력: 비지도 학습 모델은 오직 문제(Input Data 또는 Feature)만을 입력받습니다. 정답은 주어지지 않습니다.
  • 학습 과정: 모델은 데이터 내에 존재하는 유사성, 패턴, 그룹 등을 스스로 탐색하고 발견합니다.
  • 목표: 데이터의 숨겨진 구조를 파악하거나, 데이터를 의미 있는 그룹으로 묶거나, 데이터의 주요 특징을 추출하는 것을 목표로 합니다.
서로 다른 과일들(사과, 바나나, 복숭아)이 모델에 입력되고, 라벨 없이 모델이 스스로 유사한 것끼리 분류해 그룹을 나눈다.
비지도 학습 (source)

정답(레이블)이 없는 다양한 과일(사과, 복숭아, 바나나) 데이터가 입력되면, 모델은 데이터의 유사성에 기반하여 스스로 과일들을 종류별로 그룹화(군집화)합니다.

비지도 학습의 주요 유형:

  • 군집화 (Clustering): 비슷한 특성을 가진 데이터들을 하나의 그룹(Cluster)으로 묶습니다.
    • 예시: 고객 유형 분류, 유사한 뉴스 기사 그룹핑, 이미지 분할 (위 그림의 과일 분류 예시)
  • 차원 축소 (Dimensionality Reduction): 데이터의 중요한 특징은 유지하면서 변수의 개수(차원)를 줄입니다.
    • 예시: 고차원 데이터 시각화, 데이터 압축, 노이즈 제거
  • 연관 규칙 학습 (Association Rule Mining): 데이터 항목들 간의 흥미로운 관계나 규칙을 발견합니다.
    • 예시: 장바구니 분석 ("기저귀를 산 사람은 맥주도 함께 구매하는 경향이 있다")

4. 핵심 차이점 한눈에 보기

구분 Supervised Learning (지도 학습) Unsupervised Learning (비지도 학습)
입력 데이터 데이터 + 정답 (Label) 데이터 (정답 없음)
학습 목표 새로운 데이터의 정답 예측 데이터 내 숨겨진 패턴/구조 발견
주요 과제 분류 (Classification), 회귀 (Regression) 군집화 (Clustering), 차원 축소, 연관 규칙 학습
피드백 명시적 (정답을 통해 모델의 예측 평가) 암시적 (데이터 자체의 구조를 통해 학습)
예시 알고리즘 선형 회귀, 로지스틱 회귀, SVM, 결정 트리, 신경망 K-Means, DBSCAN, PCA, Apriori
머신러닝을 크게 지도학습(Supervised Learning)과 비지도학습(Unsupervised Learning)으로 나누고, 지도학습은 분류(Classification)와 회귀(Regression)로, 비지도학습은 군집화(Clustering)로 세분화한 후 각 세부 항목에 해당하는 대표적인 알고리즘들을 나열한 구조도입니다.
머신러닝 알고리즘 분류도 (source)

각 학습 방식에는 다양한 알고리즘이 존재하며, 문제의 성격에 따라 적합한 것을 선택합니다.

5. 어떤 상황에 어떤 학습 방법을 선택할까요?

  • 지도 학습은 이럴 때 사용해요:

    • 과거 데이터와 그 결과(정답)가 명확하게 존재할 때
    • 특정 입력에 대한 구체적인 결과(예측값 또는 분류)를 얻고 싶을 때
    • 예: 고객의 과거 구매 패턴을 기반으로 이탈 여부 예측, 의료 영상을 보고 암 진단
  • 비지도 학습은 이럴 때 사용해요:

    • 데이터에 대한 사전 정보나 정답이 없을 때
    • 데이터 자체의 특성을 탐색하고 이해하고 싶을 때
    • 데이터를 의미 있는 그룹으로 나누거나, 복잡한 데이터를 단순화하고 싶을 때
    • 예: 유사한 특성을 가진 고객 그룹 발굴, 소셜 미디어 토픽 모델링, 이상 거래 탐지

마무리하며

오늘은 머신러닝의 가장 기본적인 두 축인 지도 학습과 비지도 학습에 대해 알아보았습니다. 이 두 가지 학습 방식의 차이를 이해하는 것은 여러분이 풀고자 하는 문제에 어떤 방식으로 접근해야 할지 결정하는 데 큰 도움을 줄 것입니다. 데이터의 특성과 우리가 얻고자 하는 목표를 명확히 정의하고, 그에 맞는 학습 방법을 선택하는 것이 성공적인 머신러닝 프로젝트의 시작입니다.

앞으로 다양한 머신러닝 알고리즘들을 접하게 될 텐데, 오늘 배운 내용을 바탕으로 각 알고리즘이 어떤 학습 방식에 속하는지, 어떤 문제를 해결하는 데 강점이 있는지 파악해나가시길 바랍니다!