Supervised vs Unsupervised Learning: 머신러닝 양대산맥, 개념부터 활용까지
안녕하세요! 머신러닝의 여정을 시작하거나, 이미 발을 들여놓으신 분들 모두에게 가장 기본적이면서도 중요한 두 가지 갈래, 바로 지도 학습(Supervised Learning)과 비지도 학습(Unsupervised Learning)에 대해 쉽고 명확하게 알아보는 시간을 갖겠습니다. 이 두 가지 개념을 이해하는 것은 머신러닝 프로젝트의 방향을 설정하는 첫걸음이 될 것입니다.
![]() |
머신러닝은 학습 데이터의 특성에 따라 크게 2가지로 구분될 수 있습니다. |
1. 머신러닝, 학습 방식에 따른 분류
머신러닝은 컴퓨터가 데이터로부터 스스로 학습하여 특정 작업을 수행할 수 있도록 하는 기술입니다. 이때, '어떻게 학습하는가?'에 따라 크게 몇 가지로 나눌 수 있는데, 가장 대표적인 것이 바로 지도 학습과 비지도 학습입니다. (강화 학습이라는 또 다른 중요한 분야도 있지만, 오늘은 이 두 가지에 집중해보겠습니다.)
이 둘을 가르는 가장 핵심적인 차이는 '정답' 데이터의 유무입니다.
2. Supervised Learning (지도 학습) 이란?
지도 학습(Supervised Learning)은 이름에서 알 수 있듯이, '지도'를 받으며 학습하는 방식입니다. 여기서 지도는 바로 정답(Label 또는 Target)이 붙어있는 데이터를 의미합니다.
- 입력: 지도 학습 모델은 문제(Input Data 또는 Feature)와 함께 해당 문제에 대한 정답(Label)을 함께 입력받습니다.
- 학습 과정: 모델은 주어진 문제와 정답의 관계를 학습합니다. "이러한 특징을 가진 데이터는 이런 정답을 갖는구나!" 하고 패턴을 익히는 것이죠.
- 목표: 학습이 완료된 모델은 새로운, 정답이 없는 데이터가 주어졌을 때, 학습한 패턴을 기반으로 정답을 예측하는 것을 목표로 합니다.
![]() |
지도 학습 (source) |
지도 학습은 '사과' 이미지(Input data)와 '이것들은 사과다'(Annotations/정답)라는 정보를 함께 모델에 제공하여 학습시킵니다. 이렇게 학습된 모델은 새로운 사과 이미지가 주어졌을 때 '사과!'라고 예측할 수 있게 됩니다.
지도 학습의 주요 유형:
- 분류 (Classification): 주어진 데이터를 미리 정의된 여러 개의 범주(Class) 중 하나로 예측합니다.
- 예시: 스팸 메일 필터링 (스팸/정상), 이미지 속 객체 인식 (고양이/강아지/자동차), 질병 진단 (양성/음성)
- 회귀 (Regression): 연속적인 숫자 값을 예측합니다.
- 예시: 주택 가격 예측, 주가 예측, 기온 예측
3. Unsupervised Learning (비지도 학습) 이란?
비지도 학습(Unsupervised Learning)은 지도 학습과는 반대로, 정답(Label)이 없는 데이터를 사용합니다. 즉, '지도'해주는 선생님 없이 데이터 스스로 숨겨진 구조나 패턴을 찾아내도록 하는 학습 방식입니다.
- 입력: 비지도 학습 모델은 오직 문제(Input Data 또는 Feature)만을 입력받습니다. 정답은 주어지지 않습니다.
- 학습 과정: 모델은 데이터 내에 존재하는 유사성, 패턴, 그룹 등을 스스로 탐색하고 발견합니다.
- 목표: 데이터의 숨겨진 구조를 파악하거나, 데이터를 의미 있는 그룹으로 묶거나, 데이터의 주요 특징을 추출하는 것을 목표로 합니다.
![]() |
비지도 학습 (source) |
정답(레이블)이 없는 다양한 과일(사과, 복숭아, 바나나) 데이터가 입력되면, 모델은 데이터의 유사성에 기반하여 스스로 과일들을 종류별로 그룹화(군집화)합니다.
비지도 학습의 주요 유형:
- 군집화 (Clustering): 비슷한 특성을 가진 데이터들을 하나의 그룹(Cluster)으로 묶습니다.
- 예시: 고객 유형 분류, 유사한 뉴스 기사 그룹핑, 이미지 분할 (위 그림의 과일 분류 예시)
- 차원 축소 (Dimensionality Reduction): 데이터의 중요한 특징은 유지하면서 변수의 개수(차원)를 줄입니다.
- 예시: 고차원 데이터 시각화, 데이터 압축, 노이즈 제거
- 연관 규칙 학습 (Association Rule Mining): 데이터 항목들 간의 흥미로운 관계나 규칙을 발견합니다.
- 예시: 장바구니 분석 ("기저귀를 산 사람은 맥주도 함께 구매하는 경향이 있다")
4. 핵심 차이점 한눈에 보기
구분 | Supervised Learning (지도 학습) | Unsupervised Learning (비지도 학습) |
---|---|---|
입력 데이터 | 데이터 + 정답 (Label) | 데이터 (정답 없음) |
학습 목표 | 새로운 데이터의 정답 예측 | 데이터 내 숨겨진 패턴/구조 발견 |
주요 과제 | 분류 (Classification), 회귀 (Regression) | 군집화 (Clustering), 차원 축소, 연관 규칙 학습 |
피드백 | 명시적 (정답을 통해 모델의 예측 평가) | 암시적 (데이터 자체의 구조를 통해 학습) |
예시 알고리즘 | 선형 회귀, 로지스틱 회귀, SVM, 결정 트리, 신경망 | K-Means, DBSCAN, PCA, Apriori |
![]() |
머신러닝 알고리즘 분류도 (source) |
각 학습 방식에는 다양한 알고리즘이 존재하며, 문제의 성격에 따라 적합한 것을 선택합니다.
5. 어떤 상황에 어떤 학습 방법을 선택할까요?
지도 학습은 이럴 때 사용해요:
- 과거 데이터와 그 결과(정답)가 명확하게 존재할 때
- 특정 입력에 대한 구체적인 결과(예측값 또는 분류)를 얻고 싶을 때
- 예: 고객의 과거 구매 패턴을 기반으로 이탈 여부 예측, 의료 영상을 보고 암 진단
비지도 학습은 이럴 때 사용해요:
- 데이터에 대한 사전 정보나 정답이 없을 때
- 데이터 자체의 특성을 탐색하고 이해하고 싶을 때
- 데이터를 의미 있는 그룹으로 나누거나, 복잡한 데이터를 단순화하고 싶을 때
- 예: 유사한 특성을 가진 고객 그룹 발굴, 소셜 미디어 토픽 모델링, 이상 거래 탐지
마무리하며
오늘은 머신러닝의 가장 기본적인 두 축인 지도 학습과 비지도 학습에 대해 알아보았습니다. 이 두 가지 학습 방식의 차이를 이해하는 것은 여러분이 풀고자 하는 문제에 어떤 방식으로 접근해야 할지 결정하는 데 큰 도움을 줄 것입니다. 데이터의 특성과 우리가 얻고자 하는 목표를 명확히 정의하고, 그에 맞는 학습 방법을 선택하는 것이 성공적인 머신러닝 프로젝트의 시작입니다.
앞으로 다양한 머신러닝 알고리즘들을 접하게 될 텐데, 오늘 배운 내용을 바탕으로 각 알고리즘이 어떤 학습 방식에 속하는지, 어떤 문제를 해결하는 데 강점이 있는지 파악해나가시길 바랍니다!