지도 학습: 정의 및 작동 방식

게시 됨: 2024-07-03

이 유익한 가이드에서 이미지 인식부터 스팸 필터링까지 지도 학습이 우리가 매일 접하는 다양한 AI 애플리케이션을 어떻게 강화하는지 알아보세요.

목차

  • 지도 학습이란 무엇입니까?
  • 지도 학습과 비지도 학습
  • 지도 학습의 작동 방식
  • 지도 학습의 유형
  • 지도 학습의 응용
  • 지도 학습의 장점
  • 지도 학습의 단점

지도 학습이란 무엇입니까?

지도 학습은 정답으로 레이블이 지정된 데이터를 사용하여 모델을 교육하는 일종의 기계 학습(ML)입니다.감독이라는용어는 이러한 레이블이 입력과 출력 간의 관계에 대한 명확한 지침을 제공한다는 의미입니다. 이 프로세스는 모델이 보이지 않는 새로운 데이터에 대해 정확한 예측을 하는 데 도움이 됩니다.

머신 러닝은 하드 코딩된 지침에 의존하지 않고 데이터와 통계 방법을 사용하여 인간의 추론을 모방하는 모델을 구축하는 인공 지능(AI)의 하위 집합입니다. 지도 학습은 레이블이 지정된 데이터세트의 패턴과 관계를 식별하기 위해 안내된 데이터 기반 접근 방식을 취합니다. 평가를 통해 추정하여 보이지 않는 새로운 데이터에 대한 결과를 예측합니다. 예측을 알려진 레이블과 비교하고 모델을 조정하여 오류를 최소화함으로써 학습합니다.

Grammarly로 더욱 스마트하게 작업하세요
할 일이 있는 모든 사람을 위한 AI 글쓰기 파트너

지도 학습과 비지도 학습

레이블이 있는 데이터를 사용하는 지도 학습과 달리 비지도 학습은 레이블이 없는 데이터에서 패턴을 찾습니다.

훈련 데이터에 명시적인 정답이 제공하는 '감독'이 없으면 비지도 학습은 패턴과 그룹화를 분석하기 위해 보는 모든 것을 데이터로 취급합니다. 세 가지 주요 유형은 다음과 같습니다.

  • 클러스터링:이 기술은 서로 가장 인접한 데이터 포인트를 그룹화합니다. 고객 세분화나 문서 정렬에 유용합니다.
  • 연관: 사물이 동시에 발생하는 경향이 있는 시기를 결정합니다. 특히 자주 함께 구매하는 항목을 같은 위치에 배치하거나 다음에 스트리밍할 항목을 제안합니다.
  • 차원성 감소: 세부 사항의 전부 또는 대부분을 보존하면서 처리하기 쉽도록 데이터세트를 축소합니다.

반면에 지도 학습은 모델이 결정을 내리기를 원할 때 적합합니다. 주요 응용 분야는 다음과 같습니다.

  • 예 또는 아니오 결정:데이터를 하나의 클래스 또는 다른 클래스로 표시합니다. 스팸이나 사기 탐지와 같은 필터링에 자주 사용됩니다.
  • 분류: 이미지 내의 개체를 식별하거나 음성을 인식하는 등 여러 클래스 중 어느 클래스에 속하는지 파악합니다.
  • 회귀: 주택 가격이나 기상 조건 예측과 같은 과거 데이터를 기반으로 연속 값을 예측합니다.

다른 유형의 ML은 준지도 학습, 강화 학습, 자기 지도 학습이라는 두 가지 사이에 있습니다.

지도 학습의 작동 방식

지도 학습에는 데이터 선택 및 형식 지정, 모델 실행, 성능 테스트 등의 구조화된 프로세스가 포함됩니다.

지도 학습 과정에 대한 간략한 개요는 다음과 같습니다.

1 라벨링:라벨이 지정된 데이터는 입력과 출력 간의 올바른 연관성을 학습하는 데 필수적입니다. 예를 들어 제품 리뷰의 감정을 분석하는 모델을 만드는 경우 평가자가 리뷰를 읽고 긍정적, 부정적 또는 중립으로 표시하도록 하는 것부터 시작하세요.

2 데이터 수집 및 정리:훈련 데이터가 포괄적이고 대표적인지 확인하세요. 중복을 제거하고, 오류를 수정하고, 누락된 값을 처리하여 분석을 준비함으로써 데이터를 정리합니다.

3 특징 선택 및 추출:가장 영향력 있는 속성을 식별하고 선택하여 모델을 더욱 효율적이고 효과적으로 만듭니다. 이 단계에는 생년월일을 연령으로 변환하는 등 데이터의 기본 패턴을 더 잘 포착하기 위해 기존 기능에서 새로운 기능을 만드는 작업이 포함될 수도 있습니다.

4 데이터 분할:데이터 세트를 훈련 세트와 테스트 세트로 나눕니다. 훈련 세트를 사용하여 모델을 훈련하고 테스트 세트를 사용하여 새로운, 보이지 않는 데이터에 얼마나 잘 일반화되는지 확인합니다.

5 알고리즘 선택:작업 및 데이터 특성을 기반으로 지도 학습 알고리즘을 선택합니다. 여러 알고리즘을 실행하고 비교하여 가장 좋은 알고리즘을 찾을 수도 있습니다.

6 모델 훈련:예측 정확도를 높이기 위해 데이터를 사용하여 모델을 훈련합니다. 이 단계에서 모델은 예측과 훈련 데이터에 제공된 실제 레이블 간의 오류를 반복적으로 최소화하여 입력과 출력 간의 관계를 학습합니다. 알고리즘의 복잡성과 데이터 세트의 크기에 따라 이 작업은 몇 초에서 며칠이 걸릴 수 있습니다.

7 모델 평가:모델 성능을 평가하면 새 데이터에 대한 신뢰할 수 있고 정확한 예측이 생성됩니다. 이것이 비지도 학습과의 주요 차이점입니다. 예상 결과를 알고 있으므로 모델이 얼마나 잘 수행되었는지 평가할 수 있습니다.

8 모델 조정:모델의 매개변수를 조정하고 재훈련하여 성능을 미세 조정합니다. 초매개변수 조정이라고 하는 이 반복 프로세스는 모델을 최적화하고 과적합과 같은 문제를 방지하는 것을 목표로 합니다. 각 조정 후에 이 프로세스를 반복해야 합니다.

9 배포 및 모니터링:훈련된 모델을 배포하여 실제 환경에서 새로운 데이터를 예측합니다. 예를 들어 훈련된 스팸 탐지 모델을 배포하여 이메일을 필터링하고, 성능을 모니터링하고, 필요에 따라 조정합니다.

10 시간이 지남에 따라 미세 조정:더 많은 실제 데이터를 수집하면서 모델을 계속 교육하여 더욱 정확하고 관련성을 높입니다.

지도 학습의 유형

지도 학습에는 분류와 회귀라는 두 가지 주요 유형이 있습니다. 각 유형에는 고유한 하위 유형과 특정 사용 사례가 있습니다. 더 자세히 살펴보겠습니다.

분류

분류에는 입력이 속하는 카테고리 또는 클래스를 예측하는 작업이 포함됩니다. 다양한 분류 문제를 처리하기 위해 다양한 하위 유형과 개념이 사용됩니다. 다음은 몇 가지 인기 있는 유형입니다.

  • 이진 분류:모델은 가능한 두 가지 클래스 중 하나를 예측합니다. 이는 결과가 이진형일 때 유용합니다. 즉, 가능한 상태나 범주가 두 개만 있음을 의미합니다. 이 접근 방식은 명확한 구별이 필요한 결정에 사용됩니다.
  • 다중 클래스 분류: 이진법과 비슷하지만 정답이 하나만 있는 두 개 이상의 선택 항목이 있습니다. 이 접근 방식은 입력이 속할 수 있는 범주가 여러 개 있는 경우에 사용됩니다.
  • 다중 레이블 분류: 각 입력은 동시에 여러 클래스에 속할 수 있습니다. 각 입력이 단일 클래스에 할당되는 이진 또는 다중 클래스 분류와 달리 다중 레이블 분류를 사용하면 단일 입력에 여러 레이블을 할당할 수 있습니다. 이는 입력이 속할 가능성이 가장 높은 클래스를 선택하는 것이 아니라 포함할 확률 임계값을 결정해야 하기 때문에 더 복잡한 분석입니다.
  • 로지스틱 회귀: 이진 분류에 회귀(아래 참조)를 적용한 것입니다. 이 접근 방식은 단순한 이것저것이 아닌 예측의 신뢰성을 알려줄 수 있습니다.

분류 모델의 품질을 측정하는 방법에는 다음을 포함하여 여러 가지가 있습니다.

  • 정확성:전체 예측 중 몇 개가 맞았나요?
  • 정밀도:긍정적인 것 중 실제로 긍정적인 것은 몇 개나 됩니까?
  • 회상:실제 긍정적인 것 중 얼마나 많은 것이 긍정적인 것으로 표시되었습니까?
  • F1 점수:0~100% 범위에서 모델이 정밀도와 재현율의 균형을 얼마나 잘 유지합니까?

회귀

회귀에는 입력 특성을 기반으로 연속 값을 예측하고 예측이라고도 할 수 있는 숫자를 출력하는 작업이 포함됩니다. 이러한 입력 특성과 연속 출력 간의 관계를 포착하기 위해 다양한 유형의 회귀 모델이 사용됩니다. 다음은 몇 가지 인기 있는 유형입니다.

  • 선형 회귀:입력 특성과 출력 간의 관계를 직선으로 모델링합니다. 모델은 종속변수(출력)와 독립변수(입력) 사이의 선형 관계를 가정합니다. 목표는 예측값과 실제값의 차이를 최소화하는 데이터 포인트를 통해 가장 적합한 선을 찾는 것입니다.
  • 다항식 회귀: 입력 변수와 출력 변수 간의 더 복잡한 관계를 포착하기 위해 제곱 및 세제곱과 같은 다항식을 사용하기 때문에 선형 회귀보다 더 복잡합니다. 모델은 이러한 고차 항을 사용하여 비선형 데이터를 적합할 수 있습니다.
  • 능형 및 올가미 회귀: 모델이 일반화를 희생하면서 훈련된 데이터를 너무 많이 읽는 경향인 과적합 문제를 해결합니다. Ridge 회귀는 작은 세부 사항에 대한 모델의 민감도를 줄이는 반면, Lasso 회귀는 덜 중요한 기능을 고려에서 제거합니다.

대부분의 회귀 품질 측정은 예측이 실제 값과 얼마나 멀리 떨어져 있는지와 관련이 있습니다. 그들이 대답하는 질문은 다음과 같습니다.

  • 평균 절대 오차:평균적으로 예측이 실제 값과 얼마나 떨어져 있습니까?
  • 평균 제곱 오류:오류가 클수록 오류가 얼마나 증가합니까?
  • 평균 제곱근 오류: 오류가 크면 예측이 실제 값에서 얼마나 벗어나게 됩니까?
  • R-제곱: 회귀 분석이 데이터에 얼마나 잘 들어맞나요?

지도 학습의 응용

지도 학습은 다양한 산업 분야에 폭넓게 적용됩니다. 다음은 몇 가지 일반적인 예입니다.

  • 스팸 감지:이메일 서비스는 이진 분류를 사용하여 이메일이 받은 편지함에 도달해야 하는지 아니면 스팸으로 라우팅되어야 하는지 결정합니다. 스팸 폴더에 있는 이메일을 스팸이 아닌 것으로 표시하는 사람들에 대한 응답으로 지속적으로 개선되고 있으며 그 반대의 경우도 마찬가지입니다.
  • 이미지 인식:모델은 라벨이 붙은 이미지를 학습하여 객체를 인식하고 분류합니다. 예를 들어 태블릿이나 모바일 장치의 잠금을 해제하는 Apple의 Face ID 기능, 인쇄된 단어를 디지털 텍스트로 바꾸는 OCR(광학 문자 인식), 자율 주행 자동차를 위한 객체 감지 등이 있습니다.
  • 의료 진단:감독 모델은 환자 데이터와 의료 기록을 사용하여 질병을 예측하고 잠재적인 진단을 제안할 수 있습니다. 예를 들어 모델은 MRI에서 암성 종양을 인식하거나 당뇨병 관리 계획을 개발하도록 훈련될 수 있습니다.
  • 사기 탐지:금융 기관은 지도 학습을 사용하여 레이블이 지정된 거래 데이터의 패턴을 분석하여 사기 거래를 식별합니다.
  • 감정 분석:긍정적이거나 부정적인 반응이나 감정(예: 행복 또는 혐오감)을 측정하는지 여부에 관계없이 수동으로 태그가 지정된 데이터 세트는 소셜 미디어 게시물, 제품 리뷰 또는 설문 조사 결과와 같은 입력을 해석하도록 모델에 알립니다.
  • 예측 유지 관리:모델은 과거 성능 데이터와 환경 요인을 기반으로 기계가 고장날 가능성이 있는 시기를 예측하여 고장이 나기 전에 수리하거나 교체할 수 있습니다.

지도 학습의 장점

  • 정확하고 예측 가능합니다.좋은 데이터가 제공되었다고 가정하면 지도 학습 모델은 다른 기계 학습 방법보다 더 정확한 경향이 있습니다. 더 단순한 모델은 일반적으로 결정적입니다. 즉, 주어진 입력이 항상 동일한 출력을 생성한다는 의미입니다.
  • 명확한 목표. 감독 덕분에 모델이 무엇을 달성하려고 하는지 알 수 있습니다. 이는 비지도 학습 및 자기 지도 학습과는 뚜렷한 대조를 이룹니다.
  • 평가하기 쉽습니다. 분류 및 회귀 모델의 정확성을 판단하기 위해 사용할 수 있는 몇 가지 품질 측정 방법이 있습니다.
  • 해석 가능. 지도 모델은 데이터 과학자가 비교적 쉽게 이해할 수 있는 회귀 및 의사결정 트리와 같은 기술을 사용합니다. 해석 가능성은 특히 영향이 큰 환경과 규제 산업에서 의사 결정자의 자신감을 향상시킵니다.

지도 학습의 단점

  • 레이블이 지정된 데이터가 필요합니다.데이터에는 명확한 입력과 레이블이 있어야 합니다. 이는 수동으로 데이터에 주석을 달기 위해 수천 명(수백만 명은 아닐지라도)의 인력이 고용되어 분류 훈련에 있어 어려운 과제인 경우가 많습니다.
  • 훈련 데이터의 오류 및 일관성 없는 판단. 휴먼 라벨링에는 오류, 오타, 다른 의견과 같은 인간의 오류가 따릅니다. 후자는 감정 분석에서 특히 어려운 측면입니다. 고품질 감정 훈련 데이터에서는 일반적으로 여러 사람이 주어진 데이터 포인트를 평가하고 합의가 있는 경우에만 결과를 기록해야 합니다.
  • 과적합. 모델은 훈련 데이터에 대해서는 매우 잘 작동하지만 아직 확인하지 못한 데이터에 대해서는 제대로 작동하지 않는 계산을 내놓는 경우가 많습니다. 세심한 트레이너는 항상 과적합을 찾고 영향을 줄이기 위한 기술을 사용할 것입니다.
  • 알려진 패턴으로 제한됩니다. 주가 예측 모델이 강세장 데이터에만 기반을 두고 있다면 약세장이 나타나면 정확도가 매우 떨어지게 됩니다. 따라서 모델에 표시된 데이터의 제한 사항에 주의하고 더 많은 상황에 노출되는 학습 데이터를 찾을지 아니면 단순히 출력을 무시할지 고려하세요.