비지도 학습: 정의 및 작동 방식

게시 됨: 2024-07-03

기계가 자율적인 데이터 분석가가 되어 인간의 개입 없이 귀중한 통찰력을 추출할 수 있게 해주는 혁신적인 기술인 비지도 학습의 신비를 풀어보세요.

비지도 학습이란 무엇입니까?
비지도 학습과 지도 학습
비지도 학습의 작동 방식
비지도 학습의 유형
비지도 학습의 응용
비지도 학습의 장점
비지도 학습의 단점

비지도 학습이란 무엇입니까?

비지도 학습은 데이터 내에서 패턴과 관계를 스스로 찾아내는 기계 학습(ML)의 한 유형입니다.감독되지 않는다는용어는 모델이 레이블이 지정되지 않은 데이터를 사용한다는 것을 의미합니다. 즉, 무엇을 찾아야 하는지에 대한 인간의 지시나 보고 있는 내용에 대한 지침도 받지 못한다는 의미입니다. 대신 알고리즘을 사용하여 데이터 세트를 평가하고 수학을 사용하여 데이터를 설명하는 상관 관계, 유사점, 차이점 및 기타 방법을 찾습니다.

머신 러닝은 하드 코딩된 지침에 의존하지 않고 데이터와 통계 방법을 사용하여 인간의 추론을 모방하는 모델을 구축하는 인공 지능(AI)의 하위 집합입니다. 비지도 학습은 탐색적, 데이터 기반 접근 방식을 사용하여 공통 특성을 기준으로 개체를 그룹화하거나 어떤 데이터 포인트가 함께 발생하는 경향이 있는지 찾는 등 대규모 데이터 세트에서 결론을 도출합니다. 이는 상록수에서 낙엽수 그림을 정렬하거나 찾는 것과 같은 역할을 할 수 있습니다.Sesame Street를스트리밍하는 사람들은Daniel Tiger도 시청할 가능성이 높습니다.

Grammarly로 더욱 스마트하게 작업하세요

할 일이 있는 모든 사람을 위한 AI 글쓰기 파트너

비지도 학습과 지도 학습

비지도 학습 방법과 달리 지도 학습은 입력과 올바른 출력을 연결하는 레이블이 지정된 데이터를 사용합니다. 반대로 비지도 학습에는 모델이 직관할 수 있는 입력과 출력이 없고 분석할 데이터만 있습니다.

라벨은 소위 모델의 학습 프로세스에 대한 감독 기능을 제공하여 주어진 입력에서 정답을 찾아 리버스 엔지니어링하도록 안내합니다. 지도 학습을 사용하는 것은 모델이 다음을 포함하여 목표로 삼고 추론할 수 있는 이러한 종류의 데이터가 있을 때 적합합니다.

스팸이나 사기 탐지 등 예 또는 아니요 결정
분류 (예: 이미지 내의 객체 식별 또는 음성 인식)
집값이나 날씨 등 예측

반면 비지도 학습은 정답을 찾는 것이 아니라 데이터 내에서 패턴이나 그룹화를 찾는 것입니다. 세 가지 주요 응용 프로그램은 다음과 같습니다.

고객 세분화 또는 문서 그룹화와 같은 클러스터링
추천 엔진이나 보안 이상과 같은 연관성
차원 축소(Dimensionality Reduction) - 일반적으로 대규모 데이터 세트를 압축하여 관리하기 쉽게 만드는 데 사용됩니다.

기계 학습은 감독 방법이나 비지도 방법에만 국한되지 않습니다. 이것은 단지 스펙트럼의 두 끝일 뿐입니다. 다른 유형의 기계 학습 방법에는 준지도 학습, 강화 학습, 자기 지도 학습이 포함됩니다.

비지도 학습의 작동 방식

비지도 학습은 개념적으로 간단합니다. 알고리즘은 많은 양의 데이터를 처리하여 다양한 데이터 포인트가 어떻게 연관되어 있는지 결정합니다. 데이터에 레이블이 지정되지 않기 때문에 비지도 학습에는 맥락이나 목표가 없습니다. 단순히 패턴과 기타 특성을 찾으려고 노력하는 것뿐입니다.

비지도 학습 과정에 대한 간략한 개요는 다음과 같습니다.

1 데이터 수집 및 정리.비지도 학습은 한 번에 하나의 테이블을 평가하므로 데이터 세트가 여러 개인 경우 신중하게 병합해야 합니다. 중복을 제거하고 오류를 수정하는 등 최선을 다해 데이터를 정리하는 것도 중요합니다.

2 기능 확장.비지도 알고리즘은 넓은 범위에서 폐기될 수 있으므로 다음과 같은 기술을 사용하여 기능을 더 좁은 범위로 변환하는 것을 고려하십시오.

정규화:상위 값을 1로, 최저 값을 0으로, 나머지 모든 값을 소수로 변환합니다.
표준화:평균 값을 0으로, 표준 편차를 1로 지정하고 그에 따라 각 데이터 포인트를 조정합니다.
로그 변환:넓은 범위를 압축하므로 밑이 10인 로그를 사용하면 100,000은 6이 되고 1,000,000은 7이 됩니다.

3 알고리즘 선택.각 비지도 학습 유형에는 여러 가지 알고리즘이 있으며 각 알고리즘에는 장단점이 있습니다(다음 섹션에서 이에 대해 살펴보겠습니다). 동일한 데이터 세트에 다른 알고리즘을 적용하고 비교할 수도 있습니다.

4 패턴 발견 및 식별.선택한 알고리즘이 작동하게 됩니다. 데이터 세트의 크기와 알고리즘의 효율성에 따라 몇 초에서 몇 시간이 걸릴 수 있습니다. 대규모 데이터 세트가 있는 경우 전체를 처리하기 전에 하위 세트에서 알고리즘을 실행하는 것이 좋습니다.

5 해석.이 단계에서는 인간이 장악할 시간이다. 데이터 분석가는 차트, 무작위 검사 및 다양한 계산을 사용하여 데이터를 분석하고 해석할 수 있습니다.

6 신청.유용한 결과를 얻고 있다는 확신이 들면 이를 사용해 보세요. 나중에 비지도 학습의 일부 응용 프로그램에 대해 이야기하겠습니다.

비지도 학습의 유형

비지도 학습에는 여러 유형이 있지만 가장 널리 사용되는 세 가지는 클러스터링, 연관 규칙 및 차원 축소입니다.

클러스터링

클러스터링은 데이터 포인트 그룹을 생성합니다. 나중에 사람이 분석하여 분류할 수 있도록 서로 유사한 항목을 묶는 데 매우 유용합니다. 예를 들어 고객 연령과 평균 거래 금액이 포함된 데이터 세트가 있는 경우 광고 비용을 타겟팅할 위치를 결정하는 데 도움이 되는 클러스터를 찾을 수 있습니다.

클러스터링 유형은 다음과 같습니다.

배타적 또는 하드 클러스터링.각 데이터 포인트는 하나의 클러스터에만 속할 수 있습니다. k-평균으로 알려진 인기 있는 접근 방식 중 하나를 사용하면 생성하려는 클러스터 수를 지정할 수 있지만 다른 방법으로는 최적의 클러스터 수를 결정할 수 있습니다.
중첩 또는 소프트 클러스터링. 이 접근 방식을 사용하면 데이터 포인트가 여러 클러스터에 있을 수 있으며 순전히 내부 또는 외부가 아닌 각 클러스터에 "정도"의 멤버십을 가질 수 있습니다.
계층적 클러스터링. 상향식으로 수행된 경우 이를 계층적 응집 클러스터링(HAC)이라고 합니다. 하향식을 분할 클러스터링이라고 합니다. 둘 다 더 크고 더 큰 클러스터로 구성된 많은 클러스터를 포함합니다.
확률적 클러스터링. 이는 특정 카테고리에 속하는 특정 데이터 포인트의 가능성 비율을 파악하는 다른 접근 방식입니다. 이 접근 방식의 한 가지 장점은 특정 데이터 포인트에 특정 클러스터의 일부가 될 확률이 매우 낮다는 점이며, 이로 인해 변칙적이거나 손상된 데이터가 강조될 수 있습니다.

연관 규칙

연관 규칙 마이닝 또는 연관 규칙 학습이라고도 하는 이 접근 방식은 데이터 포인트 간의 흥미로운 관계를 찾습니다. 연관 규칙의 가장 일반적인 용도는 어떤 항목이 일반적으로 함께 구매되거나 함께 사용되는지 파악하여 모델이 다음 구매 항목을 제안하거나 시계에 표시할 수 있도록 하는 것입니다.

연관 규칙의 세 가지 핵심 개념은 다음과 같습니다.

지원하다.사용 가능한 모든 인스턴스(예: 트랜잭션)의 백분율로 A와 B가 함께 발견되는 빈도는 얼마나 됩니까? A와 B는 개별 항목일 수도 있고 여러 항목을 나타내는 세트일 수도 있습니다.
신뢰. A가 보이면 B도 보이는 경우가 얼마나 자주 있습니까?
승강기. 상관관계가 없는 경우와 비교하여 A와 B가 함께 표시될 가능성은 얼마나 됩니까? 리프트는 협회의 "흥미도"를 측정한 것입니다.

차원성 감소

차원 축소는 테이블의 열 수에 해당합니다. 이 맥락에서 열에 대한 다른 용어는기능또는속성입니다. 데이터 세트의 기능 수가 늘어남에 따라 데이터를 분석하고 최적의 결과를 얻는 것이 더욱 어려워집니다.

고차원 데이터는 처리하는 데 더 많은 시간, 컴퓨팅 성능 및 에너지가 필요합니다. 이는 또한 표준 이하의 출력으로 이어질 수도 있습니다. 특히 해로운 예 중 하나는 과적합입니다. 이는 기계 학습 모델이 새 데이터에 잘 일반화되는 더 광범위한 패턴을 희생하면서 훈련 데이터의 세부 사항에서 너무 많은 것을 학습하는 경향입니다.

차원 축소 알고리즘은 원본 데이터를 가장 중요한 정보를 유지하는 더 작고 관리하기 쉬운 버전으로 압축하여 단순화된 데이터세트를 생성합니다. 상관된 기능을 병합하고 일반적인 추세의 변화를 확인하여 주요 세부 정보를 잃지 않으면서 열 수를 효과적으로 줄이는 방식으로 작업합니다.

예를 들어 호텔 및 편의시설에 대한 데이터 세트가 있는 경우 모델은 많은 기능이 별점 평점과 연관되어 있음을 찾아 스파, 룸서비스, 24시간 리셉션과 같은 속성을 단일 열로 압축할 수 있습니다.

일반적으로 엔지니어는 클러스터링 및 연관 규칙 학습을 포함하되 이에 국한되지 않는 다른 프로세스의 성능과 결과를 개선하기 위한 전처리 단계로 차원성을 줄입니다.

비지도 학습의 응용

몇 가지 예는 다음과 같습니다.

시장 바구니 분석.소매업체는 연관 규칙을 풍부하게 활용합니다. 예를 들어, 식료품 장바구니에 핫도그를 넣었다면 케첩과 핫도그 번을 구매하라고 제안할 수 있습니다. 이러한 조합이 다른 쇼핑객들에게 큰 호응을 얻었기 때문입니다. 동일한 데이터로 인해 슈퍼마켓에서 케첩과 핫도그를 나란히 놓을 수도 있습니다.
추천 엔진. 이는 귀하의 개인 데이터(인구통계 및 행동 패턴)를 살펴보고 이를 다른 사람의 데이터와 비교하여 귀하가 다음에 무엇을 구매하거나 시청할 것인지 추측합니다. 그들은 비지도 학습의 세 가지 유형, 즉 다른 고객의 패턴이 귀하의 패턴을 예측할 수 있는지 결정하기 위한 클러스터링, 특정 활동 또는 구매 간의 상관 관계를 찾기 위한 연관 규칙, 복잡한 데이터 세트를 더 쉽게 처리하기 위한 차원 축소 등을 사용할 수 있습니다.
고객 세분화. 마케팅 담당자는 수십 년 동안 청중을 명명된 범주로 나누었지만 감독되지 않은 클러스터링은 인간의 마음에 없었을 수 있는 그룹을 골라낼 수 있습니다. 이 접근 방식을 사용하면 행동 기반 분석이 가능하며 팀이 새로운 방식으로 메시지와 프로모션을 타겟팅하는 데 도움이 될 수 있습니다.
이상 탐지.패턴을 이해하는 데 매우 뛰어나기 때문에 비지도 학습은 상황이 비정상일 때 경고하는 데 자주 사용됩니다. 사기성 신용 카드 구매 표시, 테이블의 손상된 데이터, 금융 시장의 차익 거래 기회 등을 사용하는 데 사용됩니다.
음성 인식.말은 배경 소음, 억양, 방언 및 목소리와 싸워야 하기 때문에 컴퓨터가 구문 분석하기가 복잡합니다. 비지도 학습은 음성 인식 엔진이 배경 소음 및 기타 개선 사항을 필터링하는 것 외에도 어떤 소리가 어떤 음소(음성 단위)와 일반적으로 함께 들리는지, 어떤 음소와 상관관계가 있는지 학습하는 데 도움이 됩니다.

비지도 학습의 장점

인간의 개입이 낮습니다.비지도 학습 시스템의 신뢰성이 입증되면 입력 및 출력이 올바르게 라우팅되는지 확인하는 것 외에는 거의 노력이 필요하지 않습니다.
원시 데이터에서 작동합니다. 레이블을 제공할 필요가 없습니다. 즉, 주어진 입력에서 어떤 출력이 발생해야 하는지 지정하는 것입니다. 데이터를 있는 그대로 처리하는 이 기능은 막대한 양의 손대지 않은 데이터를 처리할 때 매우 유용합니다.
숨겨진 패턴 발견. 패턴을 찾는 것 외에는 목표나 주제가 없는 비지도 학습은 이전에 고려하지 않았지만 제시된 후에는 의미가 있는 데이터를 기반으로 한 결론인 "알 수 없는 알려진 사항"을 가리킬 수 있습니다. 이 접근 방식은 DNA를 분석하여 세포 사멸 원인을 찾는 등 건초 더미에서 바늘을 찾는 데 특히 유용합니다.
데이터 탐색. 비지도 학습은 차원을 줄이고 패턴과 클러스터를 찾음으로써 분석가가 새로운 데이터 세트를 이해하는 데 유리한 출발점을 제공합니다.
증분 훈련. 많은 비지도 모델은 진행하면서 학습할 수 있습니다. 더 많은 데이터가 들어오면 이미 발견한 내용과 관련하여 최신 입력을 평가할 수 있습니다. 이는 훨씬 적은 시간과 컴퓨팅 노력을 필요로 합니다.

비지도 학습의 단점

많은 데이터가 필요합니다.비지도 학습은 제한된 예시로 학습할 경우 큰 실수를 저지르기 쉽습니다. 실제 세계에서 유지되지 않는 데이터 패턴을 찾거나(과적합), 새로운 데이터에 직면하여 급격하게 변하거나(불안정성), 의미 있는 것을 판단할 만큼 정보가 충분하지 않을 수 있습니다(제한된 패턴 발견).
해석 가능성이 낮습니다. 클러스터링 논리와 같은 알고리즘이 특정 결론에 도달한 이유를 이해하기 어려울 수 있습니다.
거짓 긍정. 비지도 모델은 주의할 만한 사항을 가르치기 위해 레이블 없이 변칙적이지만 중요하지 않은 데이터 포인트를 너무 많이 읽을 수 있습니다.
체계적으로 평가하기는 어렵습니다.비교할 수 있는 "정답"이 없기 때문에 출력의 정확성이나 유용성을 측정할 수 있는 직접적인 방법은 없습니다. 동일한 데이터에 대해 서로 다른 알고리즘을 실행하면 문제가 어느 정도 완화될 수 있지만 결국 품질 측정은 대체로 주관적입니다.