제로샷 학습 설명: 라벨 없는 머신러닝의 미래
게시 됨: 2025-01-13제로샷 학습(ZSL)은 모델이 이전에 접한 적이 없는 개념에 대한 결과를 분류하거나 예측할 수 있도록 하여 기계 학습(ML)을 혁신하고 있으며, 광범위한 레이블이 지정된 데이터가 필요한 기존 접근 방식에서 벗어났습니다. 이 가이드에서는 ZSL의 작동 방식, 애플리케이션, FSL(Few-Shot Learning)과 비교하는 방법, 과제 및 미래 잠재력을 살펴봅니다.
목차
- 제로샷 학습이란 무엇인가요?
- 제로샷 학습 작동 방식
- 제로샷 학습 vs. 퓨샷 학습 및 원샷 학습
- 제로샷 학습 vs. 제로샷 프롬프트
- 제로샷 학습의 응용
- 제로샷 학습의 이점
- 제로샷 학습의 과제
제로샷 학습(ZSL)이란 무엇입니까?
ZSL을 사용하면 기계 학습 모델이 해당 범주에 대한 특정 교육 예제를 요구하지 않고도 보이지 않는 범주에 대해 예측할 수 있습니다. 모든 범주를 명시적으로 표현해야 하는 레이블이 지정된 데이터 세트에 크게 의존하는 기존 지도 학습 모델과 달리 ZSL은 의미 임베딩 또는 속성과 같은 보조 정보를 활용하여 지식을 일반화합니다.
예를 들어, 동물을 분류하도록 훈련된 지도 학습 모델은 동물을 인식하기 위해 "개", "고양이" 및 "얼룩말"이라는 레이블이 지정된 예가 필요한 반면, 동물 이미지에 대해 훈련된 ZSL 모델은 "개"와 같은 설명 속성을 기반으로 얼룩말을 식별할 수 있습니다. 줄무늬”와 “말과 같은” 표현은 이전 사례에 노출되지 않은 경우에도 마찬가지입니다. 따라서 ZSL은 레이블이 지정되지 않은 대규모 데이터 세트와 관련된 작업이나 레이블이 지정된 데이터를 수집하는 것이 실용적이지 않은 상황에 특히 유용합니다. 응용 프로그램은 컴퓨터 비전, 자연어 처리(NLP), 로봇 공학 등을 포괄합니다.
제로샷 학습 작동 방식
ZSL 모델은 먼저 대규모 레이블이 지정된 데이터 세트에서 사전 학습되어 지식 기반을 생성합니다. 모델은 레이블이 지정된 데이터에서 색상, 모양, 감정과 같은 기능을 포함하여 보조 정보를 추출합니다.
그런 다음 해당 기능을 사용하여 보이는 데이터 카테고리(또는 클래스)와 보이지 않는 데이터 카테고리 간의 의미론적 관계를 매핑합니다. 지식 이전이라고 하는 이 프로세스를 통해 ZSL 모델은 예를 들어 오리와 거위가 둘 다 부리, 깃털, 물갈퀴가 있기 때문에 서로 관련이 있다는 것을 이해할 수 있습니다.
가장 일반적인 기술은 속성 기반 ZSL, 의미 임베딩 기반 ZSL 및 일반화된 ZSL입니다. 아래에서 각각을 살펴보겠습니다.
속성 기반 제로샷 학습
속성 기반 ZSL 모델은 컴퓨터 비전 작업에 가장 자주 사용됩니다. 그들은 사람이 라벨을 붙인 이미지 데이터 세트에 대한 훈련을 통해 작업합니다. 레이블은 레이블을 지정하는 사람이 유용하다고 생각하는 속성으로 구성됩니다. 각 이미지에 대해 사람은 색상, 모양 또는 기타 특성과 같은 특징에 대한 텍스트 설명을 적용합니다.
예를 들어 이미지 분류에서 '회색', '네발', '개'와 같은 속성은 다양한 카테고리를 설명할 수 있습니다. 훈련을 통해 모델은 이러한 속성을 특정 카테고리와 연관시키는 방법을 학습합니다.
이전에 본 적이 없는 동물 유형과 같은 새로운 것의 예를 모델에 표시하면 훈련에서 본 클래스와 유사하지만 동일하지 않은 클래스를 보고 있는지 여부를 파악할 수 있습니다.
모델이 보이지 않는 범주(예: 늑대)를 발견하면 "늑대" 레이블이 명시적으로 훈련의 일부가 아니더라도 학습된 범주와 공유되는 속성을 분석하여 클래스를 추론할 수 있습니다. 인간이 해석할 수 있는 이러한 속성은 설명 가능성을 향상시키고 모델이 새로운 클래스로 일반화될 수 있도록 해줍니다.
시맨틱 임베딩 기반 제로샷 학습
이 접근 방식은 속성 기반 ZSL과 유사하지만 사람이 훈련용 속성 레이블을 만드는 대신 모델이 훈련 데이터의 의미론적 임베딩을 생성합니다. 이러한 의미론적 임베딩은 벡터(실제 객체를 표현하는 수학적 방법)로 인코딩된 다음 임베딩 공간에 매핑됩니다.
임베딩 공간을 통해 모델은 관련 정보를 더 가깝게 그룹화하여 상황별 지식을 구성할 수 있습니다. 예를 들어, "개" 및 "늑대" 카테고리는 공유 의미론적 특징으로 인해 "개" 및 "새" 카테고리보다 임베딩 공간에서 서로 더 가깝습니다. 이는 LLM(대형 언어 모델)이 유사한 의미로 인해 의미 체계 임베딩을 사용하여 동의어를 클러스터링하는 방법과 유사합니다.
모델에 보이지 않는 카테고리("모델이 이전에 접한 적이 없는 새로운 데이터"를 다른 말로 표현함)가 주어지면 해당 새 클래스의 벡터를 동일한 임베딩 공간에 투영하고 해당 클래스와 이미 알고 있는 클래스에 대한 벡터 사이의 거리를 측정합니다. 에 대한. 이는 보이지 않는 예에 대한 모델 컨텍스트를 제공하고 알려진 클래스와 알려지지 않은 클래스 간의 의미론적 관계를 추론할 수 있게 합니다.
일반화된 제로샷 학습
대부분의 제로샷 학습 기술은 한 종류의 데이터로 모델을 훈련한 다음 이를 다른 관련 문제에 적용합니다. 이것이 바로 "제로 샷"의 개념입니다. 모델은 새로운 클래스를 실제로 만나기 전에는 그 어떤 예제에도 노출되지 않습니다.
그러나 실제 응용 프로그램이 항상 흑백인 것은 아닙니다. ZSL 모델이 분류하기를 원하는 데이터 세트에는 새 클래스와 함께 알려진 클래스의 항목이 포함될 수 있습니다.
문제는 기존 ZSL 모델이 새로운 클래스와 익숙한 클래스를 함께 혼합하면 새로운 클래스를 이미 알고 있는 것으로 잘못 표시하는 강한 편견을 보일 수 있다는 것입니다. 따라서 훈련에서 이미 표시된 클래스를 포함할 수 있는 데이터 세트로 일반화할 수 있는 ZSL 모델을 갖는 것이 유용합니다.
일반화된 ZSL에서 모델은 알려진 범주에 대한 편향을 줄이기 위해 추가 단계를 수행합니다. 분류를 수행하기 전에 먼저 문제의 객체가 알려진 클래스에 속하는지 또는 알려지지 않은 클래스에 속하는지 결정합니다.
제로샷 학습 vs. 퓨샷 학습 및 원샷 학습
ZSL과 마찬가지로 FSL(Few-Shot Learning) 및 OSL(One-Shot Learning)을 사용하면 딥 러닝 모델이 새로운 데이터를 최소화하거나 전혀 사용하지 않고 새로운 작업을 수행할 수 있습니다. 세 가지 접근 방식 모두 알려진 예제의 특징 간의 관계를 매핑하여 알려지지 않은 예제의 패턴을 추론하는 데 의존합니다. 이들의 주요 목표는 데이터가 부족하거나 특정 작업을 위해 새 모델을 교육할 시간이 없는 실제 시나리오에서 효과적인 모델을 만드는 것입니다.
주요 차이점은 새 데이터를 처리하는 방법에 있습니다.
- FSL에는 식별해야 하는 새 클래스에 대해 소수의 레이블이 지정된 예제를 모델에 제공하는 작업이 포함됩니다.
- OSL은모델에 새 클래스의 레이블이 지정된 하나의 예만 표시되는 보다 구체적인 경우입니다.
FSL과 OSL 모두 ZSL에 비해 추가 교육 단계가 필요하므로 새로운 작업을 배우는 데 필요한 시간이 늘어납니다. 그러나 이 추가 교육을 통해 모델의 사전 교육된 지식에서 크게 벗어나는 작업을 처리할 수 있게 되어 실제로 적응력이 높아집니다.
ZSL은 새로운 작업에 대해 레이블이 지정된 예제가 필요하지 않기 때문에 종종 "유연한" 것으로 간주되지만 이러한 유연성은 대체로 이론적인 것입니다. 실제 애플리케이션에서 ZSL 방법은 다음과 같은 문제로 어려움을 겪을 수 있습니다.
- 보이는 예제와 보이지 않는 예제가 혼합된 작업(예: 일반화된 ZSL 시나리오)
- 모델의 학습 데이터와 크게 다른 작업
ZSL 모델은 또한 사전 학습 및 평가 중에 데이터 세트가 분할되는 방식과 같은 요인에 민감하며 이는 성능에 영향을 미칠 수 있습니다. 반면 FSL과 OSL은 새로운 예제를 학습 프로세스에 통합하여 다양한 시나리오에서 더 나은 성능을 발휘할 수 있도록 함으로써 작업 적응을 위한 보다 실용적인 유연성을 제공합니다.
제로샷 학습 vs. 제로샷 프롬프트
ZSL은 다양한 딥 러닝 작업을 위해 설계된 모델 아키텍처 유형입니다. 대조적으로, 제로샷 프롬프트는 응답을 안내하기 위해 프롬프트에 특정 예를 제공하지 않고 출력을 생성하도록 ChatGPT 또는 Claude와 같은 LLM에 요청하는 것을 의미합니다. 두 경우 모두 모델은 작업에 포함된 내용에 대한 명시적인 예 없이 작업을 수행합니다.
제로샷 프롬프트에서는 작업과 관련된 예제를 모델에 제공하지 않습니다. 대신 LLM의 사전 훈련된 지식을 활용하여 작업을 추론하고 실행합니다.
예를 들어, 참고용으로 사용할 샘플 리뷰를 제공하지 않고 레스토랑 리뷰 텍스트를 입력하고 LLM에 이를 긍정적, 중립 또는 부정적으로 분류하도록 요청할 수 있습니다. LLM은 사전 교육을 통해 검토에 적합한 라벨을 결정합니다.
제로샷 학습과 제로샷 프롬프트는 예제 없이 작업을 수행한다는 개념을 공유하지만 중요한 차이점이 있습니다.
- 제로샷 학습은 이러한 작업을 위해 구축된 모델 아키텍처 유형입니다.
- 제로샷 프롬프트는 모델 아키텍처가 아닌 LLM과의 상호 작용에 특화된 기술입니다.
제로샷 학습의 응용
딥 러닝 모델이 새로운 작업에 적응하도록 돕는 데 중점을 두고 있기 때문에 ZSL은 컴퓨터 비전, NLP, 로봇공학을 비롯한 ML의 다양한 영역에 걸쳐 애플리케이션을 보유하고 있습니다. ZSL은 의료, 감정 분석, 고객 서비스, 문서 번역 및 사이버 보안에 사용할 수 있습니다. 예를 들면 다음과 같습니다.
- 감정 분석:속보가 발생하면 제로 샷 NLP 모델은 대중 논평에 대한 감정 분석을 수행하여 대중의 반응을 거의 실시간으로 살펴볼 수 있습니다.
- 다국어 문서 처리:영어로 된 세금 문서에서 정보를 추출하도록 훈련된 NLP 제로샷 모델은 추가 교육 없이 스페인어로 된 세금 문서에서 동일한 추출을 수행할 수 있습니다.
- 의료 진단:ZSL 모델은 시각적 예시 없이 코로나19 환자의 엑스레이를 식별하는 데 사용되었습니다. 식별은 현장에서 일하는 의사가 작성한 양성 X-레이의 모습에 대한 텍스트 설명을 기반으로 합니다.
- 더욱 미묘한 챗봇:ZSL NLP 모델은 사람들과 채팅하는 동안 이전에 접하지 못한 속어와 관용구를 이해할 수 있으므로 특별히 처리하도록 훈련받지 않은 질문에 더 의미 있게 응답할 수 있습니다.
- 이상 감지:ZSL은 사이버 보안에서 네트워크 활동의 비정상적인 패턴을 감지하거나 새로운 위협이 나타날 때 새로운 종류의 해킹 공격에 레이블을 지정하는 데 사용할 수 있습니다.
제로샷 학습의 이점
전통적인 지도 학습 접근 방식은 대규모 데이터 세트, 교육 시간, 비용, 필요한 계산 리소스를 고려할 때 많은 실제 애플리케이션에 비실용적인 경우가 많습니다. ZSL은 이러한 문제 중 일부를 완화할 수 있습니다. 이점에는 새 모델 교육과 관련된 비용 절감, 데이터가 부족하거나 아직 사용할 수 없는 상황에 대처하는 것 등이 포함됩니다.
비용 효율적인 개발
지도 학습에 필요한 대규모 레이블이 지정된 데이터 세트를 획득하고 선별하는 데는 비용과 시간이 많이 소요됩니다. 고품질의 레이블이 지정된 데이터 세트에 대한 모델 교육에는 서버, 클라우드 컴퓨팅 공간 및 엔지니어 비용 외에도 수만 달러의 비용이 소요될 수 있습니다.
ZSL은 기관이 추가 교육 없이도 새로운 작업에 맞게 모델을 재사용할 수 있도록 함으로써 ML 프로젝트 비용을 절감할 수 있는 가능성을 보여줍니다. 또한 소규모 단체나 개인이 다른 사람이 만든 모델의 용도를 변경할 수 있습니다.
부족한 데이터로 인한 문제 해결
ZSL의 유연성은 사용 가능한 데이터가 거의 없거나 데이터가 계속해서 생성되는 상황에 적합한 도구입니다. 예를 들어 아직 정보가 확산되지 않은 새로운 질병을 진단하거나 정보가 빠르게 진화하는 재난 상황에 유용합니다. ZSL은 인간 분석가가 처리하기에는 데이터의 양이 너무 많은 경우 이상 징후를 탐지하는 데에도 유용합니다.
제로샷 학습의 과제
ZSL은 새로운 범주에 일반화할 수 있을 만큼 범주 간의 의미론적 관계를 이해하기 위해 사전 훈련 단계에서 고품질 훈련 데이터를 보유하는 데 크게 의존합니다. 고품질 데이터가 없으면 ZSL은 때때로 평가하기 어려운 신뢰할 수 없는 결과를 생성할 수 있습니다.
ZSL 모델이 직면하는 일반적인 문제에는 이미 훈련한 작업과 다른 작업에 적응하는 데 어려움이 있고, 보이지 않는 클래스를 예측할 때 특정 레이블에 너무 많이 의존하게 만드는 훈련 데이터 문제가 포함됩니다.
도메인 적응
ZSL 모델은 학습된 것과 크게 다르지 않은 도메인의 새로운 데이터를 처리하도록 요청받을 때 가장 잘 수행됩니다. 예를 들어 모델이 정지 사진에 대해 훈련을 받았다면 동영상을 분류하는 데 어려움을 겪게 됩니다.
ZSL 모델은 알 수 없는 데이터의 보조 정보를 알려진 데이터에 매핑하는 데 의존하므로 데이터 소스가 너무 다른 경우 모델은 해당 지식을 새로운 작업에 일반화할 방법이 없습니다.
허브니스 문제
ZSL의 허브성 문제는 모델이 보이지 않는 카테고리에 대한 예측을 할 때 몇 개의 레이블만 사용하기 시작할 때 발생합니다. 이는 내장된 기능 공간의 많은 점이 함께 클러스터되어 모델을 특정 레이블 쪽으로 편향시키는 "허브"를 형성할 때 발생합니다.
이는 훈련 데이터의 노이즈, 일부 데이터의 예가 너무 많고 다른 데이터의 예가 충분하지 않거나 모델의 의미 임베딩이 충분히 구별되지 않기 때문에 발생할 수 있습니다.