Zero-Shot-Learning erklärt: Die Zukunft des maschinellen Lernens ohne Etiketten

Veröffentlicht: 2025-01-13

Zero-Shot-Learning (ZSL) revolutioniert das maschinelle Lernen (ML), indem es Modellen ermöglicht, Ergebnisse für Konzepte zu klassifizieren oder vorherzusagen, denen sie noch nie zuvor begegnet sind. Dies stellt eine Abkehr von traditionellen Ansätzen dar, die umfangreiche gekennzeichnete Daten erfordern. In diesem Leitfaden wird untersucht, wie ZSL funktioniert, welche Anwendungen es bietet, wie es im Vergleich zum Few-Shot-Learning (FSL) abschneidet und welche Herausforderungen und welches zukünftige Potenzial es mit sich bringt.

Inhaltsverzeichnis

  • Was ist Zero-Shot-Lernen?
  • Wie Zero-Shot-Lernen funktioniert
  • Zero-Shot-Lernen vs. Few-Shot-Lernen und One-Shot-Lernen
  • Zero-Shot-Lernen vs. Zero-Shot-Prompting
  • Anwendungen des Zero-Shot-Lernens
  • Vorteile des Zero-Shot-Lernens
  • Herausforderungen des Zero-Shot-Lernens

Arbeiten Sie intelligenter mit Grammarly
Der KI-Schreibpartner für alle, die viel zu tun haben

Was ist Zero-Shot-Learning (ZSL)?

ZSL ermöglicht es Modellen des maschinellen Lernens, Vorhersagen über unsichtbare Kategorien zu treffen, ohne dass spezielle Trainingsbeispiele für diese Kategorien erforderlich sind. Im Gegensatz zu herkömmlichen Modellen des überwachten Lernens, die stark auf gekennzeichneten Datensätzen basieren, bei denen jede Kategorie explizit dargestellt werden muss, nutzt ZSL Zusatzinformationen – wie semantische Einbettungen oder Attribute –, um Wissen zu verallgemeinern.

Beispielsweise würde ein überwachtes Lernmodell, das auf die Klassifizierung von Tieren trainiert wurde, beschriftete Beispiele für „Hund“, „Katze“ und „Zebra“ benötigen, um sie zu erkennen, während ein auf Tierbildern trainiertes ZSL-Modell ein Zebra anhand beschreibender Attribute wie „ „gestreift“ und „pferdeartig“, auch ohne vorherige Beispiele. Dies macht ZSL besonders nützlich für Aufgaben mit großen, unbeschrifteten Datensätzen oder Situationen, in denen das Sammeln beschrifteter Daten unpraktisch ist. Seine Anwendungen umfassen Computer Vision, Verarbeitung natürlicher Sprache (NLP), Robotik und mehr.

Wie Zero-Shot-Lernen funktioniert

ZSL-Modelle werden zunächst anhand eines großen beschrifteten Datensatzes vorab trainiert, um eine Wissensbasis zu erstellen. Das Modell extrahiert Hilfsinformationen aus den gekennzeichneten Daten, einschließlich Merkmalen wie Farbe, Form und Stimmung.

Anschließend werden diese Funktionen verwendet, um semantische Beziehungen zwischen sichtbaren und unsichtbaren Kategorien (oder Klassen) von Daten abzubilden. Dieser als Wissenstransfer bezeichnete Prozess ermöglicht einem ZSL-Modell beispielsweise zu verstehen, dass eine Ente und eine Gans verwandt sind, weil sie beide Schnäbel, Federn und Schwimmfüße haben.

Die gebräuchlichsten Techniken sind attributbasiertes ZSL, semantisches Einbettungs-basiertes ZSL und generalisiertes ZSL. Im Folgenden untersuchen wir jeden.

Attributbasiertes Zero-Shot-Lernen

Attributbasierte ZSL-Modelle werden am häufigsten für Computer-Vision-Aufgaben verwendet. Sie arbeiten, indem sie anhand von Menschen markierter Bilddatensätze trainieren. Die Etiketten bestehen aus Attributen, die die kennzeichnende Person als nützlich erachtet. Für jedes Bild fügt die Person eine Textbeschreibung seiner Merkmale hinzu, wie z. B. Farbe, Form oder andere Merkmale.

Beispielsweise könnten bei der Bildklassifizierung Attribute wie „grau“, „vierbeinig“ und „Hund“ unterschiedliche Kategorien beschreiben. Durch Training lernt das Modell, diese Attribute bestimmten Kategorien zuzuordnen.

Wenn Sie dem Modell ein Beispiel für etwas Neues zeigen – etwa eine Tierart, die es noch nie zuvor gesehen hat –, kann es herausfinden, ob es sich um eine Klasse handelt, die den im Training gesehenen Klassen ähnelt, aber nicht mit ihnen übereinstimmt.

Wenn das Modell auf eine unsichtbare Kategorie trifft – zum Beispiel einen Wolf – kann es durch die Analyse von Attributen, die mit erlernten Kategorien geteilt werden, auf die Klasse schließen, selbst wenn die Bezeichnung „Wolf“ nicht explizit Teil des Trainings war. Diese vom Menschen interpretierbaren Attribute verbessern die Erklärbarkeit und ermöglichen die Verallgemeinerung des Modells auf neue Klassen.

Auf semantischer Einbettung basierendes Zero-Shot-Lernen

Dieser Ansatz ähnelt dem attributbasierten ZSL, aber anstatt dass Menschen Attributbezeichnungen für das Training erstellen, generiert das Modell sogenannte semantische Einbettungen der Trainingsdaten. Diese semantischen Einbettungen werden als Vektoren kodiert – mathematische Methoden zur Darstellung realer Objekte – und dann in einem Einbettungsraum abgebildet.

Der Einbettungsraum ermöglicht es dem Modell, sein Kontextwissen zu organisieren, indem verwandte Informationen enger zusammen gruppiert werden. Beispielsweise werden die Kategorien „Hund“ und „Wolf“ aufgrund gemeinsamer semantischer Merkmale in einem Einbettungsraum näher beieinander liegen als die Kategorien „Hund“ und „Vogel“. Dies ähnelt der Art und Weise, wie große Sprachmodelle (LLMs) semantische Einbettungen verwenden, um Synonyme aufgrund ihrer ähnlichen Bedeutungen zu gruppieren.

Wenn dem Modell unsichtbare Kategorien zugewiesen werden (eine andere Art zu sagen „neue Daten, die das Modell noch nie gesehen hat“), projiziert es Vektoren aus diesen neuen Klassen in denselben Einbettungsraum und misst den Abstand zwischen ihnen und Vektoren für Klassen, die es bereits kennt um. Dies liefert den Modellkontext für die unsichtbaren Beispiele und ermöglicht es, semantische Beziehungen zwischen bekannten und unbekannten Klassen abzuleiten.

Verallgemeinertes Zero-Shot-Lernen

Die meisten Zero-Shot-Lerntechniken trainieren das Modell anhand einer Art von Daten und wenden es dann auf ein anderes, aber verwandtes Problem an. Das ist die Idee von „Zero Shots“: Das Modell wird keinen Beispielen der neuen Klassen ausgesetzt, bevor es ihnen in freier Wildbahn begegnet.

Allerdings sind reale Anwendungen nicht immer so schwarz-weiß. Der Datensatz, den Ihr ZSL-Modell klassifizieren soll, kann neben neuen Klassen auch Dinge aus bekannten Klassen enthalten.

Das Problem besteht darin, dass herkömmliche ZSL-Modelle manchmal eine starke Tendenz aufweisen, neue Klassen fälschlicherweise als Dinge zu bezeichnen, die sie bereits kennen, wenn man Neues und Bekanntes miteinander vermischt. Daher ist es nützlich, über ein ZSL-Modell zu verfügen, das auf einen Datensatz verallgemeinert werden kann, der möglicherweise bereits im Training vorkommende Klassen enthält.

Beim verallgemeinerten ZSL unternimmt das Modell einen zusätzlichen Schritt, um die Verzerrung gegenüber bekannten Kategorien zu verringern. Vor der Klassifizierung wird zunächst entschieden, ob das betreffende Objekt einer bekannten oder unbekannten Klasse angehört.

Zero-Shot-Lernen vs. Few-Shot-Lernen und One-Shot-Lernen

Wie ZSL ermöglichen FSL und One-Shot Learning (OSL) Deep-Learning-Modellen die Ausführung neuer Aufgaben mit minimalen oder keinen neuen Daten. Alle drei Ansätze basieren auf der Abbildung der Beziehungen zwischen Merkmalen bekannter Beispiele, um Muster in unbekannten Beispielen abzuleiten. Ihr Hauptziel besteht darin, Modelle zu erstellen, die in realen Szenarien effektiv sind, in denen Daten knapp sind oder keine Zeit bleibt, ein neues Modell für eine bestimmte Aufgabe zu trainieren.

Der wesentliche Unterschied liegt in der Art und Weise, wie sie mit neuen Daten umgehen:

  • Bei FSLwird dem Modell eine kleine Anzahl beschrifteter Beispiele für die neue Klasse bereitgestellt, die es identifizieren muss.
  • OSList ein spezifischerer Fall, bei dem dem Modell nur ein beschriftetes Beispiel der neuen Klasse angezeigt wird.

Sowohl FSL als auch OSL erfordern im Vergleich zu ZSL einen zusätzlichen Trainingsschritt, was den Zeitaufwand für das Erlernen neuer Aufgaben erhöht. Diese zusätzliche Schulung versetzt sie jedoch in die Lage, Aufgaben zu bewältigen, die erheblich vom vorab trainierten Wissen des Modells abweichen, wodurch sie in der Praxis anpassungsfähiger werden.

Während ZSL oft als „flexibel“ angesehen wird, weil es keine beschrifteten Beispiele für neue Aufgaben erfordert, ist diese Flexibilität weitgehend theoretisch. In realen Anwendungen können ZSL-Methoden mit Folgendem zu kämpfen haben:

  • Aufgaben mit einer Mischung aus sichtbaren und unsichtbaren Beispielen (z. B. verallgemeinerte ZSL-Szenarien)
  • Aufgaben, die sich erheblich von den Trainingsdaten des Modells unterscheiden

ZSL-Modelle reagieren auch empfindlich auf Faktoren wie die Aufteilung von Datensätzen während des Vortrainings und der Auswertung, was sich auf die Leistung auswirken kann. Andererseits bieten FSL und OSL mehr praktische Flexibilität bei der Aufgabenanpassung, indem sie neue Beispiele in den Lernprozess integrieren und so in verschiedenen Szenarien bessere Leistungen erbringen.

Zero-Shot-Lernen vs. Zero-Shot-Prompting

ZSL ist eine Art Modellarchitektur, die für verschiedene Deep-Learning-Aufgaben entwickelt wurde. Im Gegensatz dazu bezieht sich Zero-Shot-Prompt darauf, dass ein LLM wie ChatGPT oder Claude aufgefordert wird, eine Ausgabe zu generieren, ohne in der Eingabeaufforderung spezifische Beispiele anzugeben, die als Leitfaden für die Antwort dienen. In beiden Fällen führt das Modell eine Aufgabe aus, ohne explizite Beispiele dafür, worum es bei der Aufgabe geht.

Bei der Zero-Shot-Eingabeaufforderung stellen Sie dem Modell keine Beispiele zur Verfügung, die sich auf die Aufgabe beziehen. Stattdessen verlassen Sie sich auf das vorab trainierte Wissen des LLM, um die Aufgabe abzuleiten und auszuführen.

Sie könnten beispielsweise den Text einer Restaurantbewertung eingeben und den LLM bitten, ihn als positiv, neutral oder negativ zu klassifizieren – ohne ihm Beispielbewertungen als Referenz zu geben. Der LLM würde auf seine Vorschulung zurückgreifen, um die geeignete Bezeichnung für die Überprüfung zu bestimmen.

Während Zero-Shot-Lernen und Zero-Shot-Prompting das Konzept der Ausführung von Aufgaben ohne Beispiele teilen, gibt es einen wesentlichen Unterschied:

  • Zero-Shot-Learningist eine Art Modellarchitektur, die für solche Aufgaben entwickelt wurde.
  • Zero-Shot-Promptist eine spezielle Technik für die Interaktion mit LLMs und keine Modellarchitektur.

Anwendungen des Zero-Shot-Lernens

Aufgrund seines Schwerpunkts auf der Unterstützung von Deep-Learning-Modellen bei der Anpassung an neue Aufgaben bietet ZSL Anwendungen in vielen Bereichen des ML, einschließlich Computer Vision, NLP und Robotik. ZSL kann in den Bereichen Gesundheitswesen, Stimmungsanalyse, Kundenservice, Dokumentenübersetzung und Cybersicherheit eingesetzt werden, zum Beispiel:

  • Stimmungsanalyse:Wenn es aktuelle Nachrichten gibt, kann ein Zero-Shot-NLP-Modell eine Stimmungsanalyse öffentlicher Kommentare durchführen, um nahezu in Echtzeit einen Einblick in die Reaktionen der Öffentlichkeit zu erhalten.
  • Mehrsprachige Dokumentenverarbeitung:NLP-Zero-Shot-Modelle, die darauf trainiert sind, Informationen aus Steuerdokumenten auf Englisch zu extrahieren, können die gleichen Extraktionen für Steuerdokumente auf Spanisch ohne zusätzliche Schulung durchführen.
  • Medizinische Diagnostik:ZSL-Modelle wurden verwendet, um Röntgenaufnahmen von Patienten mit COVID-19 ohne visuelle Beispiele zu identifizieren. Die Identifizierungen basieren auf Textbeschreibungen, die von vor Ort tätigen Ärzten darüber erstellt wurden, wie positive Röntgenbilder aussehen.
  • Differenziertere Chatbots:ZSL-NLP-Modelle können Slang und Redewendungen verstehen, die ihnen in Chats mit Menschen noch nie begegnet sind, und können so sinnvoller auf Fragen antworten, für deren Bearbeitung sie nicht speziell geschult wurden.
  • Anomalieerkennung:ZSL kann in der Cybersicherheit eingesetzt werden, um ungewöhnliche Muster in der Netzwerkaktivität zu erkennen oder neue Arten von Hacking-Angriffen zu kennzeichnen, wenn neue Bedrohungen auftauchen.

Vorteile des Zero-Shot-Lernens

Herkömmliche Ansätze des überwachten Lernens sind für viele reale Anwendungen oft unpraktisch, da sie große Datensätze, Schulungszeit, Geld und Rechenressourcen erfordern. ZSL kann einige dieser Herausforderungen abmildern. Zu den Vorteilen gehören die Reduzierung der mit dem Training eines neuen Modells verbundenen Kosten und die Bewältigung von Situationen, in denen Daten knapp oder noch nicht verfügbar sind:

Kostengünstige Entwicklung

Das Erfassen und Kuratieren der großen, gekennzeichneten Datensätze, die für überwachtes Lernen erforderlich sind, ist teuer und zeitaufwändig. Das Trainieren eines Modells anhand eines qualitativ hochwertigen, gekennzeichneten Datensatzes kann Zehntausende von Dollar kosten, zusätzlich zu den Kosten für Server, Cloud-Computing-Speicherplatz und Ingenieure.

ZSL zeigt, dass es vielversprechend ist, die Kosten von ML-Projekten zu senken, indem es Institutionen ermöglicht, Modelle ohne zusätzliche Schulung für neue Aufgaben umzuwidmen. Es ermöglicht auch kleineren Unternehmen oder Einzelpersonen, von anderen erstellte Modelle für andere Zwecke zu verwenden.

Probleme mit knappen Daten lösen

Die Flexibilität von ZSL macht es zu einem guten Werkzeug für Situationen, in denen nur wenige Daten verfügbar sind oder in denen noch Daten entstehen. Es ist beispielsweise nützlich für die Diagnose neuer Krankheiten, wenn die Informationen noch nicht weit verbreitet sind, oder für Katastrophensituationen, in denen sich die Informationen schnell weiterentwickeln. ZSL eignet sich auch zur Erkennung von Anomalien, wenn die Daten zu umfangreich sind, als dass menschliche Analysten sie verarbeiten könnten.

Herausforderungen des Zero-Shot-Lernens

ZSL ist in der Vortrainingsphase stark darauf angewiesen, über qualitativ hochwertige Trainingsdaten zu verfügen, um die semantischen Beziehungen zwischen Kategorien gut genug zu verstehen, um sie auf neue Kategorien zu verallgemeinern. Ohne qualitativ hochwertige Daten kann ZSL unzuverlässige Ergebnisse liefern, die manchmal schwer zu bewerten sind.

Zu den häufigsten Problemen, mit denen ZSL-Modelle konfrontiert sind, gehören Probleme bei der Anpassung an Aufgaben, die sich von den Aufgaben unterscheiden, die sie bereits trainiert haben, und Probleme mit Trainingsdaten, die dazu führen, dass sie sich bei der Vorhersage unsichtbarer Klassen zu stark auf bestimmte Bezeichnungen verlassen.

Domänenanpassung

ZSL-Modelle schneiden am besten ab, wenn sie mit neuen Daten aus einem Bereich umgehen sollen, der sich nicht wesentlich von dem unterscheidet, auf dem sie trainiert wurden. Wenn ein Modell beispielsweise anhand von Standbildern trainiert wurde, wird es Schwierigkeiten haben, Videos zu klassifizieren.

ZSL-Modelle basieren auf der Abbildung von Hilfsinformationen aus unbekannten Daten auf bekannte Daten. Wenn die Datenquellen also zu unterschiedlich sind, hat das Modell keine Möglichkeit, sein Wissen auf die neue Aufgabe zu übertragen.

Das Hubness-Problem

Das Hubness-Problem in ZSL tritt auf, wenn ein Modell beginnt, nur wenige Beschriftungen zu verwenden, wenn es Vorhersagen für unsichtbare Kategorien trifft. Dies geschieht, wenn viele Punkte im eingebetteten Merkmalsraum gruppiert werden und „Hubs“ bilden, die das Modell auf bestimmte Beschriftungen ausrichten.

Dies kann aufgrund von Rauschen in den Trainingsdaten, zu vielen Beispielen für einige Arten von Daten und zu wenig für andere oder weil die semantischen Einbettungen des Modells nicht eindeutig genug sind, passieren.