Selbstüberwachtes Lernen: Was es ist und wie es funktioniert

Veröffentlicht: 2024-07-18

Selbstüberwachtes Lernen, eine hochmoderne Technik der künstlichen Intelligenz, ermöglicht es Maschinen, intrinsische Muster und Strukturen in Daten zu entdecken und ahmt so die menschliche Fähigkeit nach, aus Kontext und Erfahrung zu lernen, anstatt durch explizite Anweisungen.

Inhaltsverzeichnis

  • Was ist selbstüberwachtes Lernen?
  • Selbstüberwacht im Vergleich zu anderen Arten des maschinellen Lernens
  • Wie selbstüberwachtes Lernen funktioniert
  • Arten des selbstüberwachten Lernens
  • Anwendungen des selbstüberwachten Lernens
  • Vorteile des selbstüberwachten Lernens
  • Nachteile des selbstüberwachten Lernens

Was ist selbstüberwachtes Lernen?

Selbstüberwachtes Lernen ist eine Art maschinelles Lernen (ML), das Modelle darin trainiert, ihre eigenen Labels – also explizit gepaarte Eingaben und Ausgaben – unter Verwendung unbeschrifteter Rohdaten zu erstellen. Im Gegensatz zum überwachten Lernen, das eine erhebliche Menge an gekennzeichneten Daten erfordert, generiert das selbstüberwachte Lernen Pseudoetiketten (künstliche Etiketten) aus den Daten selbst. Diese Technik verleiht dem Modell die Zielorientierung und Messbarkeit eines überwachten Lernansatzes sowie die Fähigkeit des unüberwachten Lernens, aus riesigen Mengen unbeschrifteter Daten nützliche Schlussfolgerungen zu ziehen.

Maschinelles Lernen ist eine Teilmenge der künstlichen Intelligenz (KI), die Daten und statistische Methoden nutzt, um Modelle zu erstellen, die menschliches Denken nachahmen, anstatt sich auf hartcodierte Anweisungen zu verlassen. Selbstüberwachtes Lernen nutzt die riesigen Mengen an verfügbaren unbeschrifteten Daten und ist damit ein leistungsstarker Ansatz zur Verbesserung der Modellleistung mit minimalem manuellen Eingriff. Tatsächlich werden die heutigen großen generativen KI-Text- und Bildmodelle größtenteils durch selbstüberwachtes Lernen trainiert.

Arbeiten Sie intelligenter mit Grammarly
Der KI-Schreibpartner für alle, die viel zu tun haben

Selbstüberwacht im Vergleich zu anderen Arten des maschinellen Lernens

Selbstüberwachtes Lernen kombiniert Elemente sowohl des überwachten als auch des unbeaufsichtigten Lernens, unterscheidet sich jedoch vom halbüberwachten Lernen:

  • Überwachtes Lernen: Verwendet gekennzeichnete Daten, um Modelle für bestimmte Aufgaben wie Klassifizierung und Regression zu trainieren. Die Beschriftungen bieten explizite Orientierungshilfen, sodass das Modell genaue Vorhersagen treffen kann. Zu den gängigen Anwendungen gehören Spam-Erkennung, Bildklassifizierung und Wettervorhersage.
  • Unüberwachtes Lernen: Arbeitet mit unbeschrifteten Daten, um Muster und Gruppierungen zu finden. Es identifiziert Cluster und Zusammenhänge und reduziert die Datenkomplexität für eine einfachere Verarbeitung. Beispiele hierfür sind Kundensegmentierung, Empfehlungssysteme und Anomalieerkennung.
  • Halbüberwachtes Lernen:Verwendet eine bescheidene Menge gekennzeichneter Daten, um eine erste Orientierung zu geben, und nutzt dann eine oder mehrere größere Sammlungen unbeschrifteter Daten, um das Modell zu verfeinern und zu verbessern. Dieser Ansatz ist besonders nützlich, wenn Sie über einige gekennzeichnete Daten verfügen, es jedoch zu schwierig oder zu teuer wäre, ausreichend Daten für vollständig überwachtes Lernen zu generieren.
  • Selbstüberwachtes Lernen:Verwendet Rohdaten, um eigene Beschriftungen zu generieren, sodass das Modell aus den Daten lernen kann, ohne dass zunächst beschriftete Daten erforderlich sind. Dieser Ansatz ist besonders wertvoll, wenn gekennzeichnete Daten überhaupt nicht verfügbar sind oder nur einen winzigen Bruchteil der verfügbaren Daten ausmachen, beispielsweise bei der Verarbeitung natürlicher Sprache (NLP) oder der Bilderkennung.

Wie selbstüberwachtes Lernen funktioniert

Selbstüberwachung bedeutet, dass die Daten selbst die richtigen Antworten liefern. Der selbstüberwachte Lernprozess umfasst mehrere Schritte, die Aspekte sowohl überwachter als auch unbeaufsichtigter Methoden kombinieren:

Datenerfassung:Sammeln Sie eine große Menge unbeschrifteter Rohdaten. Diese Daten bilden die Grundlage für die Erstellung von Pseudo-Labels und das Training des Modells. Viele Datensätze sind frei verfügbar.

  1. Vorverarbeitung:Bereiten Sie die Daten vor, um die Qualität sicherzustellen. Dieser Schritt umfasst das Entfernen von Duplikaten, die Behandlung fehlender Werte und die Normalisierung von Datenbereichen.
  2. Aufgabenerstellung:Erstellen Sie Rätsel, die das Modell lösen soll, sogenannte Vorwandaufgaben. Diese entstehen durch das Entfernen oder Mischen von Teilen der Daten, beispielsweise durch das Entfernen von Wörtern, das Löschen von Bildpixeln oder das Mischen von Videobildern. Was auch immer vor dieser absichtlichen Korruption existierte, wird als Pseudo-Label bezeichnet: eine „richtige Antwort“, die aus den Daten selbst und nicht aus einer menschlichen Etikettierung entsteht.
  3. Training:Trainieren Sie das Modell anhand der generierten Pseudo-Labels für die Vorwandaufgaben. Das bedeutet, dass das Modell versucht, die richtige Antwort zu generieren, seine Antwort mit dem Pseudo-Label vergleicht, Anpassungen vornimmt und erneut versucht, die richtige Antwort zu generieren. Diese Phase hilft dem Modell, die Beziehungen innerhalb der Daten zu verstehen und schafft schließlich ein komplexes Verständnis der Beziehung zwischen Eingaben und Ausgaben.
  4. Feinabstimmung:Schalten Sie das Modell so um, dass es von einem kleineren, beschrifteten Datensatz lernt, um seine Leistung bei bestimmten Aufgaben zu verbessern. Dieser Schritt stellt sicher, dass das Modell die während der ersten Trainingsphase gelernten Darstellungen nutzt. Eine Feinabstimmung ist nicht unbedingt notwendig, führt aber in der Regel zu besseren Ergebnissen.
  5. Bewertung:Bewerten Sie die Leistung des Modells anhand von Daten, die es noch nicht gesehen hat. Durch die Verwendung von für die Aufgabe relevanten Standardmetriken wie dem F1-Score stellt diese Bewertung sicher, dass sich das Modell gut auf neue Daten verallgemeinern lässt.
  6. Bereitstellung und Überwachung:Stellen Sie das trainierte Modell in realen Anwendungen bereit und überwachen Sie kontinuierlich seine Leistung. Aktualisieren Sie das Modell nach Bedarf mit neuen Daten, um seine Genauigkeit und Relevanz aufrechtzuerhalten.

Arten des selbstüberwachten Lernens

Selbstüberwachtes Lernen umfasst verschiedene Arten mit jeweils unterschiedlichen Techniken und Ansätzen. Hier werden wir verschiedene Typen untersuchen, ihre einzigartigen Trainingsmethoden hervorheben und jeweils ein oder zwei repräsentative Beispiele liefern.

Für Bilder

  • Selbstvorhersagendes Lernen:Selbstvorhersagendes Lernen umfasst Techniken wie die automatische Kodierung, bei der ein Modell lernt, Informationen in eine einfachere Form zu komprimieren und daraus dann die Originaldaten neu zu erstellen. Bei der Bildverarbeitung bedeutet dies oft, Teile eines Bildes selektiv zu verfälschen (z. B. durch Maskieren von Abschnitten) und das Modell zu trainieren, das Original zu rekonstruieren. Dies hilft dem Modell, Objekte in unterschiedlichen Positionen und Größen und sogar teilweise verdeckten Objekten besser zu erkennen.
  • Kontrastives Lernen:Beim kontrastiven Lernen lernt das Modell, zwischen ähnlichen und unterschiedlichen Bildern zu unterscheiden, indem es sie paarweise oder in Gruppen vergleicht. Beispielsweise verwendet die SimCLR-Methode Bildvergrößerungen (wie Zuschneiden, Verzerren und Spiegeln), um Trainingspaare zu erstellen. Positive Paare entstehen durch die Anwendung unterschiedlicher Änderungen am selben Bild, während negative Paare aus unterschiedlichen Bildern stammen. Das Modell lernt dann, welche Merkmale bei ähnlichen Paaren gemeinsam und bei unterschiedlichen Paaren unterschiedlich sind.
  • Clustering-basierte Methoden:Clustering-basierte Methoden gruppieren ähnliche Datenpunkte und verwenden diese Cluster als Pseudo-Labels für das Training. Beispielsweise gruppiert DeepCluster Bilder nach ähnlichen Merkmalen und verwendet diese Cluster, um das Modell zu trainieren. Der Prozess wechselt zwischen Clustering und Training, bis das Modell eine gute Leistung erbringt. SwAV (Swapping Assignments Between Views) verbessert dies, indem es mehrere Versionen desselben Bildes verwendet, um dem Modell dabei zu helfen, wesentliche Merkmale zu erlernen, die konstant bleiben, wie Kanten, Texturen und Objektpositionen.

Für Text

  • Selbstvorhersagendes Lernen:Dies ist der zentrale Trainingsmechanismus großer Sprachmodelle (LLMs), die Text als eine Reihe von Token verstehen. Diese repräsentieren normalerweise ein Wort, manchmal aber auch einen Teil eines Wortes oder eine Gruppe von Wörtern.
    • Maskierte Sprachmodelle (MLMs):Dabei werden Sätze angezeigt, bei denen einige Token fehlen, und die Aufgabe besteht darin, fehlende Wörter vorherzusagen. Indem sie lernen, diese Lücken auszufüllen, entwickeln MLMs eine gründliche Darstellung der Sprachstruktur und des Kontexts und können den Kontext einer gesamten Eingabe berücksichtigen, wenn sie Vorhersagen treffen. Durch Feinabstimmung werden nützliche Ergebnisse wie Stimmungsanalysen oder die Erkennung benannter Entitäten entwickelt. Ein Paradebeispiel ist BERT, das Google verwendet, um die Absicht von Suchanfragen zu verstehen.
    • Kausale Sprachmodelle (CLMs):Generative Modelle wie ChatGPT, Claude und Gemini lernen, gesehenen Text neu zu erstellen, indem sie auf der Grundlage der vorherigen Token jeweils ein Wort vorhersagen. Sobald sie trainiert sind, behandeln sie den Eingabetext als Kontext für ihre Vorhersagen und treffen mit jedem neuen Token, den sie generieren, weiterhin Vorhersagen. Diese sequentielle Vorhersage ist der Grund, warum ihre Ausgabe so aussieht, als ob sie sich von selbst abtippt, anstatt auf einmal zu erscheinen.
  • Kontrastives Lernen:Dieser Ansatz vergleicht Paare von Textbeispielen und betont die Unterschiede und Ähnlichkeiten zwischen ihnen. SimCSE erstellt zwei leicht unterschiedliche Versionen desselben Satzes, indem es Dropout anwendet, das während des Trainings zufällig Teile der Darstellung des Satzes in verborgenen Schichten ignoriert (weitere Informationen zu verborgenen Schichten finden Sie in unserem Beitrag zu Deep Learning). Das Modell lernt, diese Versionen als ähnlich zu erkennen. Diese Technik verbessert die Fähigkeit des Modells, Sätze zu verstehen und zu vergleichen, was sie für Anwendungen wie das Finden ähnlicher Sätze oder das Abrufen relevanter Informationen für Suchanfragen nützlich macht.
  • Vorhersage des nächsten Satzes (NSP):Wie der Name schon sagt, beinhaltet NSP die Vorhersage, ob ein bestimmter Satz der nachfolgende Satz eines anderen in einem Dokument ist, und hilft Modellen, Beziehungen zwischen Sätzen und den logischen Textfluss zu verstehen. Es wird häufig zusammen mit einem MLM verwendet, um das Verständnis größerer Textmengen zu verbessern. In BERT NSP sagt das Modell beispielsweise voraus, ob im Originaltext zwei Sätze nacheinander vorkommen.

Anwendungen des selbstüberwachten Lernens

Selbstüberwachtes Lernen hat ein breites Anwendungsspektrum in verschiedenen Bereichen:

  • Verarbeitung natürlicher Sprache:Modelle wie BERT und GPT-3 nutzen selbstüberwachtes Lernen, um menschliche Sprache in Anwendungen wie Chatbots, Übersetzung und Textzusammenfassung zu verstehen und zu generieren.
  • Computer Vision:Selbstüberwachtes Lernen verbessert die Bild- und Videoanalyse durch die Generierung von Pseudo-Labels aus visuellen Rohdaten. Zu den Einsatzmöglichkeiten gehören die Objekterkennung (z. B. an einer Türklingelkamera), die Gesichtserkennung und die automatische Erstellung von Clips aus längeren Videos.
  • Spracherkennung:Selbstüberwachte Modelle verbessern Spracherkennungssysteme, indem sie aus riesigen Mengen unbeschrifteter Audiodaten lernen. Dieser Ansatz reduziert den Bedarf an manueller Transkription und verbessert die Genauigkeit über verschiedene Akzente und Dialekte hinweg.
  • Gesundheitswesen:Selbstüberwachtes Lernen trägt zur Verbesserung der medizinischen Bildanalyse, Arzneimittelentwicklung und Patientenüberwachung bei, indem es große Datensätze mit wenigen beschrifteten Beispielen nutzt. Es verbessert die Genauigkeit der Krankheitserkennung und Behandlungsempfehlungen, ohne dass eine umfangreiche und teure fachmännische Kennzeichnung durch einen Menschen erforderlich ist.
  • Robotik:Roboter nutzen selbstüberwachtes Lernen, um ihre Umgebung zu verstehen und ihre Entscheidungsprozesse zu verbessern. Zu den Einsatzmöglichkeiten gehören autonome Navigation, Objektmanipulation und Mensch-Roboter-Interaktion.

Vorteile des selbstüberwachten Lernens

  • Kostengünstig:Reduziert den Bedarf an umfangreichen beschrifteten Daten, wodurch die Annotationskosten und der menschliche Aufwand gesenkt werden.
  • Skalierbarkeit:Kann große Datensätze verarbeiten und eignet sich daher für reale Anwendungen, bei denen gekennzeichnete Daten begrenzt sind, unbeschriftete Daten jedoch reichlich vorhanden sind.
  • Verallgemeinerung:Wenn das Modell auf ausreichend Rohdaten trainiert wird, kann es genug lernen, um neue Aufgaben auszuführen, auch wenn es nicht auf direkt relevanten Daten trainiert wurde. Beispielsweise könnte ein NLP-Modell, das auf einer Sprache basiert, verwendet werden, um das Erlernen dieser Sprache, die auf einer anderen Sprache basiert, zu verbessern.
  • Flexibilität:Anpassbar an eine Vielzahl von Aufgaben und Bereichen, wobei viele Untertypen für bestimmte Anforderungen verfügbar sind.

Nachteile des selbstüberwachten Lernens

  • Komplexität:Die Erstellung effektiver Vorwandaufgaben und die Generierung von Pseudo-Labels erfordert sorgfältiges Design und Experimentieren.
  • Rauschempfindlichkeit:Aus Rohdaten generierte Pseudobezeichnungen könnten für das Ziel irrelevant sein und möglicherweise die Leistung beeinträchtigen, indem sie dem Modell zu viele unnötige Eingaben zur Verarbeitung geben.
  • Rechenressourcen:Das Training selbstüberwachter Modelle, insbesondere mit großen Datensätzen, erfordert erhebliche Rechenleistung und Zeit.