Few-Shot-Learning erklärt: KI mit minimalen Daten transformieren
Veröffentlicht: 2025-01-13Few-Shot-Learning (FSL) verändert das maschinelle Lernen (ML), indem es Modellen ermöglicht, aus nur einer Handvoll Beispielen zu lernen und genaue Ergebnisse zu generieren, im Gegensatz zu herkömmlichen Methoden, die große Datensätze erfordern. Dieser Leitfaden untersucht die Funktionsweise von FSL, seine Anwendungen, Vergleiche mit Zero-Shot Learning (ZSL) sowie seine Herausforderungen und sein Potenzial.
Inhaltsverzeichnis
- Was ist Few-Shot-Learning?
- Few-Shot-Learning vs. Few-Shot-Prompting: Was ist der Unterschied?
- Wie das Lernen mit wenigen Schüssen funktioniert
- Wenige-Schüsse-Lernen vs. Null-Schüsse-Lernen
- Anwendungen für Few-Shot-Learning
- Vorteile des Wenig-Schuss-Lernens
- Herausforderungen des Wenig-Schuss-Lernens
Was ist Fow-Shot-Learning (FSL)?
Few-Shot-Learning (FSL) bezieht sich auf eine Familie von ML-Techniken, die darauf ausgelegt sind, anpassbare Modelle zu erstellen, die in der Lage sind, genaue Ergebnisse zu generieren, nachdem sie an nur wenigen beschrifteten Beispielen pro Kategorie trainiert wurden. Wenn nur ein beschriftetes Beispiel pro Kategorie verfügbar ist, spricht man von One-Shot-Learning. Moderne Smartphones nutzen beispielsweise FSL, um das Gesicht eines Benutzers mit nur wenigen Fotos – oder sogar einem einzigen Foto – zu erkennen.
FSL ist besonders wertvoll, weil es ML-Modellen ermöglicht, Probleme anzugehen, bei denen Daten knapp sind, wie es in der realen Welt oft der Fall ist. FSL-Modelle können auch ein breiteres Aufgabenspektrum bewältigen als herkömmliche Modelle für überwachtes Lernen, da sie lernen, zu verallgemeinern. Dies spart Ressourcen, da es oft günstiger und schneller ist, ein FSL-Modell an eine neue Aufgabe anzupassen, als ein völlig neues Modell von Grund auf zu trainieren. FSL wird oft so beschrieben, dass es ML-Modellen beibringt, mehr wie Menschen zu „denken“, indem sie lernen, aus nur einer Handvoll Beispielen zu abstrahieren.
FSL wird häufig für Computer-Vision-Anwendungen verwendet, wird aber auch in der Robotik und der Verarbeitung natürlicher Sprache (NLP) eingesetzt. Beispielsweise wurde FSL verwendet, um alte sumerische Texte zu übersetzen – eine hilfreiche Aufgabe, da es an Experten für sumerische Sprachen mangelt. Der sumerische Übersetzer FSL models lernte das Übersetzen anhand einer kleinen Menge hochwertiger Muster von Keilschrifttafeln. Anschließend übersetzten sie große Mengen unbekannter Texte präzise, damit die Wissenschaftler sie analysieren konnten.
Few-Shot-Learning vs. Few-Shot-Prompting: Was ist der Unterschied?
FSL und Few-Shot-Prompting sind verwandte Konzepte in ML und NLP, dienen jedoch unterschiedlichen Zwecken.
Lernen mit wenigen Schüssen
FSL ist eine Modelltrainingstechnik, die Modellen beibringt, unsichtbare Daten zu klassifizieren. Dabei werden Modellparameter angepasst, um sie an neue Arten von Klassifizierungsaufgaben anzupassen, und dabei auf Vorwissen zurückgreifen. FSL ist mit überwachtem Lernen verwandt, der Unterschied besteht jedoch darin, dass FSL-Modelle auf einem viel begrenzteren Datensatz trainiert werden.
Eingabeaufforderung für wenige Schüsse
Few-Shot-Prompting ist eine Möglichkeit, mit großen Sprachmodellen (LLMs) zu arbeiten. Es nutzt kontextbezogenes Lernen – eine Art des Lernens, bei dem das Modell Informationen aus der Eingabeaufforderung, wie Format und Stimmung, verwendet, um eine Ausgabe vorherzusagen. Im Gegensatz zu FSL und traditionellem überwachtem Lernen erfordert das Fow-Shot-Prompting keine Änderung der Parameter des LLM. Wenn Sie die Eingabeaufforderung mit wenigen Schüssen verwenden, stellen Sie dem LLM mehrere Beispiele für die Art der Antwort zur Verfügung, nach der Sie suchen. Wie bei FSL geht es beim Few-Shot-Prompting darum, einem Modell bei der Verallgemeinerung zu helfen, indem man es einigen Beispielen einer ähnlichen Aufgabe aussetzt.
Wie das Lernen mit wenigen Schüssen funktioniert
Das Few-Shot-Learning umfasst zwei Phasen: Zunächst werden Modelle anhand eines allgemeinen Datensatzes vorab trainiert, um etwas über die Welt zu lernen. Anschließend durchlaufen sie eine Aufgabenanpassung, bei der die Modelle lernen, anhand kleiner Datenstichproben zu verallgemeinern.
Vorschulung
Die erste Phase beginnt bei den meisten FSL-Modellen mit dem Vortraining an einem großen beschrifteten Datensatz, genau wie beim überwachten Lernen. Das Modell führt eine Merkmalsextraktion für diesen Datensatz durch und lernt, Beispiele zu klassifizieren, indem es eine Wissensbasis über Muster und Beziehungen in den Daten aufbaut.
Aufgabenanpassung
Nach dem Vortraining besteht die nächste Stufe von FSL darin, das Modell zu trainieren, um es auf neue Klassifizierungsaufgaben zu verallgemeinern. Dies wird als Aufgabenanpassung bezeichnet und geschieht über mehrere Trainingsepisoden.
In jeder Episode gibt es einen Supportsatz mit zwei bis fünf Beispielen, den das Modell untersuchen kann, und einen Abfragesatz mit unbekannten Zielen, die das Modell zu klassifizieren versucht. Dieses Framework wird als N-Wege-K-Shot-Klassifizierung bezeichnet, wobei sichNauf die Anzahl der Kategorien (Klassen genannt) undKauf die Anzahl der gekennzeichneten Beispiele (Shots) jeder Kategorie bezieht.
Alle FSL-Modelle sind darauf ausgelegt, eine Aufgabenanpassung zu erreichen. Innerhalb des FSL-Techniksatzes ist Meta-Learning einer der wichtigsten und spannendsten Forschungsbereiche.
Meta-Learning-Ansätze
Beim Meta-Lernen wird das Modell Aufgaben ausgesetzt, die der Klassifizierungsaufgabe ähneln oder damit in Zusammenhang stehen, für deren Lösung das Modell ursprünglich trainiert wurde. Es erhält nur ein paar Beispiele für jede neue Aufgabe, aber anhand dieser lernt es, zu verallgemeinern, indem es ein Meta-Framework dafür entwickelt, was zu tun ist, wenn eine unbekannte Aufgabe gestellt wird.
Im Großen und Ganzen gibt es drei Arten von Ansätzen für Meta-Learning:
- Optimierungsbasiertes Lernen:Dazu gehören Ansätze, die Modelle trainieren, um ihre Parameter schnell zu verbessern. Einige von ihnen verwenden einen zweistufigen Prozess, bei dem ein Lernender für eine bestimmte Aufgabe geschult wird und dann ein Meta-Lernender die Verlustfunktion aus der Lernphase verwendet, um die Parameter des Modells für die nächste Aufgabe zu verbessern.
- Lernen auf metrischer Ebene:Das metrische Lernen wird hauptsächlich für Computer-Vision-Aufgaben verwendet, indem extrahierte Features in einem Einbettungsraum abgebildet werden und der Abstand zwischen Features auf der Karte verwendet wird, um eine Wahrscheinlichkeit dafür auszugeben, dass zwei Bilder ähnlich sind.
- Modellagnostisches Meta-Lernen (MAML):Bei MAML besteht das Ziel des Trainingsprozesses darin, die Anzahl der Gradientenschritte zu reduzieren, die zur Optimierung der Modellparameter erforderlich sind, unabhängig von der Aufgabe. MAML analysiert Lernprozesse für Aufgaben, leitet Muster in der Funktionsweise des Prozesses ab und entwickelt Modelle, die als Abkürzungen dienen und den Lernprozess mit jeder neuen Aufgabe, die es sieht, beschleunigen.
Die Liste der Modellarchitekturen, die Meta-Lerntechniken verwenden, wächst ständig, da Forscher neue Wege entwickeln, um Modelle anpassungsfähig zu machen.
Nicht-Meta-Learning-Ansätze
Es gibt auch FSL- und FSL-angrenzende Methoden, die kein Meta-Learning verwenden. FSL wird manchmal zusammen mit diesen Techniken eingesetzt, um einen hybriden Ansatz zu schaffen:
- Transferlernen:Bei dieser Methode wird ein vorab trainiertes Modell verwendet und die äußeren Schichten des neuronalen Netzwerks feinabgestimmt. Transferlernen ist in Szenarien nützlicher, in denen die Aufgabe, die das Modell ausführen soll, der Aufgabe, für die es bereits trainiert wurde, nahe kommt.
- Datenerweiterung:FSL kann durch Datenerweiterung gestärkt werden, bei der Ihre begrenzten Daten als Grundlage für die Erstellung synthetischer Daten mithilfe von Generative Adversarial Networks (GANs) oder Variations-Autoencodern verwendet werden, um die Anzahl der Proben für Ihren Trainingssatz zu erhöhen.
Wenige-Schüsse-Lernen vs. Null-Schüsse-Lernen
Few-Shot-Learning (oder One-Shot-Learning) wird häufig in Szenarien verwendet, in denen nur begrenzte, aber qualitativ hochwertige Daten zum Trainieren eines Modells vorhanden sind. Aber was ist, wenn Sie überhaupt keine qualitativ hochwertigen Daten haben? Beim Zero-Shot-Learning (ZSL) geben Sie Ihrem Modell keine Beispiele und bitten es stattdessen, sich ausschließlich auf Vorwissen und semantische Einbettungen zu verlassen, auf die es zurückgreifen kann, um unbekannte Aufgaben zu bewältigen.
ZSL bietet eine schnelle und flexible Lösung für den Umgang mit Situationen mit sehr wenigen Daten. Allerdings können ZSL-Modelle mit Domänenverschiebungen zu kämpfen haben – das heißt, sie können Schwierigkeiten haben, wenn die Art der Daten, die sie sehen, sich zu stark von ihrer Wissensbasis unterscheidet – und es kann schwierig sein, die Leistung eines Modells zu bewerten.
Anwendungen für Few-Shot-Learning
Die Anwendungen für FSL sind vielfältig und entwickeln sich ständig weiter, aber es hat ein enormes Potenzial, in Bereichen nützlich zu sein, in denen relativ wenige Beispiele zur Verfügung stehen. Einige aktuelle Forschungsbereiche für Anwendungsfälle umfassen:
- Medizinische Diagnostik:FSL kann bei der bildbasierten Tumorklassifizierung hilfreich sein, wenn nicht genügend gekennzeichnete Daten vorhanden sind, als dass herkömmliche Modelle des überwachten Lernens hilfreich wären.
- Fernerkundung:FSL kann Fernerkundungsaufgaben wie die Verwendung von UAV-Aufnahmen zur Bewertung der Auswirkungen von Umweltkatastrophen beschleunigen.
- F1-Rennwagen-Prototyping:FSL-Modelle werden vorab auf Strömungs- und Aerodynamik sowie andere Daten für Hunderte von Autos in Tausenden von Rennen trainiert. Anschließend verwenden sie FSL, um die Aerodynamik und die Teileverschlechterung für neue Autoprototypen vorherzusagen, basierend auf einer kleinen Anzahl teurer Testläufe.
- Maschinelle Übersetzung:FSL hat dazu beigetragen, effizientere maschinelle Übersetzer zu entwickeln, die nur sehr wenig Eingaben erfordern und Nuancen im Dialekt und regionalen Variationen mit beispielloser Genauigkeit erfassen können.
- Robotik:FSL wird verwendet, um Robotern beizubringen, durch die Beobachtung menschlicher Demonstrationen das Greifen von Objekten zu erlernen.
- Stimmungsanalyse:Ein FSL-Modell, das ursprünglich auf Hotelbewertungen trainiert wurde, kann zur Klassifizierung von Restaurantbewertungen verwendet werden.
FSL ist auch Teil des Bestrebens, künstliche allgemeine Intelligenz aufzubauen, da es die Art und Weise, wie Menschen an die Problemlösung herangehen, besser nachahmt.
Vorteile des Wenig-Schuss-Lernens
Die Hauptvorteile von FSL-Modellen bestehen darin, dass sie Probleme bewältigen können, bei denen nur begrenzte Daten verfügbar sind, und dass sie dazu beitragen können, die für das Training neuer Modelle erforderlichen Rechen- und Finanzressourcen zu reduzieren.
Verallgemeinerung mit begrenzten Daten
FSL-Modelle können dies tun, weil sie sich Bilder, Töne oder Sprache nicht über viele Iterationen hinweg merken. Stattdessen lernen sie, Gemeinsamkeiten und Unterschiede schnell zu analysieren. Während herkömmliche Modelle bei hochspezifischen Aufgaben wie der Identifizierung einer bestimmten Vogelart oder dem Abgleich von Fingerabdrücken hervorragend sind, versagen sie, sobald Sie sie mit der Ausführung einer anderen Aufgabe beauftragen.
Weniger Ressourcen verbrauchen
Techniken wie MAML sind eine viel effizientere Möglichkeit, Ressourcen für das Modelltraining zu nutzen. Sie ermöglichen eine schnelle und effiziente Anpassung sehr teurer Großmodelle an konkrete Anwendungsfälle ohne aufwändige Umschulungsschritte. Eine der großen Herausforderungen beim maschinellen Lernen besteht darin, wie viele Daten erforderlich sind, um ein Modell so zu trainieren, dass es nützliche Ergebnisse liefert, sowohl im Hinblick auf die Zusammenstellung großer, qualitativ hochwertiger Datensätze als auch im Hinblick auf den Zeit- und Rechenaufwand. FSL verspricht, viele reale Probleme zu lösen, bei denen Daten knapp sind oder domänenübergreifend sind.
Herausforderungen des Wenig-Schuss-Lernens
Trotz seiner Versprechen gibt es bei FSL Herausforderungen, die die Wirksamkeit des Modells beeinträchtigen können.
Überanpassung
Die Verwendung begrenzter Datensätze kann zu einer Überanpassung führen, bei der sich das Modell zu sehr an den Daten in seinen Trainingssätzen orientiert und Schwierigkeiten bei der Verallgemeinerung hat. Dies ist ein bekanntes Problem bei ML, das bei FSL häufiger auftritt als bei anderen ML-Ansätzen. Ein überangepasstes FSL-Modell schneidet bei Testdaten zwar gut ab, erkennt jedoch keine neuen Kategorien, wenn es mit Beispielen aus der Praxis präsentiert wird. Um dies zu verhindern, ist es wichtig, die begrenzten Stichproben, die für das Training mit wenigen Schüssen verwendet werden, vielfältig zu gestalten. Die oben diskutierte Datenerweiterung versucht, die Überanpassung zu mildern, indem mehr Beispiele für das Training synthetisiert werden.
Datenqualität
Hochwertige Daten sowohl vor dem Training als auch in der Lernphase mit wenigen Schüssen sind wichtig. FSL-Modelle werden leichter durch verrauschte, schlecht gekennzeichnete Daten beeinträchtigt. Sie funktionieren auch nicht gut, wenn die Daten zu viel von einer Art und nicht von einer anderen Art enthalten oder zu viele Funktionen haben, als dass das Modell sie analysieren könnte; In diesen Fällen neigen sie dazu, übermäßig komplex zu werden. Forscher können diese Probleme manchmal lösen, indem sie Regularisierungstechniken verwenden. Dabei handelt es sich um Methoden zur Glättung von Daten, um einem Modell dabei zu helfen, herauszufinden, worauf es achten und was es ignorieren sollte.