Halbüberwachtes Lernen: Was es ist und wie es funktioniert

Veröffentlicht: 2024-07-18

Im Bereich des maschinellen Lernens erweist sich halbüberwachtes Lernen als cleverer Hybridansatz, der die Lücke zwischen überwachten und unüberwachten Methoden schließt, indem sowohl gekennzeichnete als auch unbeschriftete Daten genutzt werden, um robustere und effizientere Modelle zu trainieren.

Inhaltsverzeichnis

Was ist halbüberwachtes Lernen?
Halbüberwachtes vs. überwachtes und unüberwachtes Lernen
Wie halbüberwachtes Lernen funktioniert
Arten des halbüberwachten Lernens
Anwendungen des halbüberwachten Lernens
Vorteile des halbüberwachten Lernens
Nachteile des halbüberwachten Lernens

Was ist halbüberwachtes Lernen?

Halbüberwachtes Lernen ist eine Art maschinelles Lernen (ML), das eine Kombination aus gekennzeichneten und unbeschrifteten Daten zum Trainieren von Modellen verwendet. Halbüberwacht bedeutet, dass das Modell von einer kleinen Menge gekennzeichneter Daten geleitet wird, bei denen Eingaben explizit mit korrekten Ausgaben gepaart werden, sowie von einem größeren Pool unbeschrifteter Daten, der in der Regel häufiger vorkommt. Diese Modelle gewinnen in der Regel erste Erkenntnisse aus einer kleinen Menge gekennzeichneter Daten und verfeinern dann ihr Verständnis und ihre Genauigkeit mithilfe des größeren Pools unbeschrifteter Daten weiter.

Maschinelles Lernen ist eine Teilmenge der künstlichen Intelligenz (KI), die Daten und statistische Methoden nutzt, um Modelle zu erstellen, die menschliches Denken nachahmen, anstatt sich auf hartcodierte Anweisungen zu verlassen. Durch die Nutzung von Elementen aus überwachten und unbeaufsichtigten Ansätzen ist die halbüberwachte Methode eine eindeutige und leistungsstarke Möglichkeit, die Vorhersagequalität zu verbessern, ohne kostspielige Investitionen in die menschliche Kennzeichnung zu tätigen.

Arbeiten Sie intelligenter mit Grammarly

Der KI-Schreibpartner für alle, die viel zu tun haben

Halbüberwachtes vs. überwachtes und unüberwachtes Lernen

Während überwachtes Lernen ausschließlich auf gekennzeichneten Daten basiert und unüberwachtes Lernen mit völlig unbeschrifteten Daten arbeitet, verbindet halbüberwachtes Lernen beides.

Überwachtes Lernen

Beim überwachten Lernen werden gekennzeichnete Daten verwendet, um Modelle für bestimmte Aufgaben zu trainieren. Die beiden Haupttypen sind:

Klassifizierung: Bestimmt, zu welcher Klasse oder Gruppe ein Artikel gehört.Dies kann eine binäre Auswahl, eine Auswahl aus mehreren Optionen oder die Mitgliedschaft in mehreren Gruppen sein.

Regression: Prognostiziert Ergebnisse basierend auf einer Best-Fit-Linie aus vorhandenen Daten. Wird normalerweise für Prognosen verwendet, z. B. zur Vorhersage des Wetters oder der finanziellen Leistung.

Unbeaufsichtigtes Lernen

Unüberwachtes Lernen identifiziert Muster und Strukturen in unbeschrifteten Daten mithilfe von drei Haupttechniken:

Clustering: Definiert Gruppen von Punkten, die ähnliche Werte haben.Diese können exklusiv (jeder Datenpunkt in genau einem Cluster), überlappend (Zugehörigkeitsgrade zu einem oder mehreren Clustern) oder hierarchisch (mehrere Clusterebenen) sein.
Assoziation: Findet heraus, welche Artikel mit größerer Wahrscheinlichkeit gleichzeitig vorkommen, beispielsweise Produkte, die häufig zusammen gekauft werden.
Dimensionsreduktion: Vereinfacht Datensätze durch die Verdichtung von Daten in weniger Variablen, wodurch die Verarbeitungszeit verkürzt und die Verallgemeinerungsfähigkeit des Modells verbessert wird.

Halbüberwachtes Lernen

Beim halbüberwachten Lernen werden sowohl gekennzeichnete als auch unbeschriftete Daten genutzt, um die Modellleistung zu verbessern. Dieser Ansatz ist besonders nützlich, wenn die Kennzeichnung von Daten teuer oder zeitaufwändig ist.

Diese Art des maschinellen Lernens ist ideal, wenn Sie über eine kleine Menge beschrifteter Daten und eine große Menge unbeschrifteter Daten verfügen. Durch die Identifizierung, welche unbeschrifteten Punkte gut mit beschrifteten Punkten übereinstimmen, kann ein halbüberwachtes Modell differenziertere Klassifizierungsgrenzen oder Regressionsmodelle erstellen, was zu einer verbesserten Genauigkeit und Leistung führt.

Wie halbüberwachtes Lernen funktioniert

Der halbüberwachte Lernprozess umfasst mehrere Schritte und kombiniert Elemente sowohl überwachter als auch unbeaufsichtigter Lernmethoden:

Datenerfassung und -kennzeichnung: Sammeln Sie einen Datensatz, der einen kleinen Teil der gekennzeichneten Daten und einen größeren Teil der unbeschrifteten Daten enthält.Beide Datensätze sollten über dieselben Funktionen verfügen, die auch als Spalten oder Attribute bezeichnet werden.
Vorverarbeitung und Merkmalsextraktion: Bereinigen und Vorverarbeiten der Daten, um dem Modell die bestmögliche Grundlage für das Lernen zu geben: Stichproben zur Sicherstellung der Qualität, Entfernen von Duplikaten und Löschen unnötiger Merkmale.Erwägen Sie die Erstellung neuer Features, die wichtige Features in aussagekräftige Bereiche umwandeln, die die Variation in den Daten widerspiegeln (z. B. die Umwandlung von Geburtsdaten in Alter), in einem Prozess, der als Extraktion bezeichnet wird.
Anfängliches überwachtes Lernen: Trainieren Sie das Modell mithilfe der gekennzeichneten Daten.Diese Anfangsphase hilft dem Modell, die Beziehung zwischen Eingaben und Ausgaben zu verstehen.
Unüberwachtes Lernen: Wenden Sie unüberwachte Lerntechniken auf die unbeschrifteten Daten an, um Muster, Cluster oder Strukturen zu identifizieren.
Modellverfeinerung: Kombinieren Sie die Erkenntnisse aus beschrifteten und unbeschrifteten Daten, um das Modell zu verfeinern.Dieser Schritt umfasst häufig iteratives Training und Anpassungen zur Verbesserung der Genauigkeit.
Bewertung und Optimierung: Bewerten Sie die Leistung des Modells mithilfe standardmäßiger überwachter Lernmetriken wie Genauigkeit, Präzision, Rückruf und F1-Score.Optimieren Sie das Modell, indem Sie explizite Anweisungen (sogenannte Hyperparameter) anpassen und neu bewerten, bis die optimale Leistung erreicht ist.
Bereitstellung und Überwachung: Stellen Sie das Modell für den realen Einsatz bereit, überwachen Sie kontinuierlich seine Leistung und aktualisieren Sie es bei Bedarf mit neuen Daten.

Arten des halbüberwachten Lernens

Halbüberwachtes Lernen kann mit mehreren Techniken implementiert werden, die jeweils gekennzeichnete und unbeschriftete Daten nutzen, um den Lernprozess zu verbessern. Hier sind die Haupttypen sowie Untertypen und Schlüsselkonzepte:

Selbsttraining

Selbsttraining, auch Selbstlernen oder Selbstkennzeichnung genannt, ist der einfachste Ansatz. Bei dieser Technik sagt ein Modell, das zunächst auf beschrifteten Daten trainiert wurde, Beschriftungen für die unbeschrifteten Daten voraus und zeichnet deren Konfidenzgrad auf. Das Modell trainiert sich iterativ neu, indem es seine zuverlässigsten Vorhersagen als zusätzlich gekennzeichnete Daten anwendet – diese generierten Bezeichnungen werden alsPseudo-Labelsbezeichnet. Dieser Prozess wird fortgesetzt, bis sich die Leistung des Modells stabilisiert oder ausreichend verbessert.

Ersttraining: Das Modell wird anhand eines kleinen beschrifteten Datensatzes trainiert.
Label-Vorhersage: Das trainierte Modell sagt Labels für die unbeschrifteten Daten voraus.
Konfidenzschwellenwert: Es werden nur Vorhersagen über einem bestimmten Konfidenzniveau ausgewählt.
Neutraining: Die ausgewählten pseudogekennzeichneten Daten werden dem Trainingssatz hinzugefügt und das Modell wird neu trainiert.

Diese Methode ist einfach, aber leistungsstark, insbesondere wenn das Modell frühzeitig genaue Vorhersagen treffen kann. Wenn die anfänglichen Vorhersagen jedoch falsch sind, besteht die Gefahr, dass das Unternehmen seine eigenen Fehler verstärkt. Verwenden Sie Clustering, um zu überprüfen, ob die Pseudobezeichnungen mit den natürlichen Gruppierungen innerhalb der Daten übereinstimmen.

Co-Training

Co-Training, das typischerweise für Klassifizierungsprobleme verwendet wird, umfasst das Training von zwei oder mehr Modellen auf unterschiedlichen Ansichten oder Teilmengen der Daten. Die zuverlässigsten Vorhersagen jedes Modells zu den unbeschrifteten Daten ergänzen den Trainingssatz des anderen Modells. Diese Technik nutzt die Vielfalt mehrerer Modelle, um das Lernen zu verbessern.

Zwei-Ansichten-Ansatz: Der Datensatz ist in zwei unterschiedliche Ansichten unterteilt, d. h. Teilmengen der Originaldaten, die jeweils unterschiedliche Merkmale enthalten.Jede der beiden neuen Ansichten hat die gleiche Bezeichnung, aber im Idealfall sind beide bedingt unabhängig, was bedeutet, dass Sie durch Kenntnis der Werte in einer Tabelle keine Informationen über die andere erhalten.
Modelltraining: Zwei Modelle werden anhand der gekennzeichneten Daten für jede Ansicht separat trainiert.
Gegenseitige Beschriftung: Jedes Modell sagt Beschriftungen für die unbeschrifteten Daten voraus, und die besten Vorhersagen – entweder alle über einem bestimmten Konfidenzschwellenwert oder einfach eine feste Zahl oben in der Liste – werden zum erneuten Trainieren des anderen Modells verwendet.

Co-Training ist besonders nützlich, wenn sich die Daten für mehrere Ansichten eignen, die komplementäre Informationen liefern, wie zum Beispiel medizinische Bilder und klinische Daten, die demselben Patienten zugeordnet sind. In diesem Beispiel würde ein Modell das Auftreten von Krankheiten anhand des Bildes vorhersagen, während das andere Modell anhand von Daten aus der Krankenakte vorhersagen würde.

Dieser Ansatz trägt dazu bei, das Risiko einer Verstärkung falscher Vorhersagen zu verringern, da sich die beiden Modelle gegenseitig korrigieren können.

Generative Modelle

Generative Modelle lernen die Wahrscheinlichkeit des gleichzeitigen Auftretens bestimmter Eingabe- und Ausgabepaare, die sogenannte gemeinsame Wahrscheinlichkeitsverteilung. Mit diesem Ansatz können sie neue Daten generieren, die dem ähneln, was sie bereits gesehen haben. Diese Modelle verwenden beschriftete und unbeschriftete Daten, um die zugrunde liegende Datenverteilung zu erfassen und den Lernprozess zu verbessern. Wie der Name schon vermuten lässt, ist dies die Grundlage der generativen KI, die Texte, Bilder usw. erstellen kann.

Generative Adversarial Networks (GANs): GANs bestehen aus zwei Modellen: einem Generator und einem Diskriminator.Der Generator erstellt synthetische Datenpunkte, während der Diskriminator versucht, zwischen diesen synthetischen Datenpunkten und echten Daten zu unterscheiden. Während sie trainieren, verbessert der Generator seine Fähigkeit, realistische Daten zu erstellen, und der Diskriminator kann gefälschte Daten besser identifizieren. Dieser kontradiktorische Prozess geht weiter, wobei jedes Modell danach strebt, das andere zu übertreffen. GANs können auf zwei Arten auf halbüberwachtes Lernen angewendet werden:
- Modifizierter Diskriminator: Anstatt Daten einfach als „gefälscht“ oder „echt“ zu klassifizieren, ist der Diskriminator darauf trainiert, Daten in mehrere Klassen plus eine gefälschte Klasse zu klassifizieren.Dadurch kann der Diskriminator sowohl klassifizieren als auch diskriminieren.
- Verwendung unbeschrifteter Daten: Der Diskriminator beurteilt, ob eine Eingabe mit den beschrifteten Daten übereinstimmt, die er gesehen hat, oder ob es sich um einen gefälschten Datenpunkt vom Generator handelt.Diese zusätzliche Herausforderung zwingt den Diskriminator dazu, nicht gekennzeichnete Daten anhand ihrer Ähnlichkeit mit gekennzeichneten Daten zu erkennen, was ihm hilft, die Merkmale zu lernen, die sie ähnlich machen.
Variations-Autoencoder (VAEs): VAEs finden heraus, wie Daten in eine einfachere, abstrakte Darstellung kodiert werden, die sie in eine möglichst genaue Darstellung der Originaldaten dekodieren können.Durch die Verwendung sowohl gekennzeichneter als auch unbeschrifteter Daten erstellt die VAE eine einzige Abstraktion, die die wesentlichen Merkmale des gesamten Datensatzes erfasst und so seine Leistung bei neuartigen Daten verbessert.

Generative Modelle sind leistungsstarke Werkzeuge für halbüberwachtes Lernen, insbesondere bei umfangreichen, aber komplexen, unbeschrifteten Daten, beispielsweise bei der Sprachübersetzung oder Bilderkennung. Natürlich benötigen Sie einige Etiketten, damit die GANs oder VAEs wissen, worauf sie abzielen.

Graphbasierte Methoden

Graphbasierte Methoden stellen Datenpunkte als Knoten in einem Diagramm dar und bieten unterschiedliche Ansätze zum Verständnis und Extrahieren nützlicher Informationen über die Beziehungen zwischen ihnen. Zu den vielen graphbasierten Methoden, die beim halbüberwachten Lernen angewendet werden, gehören:

Etikettenweitergabe: Ein relativ einfacher Ansatz, bei dem numerische Werte, sogenannte Kanten, Ähnlichkeiten zwischen benachbarten Knoten anzeigen.Beim ersten Durchlauf des Modells übernehmen unbeschriftete Punkte mit den stärksten Kanten zu einem beschrifteten Punkt die Beschriftung dieses Punkts. Wenn weitere Punkte beschriftet werden, wird der Vorgang wiederholt, bis alle Punkte beschriftet sind.
Graphische neuronale Netze (GNNs): Verwendet Techniken zum Trainieren neuronaler Netze wie Aufmerksamkeit und Faltung, um Erkenntnisse aus gekennzeichneten Datenpunkten auf unbeschriftete Datenpunkte anzuwenden, insbesondere in hochkomplexen Situationen wie sozialen Netzwerken und Genanalysen.
Graph-Autoencoder: Ähnlich wie VAEs erstellen diese eine einzelne abstrahierte Darstellung, die beschriftete und unbeschriftete Daten erfasst. Dieser Ansatz wird häufig verwendet, um fehlende Links zu finden, bei denen es sich um potenzielle Verbindungen handelt, die nicht im Diagramm erfasst werden.

Graphbasierte Methoden sind besonders effektiv für komplexe Daten, die auf natürliche Weise Netzwerke bilden oder intrinsische Beziehungen aufweisen, wie z. B. soziale Netzwerke, biologische Netzwerke und Empfehlungssysteme.

Anwendungen des halbüberwachten Lernens

Zu den vielen Anwendungen des halbüberwachten Lernens gehören:

Textklassifizierung: Wenn Sie über einen sehr großen Satz verfügbarer Daten verfügen, beispielsweise Millionen von Produktbewertungen oder Milliarden von E-Mails, müssen Sie nur einen Bruchteil davon kennzeichnen.Bei einem halbüberwachten Ansatz werden die verbleibenden Daten zur Verfeinerung des Modells verwendet.
Medizinische Bildanalyse: Die Zeit medizinischer Experten ist teuer und sie sind nicht immer genau.Die Ergänzung ihrer Analyse von Bilddaten wie MRTs oder Röntgenaufnahmen durch viele unbeschriftete Bilder kann zu einem Modell führen, das ihrer Genauigkeit entspricht oder diese sogar übertrifft.
Spracherkennung: Das manuelle Transkribieren von Sprache ist ein mühsamer und anstrengender Prozess, insbesondere wenn Sie versuchen, eine Vielzahl von Dialekten und Akzenten zu erfassen.Die Kombination gekennzeichneter Sprachdaten mit großen Mengen unbeschrifteter Audiodaten verbessert die Fähigkeit eines Modells, das Gesagte genau zu erkennen.
Betrugserkennung: Trainieren Sie zunächst ein Modell anhand einer kleinen Menge gekennzeichneter Transaktionen, um bekannte Betrugsfälle und legitime Fälle zu identifizieren.Fügen Sie dann einen größeren Satz unbeschrifteter Transaktionen hinzu, um das Modell verdächtigen Mustern und Anomalien auszusetzen und so seine Fähigkeit zu verbessern, neue oder sich entwickelnde betrügerische Aktivitäten in Finanzsystemen zu identifizieren.
Kundensegmentierung: Halbüberwachtes Lernen kann die Präzision verbessern, indem ein kleiner beschrifteter Datensatz verwendet wird, um erste Segmente basierend auf bestimmten Mustern und demografischen Merkmalen zu definieren, und dann ein größerer Pool unbeschrifteter Daten hinzugefügt wird, um diese Kategorien zu verfeinern und zu erweitern.

Vorteile des halbüberwachten Lernens

Kostengünstig: Halbüberwachtes Lernen reduziert den Bedarf an umfangreichen gekennzeichneten Daten, wodurch die Kosten und der Aufwand für die Kennzeichnung sowie der Einfluss menschlicher Fehler und Voreingenommenheit gesenkt werden.
Verbesserte Vorhersagen: Die Kombination von beschrifteten und unbeschrifteten Daten führt im Vergleich zu rein überwachtem Lernen häufig zu einer besseren Vorhersagequalität, da dem Modell mehr Daten zum Lernen zur Verfügung stehen.
Skalierbarkeit: Halbüberwachtes Lernen eignet sich gut für reale Anwendungen, bei denen eine gründliche Kennzeichnung unpraktisch ist, beispielsweise bei Milliarden potenziell betrügerischer Transaktionen, da es große Datensätze mit minimal gekennzeichneten Daten verarbeitet.
Flexibilität: Durch die Kombination der Stärken des überwachten und unüberwachten Lernens ist dieser Ansatz an viele Aufgaben und Bereiche anpassbar.

Nachteile des halbüberwachten Lernens

Komplexität: Die Integration beschrifteter und unbeschrifteter Daten erfordert häufig ausgefeilte Vorverarbeitungstechniken wie die Normalisierung von Datenbereichen, die Imputation fehlender Werte und die Reduzierung der Dimensionalität.
Abhängigkeit von Annahmen: Halbüberwachte Methoden stützen sich häufig auf Annahmen über die Datenverteilung, z. B. Datenpunkte im selben Cluster, die dieselbe Bezeichnung verdienen, was möglicherweise nicht immer zutrifft.
Potenzial für Rauschen: Unbeschriftete Daten können zu Rauschen und Ungenauigkeiten führen, wenn sie nicht ordnungsgemäß mit Techniken wie Ausreißererkennung und Validierung anhand gekennzeichneter Daten behandelt werden.
Schwieriger zu bewerten: Ohne viele gekennzeichnete Daten erhalten Sie nicht viele nützliche Informationen aus den standardmäßigen Ansätzen zur überwachten Lernbewertung.