Überwachtes vs. unüberwachtes Lernen: Unterschiede, Vorteile und Anwendungsfälle
Veröffentlicht: 2025-01-17Maschinelles Lernen (ML) unterstützt viele Technologien, auf die wir täglich angewiesen sind, beispielsweise Bilderkennung und autonome Fahrzeuge. Zwei grundlegende Ansätze – überwachtes und unüberwachtes Lernen – bilden das Rückgrat dieser Systeme. Obwohl beide für das Training von ML-Modellen von entscheidender Bedeutung sind, unterscheiden sie sich in ihrer Methodik, ihren Zielen und Anwendungen.
In diesem Leitfaden vergleichen wir diese beiden Ansätze, heben ihre Unterschiede hervor und untersuchen ihre Vorteile und Herausforderungen. Wir werden auch praktische Anwendungen untersuchen, um Ihnen zu helfen, zu verstehen, welches für verschiedene Aufgaben am besten geeignet ist.
Inhaltsverzeichnis
- Was ist überwachtes Lernen?
- Was ist unüberwachtes Lernen?
- Beaufsichtigt vs. unbeaufsichtigt: Hauptunterschiede
- Vorteile des überwachten und unbeaufsichtigten Lernens
- Herausforderungen des überwachten und unbeaufsichtigten Lernens
- Anwendungen des überwachten und unüberwachten Lernens
- Abschluss
Was ist überwachtes Lernen?
Überwachtes Lernen trainiert ML-Systeme mithilfe gekennzeichneter Daten. In diesem Zusammenhang bedeutet „beschriftet“, dass jedes Trainingsbeispiel mit einer bekannten Ausgabe gepaart ist. Diese häufig von Experten erstellten Beschriftungen helfen dem System, die Beziehungen zwischen Eingaben und Ausgaben zu erlernen. Einmal trainiert, können überwachte Systeme diese erlernten Beziehungen auf neue, unsichtbare Daten anwenden, um Vorhersagen oder Klassifizierungen zu treffen.
Im Zusammenhang mit selbstfahrenden Autos könnte beispielsweise ein überwachtes Lernsystem gekennzeichnete Videodaten analysieren. Diese Anmerkungen identifizieren Straßenschilder, Fußgänger und Hindernisse und ermöglichen es dem System, ähnliche Merkmale in realen Fahrszenarien zu erkennen und darauf zu reagieren.
Algorithmen für überwachtes Lernen lassen sich in zwei Hauptkategorien einteilen:
- Klassifizierung: Diese Algorithmen weisen neuen Daten Labels zu, beispielsweise zur Identifizierung von E-Mails als Spam oder Nicht-Spam.
- Regression: Diese Algorithmen sagen kontinuierliche Werte voraus, z. B. die Prognose zukünftiger Verkäufe auf der Grundlage der bisherigen Leistung.
Wenn die Datensätze wachsen und die Rechenressourcen verbessert werden, werden überwachte Systeme genauer und effektiver und unterstützen Anwendungen wie Betrugserkennung und medizinische Diagnostik.
Was ist unüberwachtes Lernen?
Im Gegensatz dazu analysiert unüberwachtes Lernen Daten ohne gekennzeichnete Beispiele und verlässt sich auf statistische Algorithmen, um verborgene Muster oder Beziehungen aufzudecken. Im Gegensatz zu überwachten Systemen leiten diese Modelle Strukturen ab und aktualisieren ihre Ergebnisse dynamisch, sobald neue Informationen verfügbar werden. Während unüberwachtes Lernen bei der Mustererkennung hervorragende Ergebnisse liefert, ist es bei Vorhersageaufgaben in der Regel weniger effektiv.
Ein praktisches Beispiel sind Nachrichtenaggregationsdienste. Diese Systeme gruppieren verwandte Artikel und Social-Media-Beiträge zu einem aktuellen Nachrichtenereignis ohne externe Kennzeichnung. Durch die Identifizierung von Gemeinsamkeiten in Echtzeit führen sie unbeaufsichtigtes Lernen durch, um Schlüsselthemen hervorzuheben.
Hier sind einige spezielle Algorithmen für unbeaufsichtigtes Lernen:
- Clustering:Diese werden verwendet, um Verbraucher zu segmentieren und Segmente anzupassen, wenn sich ihr Verhalten ändert.
- Assoziation:Diese erkennen Muster in Daten, beispielsweise die Identifizierung von Anomalien, die auf Sicherheitsverletzungen hinweisen könnten.
- Dimensionsreduktion: Diese vereinfachen Datenstrukturen unter Beibehaltung wichtiger Informationen und werden häufig zum Komprimieren und Visualisieren komplexer Datensätze verwendet.
Unüberwachtes Lernen ist ein wesentlicher Bestandteil der explorativen Datenanalyse und der Gewinnung von Erkenntnissen in Szenarien, in denen gekennzeichnete Daten nicht verfügbar sind.
Beaufsichtigt vs. unbeaufsichtigt: Hauptunterschiede
Überwachtes und unbeaufsichtigtes Lernen spielen im ML unterschiedliche Rollen. Diese Ansätze unterscheiden sich hinsichtlich Datenanforderungen, menschlicher Beteiligung, Aufgaben und Anwendungen. Die folgende Tabelle hebt diese Unterschiede hervor, die wir weiter untersuchen werden.
Überwachtes Lernen | Unbeaufsichtigtes Lernen | |
Eingabedaten | Erfordert gekennzeichnete Daten | Erfordert unbeschriftete Daten |
Objektiv | Prognostizieren oder klassifizieren Sie Ausgabebeschriftungen basierend auf Eingabemerkmalen | Entdecken und aktualisieren Sie verborgene Muster, Strukturen oder Darstellungen in Daten |
Menschliches Engagement | Erheblicher manueller Aufwand für die Kennzeichnung großer Datensätze und fachkundige Anleitung zur Auswahl von Funktionen | Minimaler, aber sehr spezialisierter menschlicher Eingriff. Hauptsächlich zum Festlegen von Algorithmusparametern, zur Optimierung der Ressourcennutzung im großen Maßstab und zur Algorithmenforschung. |
Hauptaufgaben | Regression, Klassifizierung | Clustering, Assoziation, Dimensionsreduktion |
Gängige Algorithmen | Lineare und logistische Regression, Entscheidungsbäume, neuronale Netze | K-Means-Clustering, Hauptkomponentenanalyse (PCA), Autoencoder |
Ausgabe | Vorhersagemodelle, die neue Datenpunkte klassifizieren oder regressieren können | Gruppierungen oder Darstellungen der Daten (z. B. Cluster, Komponenten) |
Anwendungen | Spam-Erkennung, Betrugserkennung, Bildklassifizierung, Preisvorhersage usw. | Kundensegmentierung, Warenkorbanalyse, Anomalieerkennung usw. |
Unterschiede während der Ausbildungsphase
Der Hauptunterschied zwischen den beiden Arten von Algorithmen besteht in der Art der Datensätze, von denen sie abhängen. Überwachtes Lernen profitiert von großen Mengen gekennzeichneter Daten. Folglich sind die fortschrittlichsten überwachten Systeme auf umfangreiche, nicht spezialisierte menschliche Arbeitskräfte angewiesen, um Daten zu sichten und Etiketten zu erstellen. Gekennzeichnete Daten sind in der Regel auch ressourcenintensiver in der Verarbeitung, sodass überwachte Systeme am oberen Ende der Skala nicht so viele Daten verarbeiten können.
Unüberwachte Lernsysteme können bereits bei kleineren Datensätzen ihre Wirksamkeit entfalten und mit den gleichen Ressourcen viel größere Datenmengen verarbeiten. Ihre Daten lassen sich leichter beschaffen und verarbeiten, da sie nicht auf umfangreiche, unspezialisierte menschliche Arbeit angewiesen sind. Der Nachteil besteht darin, dass die Systeme bei Vorhersageaufgaben normalerweise keinen so hohen Genauigkeitsgrad erreichen und oft auf spezielle Arbeit angewiesen sind, um effektiv zu sein. Anstatt dort eingesetzt zu werden, wo Genauigkeit von entscheidender Bedeutung ist, werden sie häufiger verwendet, um Muster in Daten abzuleiten und zu aktualisieren, im großen Maßstab und bei Datenänderungen.
Unterschiede bei der Bereitstellung
Anwendungen für überwachtes Lernen verfügen normalerweise über einen integrierten Mechanismus, um mehr beschriftete Daten im großen Maßstab zu erhalten. E-Mail-Benutzer können beispielsweise ganz einfach markieren, ob eingehende Nachrichten Spam sind oder nicht. Ein E-Mail-Anbieter kann die markierten Nachrichten in einem Trainingssatz zusammenfassen und dann logistische Regressionssysteme für die Spam-Erkennung trainieren. Sie tauschen längere und ressourcenintensivere Schulungen gegen eine schnellere Entscheidungsfindung im Einsatz ein. Zu den gängigen überwachten Trainingsalgorithmen gehören neben logistischen Regressionssystemen auch Entscheidungsbäume und neuronale Netze, die allgegenwärtig zur Vorhersage und Entscheidungsfindung sowie zur Erkennung komplexer Muster eingesetzt werden.
Unüberwachte Systeme zeichnen sich aus, wenn sie auf Probleme mit großen Mengen unstrukturierter Daten angewendet werden. Sie können Muster in den Daten erkennen, auch wenn diese vorübergehend sind, und müssen erkannt werden, bevor das Training für überwachtes Lernen abgeschlossen ist. Beispielsweise können Clustering-Algorithmen, eine Art unbeaufsichtigtes Lernsystem, Verbrauchersegmente erkennen und aktualisieren, wenn sich Trends ändern. Wenn sich Trends in neue und unbekannte Muster verschieben, bleiben sie relevant, ohne dass Ausfallzeiten für eine Umschulung erforderlich sind.
Ein Beispiel für unbeaufsichtigtes Lernen ist der Einsatz der Hauptkomponentenanalyse (PCA) im Finanzwesen. PCA ist ein Algorithmus, der auf Gruppen von Investitionen in großem Maßstab angewendet werden kann und dabei hilft, neu entstehende Eigenschaften der Gruppe abzuleiten und zu aktualisieren. Dazu gehören wichtige Finanzindikatoren, etwa die wichtigsten Quellen des Anlagerisikos und Faktoren, die sich wahrscheinlich auf die Rendite auswirken. Andere gängige Arten unbeaufsichtigter Lernsysteme sind Autoencoder, die Daten komprimieren und vereinfachen, oft als vorbereitender Schritt vor der Anwendung anderer ML-Algorithmen.
Vorteile des überwachten und unbeaufsichtigten Lernens
Sowohl überwachte als auch unbeaufsichtigte Systeme eignen sich für die Verarbeitung von Daten in einem Umfang und mit einer Geschwindigkeit, die die von Menschen ohne Hilfe übertreffen. Sie eignen sich jedoch am besten für unterschiedliche Anwendungen. Im Folgenden stellen wir einige ihrer Hauptvorteile gegenüber.
Überwachte Systeme
- Excel, wenn wichtige historische Daten verfügbar sind
- Sind viel besser als unbeaufsichtigte Systeme für das Training von Daten mit bekannter Struktur, Eigenschaften und Mustern
- Sind ideal für die Erkennung und Anwendung bekannter Datenmerkmale im großen Maßstab
- Kann Ergebnisse liefern, die für den Menschen verständlich und intuitiv sinnvoll sind
- Kann bei neuen und unbekannten Daten eine höhere Genauigkeit erzielen
- Kann Vorhersagen schneller und in größerem Maßstab treffen als unbeaufsichtigte Systeme
Unüberwachte Systeme
- Sie sind besonders gut darin, bisher ungesehene oder unbekannte Strukturen und Zusammenhänge in Daten zu erkennen
- Gute Ergebnisse erzielen Sie, wenn die Daten weniger strukturiert sind und ihre Eigenschaften weniger bekannt sind
- Arbeiten Sie unter bestimmten Bedingungen, unter denen überwachte Systeme nicht gut funktionieren (z. B. in Situationen, in denen Daten nicht verfügbar sind oder in denen sie verfügbar sind, aber nicht von Menschen verarbeitet wurden).
- Erfordern weniger Ressourcen und weniger Zeit beim Training als überwachte Systeme für gleichwertige Datenmengen
- Kann trainiert und verwendet werden, wenn zu viele Daten vorhanden sind, um sie mit überwachten Systemen gut verarbeiten zu können
Herausforderungen des überwachten und unbeaufsichtigten Lernens
Überwachte und unüberwachte Systeme gehen jeweils unterschiedliche Kompromisse ein und die Herausforderungen, denen sie gegenüberstehen, sind manchmal recht unterschiedlich. Im Folgenden heben wir einige der Hauptunterschiede hervor.
Überwachte Systeme
- Erfordern Zugriff auf große Mengen von Menschen verarbeiteter Daten, die nur manchmal verfügbar oder leicht zu beschaffen sind
- Haben oft längere und ressourcenintensivere Trainingsphasen
- Es kann schwierig sein, sich schnell anzupassen, wenn sich die Kerndateneigenschaften ändern
- Bei der Verarbeitung von inhärent unstrukturierten Daten wie Video oder Audio stehen Sie vor Herausforderungen
Unüberwachte Systeme
- Erkennt häufiger Muster, die sich nicht gut auf neue Datenbeispiele übertragen lassen
- Es kann schwierig sein, so genau zu sein wie überwachte Systeme
- Sie liefern Ergebnisse, die für Menschen schwer zu interpretieren sind, und die Interpretation dieser Ergebnisse kann subjektiver sein.
- Pro Vorhersage in der realen Welt können mehr Zeit und Ressourcen benötigt werden
Anwendungen des überwachten und unüberwachten Lernens
Manche Anwendungen und Probleme lassen sich am besten mit überwachten Lernsystemen lösen, andere lassen sich am besten mit unbeaufsichtigten Systemen lösen und wieder andere lassen sich am besten mit einer Mischung lösen. Hier sind drei bekannte Beispiele.
Gemischte Lernsysteme und halbüberwachtes Lernen
Es ist wichtig zu beachten, dass die meisten realen Anwendungen eine Mischung aus überwachten und unbeaufsichtigten Modellen verwenden. Lernsysteme werden oft auf der Grundlage von Faktoren wie Budget, Datenverfügbarkeit, Leistungsanforderungen und technischer Komplexität kombiniert. Gelegentlich kann auch eine spezielle Teilmenge von Lernalgorithmen verwendet werden, die versucht, die Vorteile beider Ansätze zu kombinieren – halbüberwachtes Lernen. In den folgenden Beispielen nennen wir das wahrscheinlichste oder primäre System, das wahrscheinlich verwendet wird.
Verkehrsvorhersage (überwacht)
Die Verkehrsvorhersage ist eine anspruchsvolle Aufgabe. Glücklicherweise stehen zahlreiche gekennzeichnete Daten zur Verfügung, da die Städte das Straßenverkehrsaufkommen regelmäßig prüfen und aufzeichnen. Regressionsalgorithmen, eine Art überwachtes Lernen, lassen sich leicht auf diese Daten anwenden und können recht genaue Vorhersagen über den Verkehrsfluss liefern. Ihre Vorhersagen können bei der Entscheidungsfindung rund um den Straßenbau, die Verkehrsbeschilderung und die Platzierung von Ampeln hilfreich sein. Unbeaufsichtigte Algorithmen sind in dieser Phase weniger effektiv. Sie können jedoch auf Verkehrsdaten basieren, die nach einer Änderung der Straßenstruktur anfallen. An diesem Punkt helfen sie dabei, automatisch zu erkennen und abzuleiten, ob neue und bisher ungesehene Probleme auftreten könnten.
Genetisches Clustering (unüberwacht)
Die Analyse genetischer Daten kann langsam und umständlich sein, da die Datenmengen groß sind und die meisten Daten nicht gut analysiert werden. Wir wissen oft nicht viel darüber, was die genetischen Daten enthalten – wo Gene und andere genetische Komponenten im Genom gespeichert sein könnten, wie sie entschlüsselt und interpretiert werden usw. Unüberwachte Algorithmen sind für dieses Problem besonders relevant, da sie große Mengen verarbeiten können von Daten und erkennt automatisch, welche Muster darin enthalten sind. Sie können auch dabei helfen, ähnlich aussehende genetische Informationen in separaten Clustern zu sammeln. Sobald genetische Daten auf der Grundlage ihrer Ähnlichkeit geclustert wurden, können die Cluster leicht verarbeitet und getestet werden, um festzustellen, welche biologische Funktion (falls vorhanden) sie erfüllen.
LLMs und Reinforcement Learning (gemischt)
Große Sprachmodelle (LLMs) sind ein Beispiel für eine Anwendung, die unüberwachte und überwachte Lernsysteme kombiniert. Das ursprüngliche System, das LLM, ist normalerweise ein Beispiel für ein unbeaufsichtigtes System. Um ein LLM zu erstellen, werden große Datenmengen (z. B. alle im Internet verfügbaren englischsprachigen Texte) von einem unbeaufsichtigten System analysiert. Das System leitet aus den Daten viele Muster ab und entwickelt Grundregeln für die Konversation auf Englisch.
Die Schlussfolgerungen, die ein LLM zieht, tragen jedoch nicht dazu bei, dass er im Gespräch wie ein typischer Mensch klingt. Sie tragen auch nicht dazu bei, individuelle Kommunikationspräferenzen zu berücksichtigen. Ein überwachtes System – insbesondere ein Verstärkungssystem, das kommentiertes Feedback von Benutzern nutzt (Reinforcement Learning from Human Feedback, kurz RLHF) – ist eine Möglichkeit, dieses Problem zu lösen. RLHF kann auf einen bereits trainierten LLM angewendet werden, um ihm zu helfen, im Allgemeinen gut mit Menschen zu kommunizieren. Es kann auch individuelle Vorlieben lernen und auf die Art und Weise sprechen, die eine bestimmte Person bevorzugt.
Abschluss
Zusammenfassend lässt sich sagen, dass überwachtes und unüberwachtes Lernen zwei grundlegende Teilbereiche von ML sind, die jeweils einzigartige Stärken bieten. Überwachtes Lernen zeichnet sich durch Szenarien mit reichlich gekennzeichneten Daten, ausreichenden Ressourcen für Vorabschulungen und der Notwendigkeit einer schnellen, skalierbaren Entscheidungsfindung aus. Andererseits glänzt unüberwachtes Lernen beim Aufdecken verborgener Strukturen und Beziehungen in Daten, insbesondere wenn gekennzeichnete Daten oder Schulungsressourcen begrenzt sind und die Entscheidungsfindung mehr Zeit und Komplexität erfordert. Wenn Sie die Vorteile, Herausforderungen und Anwendungsfälle beider Ansätze verstehen, können Sie fundierte Entscheidungen darüber treffen, wann und wie Sie sie effektiv anwenden.