Unüberwachtes Lernen: Was es ist und wie es funktioniert
Veröffentlicht: 2024-07-03Enthüllen Sie die Geheimnisse des unbeaufsichtigten Lernens, einer revolutionären Technik, die es Maschinen ermöglicht, zu autonomen Datenanalysten zu werden und wertvolle Erkenntnisse ohne menschliches Eingreifen zu gewinnen.
Inhaltsverzeichnis
- Was ist unüberwachtes Lernen?
- Unüberwachtes vs. überwachtes Lernen
- Wie unüberwachtes Lernen funktioniert
- Arten des unbeaufsichtigten Lernens
- Anwendungen des unbeaufsichtigten Lernens
- Vorteile des unbeaufsichtigten Lernens
- Nachteile des unbeaufsichtigten Lernens
Was ist unüberwachtes Lernen?
Unüberwachtes Lernen ist eine Art maschinelles Lernen (ML), das selbstständig Muster und Beziehungen in Daten findet. Der Begriff„unüberwacht“bedeutet, dass das Modell unbeschriftete Daten verwendet, das heißt, es erhält keine Anweisungen von Menschen, wonach es suchen soll, oder auch nur Anleitungen dazu, was es betrachtet. Stattdessen werden Algorithmen verwendet, um Datensätze auszuwerten und Korrelationen, Ähnlichkeiten, Unterschiede und andere Möglichkeiten zur mathematischen Beschreibung der Daten zu finden.
Maschinelles Lernen ist eine Teilmenge der künstlichen Intelligenz (KI), die Daten und statistische Methoden nutzt, um Modelle zu erstellen, die menschliches Denken nachahmen, anstatt sich auf hartcodierte Anweisungen zu verlassen. Unüberwachtes Lernen erfordert einen explorativen, datengesteuerten Ansatz, um Schlussfolgerungen aus großen Datensätzen zu ziehen, z. B. das Gruppieren von Entitäten nach gemeinsamen Merkmalen oder das Herausfinden, welche Datenpunkte dazu neigen, gleichzeitig aufzutreten – was sich in der Sortierung von Bildern von Laubbäumen und immergrünen Bäumen oder dem Finden von Bildern niederschlagen könnte dass Leute, dieSesamstraßestreamen, wahrscheinlich auchDaniel Tigerschauen.
Unüberwachtes vs. überwachtes Lernen
Im Gegensatz zu unbeaufsichtigten Methoden verwendet überwachtes Lernen gekennzeichnete Daten, die Eingaben mit den richtigen Ausgaben koppeln. Umgekehrt gibt es beim unbeaufsichtigten Lernen keine Eingaben und Ausgaben, die das Modell intuitiv erfassen kann, sondern nur Daten, die analysiert werden müssen.
Labels sorgen für die sogenannte Überwachung des Lernprozesses des Modells und leiten es an, anhand einer gegebenen Eingabe per Reverse Engineering die richtige Antwort zu finden. Der Einsatz von überwachtem Lernen ist sinnvoll, wenn Sie über diese Art von Daten verfügen, auf die das Modell abzielen und die daraus extrapolieren kann, darunter:
- Ja- oder Nein-Entscheidungen , z. B. Spam- oder Betrugserkennung
- Klassifizierung , beispielsweise die Identifizierung von Objekten in einem Bild oder die Spracherkennung
- Prognosen , z. B. Immobilienpreise oder Wetter
Im Gegensatz dazu geht es beim unüberwachten Lernen nicht darum, die richtige Antwort zu finden, sondern vielmehr darum, Muster oder Gruppierungen innerhalb von Daten zu finden. Die drei Hauptanwendungen sind:
- Clustering , beispielsweise Kundensegmentierung oder Dokumentengruppierung
- Assoziationen wie Empfehlungs-Engines oder Sicherheitsanomalien
- Dimensionsreduktion wird im Allgemeinen verwendet, um große Datensätze zu komprimieren, um sie besser verwaltbar zu machen
Maschinelles Lernen ist nicht nur auf überwachte oder unbeaufsichtigte Methoden beschränkt; Dies sind lediglich zwei Enden eines Spektrums. Andere Arten maschineller Lernmethoden umfassen halbüberwachtes, verstärkendes und selbstüberwachtes Lernen.
Wie unüberwachtes Lernen funktioniert
Unüberwachtes Lernen ist konzeptionell einfach: Algorithmen verarbeiten große Datenmengen, um festzustellen, wie verschiedene Datenpunkte zusammenhängen. Da die Daten unbeschriftet sind, hat unüberwachtes Lernen weder Kontext noch Ziel. Es geht einfach darum, Muster und andere Merkmale zu finden.
Hier ist ein kurzer Überblick über den unbeaufsichtigten Lernprozess:
1 Datenerfassung und -bereinigung.Beim unüberwachten Lernen wird jeweils eine Tabelle ausgewertet. Wenn Sie also über mehrere Datensätze verfügen, müssen Sie diese sorgfältig zusammenführen. Es ist auch wichtig, die Daten so gut wie möglich zu bereinigen, indem Sie beispielsweise Duplikate entfernen und Fehler korrigieren.
2 Funktionsskalierung.Unüberwachte Algorithmen können durch große Bereiche aus dem Gleichgewicht gebracht werden. Erwägen Sie daher die Umwandlung von Features in engere Bereiche mithilfe von Techniken wie:
- Normalisierung:Transformiert den oberen Wert in 1, den niedrigsten Wert in 0 und alles andere als Dezimalzahl.
- Standardisierung:Gibt den Durchschnittswert als 0 und die Standardabweichung als 1 an, wobei jeder Datenpunkt entsprechend angepasst wird.
- Logarithmische Transformation:Komprimiert große Bereiche, sodass bei einem Logarithmus zur Basis 10 100.000 zu 6 und 1.000.000 zu 7 wird.
3 Algorithmusauswahl.Für jede Art des unbeaufsichtigten Lernens gibt es mehrere Algorithmen, jeder mit Stärken und Schwächen (wir werden sie im nächsten Abschnitt durchgehen). Sie können verschiedene Algorithmen auf denselben Datensatz anwenden und vergleichen.
4 Mustererkennung und -identifizierung.Der gewählte Algorithmus macht sich an die Arbeit. Dies kann je nach Größe des Datensatzes und Effizienz des Algorithmus Sekunden bis Stunden dauern. Wenn Sie über einen großen Datensatz verfügen, möchten Sie den Algorithmus möglicherweise für einen Teilsatz ausführen, bevor Sie den gesamten Datensatz verarbeiten.
5 Interpretation.In diesem Stadium ist es an der Zeit, dass der Mensch die Macht übernimmt. Ein Datenanalyst kann Diagramme, Stichproben und verschiedene Berechnungen verwenden, um die Daten zu analysieren und zu interpretieren.
6 Anwendung.Wenn Sie sicher sind, dass Sie brauchbare Ergebnisse erzielen, nutzen Sie es. Wir werden später über einige Anwendungen des unbeaufsichtigten Lernens sprechen.
Arten des unbeaufsichtigten Lernens
Es gibt verschiedene Arten des unbeaufsichtigten Lernens, aber die drei am weitesten verbreiteten sind Clustering, Assoziationsregeln und Dimensionsreduktion.
Clustering
Durch Clustering werden Gruppen von Datenpunkten erstellt. Es ist wirklich nützlich, um einander ähnliche Elemente zu bündeln, damit sie später durch menschliche Analyse klassifiziert werden können. Wenn Sie beispielsweise über einen Datensatz verfügen, der das Kundenalter und den durchschnittlichen Transaktionsbetrag enthält, werden möglicherweise Cluster gefunden, die Ihnen bei der Entscheidung helfen, wohin Sie Ihre Werbeeinnahmen zielen.
Zu den Clustering-Typen gehören:
- Exklusives oder hartes Clustering.Jeder Datenpunkt kann nur zu einem Cluster gehören. Mit einem beliebten Ansatz namens k-means können Sie angeben, wie viele Cluster Sie erstellen möchten, andere können jedoch die optimale Anzahl von Clustern bestimmen.
- Überlappende oder weiche Clusterbildung. Dieser Ansatz ermöglicht es einem Datenpunkt, sich in mehreren Clustern zu befinden und in jedem einen „Grad“ der Zugehörigkeit zu haben, anstatt nur darin oder außerhalb.
- Hierarchisches Clustering. Erfolgt dies von unten nach oben, spricht man von hierarchischem agglomerativem Clustering (HAC); Top-Down wird als divisives Clustering bezeichnet. Bei beiden handelt es sich um viele Cluster, die immer größer werden.
- Probabilistisches Clustering. Dies ist ein anderer Ansatz, der die prozentuale Wahrscheinlichkeit ermittelt, dass ein bestimmter Datenpunkt zu einer beliebigen Kategorie gehört. Ein Vorteil dieses Ansatzes besteht darin, dass er einem bestimmten Datenpunkt eine sehr geringe Wahrscheinlichkeit zuordnen kann, Teil eines bestimmten Clusters zu sein, was möglicherweise anomale oder beschädigte Daten hervorhebt.
Vereinsregeln
Dieser Ansatz wird auch als Association Rule Mining oder Association Rule Learning bezeichnet und findet interessante Beziehungen zwischen Datenpunkten. Die häufigste Verwendung von Assoziationsregeln besteht darin, herauszufinden, welche Artikel häufig zusammen gekauft oder verwendet werden, damit das Modell den nächsten Kauf oder die nächste Show zum Anschauen vorschlagen kann.
Die drei Kernkonzepte von Assoziationsregeln sind:
- Unterstützung.Wie häufig werden A und B gemeinsam gefunden als Prozentsatz aller verfügbaren Instanzen (z. B. Transaktionen)? A und B können einzelne Elemente oder Sätze sein, die mehrere Elemente darstellen.
- Vertrauen. Wie oft kommt es vor, dass wenn A gesehen wird, auch B gesehen wird?
- Aufzug. Wie hoch ist die Wahrscheinlichkeit, dass A und B zusammen gesehen werden, im Vergleich dazu, wenn keine Korrelation bestünde? Lift ist das Maß für die „Interesse“ einer Assoziation.
Dimensionsreduktion
Die Dimensionsreduzierung entspricht der Anzahl der Spalten in einer Tabelle. Andere Begriffe für Spalten in diesem Zusammenhang sindFeaturesoderAttribute. Mit zunehmender Anzahl von Features in einem Datensatz wird es immer schwieriger, die Daten zu analysieren und optimale Ergebnisse zu erzielen.
Die Verarbeitung hochdimensionaler Daten erfordert mehr Zeit, Rechenleistung und Energie. Es kann auch zu minderwertigen Ergebnissen führen. Ein besonders schädliches Beispiel ist die Überanpassung, die Tendenz von Modellen für maschinelles Lernen, zu viel aus den Details in den Trainingsdaten zu lernen, auf Kosten breiterer Muster, die sich gut auf neue Daten übertragen lassen.
Dimensionsreduzierende Algorithmen erstellen vereinfachte Datensätze, indem sie die Originaldaten in kleinere, besser verwaltbare Versionen verdichten, die die wichtigsten Informationen enthalten. Sie funktionieren, indem sie korrelierte Merkmale zusammenführen und die Abweichung vom allgemeinen Trend notieren, wodurch die Anzahl der Spalten effektiv reduziert wird, ohne dass wichtige Details verloren gehen.
Wenn Sie beispielsweise über einen Datensatz zu Hotels und deren Annehmlichkeiten verfügen, stellt das Modell möglicherweise fest, dass viele Funktionen mit der Sternebewertung korrelieren, sodass Attribute wie Spa, Zimmerservice und 24-Stunden-Rezeption in einer einzigen Spalte komprimiert werden können.
In der Regel reduzieren Ingenieure die Dimensionalität als Vorverarbeitungsschritt, um die Leistung und Ergebnisse anderer Prozesse zu verbessern, einschließlich, aber nicht beschränkt auf, Clustering und Lernen von Assoziationsregeln.
Anwendungen des unbeaufsichtigten Lernens
Einige Beispiele sind:
- Warenkorbanalyse.Einzelhändler machen von Verbandsregeln reichlich Gebrauch. Wenn Sie zum Beispiel Hot Dogs in Ihren Einkaufswagen gelegt haben, könnte es sein, dass Ihnen der Kauf von Ketchup und Hot Dog-Brötchen empfohlen wird, da diese Kombinationen bei anderen Käufern großen Anklang gefunden haben. Die gleichen Daten könnten auch dazu führen, dass sie im Supermarkt Ketchup und Hotdogs nebeneinander anbieten.
- Empfehlungsmaschinen. Diese betrachten Ihre persönlichen Daten – demografische Daten und Verhaltensmuster – und vergleichen sie mit denen anderer, um zu erraten, was Sie als Nächstes gerne kaufen oder ansehen möchten. Sie können die drei Arten des unbeaufsichtigten Lernens nutzen: Clustering, um zu bestimmen, welche Muster anderer Kunden Ihr Muster vorhersagen könnten, Assoziationsregeln, um Korrelationen zwischen bestimmten Aktivitäten oder Käufen zu finden, und Dimensionsreduktion, um die Verarbeitung komplexer Datensätze zu erleichtern.
- Kundensegmentierung. Während Vermarkter ihre Zielgruppen seit Jahrzehnten in benannte Kategorien einteilen, können durch unbeaufsichtigtes Clustering Gruppierungen herausgesucht werden, die möglicherweise noch keinem Menschen in den Sinn gekommen sind. Dieser Ansatz ermöglicht eine verhaltensbasierte Analyse und kann Teams dabei helfen, Nachrichten und Werbeaktionen auf neue Weise auszurichten.
- Anomalieerkennung.Da es sehr gut darin ist, Muster zu verstehen, wird unüberwachtes Lernen oft eingesetzt, um auf Unregelmäßigkeiten aufmerksam zu machen. Zu den Einsatzmöglichkeiten gehören die Kennzeichnung betrügerischer Kreditkartenkäufe, beschädigter Daten in einer Tabelle und Arbitragemöglichkeiten auf den Finanzmärkten.
- Spracherkennung.Für Computer ist es schwierig, Sprache zu analysieren, da sie mit Hintergrundgeräuschen, Akzenten, Dialekten und Stimmen zu kämpfen haben. Unüberwachtes Lernen hilft Spracherkennungsmaschinen dabei, zu lernen, welche Laute mit welchen Phonemen (Spracheinheiten) korrelieren und welche Phoneme typischerweise zusammen gehört werden, zusätzlich zur Filterung von Hintergrundgeräuschen und anderen Verbesserungen.
Vorteile des unbeaufsichtigten Lernens
- Geringe menschliche Beteiligung.Sobald sich ein unbeaufsichtigtes Lernsystem als zuverlässig erwiesen hat, erfordert der Betrieb nur noch wenig Aufwand, außer sicherzustellen, dass die Ein- und Ausgänge ordnungsgemäß weitergeleitet werden.
- Funktioniert mit Rohdaten. Es ist nicht erforderlich, Beschriftungen bereitzustellen, also anzugeben, welche Ausgabe aus einer bestimmten Eingabe resultieren soll. Diese Fähigkeit, Daten so zu verarbeiten, wie sie anfallen, ist äußerst wertvoll, wenn es um große Mengen unberührter Daten geht.
- Entdeckung versteckter Muster. Ohne ein anderes Ziel oder eine andere Agenda als das Finden von Mustern kann unüberwachtes Lernen Sie auf „unbekanntes Bekanntes“ hinweisen – Schlussfolgerungen, die auf Daten basieren, die Sie zuvor nicht berücksichtigt hatten, die aber nach der Präsentation Sinn ergeben. Dieser Ansatz ist besonders nützlich, um Nadeln im Heuhaufen zu finden, beispielsweise bei der Analyse von DNA auf die Ursache des Zelltods.
- Datenexploration. Durch die Reduzierung der Dimensionalität und das Auffinden von Mustern und Clustern verschafft unüberwachtes Lernen Analysten einen Vorsprung bei der Sinnfindung neuartiger Datensätze.
- Inkrementelles Training. Viele unbeaufsichtigte Modelle können dabei lernen: Wenn mehr Daten eingehen, können sie die neuesten Eingaben im Verhältnis zu dem bewerten, was sie bereits entdeckt haben. Dies erfordert viel weniger Zeit und Rechenaufwand.
Nachteile des unbeaufsichtigten Lernens
- Sie benötigen viele Daten.Unüberwachtes Lernen ist anfällig für große Fehler, wenn es an begrenzten Beispielen trainiert wird. Möglicherweise werden Muster in den Daten gefunden, die in der realen Welt nicht zutreffen (Überanpassung), sich angesichts neuer Daten dramatisch ändern (Instabilität) oder nicht über genügend Informationen verfügen, um etwas Sinnvolles zu bestimmen (begrenzte Mustererkennung).
- Geringe Interpretierbarkeit. Es ist möglicherweise schwer zu verstehen, warum ein Algorithmus, beispielsweise die Logik für das Clustering, zu einer bestimmten Schlussfolgerung gelangt ist.
- Falsch positive Ergebnisse. Ein unbeaufsichtigtes Modell könnte zu viel in anormale, aber unwichtige Datenpunkte einlesen, ohne dass Labels ihm beibringen, was Aufmerksamkeit wert ist.
- Schwer systematisch zu bewerten.Da es keine „richtige“ Antwort zum Vergleich gibt, gibt es keine einfache Möglichkeit, die Genauigkeit oder den Nutzen der Ausgabe zu messen. Das Problem kann etwas gemildert werden, indem unterschiedliche Algorithmen für dieselben Daten ausgeführt werden. Letztendlich wird das Maß für die Qualität jedoch weitgehend subjektiv sein.