Regression beim maschinellen Lernen: Was es ist und wie es funktioniert
Veröffentlicht: 2024-11-13Regression beim maschinellen Lernen (ML) ist ein grundlegendes Konzept zur Vorhersage kontinuierlicher Werte basierend auf Eingabemerkmalen. Ob es um die Schätzung von Immobilienpreisen oder die Prognose von Verkäufen geht: Regressionsmodelle stellen Beziehungen zwischen Variablen her. In diesem Artikel erläutern wir die verschiedenen Arten von Regressionsmodellen, die dahinter stehenden Algorithmen und zeigen, wann die einzelnen Methoden am besten angewendet werden. Außerdem erfahren Sie, wie Regression funktioniert, welche praktischen Anwendungsfälle es gibt und welche Vorteile und Herausforderungen mit der Verwendung von Regression beim maschinellen Lernen verbunden sind.
Inhaltsverzeichnis
- Was ist Regression?
- Arten von Regressionsmodellen
- Für die Regression verwendete Algorithmen
- Beispiele für Regression
- Vorteile der Regression
- Herausforderungen der Regression
Was ist Regression beim maschinellen Lernen?
Regression ist eine Art überwachtes Lernen, mit dem kontinuierliche Werte basierend auf Eingabedaten vorhergesagt werden. Es schätzt die Beziehungen zwischen Variablen, um verschiedene Dinge vorherzusagen und zu erklären, beispielsweise Immobilienpreise, Börsentrends oder Wetterbedingungen. Regressionsmodelle ordnen Eingabemerkmale einer kontinuierlichen Zielvariablen zu und ermöglichen so präzise numerische Vorhersagen.
Beispielsweise kann ein Regressionsmodell anhand der Wetterdaten der vergangenen Woche die Niederschlagsmenge von morgen vorhersagen. Die prognostizierten Werte sind kontinuierlich, das heißt, sie können überall auf einer numerischen Skala liegen – beispielsweise bei der auf Dezimalstellen genau gemessenen Temperatur oder bei den für die kommenden Monate prognostizierten Umsatzerlösen.
Regression vs. Klassifizierung: Was ist der Unterschied?
Während die Regression kontinuierliche Ergebnisse vorhersagt, konzentriert sich die Klassifizierung auf die Vorhersage diskreter Kategorien oder Klassen. Beispielsweise könnte ein Regressionsmodell die genaue Niederschlagsmenge für morgen vorhersagen, während ein Klassifizierungsmodell vorhersagen könnte, ob es überhaupt regnen wird (ja oder nein). Der Hauptunterschied besteht darin, dass es bei der Regression um numerische Werte geht, während bei der Klassifizierung Daten vordefinierten Kategorien zugeordnet werden.
In einigen Fällen ist es möglich, die Ausgabe eines Regressionsmodells an eine Klassifizierungsaufgabe anzupassen und umgekehrt, aber die beiden Ansätze eignen sich im Allgemeinen für unterschiedliche Arten von Problemen.
Regression: Algorithmus, Modell oder Analyse?
Regression wird manchmal als Regressionsanalysebezeichnet, ein weit gefasster statistischer Begriff, der die Suche nach kontinuierlichen Beziehungen zwischen Beobachtungen und Ergebnissen beschreibt. Ein Regressionsalgorithmus ist ein spezielles mathematisches Werkzeug zur Identifizierung dieser Beziehungen. Wenn ein Algorithmus zum Trainieren eines Modells für maschinelles Lernen verwendet wird, wird das Ergebnis alsRegressionsmodellbezeichnet.
Diese drei Begriffe –Regressionsanalyse,RegressionsalgorithmusundRegressionsmodell– werden oft synonym verwendet, repräsentieren jedoch jeweils einen anderen Aspekt des Regressionsprozesses.
Arten der Regression beim maschinellen Lernen
Regressionsmodelle gibt es in vielen Formen, die jeweils darauf ausgelegt sind, unterschiedliche Beziehungen zwischen Eingabedaten und vorhergesagten Ergebnissen zu verarbeiten. Während die lineare Regression am häufigsten verwendet wird und relativ einfach zu verstehen ist, eignen sich andere Modelle wie die Polynom-, Logistik- und Bayes'sche Regression besser für komplexere oder speziellere Aufgaben. Nachfolgend finden Sie einige der wichtigsten Arten von Regressionsmodellen und deren typische Verwendung.
Einfache und multiple (lineare) Regression
Die lineare Regression, eine beliebte Regressionstechnik, ist für ihre einfache Interpretation, schnelle Schulung und zuverlässige Leistung in verschiedenen Anwendungen bekannt. Es schätzt die Beziehung zwischen erklärenden Variablen und Zielvariablen mithilfe von Geraden. Bei der einfachen linearen Regression handelt es sich um eine erklärende Variable, bei der multiplen linearen Regression um zwei oder mehr. Wenn jemand über Regressionsanalyse spricht, meint er im Allgemeinen lineare Regression.
Polynomielle Regression
Wenn gerade Linien die Beziehung zwischen beobachteten Variablen und erwarteten Ergebnissen nicht zufriedenstellend erklären können, ist ein polynomiales Regressionsmodell möglicherweise die bessere Option. Dieses Modell sucht nach kontinuierlichen, komplexen Beziehungen und kann Muster identifizieren, die sich am besten durch Kurven oder eine Kombination aus Kurven und geraden Linien beschreiben lassen.
Logistische Regression
Wenn die Beziehung zwischen Beobachtungen und den vorhergesagten Werten nicht kontinuierlich (oder diskret) ist, ist die logistische Regression das am häufigsten verwendete Werkzeug für diese Aufgabe. Diskret bedeutet in diesem Zusammenhang Situationen, in denen Brüche oder reelle Zahlen nicht so relevant sind (z. B. wenn man vorhersagt, wie viele Kunden ein Café betreten werden, liefert die logistische Regression 4 oder 5 statt etwas, das schwerer zu interpretieren ist, wie 4,35).
Die bekannteste Form der logistischen Regression istdie binäre Regression, die die Antworten auf binäre (dh Ja/Nein)-Fragen vorhersagt; Typischerweise ist die logistische Regression binär. Komplexere Varianten wie die multinomiale Regression sagen Antworten für Fragen voraus, die mehr als zwei Auswahlmöglichkeiten bieten. Logistische Modelle basieren im Kern auf der Auswahl einer von mehreren Funktionen, um kontinuierliche Eingaben in diskrete umzuwandeln.
Bayesianische Regression
Lineare und andere Regressionstechniken erfordern umfangreiche Trainingsdaten, um genaue Vorhersagen zu treffen. Im Gegensatz dazu ist die Bayes'sche Regression ein fortschrittlicher statistischer Algorithmus, der mit weniger Daten zuverlässige Vorhersagen treffen kann, vorausgesetzt, einige der statistischen Eigenschaften der Daten sind bekannt oder können geschätzt werden. Beispielsweise könnte die Vorhersage der Verkäufe neuer Produkte während der Weihnachtszeit aufgrund fehlender Verkaufsdaten für das neue Produkt für die lineare Regression eine Herausforderung darstellen. Eine Bayes'sche Regression kann Verkaufsdaten mit höherer Genauigkeit vorhersagen, indem davon ausgegangen wird, dass die Verkäufe des neuen Produkts derselben statistischen Verteilung folgen wie die Verkäufe anderer ähnlicher Produkte. Typischerweise gehen Bayes'sche Regressionen davon aus, dass die Daten einer Gaußschen statistischen Verteilung folgen, was zur austauschbaren Verwendung der BegriffeBayes'scheundGauß'sche Regressionführt.
Regression mit gemischten Effekten
Bei der Regression wird davon ausgegangen, dass zwischen den beobachteten Daten und den vorhergesagten Daten eine nicht zufällige Beziehung besteht. Manchmal ist diese Beziehung aufgrund komplexer gegenseitiger Abhängigkeiten in den beobachteten Daten oder gelegentlichem Zufallsverhalten schwer zu definieren. Mixed-Effects-Modelle sind Regressionsmodelle, die Mechanismen zum Umgang mit Zufallsdaten und anderen Verhaltensweisen umfassen, die schwierig zu modellieren sind. Diese Modelle werden auch austauschbar als gemischte Modelle, Mixed-Effects-Modelle oder Mixed-Error-Modelle bezeichnet.
Andere Regressionsalgorithmen
Die Regression ist sehr gut untersucht. Es gibt viele andere, komplexere oder spezialisiertere Regressionsalgorithmen, darunter solche, die Binomial-, Multinomial- und fortgeschrittene Mixed-Effects-Techniken verwenden, sowie solche, die mehrere Algorithmen kombinieren. Mehrere kombinierte Algorithmen können in sequentieller Reihenfolge organisiert sein, beispielsweise in mehreren sequentiellen Schichten, oder parallel ausgeführt und dann auf irgendeine Weise aggregiert werden. Ein System, das mehrere Modelle parallel ausführt, wird oft als Gesamtstruktur bezeichnet.
Für die Regressionsanalyse verwendete Algorithmen
Beim maschinellen Lernen werden viele Arten von Regressionsalgorithmen verwendet, um Regressionsmodelle zu generieren. Einige Algorithmen sind darauf ausgelegt, bestimmte Modelltypen zu erstellen (in diesem Fall haben Algorithmus und Modell häufig denselben Namen). Andere konzentrieren sich auf die Verbesserung von Aspekten bestehender Modelle, beispielsweise auf die Verbesserung ihrer Genauigkeit oder Effizienz. Im Folgenden werden einige der am häufigsten verwendeten Algorithmen behandelt. Bevor wir das tun, ist es jedoch wichtig zu verstehen, wie sie bewertet werden: Im Allgemeinen basiert sie auf zwei Schlüsseleigenschaften: Varianz und Verzerrung.
- Die Varianzmisst, wie stark die Vorhersagen eines Modells schwanken, wenn es auf verschiedenen Datensätzen trainiert wird. Ein Modell mit hoher Varianz passt möglicherweise sehr gut zu den Trainingsdaten, schneidet jedoch bei neuen, unsichtbaren Daten schlecht ab – ein Phänomen, das als Überanpassung bezeichnet wird. Im Idealfall sollten Regressionsalgorithmen Modelle mit geringer Varianz erzeugen, was bedeutet, dass sie sich gut auf neue Daten verallgemeinern lassen und nicht übermäßig empfindlich auf Änderungen im Trainingssatz reagieren.
- Biasbezieht sich auf den Fehler, der entsteht, wenn ein reales Problem, das möglicherweise zu komplex ist, mit einem vereinfachten Modell approximiert wird. Eine hohe Verzerrung kann zu einer Unteranpassung führen, bei der das Modell wichtige Muster in den Daten nicht erfassen kann, was zu ungenauen Vorhersagen führt. Im Idealfall sollte die Verzerrung gering sein, was darauf hindeutet, dass das Modell die Beziehungen in den Daten effektiv erfasst, ohne zu stark zu vereinfachen. In einigen Fällen kann die Verzerrung durch eine Verbesserung der Trainingsdaten oder durch eine Anpassung der Parameter des Regressionsalgorithmus gemildert werden.
Einfache und multiple (lineare) Regression
Die einfache lineare Regression analysiert die Beziehung zwischen einer einzelnen erklärenden Variablen und einem vorhergesagten Ergebnis und ist damit die einfachste Form der Regression. Die multiple lineare Regression ist komplizierter und findet Beziehungen zwischen zwei oder mehr Variablen und einem Ergebnis. Beide finden Beziehungen, die eine lineare Struktur haben, basierend auf linearen Gleichungen, die im Allgemeinen diesem Muster entsprechen:
y =β + β1x + ε
Hier istyein vorherzusagendes Ergebnis,xist eine Variable, anhand derer es vorhergesagt werden kann,εist ein Fehler, den es zu minimieren gilt, undβundβ1 sind Werte, die die Regression berechnet.
Die lineare Regression nutzt einen überwachten Lernprozess, um Zusammenhänge zwischen erklärenden Variablen und vorhergesagten Ergebnissen herzustellen. Der Lernprozess untersucht die Trainingsdaten wiederholt und verbessert die Parameter für die zugrunde liegenden linearen Gleichungen mit jeder Iteration über die Daten. Die gebräuchlichsten Methoden zur Bewertung der Parameterleistung umfassen die Berechnung durchschnittlicher Fehlerwerte für alle verfügbaren Daten, die beim Testen oder Training verwendet werden. Beispiele für Fehlerberechnungsmethoden sindder mittlere quadratische Fehler(der Durchschnitt der quadrierten Abstände zwischen Vorhersagen und tatsächlichen Ergebnissen),der mittlere absolute Fehlerund komplexere Methoden wie dieRestquadratsumme(die Gesamtfehler statt des Durchschnitts).
Polynomielle Regression
Die polynomiale Regression behandelt komplexere Probleme als die lineare Regression und erfordert die Lösung linearer Gleichungssysteme, normalerweise mit erweiterten Matrixoperationen. Es kann Beziehungen in den Daten finden, die Kurven aufweisen, und nicht nur solche, die durch gerade Linien dargestellt werden können. Bei korrekter Anwendung verringert sich die Varianz bei Problemen, bei denen die lineare Regression fehlschlägt. Es ist auch schwieriger zu verstehen, zu implementieren und zu optimieren, da es auf fortgeschrittenen mathematischen Konzepten und Operationen beruht.
Eine polynomiale Regression versucht, Gleichungen zu lösen, dieyund mehrerexmit polynomförmigen Gleichungen in Beziehung setzen, die diesem Muster folgen:
y =β + β1x + β2x2+ … + ε
Der Polynomregressionsalgorithmus sucht sowohl nach den idealen zu verwendendenβ-Werten als auch nach der Form des Polynoms (wie viele Exponenten vonxsind möglicherweise erforderlich, um die Beziehung zwischenyund jedemxzu definieren?).
Lasso-Regression
Die Lasso-Regression (die für den kleinsten absoluten Schrumpfungs- und Auswahloperator steht), auch bekannt als Lasso-,L1-undL1-Norm-Regression, ist eine Technik zur Reduzierung von Überanpassungen und zur Verbesserung der Modellgenauigkeit. Dabei wird ein Abzug auf die absoluten Werte der Modellkoeffizienten angewendet, wodurch einige Koeffizienten effektiv verkleinert oder auf Null reduziert werden. Dies führt zu einfacheren Modellen, bei denen irrelevante Merkmale ausgeschlossen werden. Der Lasso-Algorithmus trägt dazu bei, eine Überanpassung zu verhindern, indem er die Komplexität des Modells kontrolliert und so das Modell besser interpretierbar macht, ohne zu große Einbußen bei der Genauigkeit hinnehmen zu müssen.
Lasso ist besonders nützlich, wenn erklärende Variablen korreliert werden. Beispielsweise können bei der Wettervorhersage Temperatur und Luftfeuchtigkeit korrelieren, was zu einer Überanpassung führt. Lasso reduziert den Effekt solcher Korrelationen und schafft so ein robusteres Modell.
Ridge-Regression
Die Ridge-Regression (auch bekannt alsL2-,L2-Norm oder Tikhonov-Regularisierung) ist eine weitere Technik zur Verhinderung einer Überanpassung, insbesondere wenn Multikollinearität (Korrelation zwischen erklärenden Variablen) vorliegt. Im Gegensatz zum Lasso, das die Koeffizienten auf Null schrumpfen lässt, fügt die Ridge-Regression eine Strafe hinzu, die proportional zum Quadrat der Modellkoeffizienten ist. Das Ziel besteht darin, kleine Anpassungen an den Koeffizienten vorzunehmen, ohne Variablen vollständig zu entfernen.
Beispiele für Regressionsanwendungsfälle
Regressionsmodelle werden in verschiedenen Branchen häufig verwendet, um Vorhersagen auf der Grundlage historischer Daten zu treffen. Durch die Identifizierung von Mustern und Beziehungen zwischen Variablen können diese Modelle wertvolle Erkenntnisse für die Entscheidungsfindung liefern. Nachfolgend finden Sie drei bekannte Beispiele für Bereiche, in denen Regression angewendet wird.
Wetteranalyse und -vorhersage
Mit der Regressionsanalyse können Wettermuster vorhergesagt werden, beispielsweise die erwartete Temperatur und der erwartete Niederschlag für jeden Tag der nächsten Woche. Oftmals werden verschiedene Regressionsalgorithmen anhand historischer Wetterdaten trainiert, darunter Luftfeuchtigkeit, Windgeschwindigkeit, Luftdruck und Wolkenbedeckung. Stündliche oder tägliche Messungen dieser Variablen dienen als Merkmale, aus denen das Modell lernen kann, und der Algorithmus hat die Aufgabe, Temperaturänderungen im Zeitverlauf vorherzusagen. Wenn mehrere Regressionsalgorithmen (ein Ensemble) parallel zur Vorhersage von Wettermustern verwendet werden, werden ihre Vorhersagen typischerweise durch eine Form der Mittelung, wie beispielsweise die gewichtete Mittelung, kombiniert.
Prognose von Umsatz und Umsatz
Im geschäftlichen Kontext werden Regressionsmodelle häufig zur Prognose von Umsätzen und anderen wichtigen Leistungskennzahlen verwendet. Ein multiples Regressionsmodell könnte Variablen berücksichtigen, die das Verkaufsvolumen beeinflussen, wie z. B. Kennzahlen aus Marketingkampagnen, Kundenfeedback und makroökonomische Trends. Die Aufgabe des Modells besteht dann darin, Umsätze und Einnahmen für einen bestimmten zukünftigen Zeitraum vorherzusagen. Wenn neue Daten verfügbar werden, kann das Modell neu trainiert oder aktualisiert werden, um seine Vorhersagen auf der Grundlage der neuesten Beobachtungen zu verfeinern.
Vorhersage von Gesundheitsergebnissen
Regressionsmodelle finden zahlreiche Anwendungsmöglichkeiten bei der Vorhersage gesundheitlicher Ergebnisse. Bayesianische Modelle könnten beispielsweise zur Schätzung von Inzidenzratenverhältnissen verwendet werden, indem aus historischen Patientendaten gelernt wird. Diese Modelle helfen bei der Beantwortung von Fragen wie „Was passiert wahrscheinlich, wenn wir die Dosierung eines Medikaments anpassen?“ Mithilfe der linearen Regression können Risikofaktoren identifiziert werden, beispielsweise um Veränderungen im Gesundheitszustand eines Patienten aufgrund von Anpassungen des Lebensstils vorherzusagen. Die logistische Regression, die häufig für die Diagnose verwendet wird, berechnet das Wahrscheinlichkeitsverhältnis für das Vorliegen einer Krankheit auf der Grundlage der Krankengeschichte des Patienten und anderer relevanter Variablen.
Vorteile der Regression
Regressionsalgorithmen und -modelle, insbesondere die lineare Regression, sind grundlegende Komponenten vieler maschineller Lernsysteme. Aufgrund der folgenden Vorteile werden sie häufig verwendet:
- Sie können schnell sein.Regressionstechniken können schnell Beziehungen zwischen mehreren Variablen (Merkmalen) und einem Zielwert herstellen, was sie für die explorative Datenanalyse nützlich macht und das Training von Modellen für maschinelles Lernen beschleunigt.
- Sie sind vielseitig. Viele Regressionsmodelle, wie z. B. lineare, polynomiale und logistische Regression, sind gut untersucht und können angepasst werden, um ein breites Spektrum realer Probleme zu lösen, von Vorhersagen bis hin zu Klassifizierungsaufgaben.
- Sie lassen sich leicht umsetzen. Beispielsweise können lineare Regressionsmodelle implementiert werden, ohne dass komplexe mathematische oder technische Techniken erforderlich sind, wodurch sie für Datenwissenschaftler und Ingenieure unterschiedlicher Qualifikationsniveaus zugänglich werden.
- Sie sind leicht zu verstehen. Regressionsmodelle, insbesondere die lineare Regression, bieten interpretierbare Ergebnisse, bei denen die Beziehungen zwischen Variablen und ihre Auswirkungen auf das vorhergesagte Ergebnis oft klar sind. Dies macht sie nützlich für die Identifizierung von Trends und Mustern in Daten, die als Grundlage für weitere, tiefergehende Analysen dienen können. In einigen Fällen können Regressionsmodelle je nach Anwendungsfall einen Kompromiss zwischen Interpretierbarkeit und höherer Genauigkeit eingehen.
Herausforderungen bei der Regression
Obwohl Regressionsmodelle viele Vorteile bieten, bringen sie auch ihre eigenen Herausforderungen mit sich. Diese Herausforderungen spiegeln sich häufig in einer verminderten Leistung oder Generalisierbarkeit wider, insbesondere bei der Arbeit mit komplexen Problemen oder begrenzten Daten. Im Folgenden sind einige der häufigsten Probleme aufgeführt, mit denen die Regressionsanalyse konfrontiert wird.
- Überanpassung:Modelle haben oft Schwierigkeiten, Voreingenommenheit und Varianz auszugleichen. Wenn ein Modell zu komplex ist, passt es möglicherweise sehr gut zu den historischen Daten (wodurch die Varianz verringert wird), wird jedoch verzerrt, wenn es neuen Daten ausgesetzt wird. Dies liegt häufig daran, dass das Modell die Trainingsdaten speichert, anstatt eine verallgemeinerte Abstraktion zu lernen.
- Unteranpassung:Ein Modell, das für das vorliegende Problem zu einfach ist, kann unter einer hohen Verzerrung leiden. Sowohl bei den Trainingsdaten als auch bei den unsichtbaren Daten werden hohe Fehlerraten angezeigt, was darauf hindeutet, dass die zugrunde liegenden Muster nicht gelernt wurden. Übermäßige Anpassungen zur Korrektur hoher Verzerrungen können zu einer Unteranpassung führen, bei der das Modell die Komplexität der Daten nicht erfassen kann.
- Komplexe Trainingsdaten:Regressionsmodelle gehen typischerweise davon aus, dass die für das Training verwendeten Beobachtungen unabhängig sind. Wenn die Daten komplexe Beziehungen oder inhärente Zufälligkeiten enthalten, kann es für das Modell schwierig sein, genaue und zuverlässige Vorhersagen zu treffen.
- Unvollständige oder fehlende Daten:Überwachte Regressionsalgorithmen erfordern große Datenmengen, um Muster zu lernen und Eckfälle zu berücksichtigen. Beim Umgang mit fehlenden oder unvollständigen Daten kann das Modell möglicherweise keine gute Leistung erbringen, insbesondere beim Erlernen komplexer Beziehungen, die eine umfassende Datenabdeckung erfordern.
- Auswahl der Prädiktorvariablen:Regressionsmodelle verlassen sich darauf, dass Menschen die richtigen Prädiktorvariablen (Merkmale) auswählen. Wenn zu viele irrelevante Variablen einbezogen werden, kann sich die Modellleistung verschlechtern. Wenn umgekehrt zu wenige oder falsche Variablen ausgewählt werden, kann das Modell das Problem möglicherweise nicht genau lösen oder keine zuverlässigen Vorhersagen treffen.