Was ist logistische Regression beim maschinellen Lernen?

Veröffentlicht: 2024-10-04

Die logistische Regression ist eine Eckpfeilermethode in der statistischen Analyse und im maschinellen Lernen (ML). In diesem umfassenden Leitfaden werden die Grundlagen der logistischen Regression erläutert und verschiedene Typen, reale Anwendungen sowie die Vor- und Nachteile der Verwendung dieser leistungsstarken Technik erläutert.

Inhaltsverzeichnis

  • Was ist logistische Regression?
  • Arten der logistischen Regression
  • Logistische vs. lineare Regression
  • Wie die logistische Regression funktioniert
  • Anwendungen
  • Vorteile
  • Nachteile

Was ist logistische Regression?

Die logistische Regression, auch Logit-Regression oder Logit-Modell genannt, ist eine Art überwachter Lernalgorithmus, der für Klassifizierungsaufgaben verwendet wird, insbesondere zur Vorhersage der Wahrscheinlichkeit eines binären Ergebnisses (d. h. zweier möglicher Klassen). Es basiert auf den gleichnamigen statistischen Methoden, die die Wahrscheinlichkeit des Eintretens eines bestimmten Ereignisses abschätzen. Mithilfe der logistischen Regression kann beispielsweise die Wahrscheinlichkeit vorhergesagt werden, dass es sich bei einer E-Mail um Spam handelt oder dass ein Kunde einen Kauf tätigt oder eine Website verlässt.

Das Modell bewertet relevante Eigenschaften des Ereignisses (sogenannte „Prädiktorvariablen“ oder „Merkmale“). Wenn es sich bei dem Ereignis beispielsweise um „Eine E-Mail ist angekommen“ handelt, können zu den relevanten Eigenschaften die Quell-IP-Adresse, die E-Mail-Adresse des Absenders oder eine Bewertung der Lesbarkeit des Inhalts gehören. Es modelliert die Beziehung zwischen diesen Prädiktoren und der Wahrscheinlichkeit des Ergebnisses mithilfe der Logistikfunktion, die die folgende Form hat:

f (x) = 1 / ( 1 + e -x )

Diese Funktion gibt einen Wert zwischen 0 und 1 aus, der die geschätzte Wahrscheinlichkeit des Ereignisses darstellt (z. B. „Bei dieser E-Mail handelt es sich mit einer Wahrscheinlichkeit von 80 % um Spam“).

Die logistische Regression wird in ML häufig verwendet, insbesondere für binäre Klassifizierungsaufgaben. Die Sigmoidfunktion (eine Art Logistikfunktion) wird häufig verwendet, um die Ausgabe eines binären Klassifizierungsmodells in eine Wahrscheinlichkeit umzuwandeln. Obwohl die logistische Regression einfach ist, dient sie als grundlegende Technik für komplexere Modelle wie neuronale Netze, in denen ähnliche logistische Funktionen zur Modellierung von Wahrscheinlichkeiten verwendet werden. Der BegriffLogit-Modellbezieht sich auf Modelle, die diese Logit-Funktion verwenden, um Eingabemerkmale vorhergesagten Wahrscheinlichkeiten zuzuordnen.

Arbeiten Sie intelligenter mit Grammarly
Der KI-Schreibpartner für alle, die viel zu tun haben

Arten der logistischen Regression

Es gibt drei Haupttypen der logistischen Regression: binäre, multinomiale und ordinale Regression.

Binäre logistische Regression

Dies wird auch als binäre Regression bezeichnet und ist die standardmäßige und häufigste Form der logistischen Regression. Wenn der Begriff„logistische Regression“ohne Qualifikationsmerkmale verwendet wird, bezieht er sich normalerweise auf diesen Typ. Der Name „binär“ kommt daher, dass genau zwei Ergebnisse berücksichtigt werden; Es kann als Beantwortung von Ja- oder Nein-Fragen angesehen werden. Die binäre Regression kann kompliziertere Fragen bewältigen, wenn sie als Ketten von Ja- oder Nein-Fragen oder binären Fragen neu formuliert werden.

Beispiel:Stellen Sie sich vor, Sie berechnen die Chancen von drei sich gegenseitig ausschließenden Optionen: ob ein Kunde abwandert (d. h. das Produkt nicht mehr nutzt), sich für eine kostenlose Version eines Dienstes anmeldet oder sich für die kostenpflichtige Premium-Version anmeldet. Die verkettete binäre Regression könnte dieses Problem lösen, indem sie die folgende Reihe von Fragen beantwortet:

  • Wird der Kunde abwandern (ja oder nein)?
  • Wenn nicht, wird sich der Kunde für den kostenlosen Service anmelden (ja oder nein)?
  • Wenn nicht, wird sich der Kunde für den kostenpflichtigen Premium-Service anmelden (ja oder nein)?

Multinomiale logistische Regression

Diese Form der logistischen Regression, auch multinomiale Regression genannt, ist eine Erweiterung der binären Regression, die Fragen mit mehr als zwei möglichen Ergebnissen beantworten kann. Es vermeidet die Notwendigkeit, Fragen zu verketten, um komplexere Probleme zu lösen. Bei der multinomialen Regression wird davon ausgegangen, dass die berechneten Quoten keine gegenseitigen Abhängigkeiten oder Reihenfolgen aufweisen und dass die berücksichtigten Optionen alle möglichen Ergebnisse abdecken.

Beispiel:Die multinomiale Regression funktioniert gut, wenn aus einer Liste verfügbarer Farben vorhergesagt wird, welche Farbe ein Kunde wahrscheinlich für ein Auto wünscht, das er kauft. Allerdings eignet es sich nicht gut für die Berechnung von Quoten, bei denen es auf die Reihenfolge ankommt, wie z. B. die Bewertung der Farben Grün, Gelb und Rot als Schweregrad-Tags für ein Kundensupportproblem, bei dem das Problem immer mit Grün beginnt und dann zu Gelb eskaliert werden kann Rot (wobei Gelb immer auf Grün und Rot immer auf Gelb folgt).

Ordinale logistische Regression

Diese spezielle Form der logistischen Regression, auch als proportionales Quotenmodell für die Regression bekannt, ist für Ordnungswerte konzipiert – Situationen, in denen die relative Reihenfolge der Ergebnisse von Bedeutung ist. Die ordinale logistische Regression wird verwendet, wenn die Ergebnisse eine natürliche Reihenfolge haben, die Abstände zwischen den Kategorien jedoch nicht bekannt sind.

Beispiel:Es könnte verwendet werden, um die Wahrscheinlichkeit zu berechnen, wo ein Hotelgast seinen Aufenthalt auf einer fünfteiligen Skala wahrscheinlich einstufen wird: sehr schlecht, schlecht, neutral, gut und sehr gut. Die relative Reihenfolge ist wichtig – schlecht ist immer schlechter als neutral, und es ist wichtig zu beachten, in welche Richtung sich Bewertungen auf der Skala bewegen. Wenn es auf die Reihenfolge ankommt, kann die ordinale Regression die Beziehungen zwischen den Werten quantifizieren, deren Quoten berechnet werden (z. B. könnte sie erkennen, dass schlechte Ergebnisse halb so oft auftreten wie neutrale).

Logistische Regression vs. lineare Regression

Obwohl sie unterschiedlich sind, tauchen logistische Regression und lineare Regression oft in ähnlichen Kontexten auf, da sie Teil eines größeren, verwandten mathematischen Toolsets sind. Die logistische Regression berechnet im Allgemeinen Wahrscheinlichkeiten für diskrete Ergebnisse, während die lineare Regression erwartete Werte für kontinuierliche Ergebnisse berechnet.

Wenn man beispielsweise versuchen würde, die wahrscheinlichste Temperatur für einen Tag in der Zukunft vorherzusagen, wäre ein lineares Regressionsmodell ein gutes Werkzeug für diese Aufgabe. Im Gegensatz dazu versuchen logistische Regressionsmodelle, die Chancen für zwei oder mehr Optionen aus einer festen Liste von Optionen zu berechnen oder vorherzusagen. Anstatt eine bestimmte Temperatur vorherzusagen, könnte ein logistisches Regressionsmodell die Wahrscheinlichkeit angeben, dass ein bestimmter Tag in warme, angenehme oder kalte Temperaturbereiche fällt.

Da sie für unterschiedliche Anwendungsfälle konzipiert sind, treffen die beiden Modelle unterschiedliche Annahmen über die statistischen Eigenschaften der Werte, die sie vorhersagen, und werden mit unterschiedlichen Statistiktools implementiert. Bei der logistischen Regression wird in der Regel eine statistische Verteilung angenommen, die für diskrete Werte gilt, beispielsweise eine Bernoulli-Verteilung, während bei der linearen Regression möglicherweise eine Gaußsche Verteilung verwendet wird. Die logistische Regression erfordert oft größere Datensätze, um effektiv zu funktionieren, während die lineare Regression normalerweise empfindlicher auf einflussreiche Ausreißer reagiert. Darüber hinaus werden bei der logistischen Regression Annahmen über die Struktur der berechneten Quoten getroffen, während bei der linearen Regression Annahmen darüber getroffen werden, wie Fehler im Trainingsdatensatz verteilt sind.

Die Unterschiede zwischen diesen Modellen führen dazu, dass sie für ihre spezifischen idealen Anwendungsfälle eine bessere Leistung erbringen. Die logistische Regression ist für die Vorhersage kategorialer Werte genauer, und die lineare Regression ist genauer für die Vorhersage kontinuierlicher Werte. Die beiden Techniken werden jedoch oft miteinander verwechselt, da ihre Ergebnisse mit einfachen mathematischen Berechnungen umgenutzt werden können. Die Ausgabe eines logistischen Regressionsmodells kann nach einer Transformation auf die gleichen Arten von Problemen angewendet werden wie die Ausgabe eines linearen Modells, wodurch die Kosten für das Training zweier separater Modelle eingespart werden. Aber es wird nicht so gut funktionieren; das Gleiche gilt auch umgekehrt.

Wie funktioniert die logistische Regression?

Als eine Art überwachter Lernalgorithmus hängt die logistische Regression vom Lernen aus gut kommentierten Datensätzen ab. Die Datensätze enthalten normalerweise Listen von Merkmalsdarstellungen, die jeweils mit der erwarteten Modellausgabe übereinstimmen.

Um ein klareres Verständnis der logistischen Regression zu erlangen, ist es wichtig, zunächst die folgende Schlüsselterminologie zu verstehen:

  • Prädiktorvariablen:Eigenschaften oder Merkmale, die vom Logistikmodell bei der Berechnung der Ergebnischancen berücksichtigt werden. Prädiktorvariablen zur Schätzung der Wahrscheinlichkeit eines Kunden, ein Produkt zu kaufen, könnten beispielsweise demografische Daten und den Browserverlauf umfassen.
  • Merkmalsdarstellung:Eine bestimmte Instanz von Prädiktorvariablen. Wenn die Prädiktorvariablen beispielsweise „Postleitzahl“, „Bundesstaat“ und „Einkommensklasse“ lauten, könnte eine Merkmalsdarstellung „90210“, „Kalifornien“ und „75.000+/Jahr“ lauten.
  • Verknüpfungsfunktion:Die mathematische Funktion im Kern eines Regressionsmodells, die Prädiktorvariablen mit den Chancen eines bestimmten Ergebnisses verbindet. Die Funktion folgt dem Muster:

θ = b(μ)

Dabei ist θdie Vorhersagewahrscheinlichkeit pro Kategorie,beine bestimmte Funktion (normalerweise eine S-förmige Funktion, Sigmoid genannt) undμden vorhergesagten Wert (aus einem kontinuierlichen Wertebereich).

  • Logistikfunktion:Die spezifische Verknüpfungsfunktion, die in der logistischen Regression verwendet wird, definiert als

σ ( x ) =1 / ( 1 +e-x)

Es normalisiert die Ausgabe auf eine Wahrscheinlichkeit zwischen 0 und 1 und wandelt proportionale, multiplikationsbasierte Änderungen der Prädiktorvariablen in konsistente, additive Änderungen der Quoten um.

  • Logit-Funktion:Die Umkehrung der Logistikfunktion, die Wahrscheinlichkeitswerte in Log-Quoten umwandelt und dabei hilft zu erklären, wie sich Prädiktorvariablen auf die Wahrscheinlichkeiten eines Ergebnisses auswirken. Es hilft zu erklären, wie sich Prädiktorvariablen auf die Wahrscheinlichkeit eines Ergebnisses auswirken. Es ist definiert als:

logit p =σ ( p ) -1= ln ( p / ( 1 – p ) )

Für eine gegebene Quote pführt es die Umkehrung der logistischen Funktion aus.

  • Log-Verlust:Auch als Kreuzentropieverlust oder Logistikverlust bekannt. Er misst den Unterschied zwischen vorhergesagten Wahrscheinlichkeiten und tatsächlichen Ergebnissen in Klassifizierungsmodellen. Die binäre Klassifizierung wird oft als „binäre Kreuzentropie“ bezeichnet.

Im Mittelpunkt eines logistischen Regressionsprozesses steht die Entscheidung, welche Linkfunktion verwendet werden soll. Bei einer binären logistischen Regression ist dies immer die logistische Funktion. Komplexere Regressionen verwenden andere Arten von Sigmoidfunktionen. Eine der beliebtesten Sigmoidfunktionen ist als Softmax bekannt und wird sehr häufig in ML-Modellen und für Anwendungsfälle der multinomialen Regression verwendet.

Während des Trainings ist das System auch auf eine Verlustfunktion angewiesen, die berechnet, wie gut die Regression funktioniert bzw. wie gut sie passt. Man kann sich das Ziel der Systeme vorstellen, den Abstand zwischen einem vorhergesagten Ergebnis oder einer vorhergesagten Quote und dem, was in der realen Welt passiert (manchmal wird dieser Abstand auch „die Überraschung“ genannt) zu verringern. Für die logistische Regression ist die Verlustfunktion eine Variation der sehr beliebten Log-Verlustfunktion.

Zum Trainieren des logistischen Regressionsmodells können verschiedene standardmäßige ML-Trainingsalgorithmen verwendet werden, darunter Gradientenabstieg, Maximum-Likelihood-Schätzung und stochastischer Gradientenabstieg.

Anwendungen der logistischen Regression in ML

Logistische Regressions-ML-Modelle werden typischerweise für Klassifizierungsaufgaben oder zur Vorhersage von Klassen aus Teilinformationen verwendet. Anwendungsfälle umfassen viele Bereiche, darunter Finanzen, Gesundheitswesen, Epidemiologie und Marketing. Zwei der bekanntesten Anwendungen sind die Erkennung von E-Mail-Spam und die medizinische Diagnose.

E-Mail-Spam-Erkennung

Die logistische Regression kann ein wirksames Instrument zur Klassifizierung von Kommunikation sein, beispielsweise zur Identifizierung von E-Mails als Spam oder nicht. In komplexen Fällen werden jedoch häufig fortgeschrittenere Methoden eingesetzt. Absenderadresse, Ziel, Textinhalt der Nachricht, Quell-IP-Adresse usw. – alle Eigenschaften einer E-Mail – können als Prädiktorvariablen markiert und bei der Wahrscheinlichkeit, dass es sich bei einer bestimmten E-Mail um Spam handelt, berücksichtigt werden. E-Mail-Spam-Filter-Tools trainieren und aktualisieren schnell binäre Logistikmodelle für neue E-Mail-Nachrichten und erkennen schnell neue Spam-Strategien und reagieren darauf.

Fortgeschrittenere Versionen von Spamfiltern verarbeiten E-Mails vor, damit sie leichter als Spam identifiziert werden können. Beispielsweise könnte ein Skript einen Prozentsatz der E-Mails hinzufügen, die für die IP-Adresse des Absenders in einer E-Mail als Spam markiert sind, und die Regression kann diese Informationen berücksichtigen.

Medizinische Diagnose

Logistische Regressionsmodelle werden häufig zur Unterstützung bei der Diagnose von Erkrankungen wie Diabetes und Brustkrebs eingesetzt. Sie lernen von den Analysen von Ärzten und medizinischen Forschern und bauen auf diesen auf.

Für eine bildintensive Diagnose wie die Krebserkennung erstellen medizinische Forscher und Fachleute Datensätze aus verschiedenen Tests, Bildgebungen und Scans. Diese Daten werden dann verarbeitet und in Listen mit Textbewertungen umgewandelt. Ein Bild kann auf Details wie Pixeldichte, Anzahl und mittlerer Radius verschiedener Pixelcluster usw. analysiert werden. Diese Messungen werden dann in eine Liste von Prädiktorvariablen aufgenommen, die die Ergebnisse anderer Tests und Bewertungen umfassen. Logistische Regressionssysteme lernen daraus und sagen voraus, ob bei einem Patienten wahrscheinlich Krebs diagnostiziert wird.

Logistische Regressionssysteme können nicht nur medizinische Diagnosen mit hoher Genauigkeit vorhersagen, sondern auch angeben, welche Testergebnisse für ihre Auswertungen am relevantesten sind. Diese Informationen können dabei helfen, Tests für einen neuen Patienten zu priorisieren und so den Diagnoseprozess zu beschleunigen.

Vorteile der logistischen Regression in ML

Die logistische Regression wird aufgrund ihrer Einfachheit und Interpretierbarkeit häufig bevorzugt, insbesondere in Fällen, in denen relativ schnell Ergebnisse erzielt werden müssen und Einblicke in die Daten wichtig sind.

Schnelle, praktische Ergebnisse

Aus praktischer Sicht ist die logistische Regression einfach zu implementieren und leicht zu interpretieren. Es funktioniert zuverlässig und liefert wertvolle Erkenntnisse, selbst wenn die Daten nicht perfekt mit Annahmen oder Erwartungen übereinstimmen. Die zugrunde liegenden mathematischen Modelle sind effizient und relativ einfach zu optimieren, was die logistische Regression für viele Anwendungen zu einer robusten und praktischen Wahl macht.

Nützliche Einblicke in Dateneigenschaften

Theoretisch eignet sich die logistische Regression hervorragend für binäre Klassifizierungsaufgaben und ist im Allgemeinen sehr schnell bei der Klassifizierung neuer Daten. Es kann dabei helfen, die Variablen zu identifizieren, die mit dem gewünschten Ergebnis verbunden sind, und Aufschluss darüber zu geben, worauf sich die weitere Datenanalyse konzentrieren sollte. Die logistische Regression liefert in einfachen Anwendungsfällen oft eine hohe Genauigkeit; Selbst wenn die Genauigkeit bestimmter Datensätze abnimmt, liefert sie dennoch aussagekräftige Einblicke in die relative Bedeutung von Variablen und die Richtung ihrer Auswirkungen (positiv oder negativ).

Nachteile der logistischen Regression in ML

Bei der logistischen Regression werden Annahmen über die analysierten Daten getroffen, wodurch die zugrunde liegenden Algorithmen schneller und leichter verständlich werden, allerdings wird dadurch ihre Nützlichkeit eingeschränkt. Sie können nicht zum Modellieren kontinuierlicher Ergebnisse oder nichtlinearer Beziehungen verwendet werden, können fehlschlagen, wenn die Beziehung zum Modell zu komplex ist, und passen zu stark, wenn zu viele Daten analysiert werden.

Beschränkt auf diskrete Ergebnisse

Die logistische Regression kann nur zur Vorhersage diskreter Ergebnisse verwendet werden. Wenn das Problem kontinuierliche Vorhersagen erfordert, sind Techniken wie die lineare Regression besser geeignet.

Gehen Sie von linearen Beziehungen aus

Das Modell geht von einer linearen Beziehung zwischen den Prädiktorvariablen und den geschätzten Quoten aus, was bei realen Daten selten der Fall ist. Dies erfordert oft zusätzliche Vorverarbeitung und Anpassungen zur Verbesserung der Genauigkeit. Darüber hinaus geht die logistische Regression davon aus, dass Klassifizierungsentscheidungen mithilfe einfacher linearer Funktionen getroffen werden können, die möglicherweise nicht die Komplexität realer Szenarien widerspiegeln. Daher handelt es sich bei der logistischen Regression häufig um eine Annäherung, die möglicherweise regelmäßige Optimierungen und Aktualisierungen erfordert, um relevant zu bleiben.

Kann komplexe Zusammenhänge möglicherweise nicht modellieren

Wenn eine Reihe von Prädiktorvariablen keine lineare Beziehung zu den berechneten Quoten aufweist oder wenn die Prädiktorvariablen nicht unabhängig genug voneinander sind, funktioniert die logistische Regression möglicherweise überhaupt nicht oder erkennt nur eine Teilmenge der linearen Beziehungen wenn das System eine Mischung aus linearen und anderen komplexeren Eigenschaften aufweist.

Überanpassung großer Datensätze

Bei größeren und komplexeren Datensätzen ist die logistische Regression anfällig für eine Überanpassung, bei der sich das Modell zu sehr an den spezifischen Daten orientiert, auf denen es trainiert wurde, und Rauschen und kleinere Details statt allgemeiner Muster erfasst. Dies kann zu einer schlechten Leistung bei neuen, unsichtbaren Daten führen. Techniken wie die Regularisierung können dazu beitragen, eine Überanpassung abzumildern. Bei der Anwendung der logistischen Regression auf komplexe Daten ist jedoch sorgfältige Überlegung erforderlich.