Czym jest regresja logistyczna w uczeniu maszynowym?
Opublikowany: 2024-10-04Regresja logistyczna jest podstawową metodą analizy statystycznej i uczenia maszynowego (ML). Ten obszerny przewodnik wyjaśni podstawy regresji logistycznej i omówi różne typy, zastosowania w świecie rzeczywistym oraz zalety i wady stosowania tej potężnej techniki.
Spis treści
- Co to jest regresja logistyczna?
- Rodzaje regresji logistycznej
- Regresja logistyczna a regresja liniowa
- Jak działa regresja logistyczna
- Aplikacje
- Zalety
- Wady
Co to jest regresja logistyczna?
Regresja logistyczna, znana również jako regresja logitowa lub model logitowy, to rodzaj algorytmu nadzorowanego uczenia się stosowanego do zadań klasyfikacyjnych, zwłaszcza do przewidywania prawdopodobieństwa wyniku binarnego (tj. dwóch możliwych klas). Opiera się na metodach statystycznych o tej samej nazwie, które szacują prawdopodobieństwo wystąpienia określonego zdarzenia. Na przykład regresję logistyczną można zastosować do przewidywania prawdopodobieństwa, że wiadomość e-mail jest spamem lub że klient dokona zakupu lub opuści witrynę internetową.
Model ocenia odpowiednie właściwości zdarzenia (zwane „zmiennymi predykcyjnymi” lub „cechami”). Na przykład, jeśli zdarzeniem jest „przyszedł e-mail”, odpowiednie właściwości mogą obejmować źródłowy adres IP, adres e-mail nadawcy lub ocenę czytelności treści. Modeluje związek między tymi predyktorami a prawdopodobieństwem wyniku za pomocą funkcji logistycznej, która ma następującą postać:
fa (x) = 1 / ( 1 + mi -x )
Ta funkcja zwraca wartość z zakresu od 0 do 1, reprezentującą szacowane prawdopodobieństwo zdarzenia (może to oznaczać: „Ten e-mail na 80% może być spamem”).
Regresja logistyczna jest szeroko stosowana w uczeniu maszynowym, szczególnie w zadaniach klasyfikacji binarnej. Funkcja sigmoidalna (rodzaj funkcji logistycznej) jest często używana do przekształcania wyniku dowolnego binarnego modelu klasyfikacji na prawdopodobieństwo. Chociaż regresja logistyczna jest prosta, służy jako podstawowa technika w przypadku bardziej złożonych modeli, takich jak sieci neuronowe, w których do modelowania prawdopodobieństw wykorzystuje się podobne funkcje logistyczne. Terminmodel logitowyodnosi się do modeli, które wykorzystują tę funkcję logitową do mapowania cech wejściowych na przewidywane prawdopodobieństwa.
Rodzaje regresji logistycznej
Istnieją trzy główne typy regresji logistycznej: binarna, wielomianowa i porządkowa.
Binarna regresja logistyczna
Jest to standardowa i najczęstsza forma regresji logistycznej, znana również jako regresja binarna. Kiedy terminregresja logistycznajest używany bez kwalifikatorów, zwykle odnosi się do tego typu. Nazwa „binarna” pochodzi z faktu, że uwzględnia dokładnie dwa wyniki; można to traktować jako odpowiadanie na pytania „tak” lub „nie”. Regresja binarna może poradzić sobie z bardziej skomplikowanymi pytaniami, jeśli sformułuje się je w postaci łańcuchów pytań typu „tak” lub „nie” lub pytań binarnych.
Przykład:Wyobraź sobie, że obliczasz prawdopodobieństwo trzech wzajemnie wykluczających się opcji: czy klient odejdzie (tj. przestanie korzystać z produktu), zarejestruje się, aby uzyskać bezpłatną wersję usługi, czy też zarejestruje się w płatnej wersji premium. Łańcuchowa regresja binarna może rozwiązać ten problem, odpowiadając na następujący łańcuch pytań:
- Czy klient odejdzie (tak czy nie)?
- Jeśli nie, czy klient zapisze się na usługę bezpłatną (tak czy nie)?
- Jeśli nie, czy klient zapisze się na płatną usługę premium (tak czy nie)?
Wielomianowa regresja logistyczna
Ta forma regresji logistycznej, znana również jako regresja wielomianowa, jest rozszerzeniem regresji binarnej, która może odpowiedzieć na pytania z więcej niż dwoma potencjalnymi wynikami. Pozwala to uniknąć konieczności łączenia pytań w łańcuchy w celu rozwiązania bardziej złożonych problemów. Regresja wielomianowa zakłada, że obliczane kursy nie mają żadnych współzależności ani porządku oraz że zestaw rozważanych opcji obejmuje wszystkie możliwe wyniki.
Przykład:Regresja wielomianowa dobrze się sprawdza przy przewidywaniu, jakiego koloru będzie prawdopodobnie oczekiwał klient w przypadku kupowanego przez siebie samochodu, korzystając z listy dostępnych kolorów. Jednak nie sprawdza się to dobrze w przypadku obliczania szans, gdy liczy się kolejność, na przykład oceny kolorów zielonego, żółtego i czerwonego jako znaczników ważności problemu z obsługą klienta, gdzie problem zawsze zaczyna się od koloru zielonego i może zostać eskalowany do żółtego, a następnie czerwony (z żółtym zawsze po zielonym i czerwonym zawsze po żółtym).
Porządkowa regresja logistyczna
Ta wyspecjalizowana forma regresji logistycznej, znana również jako model proporcjonalnych szans dla regresji, jest zaprojektowana dla wartości porządkowych — sytuacji, w których liczy się względna kolejność wyników. Porządkową regresję logistyczną stosuje się, gdy wyniki mają naturalny porządek, ale odległości między kategoriami nie są znane.
Przykład:można go zastosować do obliczenia prawdopodobieństwa, że gość hotelowy oceni swój pobyt w pięcioczęściowej skali: bardzo zły, zły, neutralny, dobry i bardzo dobry. Ważna jest względna kolejność – zło jest zawsze gorsze od neutralnego i ważne jest, aby zwrócić uwagę, w jakim kierunku będą się zmieniać oceny na skali. Gdy kolejność ma znaczenie, regresja porządkowa może określić ilościowo relacje między wartościami, dla których obliczane są szanse (np. może wykryć, że złe wyniki zwykle pojawiają się o połowę rzadziej niż neutralne).
Regresja logistyczna a regresja liniowa
Chociaż regresja logistyczna i regresja liniowa są różne, często pojawiają się w podobnych kontekstach, ponieważ stanowią część większego, powiązanego zestawu narzędzi matematycznych. Regresja logistyczna zazwyczaj oblicza prawdopodobieństwa dla wyników dyskretnych, podczas gdy regresja liniowa oblicza oczekiwane wartości dla wyników ciągłych.
Na przykład, jeśli ktoś miałby spróbować przewidzieć najbardziej prawdopodobną temperaturę na dany dzień w przyszłości, dobrym narzędziem byłby model regresji liniowej. Z kolei modele regresji logistycznej próbują obliczyć lub przewidzieć szanse dla dwóch lub więcej opcji z ustalonej listy możliwości. Zamiast przewidywać konkretną temperaturę, model regresji logistycznej może dać prawdopodobieństwo, że dany dzień będzie należał do zakresów temperatur ciepłych, komfortowych lub zimnych.
Ponieważ są one zbudowane z myślą o odrębnych przypadkach użycia, oba modele przyjmują różne założenia dotyczące właściwości statystycznych przewidywanych wartości i są implementowane przy użyciu różnych narzędzi statystycznych. Regresja logistyczna zazwyczaj zakłada rozkład statystyczny, który ma zastosowanie do wartości dyskretnych, taki jak rozkład Bernoulliego, podczas gdy regresja liniowa może wykorzystywać rozkład Gaussa. Regresja logistyczna często wymaga do skutecznego działania większych zbiorów danych, podczas gdy regresja liniowa jest zwykle bardziej wrażliwa na wpływowe wartości odstające. Ponadto regresja logistyczna przyjmuje założenia dotyczące struktury obliczanych szans, podczas gdy regresja liniowa przyjmuje założenia dotyczące rozkładu błędów w zbiorze danych uczących.
Różnice między tymi modelami powodują, że działają one lepiej w konkretnych, idealnych przypadkach użycia. Regresja logistyczna będzie dokładniejsza w przypadku przewidywania wartości kategorycznych, a regresja liniowa będzie dokładniejsza w przypadku przewidywania wartości ciągłych. Te dwie techniki są jednak często mylone ze sobą, ponieważ ich wyniki można ponownie wykorzystać za pomocą prostych obliczeń matematycznych. Wyniki modelu regresji logistycznej można po transformacji zastosować do tego samego rodzaju problemów, co wyniki modelu liniowego, oszczędzając na kosztach uczenia dwóch oddzielnych modeli. Ale to również nie zadziała; to samo dotyczy odwrotnej sytuacji.
Jak działa regresja logistyczna?
Jako rodzaj algorytmu nadzorowanego uczenia się, regresja logistyczna polega na uczeniu się na podstawie dobrze opisanych zbiorów danych. Zbiory danych zwykle zawierają listy reprezentacji cech dopasowane do oczekiwanych wyników modelu dla każdej z nich.
Aby lepiej zrozumieć regresję logistyczną, konieczne jest najpierw zrozumienie następującej kluczowej terminologii:
- Zmienne predykcyjne:Właściwości lub cechy uwzględniane w modelu logistycznym przy obliczaniu szans na wyniki. Na przykład zmienne predykcyjne służące do szacowania prawdopodobieństwa zakupu produktu przez klienta mogą obejmować dane demograficzne i historię przeglądania.
- Reprezentacja cech:konkretna instancja zmiennych predykcyjnych. Na przykład, jeśli zmienne predykcyjne to „kod pocztowy”, „stan” i „przedział dochodów”, jedną reprezentacją cechy może być „90210”, „Kalifornia” i „75 tys.+/rok”.
- Funkcja powiązania:Funkcja matematyczna stanowiąca rdzeń modelu regresji, która łączy zmienne predykcyjne z szansami określonego wyniku. Funkcja będzie działać według wzoru:
θ = b(μ)
gdzie θto prawdopodobieństwo przewidzenia w danej kategorii,bto określona funkcja (zwykle funkcja w kształcieliteryS, zwana sigmoidą), aμoznacza przewidywaną wartość (z ciągłego zakresu wartości).
- Funkcja logistyczna:Specyficzna funkcja łącza używana w regresji logistycznej, zdefiniowana jako
σ ( x ) =1 / ( 1 +mi-x)
Normalizuje wynik do prawdopodobieństwa od 0 do 1, przekształcając proporcjonalne, oparte na mnożeniu zmiany zmiennych predykcyjnych na spójne, addytywne zmiany szans.
- Funkcja logitowa:Odwrotność funkcji logistycznej, przekształcająca wartości prawdopodobieństwa na log-szanse, co pomaga wyjaśnić, w jaki sposób zmienne predykcyjne odnoszą się do szans na wynik. Pomaga wyjaśnić, w jaki sposób zmienne predykcyjne odnoszą się do szans na wynik. Jest zdefiniowany jako:
logit p =σ ( p ) -1= ln ( p / ( 1 – p ) )
Dla zadanego kursu prealizuje odwrotność funkcji logistycznej.
- Utrata logu:znana również jako utrata entropii krzyżowej lub strata logistyczna. Mierzy różnicę między przewidywanymi prawdopodobieństwami a rzeczywistymi wynikami w modelach klasyfikacyjnych. W przypadku klasyfikacji binarnej często nazywa się to „binarną entropią krzyżową”.
U podstaw procesu regresji logistycznej leży decyzja, której funkcji połączenia użyć. W przypadku binarnej regresji logistycznej będzie to zawsze funkcja logistyczna. Bardziej złożone regresje będą wykorzystywać inne rodzaje funkcji sigmoidalnych; jedna z najpopularniejszych funkcji sigmoidalnych znana jest jako softmax i jest bardzo często używana w modelach ML oraz w przypadkach użycia regresji wielomianowej.
Podczas uczenia system będzie również zależał od funkcji straty, która oblicza skuteczność regresji lub jej dopasowanie. Celem systemów można uważać za zmniejszenie dystansu pomiędzy przewidywanym wynikiem lub szansami a tym, co dzieje się w świecie rzeczywistym (czasami dystans ten nazywany jest „niespodzianką”). W przypadku regresji logistycznej funkcja straty jest odmianą bardzo popularnej funkcji straty logarytmicznej.
Do uczenia modelu regresji logistycznej można zastosować różnorodne standardowe algorytmy uczenia maszynowego, w tym opadanie gradientu, estymację maksymalnej wiarygodności i opadanie gradientu stochastycznego.
Zastosowania regresji logistycznej w ML
Modele regresji logistycznej ML są zwykle używane do zadań klasyfikacyjnych lub do przewidywania klas na podstawie częściowych informacji. Przypadki użycia obejmują wiele dziedzin, w tym finanse, opiekę zdrowotną, epidemiologię i marketing. Dwie z najbardziej znanych aplikacji służą do wykrywania spamu e-mailowego i diagnostyki medycznej.
Wykrywanie spamu e-mailowego
Regresja logistyczna może być skutecznym narzędziem do klasyfikowania komunikacji, na przykład identyfikowania wiadomości e-mail jako spamu lub nie, chociaż w skomplikowanych przypadkach często stosuje się bardziej zaawansowane metody. Adres nadawcy, miejsce docelowe, treść wiadomości, źródłowy adres IP itd. – wszystkie właściwości wiadomości e-mail – można oznaczyć jako zmienne predykcyjne i uwzględnić w prawdopodobieństwie, że dana wiadomość e-mail jest spamem. Narzędzia do filtrowania spamu e-mailowego szybko szkolą i aktualizują binarne modele logistyczne nowych wiadomości e-mail oraz szybko wykrywają i reagują na nowe strategie spamu.
Bardziej zaawansowane wersje filtrów spamu wstępnie przetwarzają wiadomości e-mail, aby ułatwić ich identyfikację jako spam. Na przykład skrypt może dodać procent wiadomości e-mail oznaczonych jako spam dla adresu IP nadawcy w wiadomości e-mail, a regresja może uwzględnić te informacje.
Diagnoza medyczna
Modele regresji logistycznej są powszechnie stosowane jako pomoc w diagnozowaniu schorzeń, takich jak cukrzyca i rak piersi. Uczą się i bazują na analizach przeprowadzanych przez lekarzy i badaczy medycznych.
W przypadku diagnozy wymagającej dużej ilości obrazów, np. wykrywania raka, badacze i profesjonaliści zajmujący się medycyną tworzą zbiory danych na podstawie różnych testów, obrazowania i skanów. Dane te są następnie przetwarzane i przekształcane w listy ocen tekstowych. Obraz można analizować pod kątem takich szczegółów, jak gęstość pikseli, liczba i średni promień różnych skupisk pikseli i tak dalej. Pomiary te są następnie umieszczane na liście zmiennych predykcyjnych, która obejmuje wyniki innych testów i ocen. Systemy regresji logistycznej uczą się na nich i przewidują, czy u pacjenta zostanie zdiagnozowany nowotwór.
Oprócz przewidywania diagnozy medycznej z dużą dokładnością, systemy regresji logistycznej mogą również wskazywać, które wyniki testów są najbardziej istotne dla jej oceny. Informacje te mogą pomóc w ustaleniu priorytetów badań dla nowego pacjenta, przyspieszając proces diagnozy.
Zalety regresji logistycznej w ML
Regresja logistyczna jest często preferowana ze względu na jej prostotę i możliwość interpretacji, szczególnie w przypadkach, gdy wyniki muszą zostać uzyskane stosunkowo szybko i gdy ważny jest wgląd w dane.
Szybkie i praktyczne rezultaty
Z praktycznego punktu widzenia regresja logistyczna jest prosta do wdrożenia i łatwa do interpretacji. Działa niezawodnie i dostarcza cennych spostrzeżeń, nawet jeśli dane nie są idealnie zgodne z założeniami lub oczekiwaniami. Podstawowe modele matematyczne są wydajne i stosunkowo proste w optymalizacji, dzięki czemu regresja logistyczna jest solidnym i praktycznym wyborem w wielu zastosowaniach.
Przydatny wgląd w właściwości danych
Teoretycznie regresja logistyczna doskonale sprawdza się w zadaniach klasyfikacji binarnej i generalnie bardzo szybko klasyfikuje nowe dane. Może pomóc w określeniu, które zmienne są powiązane z interesującym wynikiem, zapewniając wgląd w to, na czym powinna się skupić dalsza analiza danych. Regresja logistyczna często zapewnia wysoką dokładność w prostych przypadkach użycia; nawet jeśli dokładność maleje w przypadku niektórych zbiorów danych, nadal zapewnia znaczący wgląd w względne znaczenie zmiennych i kierunek ich wpływu (pozytywny lub negatywny).
Wady regresji logistycznej w ML
Regresja logistyczna przyjmuje założenia dotyczące analizowanych danych, dzięki czemu leżące u ich podstaw algorytmy są szybsze i łatwiejsze do zrozumienia, kosztem ograniczenia ich użyteczności. Nie można ich używać do modelowania wyników ciągłych lub zależności nieliniowych, mogą zawieść, jeśli relacja z modelem jest zbyt złożona, i będą nadmiernie dopasowane, jeśli analizują zbyt dużo danych.
Ograniczone do dyskretnych wyników
Regresji logistycznej można używać jedynie do przewidywania dyskretnych wyników. Jeśli problem wymaga ciągłych przewidywań, bardziej odpowiednie są techniki takie jak regresja liniowa.
Załóż zależności liniowe
Model zakłada liniową zależność pomiędzy zmiennymi predykcyjnymi a szacowanymi szansami, co rzadko ma miejsce w przypadku danych ze świata rzeczywistego. Często wymaga to dodatkowego przetwarzania wstępnego i regulacji w celu poprawy dokładności. Ponadto regresja logistyczna zakłada, że decyzje dotyczące klasyfikacji można podejmować przy użyciu prostych funkcji liniowych, które mogą nie odzwierciedlać złożoności scenariuszy ze świata rzeczywistego. W rezultacie regresja logistyczna jest często przybliżeniem i może wymagać regularnej optymalizacji i aktualizacji, aby zachować aktualność.
Może nie udało się modelować złożonych relacji
Jeśli zestaw zmiennych predykcyjnych nie ma liniowego związku z obliczonymi szansami lub jeśli zmienne predykcyjne nie są od siebie wystarczająco niezależne, regresja logistyczna może w ogóle nie zadziałać lub może wykryć jedynie podzbiór zależności liniowych gdy system ma mieszankę zarówno właściwości liniowych, jak i innych, bardziej złożonych.
Nadmierne dopasowanie dużych zbiorów danych
W przypadku większych i bardziej złożonych zbiorów danych regresja logistyczna jest podatna na nadmierne dopasowanie, gdy model staje się zbyt ściśle dopasowany do konkretnych danych, na których był szkolony, wychwytując szum i drobne szczegóły, a nie ogólne wzorce. Może to skutkować słabą wydajnością nowych, niewidocznych danych. Techniki takie jak regularyzacja mogą pomóc w ograniczeniu nadmiernego dopasowania, ale przy stosowaniu regresji logistycznej do złożonych danych należy zachować szczególną ostrożność.