Regresja w uczeniu maszynowym: co to jest i jak działa

Opublikowany: 2024-11-13

Regresja w uczeniu maszynowym (ML) to podstawowa koncepcja używana do przewidywania wartości ciągłych na podstawie cech wejściowych. Niezależnie od tego, czy szacujesz ceny mieszkań, czy prognozujesz sprzedaż, modele regresji ustalają relacje między zmiennymi. W tym artykule omówimy różne typy modeli regresji, stojące za nimi algorytmy oraz omówimy, kiedy najlepiej zastosować każdą metodę. Dowiesz się także, jak działa regresja, jakie są jej praktyczne zastosowania oraz jakie są zalety i wyzwania związane ze stosowaniem regresji w uczeniu maszynowym.

Spis treści

  • Co to jest regresja?
  • Rodzaje modeli regresji
  • Algorytmy stosowane w regresji
  • Przykłady regresji
  • Korzyści z regresji
  • Wyzwania regresji

Czym jest regresja w uczeniu maszynowym?

Regresja to rodzaj uczenia się nadzorowanego wykorzystywanego do przewidywania wartości ciągłych na podstawie danych wejściowych. Szacuje relacje między zmiennymi w celu przewidywania i wyjaśniania różnych rzeczy, takich jak ceny domów, trendy na giełdzie czy warunki pogodowe. Modele regresji odwzorowują cechy wejściowe na ciągłą zmienną docelową, umożliwiając precyzyjne przewidywania numeryczne.

Na przykład, korzystając z danych pogodowych z ostatniego tygodnia, model regresji może prognozować jutrzejsze opady deszczu. Przewidywane wartości mają charakter ciągły, co oznacza, że ​​mogą spaść w dowolnym miejscu skali numerycznej – np. temperaturze mierzonej z dokładnością do miejsc dziesiętnych lub przewidywanych przychodach ze sprzedaży na nadchodzące miesiące.

Pracuj mądrzej dzięki Grammarly
Partner w pisaniu AI dla każdego, kto ma pracę do wykonania

Regresja a klasyfikacja: jaka jest różnica?

Podczas gdy regresja przewiduje ciągłe wyniki, klasyfikacja koncentruje się na przewidywaniu odrębnych kategorii lub klas. Na przykład model regresji może przewidzieć dokładną ilość opadów w dniu jutrzejszym, podczas gdy model klasyfikacyjny może przewidzieć, czy w ogóle będzie padać (tak lub nie). Kluczowa różnica polega na tym, że regresja zajmuje się wartościami liczbowymi, podczas gdy klasyfikacja przypisuje dane do predefiniowanych kategorii.

W niektórych przypadkach możliwe jest dostosowanie wyników modelu regresji do zadania klasyfikacyjnego i odwrotnie, ale te dwa podejścia są na ogół dostosowane do różnych typów problemów.

Regresja: algorytm, model czy analiza?

Regresja jest czasami nazywana analizą regresjii jest to szeroki termin statystyczny używany do opisu poszukiwania ciągłych relacji między obserwacjami a wynikami. Algorytm regresji to specyficzne narzędzie matematyczne zaprojektowane w celu identyfikacji tych zależności. Kiedy algorytm jest używany do uczenia modelu uczenia maszynowego, wynik nazywa sięmodelem regresji.

Te trzy terminy –analiza regresji,algorytm regresjiimodel regresji– są często używane zamiennie, ale każdy z nich reprezentuje inny aspekt procesu regresji.

Rodzaje regresji w uczeniu maszynowym

Modele regresji występują w wielu postaciach, z których każda jest zaprojektowana do obsługi różnych relacji między danymi wejściowymi a przewidywanymi wynikami. Chociaż regresja liniowa jest najczęściej stosowaną i stosunkowo łatwą do zrozumienia, inne modele, takie jak regresja wielomianowa, regresja logistyczna i regresja bayesowska, lepiej nadają się do bardziej złożonych lub wyspecjalizowanych zadań. Poniżej znajdują się niektóre z głównych typów modeli regresji oraz informacje o tym, kiedy są one zwykle używane.

Regresja prosta i wielokrotna (liniowa).

Regresja liniowa, popularna technika regresji, znana jest z łatwości interpretacji, szybkiego uczenia i niezawodnego działania w różnych zastosowaniach. Szacuje związek pomiędzy zmiennymi objaśniającymi i docelowymi za pomocą linii prostych. Prosta regresja liniowa obejmuje jedną zmienną objaśniającą, podczas gdy wielokrotna regresja liniowa obejmuje dwie lub więcej. Ogólnie rzecz biorąc, gdy ktoś omawia analizę regresji, ma na myśli regresję liniową.

Regresja wielomianowa

Jeśli linie proste nie wyjaśniają w zadowalający sposób związku między obserwowanymi zmiennymi a oczekiwanymi wynikami, lepszym rozwiązaniem może być model regresji wielomianowej. Model ten poszukuje ciągłych, złożonych relacji i może identyfikować wzorce najlepiej opisane za pomocą krzywych lub kombinacji krzywych i linii prostych.

Regresja logistyczna

Gdy związek między obserwacjami a przewidywanymi wartościami nie jest ciągły (lub dyskretny), najpowszechniejszym narzędziem do tego zadania jest regresja logistyczna. Dyskretny w tym kontekście oznacza sytuacje, w których ułamki zwykłe lub liczby rzeczywiste nie są tak istotne (powiedzmy, jeśli przewidujesz, ilu klientów wejdzie do kawiarni, regresja logistyczna da odpowiedź 4 lub 5 zamiast czegoś trudniejszego do zinterpretowania, np. 4,35).

Najbardziej znaną formą regresji logistycznej jestregresja binarna, która przewiduje odpowiedzi na pytania binarne (tj. tak/nie); zazwyczaj regresja logistyczna jest binarna. Bardziej złożone odmiany, takie jak regresja wielomianowa, pozwalają przewidzieć odpowiedzi na pytania, które oferują więcej niż dwie możliwości. Modele logistyczne w swojej istocie polegają na wyborze jednej z kilku funkcji w celu przekształcenia danych wejściowych ciągłych w dyskretne.

Regresja bayesowska

Techniki regresji liniowej i inne wymagają znacznych danych szkoleniowych, aby uzyskać dokładne przewidywania. Z kolei regresja Bayesa to zaawansowany algorytm statystyczny, który pozwala na dokonywanie wiarygodnych przewidywań na podstawie mniejszej ilości danych, pod warunkiem, że niektóre właściwości statystyczne danych są znane lub można je oszacować. Na przykład przewidywanie sprzedaży nowego produktu w okresie świątecznym może być trudne w przypadku regresji liniowej ze względu na brak danych dotyczących sprzedaży nowego produktu. Regresja Bayesa pozwala przewidzieć dane dotyczące sprzedaży z większą dokładnością, zakładając, że sprzedaż nowego produktu ma ten sam rozkład statystyczny, co sprzedaż innych podobnych produktów. Zazwyczaj w regresjach bayesowskich zakłada się, że dane mają rozkład statystyczny Gaussa, co prowadzi do wymiennego stosowania terminów regresjabayesowskairegresja gaussowska.

Regresja z efektami mieszanymi

Regresja zakłada, że ​​istnieje nielosowa zależność między danymi obserwowanymi a danymi przewidywanymi. Czasami związek ten jest trudny do zdefiniowania ze względu na złożone współzależności w obserwowanych danych lub sporadyczne przypadkowe zachowania. Modele z efektami mieszanymi to modele regresji zawierające mechanizmy obsługi danych losowych i innych zachowań, które są trudne do modelowania. Modele te są również nazywane zamiennie modelami mieszanymi, mieszanymi efektami lub mieszanymi błędami.

Inne algorytmy regresji

Regresja jest bardzo dobrze zbadana. Istnieje wiele innych, bardziej złożonych lub wyspecjalizowanych algorytmów regresji, w tym te, które wykorzystują techniki dwumianowe, wielomianowe i zaawansowane techniki efektów mieszanych, a także te, które łączą wiele algorytmów. Połączone wiele algorytmów można zorganizować w kolejności sekwencyjnej, na przykład w wielu kolejnych warstwach, lub działać równolegle, a następnie w jakiś sposób agregować. System, w którym równolegle działa wiele modeli, jest często nazywany lasem.

Algorytmy stosowane w analizie regresji

W uczeniu maszynowym do generowania modeli regresji wykorzystuje się wiele typów algorytmów regresji. Niektóre algorytmy służą do budowania określonych typów modeli (w takim przypadku algorytm i model często mają tę samą nazwę). Inne skupiają się na ulepszaniu aspektów istniejących modeli, takich jak zwiększanie ich dokładności lub wydajności. Poniżej omówimy niektóre z częściej używanych algorytmów. Zanim jednak to zrobimy, ważne jest, aby zrozumieć, w jaki sposób są one oceniane. Ogólnie rzecz biorąc, opiera się to na dwóch kluczowych właściwościach: wariancji i stronniczości.

  • Wariancjamierzy, jak bardzo przewidywania modelu zmieniają się w przypadku uczenia się na różnych zbiorach danych. Model o dużej wariancji może bardzo ściśle pasować do danych uczących, ale działać słabo w przypadku nowych, niewidocznych danych — jest to zjawisko znane jako nadmierne dopasowanie. W idealnym przypadku algorytmy regresji powinny generować modele o niskiej wariancji, co oznacza, że ​​dobrze generalizują na nowych danych i nie są zbyt wrażliwe na zmiany w zbiorze uczącym.
  • Odchylenieodnosi się do błędu wprowadzonego przez przybliżenie rzeczywistego problemu, który może być zbyt złożony, za pomocą uproszczonego modelu. Wysokie obciążenie może powodować niedopasowanie, gdy model nie uchwyci ważnych wzorców w danych, co prowadzi do niedokładnych przewidywań. W idealnym przypadku obciążenie powinno być niskie, co wskazuje, że model skutecznie oddaje relacje w danych bez nadmiernego upraszczania. W niektórych przypadkach błąd można złagodzić, poprawiając dane uczące lub dostosowując parametry algorytmu regresji.

Regresja prosta i wielokrotna (liniowa).

Prosta regresja liniowa analizuje związek pomiędzy pojedynczą zmienną objaśniającą a przewidywanym wynikiem, co czyni ją najprostszą formą regresji. Wielokrotna regresja liniowa jest bardziej skomplikowana i pozwala znaleźć zależności między dwiema lub większą liczbą zmiennych a jednym wynikiem. Obydwoje znajdują relacje o strukturze liniowej, oparte na równaniach liniowych, które ogólnie pasują do tego wzorca:

y =β + β1x + ε

Tutajyto wynik do przewidzenia,xto zmienna, na podstawie której można to przewidzieć,εto błąd, który należy spróbować zminimalizować, aβiβ1 to wartości, na których obliczana jest regresja.

Regresja liniowa wykorzystuje nadzorowany proces uczenia się do budowania powiązań między zmiennymi objaśniającymi a przewidywanymi wynikami. W procesie uczenia się dane szkoleniowe są wielokrotnie sprawdzane, poprawiając parametry podstawowych równań liniowych z każdą iteracją danych. Najbardziej powszechne metody oceny parametrów parametrów polegają na obliczeniu średnich wartości błędów dla wszystkich dostępnych danych wykorzystywanych w testowaniu lub szkoleniu. Przykłady metod obliczania błędu obejmująbłąd średniokwadratowy(średnia kwadratów odległości między przewidywaniami a rzeczywistymi wynikami),średni błąd bezwzględnyi bardziej złożone metody, takie jakresztowa suma kwadratów(błędy całkowite, a nie średnia).

Regresja wielomianowa

Regresja wielomianowa rozwiązuje bardziej złożone problemy niż regresja liniowa i wymaga rozwiązywania układów równań liniowych, zwykle za pomocą zaawansowanych operacji macierzowych. Potrafi znaleźć zależności w danych, które są zakrzywione, a nie tylko te, które można przedstawić za pomocą linii prostych. Prawidłowo zastosowany zmniejszy wariancję w przypadku problemów, w przypadku których regresja liniowa zawodzi. Jest również trudniejszy do zrozumienia, wdrożenia i optymalizacji, ponieważ zależy od zaawansowanych koncepcji i operacji matematycznych.

Regresja wielomianowa będzie próbowała rozwiązać równania, które łącząyi wielokrotnexza pomocą równań w kształcie wielomianu, które są zgodne z następującym wzorcem:

y =β + β1x + β2x2+ … + ε

Algorytm regresji wielomianowej będzie szukał zarówno idealnych wartościβ, których można użyć, jak i kształtu wielomianu (ile wykładnikówxmoże być potrzebnych do zdefiniowania związku pomiędzyyi każdymx?).

Regresja Lassa

Regresja Lasso (oznaczająca operator najmniejszego bezwzględnego skurczu i selekcji), znana również jako regresja normowa lasso,L1iL1, to technika stosowana w celu ograniczenia nadmiernego dopasowania i poprawy dokładności modelu. Działa poprzez zastosowanie kary do wartości bezwzględnych współczynników modelu, skutecznie zmniejszając lub redukując niektóre współczynniki do zera. Prowadzi to do prostszych modeli, w których wyklucza się nieistotne funkcje. Algorytm lasso pomaga zapobiegać nadmiernemu dopasowaniu, kontrolując złożoność modelu, dzięki czemu model jest łatwiejszy w interpretacji bez poświęcania zbyt dużej dokładności.

Lasso jest szczególnie przydatne, gdy zmienne objaśniające są skorelowane. Na przykład w przewidywaniu pogody temperatura i wilgotność mogą być ze sobą skorelowane, co może prowadzić do nadmiernego dopasowania. Lasso zmniejsza wpływ takich korelacji, tworząc solidniejszy model.

Regresja grzbietu

Regresja grzbietowa (znana również jako normaL2,L2lub regularyzacja Tichonowa) to kolejna technika zapobiegająca nadmiernemu dopasowaniu, zwłaszcza gdy występuje wielowspółliniowość (korelacja między zmiennymi objaśniającymi). W przeciwieństwie do lasso, które może zmniejszyć współczynniki do zera, regresja Ridge'a dodaje karę proporcjonalną do kwadratu współczynników modelu. Celem jest dokonanie niewielkich korekt współczynników bez całkowitego usuwania zmiennych.

Przykłady przypadków użycia regresji

Modele regresji są szeroko stosowane w różnych branżach do sporządzania prognoz na podstawie danych historycznych. Identyfikując wzorce i relacje między zmiennymi, modele te mogą dostarczyć cennych informacji przydatnych w procesie decyzyjnym. Poniżej znajdują się trzy dobrze znane przykłady obszarów, w których stosowana jest regresja.

Analiza i przewidywanie pogody

Analiza regresji pozwala przewidzieć wzorce pogodowe, takie jak oczekiwana temperatura i opady na każdy dzień następnego tygodnia. Często na podstawie historycznych danych pogodowych, w tym wilgotności, prędkości wiatru, ciśnienia atmosferycznego i zachmurzenia, uczy się kilka różnych algorytmów regresji. Godzinowe lub codzienne pomiary tych zmiennych służą modelowi do uczenia się, a zadaniem algorytmu jest przewidywanie zmian temperatury w czasie. Gdy do przewidywania wzorców pogody stosuje się równolegle wiele algorytmów regresji (zespół), ich przewidywania są zazwyczaj łączone w formie uśredniania, takiej jak uśrednianie ważone.

Prognozowanie sprzedaży i przychodów

W kontekście biznesowym modele regresji są często używane do prognozowania przychodów i innych kluczowych wskaźników wydajności. Model regresji wielokrotnej może uwzględniać zmienne wpływające na wielkość sprzedaży, takie jak dane z kampanii marketingowych, opinie klientów i trendy makroekonomiczne. Następnie model ma za zadanie przewidzieć sprzedaż i przychody w określonym przyszłym okresie. W miarę udostępniania nowych danych model może zostać przeszkolony lub zaktualizowany w celu udoskonalenia przewidywań w oparciu o najnowsze obserwacje.

Przewidywanie wyników opieki zdrowotnej

Modele regresji mają liczne zastosowania w przewidywaniu skutków zdrowotnych. Na przykład modele Bayesa można wykorzystać do oszacowania wskaźników częstości występowania na podstawie historycznych danych pacjentów. Modele te pomagają odpowiedzieć na pytania takie jak „Co się prawdopodobnie stanie, jeśli dostosujemy dawkę leku?” Regresję liniową można zastosować do identyfikacji czynników ryzyka, na przykład do przewidywania zmian w stanie zdrowia pacjenta na podstawie zmian w stylu życia. Regresja logistyczna, powszechnie stosowana w diagnostyce, oblicza iloraz szans na obecność choroby na podstawie historii choroby pacjenta i innych istotnych zmiennych.

Korzyści z regresji

Algorytmy i modele regresji, zwłaszcza regresja liniowa, są podstawowymi składnikami wielu systemów uczenia maszynowego. Są szeroko stosowane ze względu na następujące zalety:

  • Mogą być szybkie.Techniki regresji mogą szybko ustalić relacje między wieloma zmiennymi (cechami) a wartością docelową, dzięki czemu są przydatne do eksploracyjnej analizy danych i przyspieszają uczenie modeli uczenia maszynowego.
  • Są wszechstronne. Wiele modeli regresji, takich jak regresja liniowa, wielomianowa i logistyczna, zostało dobrze zbadanych i można je dostosować do rozwiązywania szerokiego zakresu problemów świata rzeczywistego, od zadań predykcyjnych po klasyfikacyjne.
  • Mogą być łatwe do wdrożenia. Na przykład modele regresji liniowej można wdrożyć bez konieczności stosowania skomplikowanych technik matematycznych lub inżynieryjnych, dzięki czemu są one dostępne dla analityków i inżynierów zajmujących się danymi na różnych poziomach umiejętności.
  • Są łatwe do zrozumienia. Modele regresji, w szczególności regresja liniowa, oferują interpretowalne wyniki, w przypadku których relacje między zmiennymi i ich wpływ na przewidywany wynik są często jasne. Dzięki temu są przydatne do identyfikowania trendów i wzorców w danych, które mogą pomóc w dalszej, głębszej analizie. W niektórych przypadkach modele regresji mogą zrezygnować z interpretowalności na rzecz większej dokładności, w zależności od przypadku użycia.

Wyzwania w regresji

Chociaż modele regresji oferują wiele korzyści, wiążą się one również z własnym zestawem wyzwań. Często wyzwania te będą odzwierciedlone w zmniejszonej wydajności lub możliwości uogólnienia, szczególnie podczas pracy ze złożonymi problemami lub ograniczonymi danymi. Poniżej znajdują się niektóre z najczęstszych problemów napotykanych w analizie regresji.

  • Nadmierne dopasowanie:modele często mają trudności z zrównoważeniem odchyleń i wariancji. Jeśli model jest zbyt złożony, może bardzo dobrze pasować do danych historycznych (zmniejszając wariancję), ale staje się stronniczy po wystawieniu na działanie nowych danych. Dzieje się tak często dlatego, że model zapamiętuje dane szkoleniowe zamiast uczyć się uogólnionej abstrakcji.
  • Niedopasowanie:model, który jest zbyt prosty w stosunku do rozpatrywanego problemu, może powodować duże obciążenie. Pokaże wysoki poziom błędów zarówno w danych uczących, jak i niewidocznych, co wskazuje, że nie nauczył się podstawowych wzorców. Nadmierne korekty w celu skorygowania dużego obciążenia mogą prowadzić do niedopasowania, gdy model nie uchwyci złożoności danych.
  • Złożone dane szkoleniowe:modele regresji zazwyczaj zakładają, że obserwacje wykorzystywane do uczenia są niezależne. Jeśli dane zawierają złożone relacje lub nieodłączną losowość, model może mieć trudności z zbudowaniem dokładnych i wiarygodnych prognoz.
  • Niekompletne lub brakujące dane:Algorytmy regresji nadzorowanej wymagają dużych ilości danych, aby poznać wzorce i uwzględnić przypadki narożne. W przypadku brakujących lub niekompletnych danych model może nie działać dobrze, szczególnie w przypadku uczenia się złożonych relacji wymagających szerokiego pokrycia danymi.
  • Wybór zmiennych predykcyjnych:modele regresji opierają się na ludziach, którzy wybierają odpowiednie zmienne predykcyjne (cechy). Jeśli uwzględnionych zostanie zbyt wiele nieistotnych zmiennych, wydajność modelu może się pogorszyć. I odwrotnie, jeśli wybranych zostanie zbyt mało lub niewłaściwe zmienne, model może nie rozwiązać dokładnie problemu lub nie dostarczyć wiarygodnych przewidywań.