Uczenie się bez nadzoru: co to jest i jak działa
Opublikowany: 2024-07-03Odkryj tajemnice uczenia się bez nadzoru – rewolucyjnej techniki, która pozwala maszynom stać się autonomicznymi analitykami danych i wydobywać cenne spostrzeżenia bez interwencji człowieka.
Spis treści
- Co to jest uczenie się bez nadzoru?
- Uczenie się bez nadzoru a uczenie się pod nadzorem
- Jak działa uczenie się bez nadzoru
- Rodzaje uczenia się bez nadzoru
- Zastosowania uczenia się bez nadzoru
- Zalety uczenia się bez nadzoru
- Wady uczenia się bez nadzoru
Co to jest uczenie się bez nadzoru?
Uczenie się bez nadzoru to rodzaj uczenia maszynowego (ML), który samodzielnie znajduje wzorce i relacje w danych. Termin„bez nadzoru”oznacza, że model wykorzystuje nieoznakowane dane, co oznacza, że nie otrzymuje od ludzi żadnych instrukcji dotyczących tego, czego ma szukać, ani nawet wskazówek na temat tego, na co patrzy. Zamiast tego wykorzystuje algorytmy do oceny zbiorów danych i znajdowania korelacji, podobieństw, różnic i innych sposobów opisywania danych za pomocą matematyki.
Uczenie maszynowe to podzbiór sztucznej inteligencji (AI), która wykorzystuje dane i metody statystyczne do tworzenia modeli naśladujących ludzkie rozumowanie, zamiast polegać na zakodowanych na stałe instrukcjach. Uczenie się bez nadzoru wykorzystuje eksploracyjne podejście oparte na danych w celu wyciągania wniosków z dużych zbiorów danych, na przykład grupowanie jednostek według wspólnych cech lub sprawdzanie, które punkty danych zwykle występują wspólnie – co może przypominać sortowanie zdjęć drzew liściastych od wiecznie zielonych drzew lub znajdowanie że osoby oglądająceUlicę Sezamkowąprawdopodobnie też obejrząDaniela Tygrysa.
Uczenie się bez nadzoru a uczenie się pod nadzorem
W przeciwieństwie do metod nienadzorowanych, uczenie się nadzorowane wykorzystuje oznaczone dane, które łączą dane wejściowe z właściwymi wynikami. I odwrotnie, uczenie się bez nadzoru nie ma żadnych danych wejściowych i wyjściowych, które model mógłby intuicyjnie wyczuć, a jedynie dane do analizy.
Etykiety zapewniają tzw. nadzór nad procesem uczenia się modelu, kierując go w drodze inżynierii wstecznej do prawidłowej odpowiedzi na podstawie danych wejściowych. Korzystanie z uczenia nadzorowanego ma sens, jeśli masz tego rodzaju dane, do których model może dążyć i na podstawie których można ekstrapolować, w tym:
- Decyzje typu „tak” lub „nie” , takie jak wykrywanie spamu lub oszustwa
- Klasyfikacja , np. identyfikacja obiektów na obrazie lub rozpoznawanie mowy
- Prognozowanie , takie jak ceny domów lub pogoda
Z kolei uczenie się bez nadzoru nie służy do uzyskania właściwej odpowiedzi, ale raczej do znalezienia wzorców lub grupowań w danych. Trzy główne zastosowania to:
- Klastrowanie , takie jak segmentacja klientów lub grupowanie dokumentów
- Powiązanie , takie jak silniki rekomendacji lub anomalie bezpieczeństwa
- Redukcja wymiarowości , zwykle używana do kompresji dużych zbiorów danych, aby ułatwić zarządzanie nimi
Uczenie maszynowe nie ogranicza się tylko do metod nadzorowanych i nienadzorowanych; to tylko dwa końce spektrum. Inne rodzaje metod uczenia maszynowego obejmują uczenie się częściowo nadzorowane, uczenie się ze wzmocnieniem i samonadzorowane.
Jak działa uczenie się bez nadzoru
Uczenie się bez nadzoru jest koncepcyjnie proste: algorytmy przetwarzają duże ilości danych, aby określić, w jaki sposób powiązane są różne punkty danych. Ponieważ dane nie są oznakowane, uczenie się bez nadzoru nie ma kontekstu ani celu. To po prostu próba znalezienia wzorców i innych cech.
Oto krótki przegląd procesu uczenia się bez nadzoru:
1 Gromadzenie i czyszczenie danych.Uczenie się bez nadzoru ocenia jedną tabelę na raz, więc jeśli masz wiele zestawów danych, musisz ostrożnie je scalić. Ważne jest również, aby uporządkować dane najlepiej jak potrafisz, na przykład usuwając duplikaty i poprawiając błędy.
2 Skalowanie funkcji.Algorytmy nienadzorowane mogą zostać wyrzucone w przypadku dużych zakresów, dlatego należy rozważyć przekształcenie funkcji w węższe zakresy przy użyciu technik obejmujących:
- Normalizacja: przekształca górną wartość na 1, najniższą wartość na 0, a wszystko inne jako ułamek dziesiętny.
- Standaryzacja: określa wartość średnią jako 0 i odchylenie standardowe jako 1, przy czym każdy punkt danych jest odpowiednio dostosowany.
- Transformacja logarytmiczna: kompresuje szerokie zakresy, więc w przypadku logarytmu o podstawie 10 100 000 staje się 6, a 1 000 000 staje się 7.
3 Wybór algorytmu.Istnieje wiele algorytmów dla każdego rodzaju uczenia się bez nadzoru, każdy ma mocne i słabe strony (omówimy je w następnej sekcji). Możesz zastosować różne algorytmy do tego samego zbioru danych i porównać.
4 Odkrywanie i identyfikacja wzorców.Wybrany algorytm zaczyna działać. Może to zająć sekundy lub godziny, w zależności od rozmiaru zbioru danych i wydajności algorytmu. Jeśli masz duży zbiór danych, możesz chcieć uruchomić algorytm na podzbiorze przed przetworzeniem całości.
5 Interpretacja.Na tym etapie nadszedł czas, aby ludzie przejęli kontrolę. Analityk danych może używać wykresów, kontroli punktowych i różnych obliczeń do analizy i interpretacji danych.
6 Zastosowanie.Kiedy już będziesz mieć pewność, że uzyskasz przydatne wyniki, użyj go. O niektórych zastosowaniach uczenia się bez nadzoru porozmawiamy później.
Rodzaje uczenia się bez nadzoru
Istnieje kilka rodzajów uczenia się bez nadzoru, ale trzy najczęściej stosowane to grupowanie, reguły asocjacji i redukcja wymiarowości.
Grupowanie
Klastrowanie tworzy grupy punktów danych. Jest to bardzo przydatne do łączenia elementów, które są do siebie podobne, aby można je było później sklasyfikować za pomocą analizy ludzkiej. Na przykład, jeśli masz zbiór danych obejmujący wiek klienta i średnią kwotę transakcji, może znaleźć klastry, które pomogą Ci zdecydować, gdzie kierować reklamy.
Rodzaje klastrów obejmują:
- Klastrowanie wyłączne lub twarde.Każdy punkt danych może należeć tylko do jednego klastra. Jedno z popularnych podejść, znane jako k-średnie, pozwala określić, ile klastrów chcesz utworzyć, chociaż inne mogą określić optymalną liczbę klastrów.
- Nakładanie się lub miękkie grupowanie. Dzięki takiemu podejściu punkt danych może znajdować się w wielu klastrach i mieć „stopień” przynależności do każdego z nich, a nie wyłącznie do wewnątrz lub na zewnątrz.
- Klastrowanie hierarchiczne. Jeśli odbywa się to oddolnie, nazywa się to hierarchicznym grupowaniem aglomeracyjnym, w skrócie HAC; metoda odgórna nazywana jest grupowaniem dzielącym. W obu przypadkach występuje wiele klastrów zorganizowanych w coraz większe.
- Grupowanie probabilistyczne. Jest to inne podejście, które oblicza procentowe prawdopodobieństwo, że dowolny punkt danych należy do dowolnej kategorii. Jedną z zalet tego podejścia jest to, że można przypisać pewnemu punktowi danych bardzo niskie prawdopodobieństwo przynależności do danego klastra, co może uwydatnić nieprawidłowe lub uszkodzone dane.
Regulamin stowarzyszenia
Podejście to, znane również jako eksploracja reguł asocjacyjnych lub uczenie się reguł asocjacyjnych, umożliwia wykrycie interesujących relacji między punktami danych. Najczęstszym zastosowaniem reguł skojarzeń jest ustalenie, które przedmioty są często kupowane lub używane razem, aby model mógł zasugerować następną rzecz do kupienia lub pokazania do obejrzenia.
Trzy podstawowe koncepcje reguł asocjacyjnych to:
- Wsparcie.Jak często A i B występują razem jako procent wszystkich dostępnych instancji (np. transakcji)? A i B mogą być pojedynczymi elementami lub zbiorami reprezentującymi wiele elementów.
- Zaufanie. Jak często zdarza się, że jeśli widać A, widać także B?
- Winda. Jakie jest prawdopodobieństwo, że A i B będą widziane razem, w porównaniu do sytuacji, gdyby nie było korelacji? Wzrost jest miarą „interesowności” skojarzenia.
Redukcja wymiarowości
Redukcja wymiarowości odpowiada liczbie kolumn w tabeli. Inne terminy określające kolumny w tym kontekście tocechylubatrybuty. W miarę wzrostu liczby funkcji w zbiorze danych analizowanie danych i osiąganie optymalnych wyników staje się coraz trudniejsze.
Przetwarzanie danych wielowymiarowych wymaga więcej czasu, mocy obliczeniowej i energii. Może to również prowadzić do wyników niespełniających standardów. Szczególnie zgubnym przykładem jest nadmierne dopasowanie, czyli tendencja modeli uczenia maszynowego do uczenia się zbyt wielu szczegółów na podstawie danych szkoleniowych kosztem szerszych wzorców, które dobrze uogólniają się na nowe dane.
Algorytmy redukujące wymiarowość tworzą uproszczone zbiory danych poprzez kondensację oryginalnych danych w mniejsze, łatwiejsze w zarządzaniu wersje, które zachowują najważniejsze informacje. Działają poprzez łączenie skorelowanych cech i odnotowywanie odchyleń od ogólnego trendu, skutecznie zmniejszając liczbę kolumn bez utraty kluczowych szczegółów.
Na przykład, jeśli masz zbiór danych o hotelach i ich udogodnieniach, model może wykazać, że wiele funkcji jest skorelowanych z liczbą gwiazdek, więc można skompresować w jednej kolumnie atrybuty takie jak spa, obsługa pokoju i całodobowa recepcja.
Zazwyczaj inżynierowie redukują wymiarowość na etapie wstępnego przetwarzania, aby poprawić wydajność i wyniki innych procesów, w tym między innymi grupowania i uczenia się reguł asocjacyjnych.
Zastosowania uczenia się bez nadzoru
Oto kilka przykładów:
- Analiza koszyka rynkowego.Sprzedawcy detaliczni szeroko korzystają z zasad stowarzyszania. Na przykład, jeśli włożysz hot dogi do koszyka na zakupy spożywcze, może to zasugerować zakup ketchupu i bułek do hot dogów, ponieważ zaobserwowano duży wzrost zainteresowania tymi kombinacjami u innych kupujących. Te same dane mogą również skłonić ich do umieszczania w supermarkecie ketchupu i hot dogów obok siebie.
- Silniki rekomendacji. Sprawdzają one Twoje dane osobowe – dane demograficzne i wzorce zachowań – i porównują je z danymi innych osób, aby odgadnąć, co możesz chcieć kupić lub obejrzeć w następnej kolejności. Mogą korzystać z trzech typów uczenia się bez nadzoru: grupowania w celu ustalenia, które wzorce innych klientów mogą przewidywać Twoje, reguł skojarzeń w celu znalezienia korelacji między określonymi działaniami lub zakupami oraz redukcji wymiarów w celu ułatwienia przetwarzania złożonych zbiorów danych.
- Segmentacja klientów. Podczas gdy marketerzy od dziesięcioleci dzielą swoich odbiorców na nazwane kategorie, grupowanie bez nadzoru może wyselekcjonować grupy, o których nikt nie pomyślał. Takie podejście pozwala na analizę opartą na zachowaniach i może pomóc zespołom w kierowaniu przekazem i promocjami w nowy sposób.
- Wykrywanie anomalii.Uczenie się bez nadzoru jest często wykorzystywane do ostrzegania, gdy coś dzieje się nienormalnie, ponieważ bardzo dobrze radzi sobie ze zrozumieniem wzorców. Zastosowania obejmują oznaczanie fałszywych zakupów kartą kredytową, uszkodzonych danych w tabeli i możliwości arbitrażu na rynkach finansowych.
- Rozpoznawanie mowy.Analiza mowy jest trudna dla komputerów, ponieważ muszą one radzić sobie z hałasem w tle, akcentami, dialektami i głosami. Uczenie się bez nadzoru pomaga silnikom rozpoznawania mowy dowiedzieć się, które dźwięki korelują z którymi fonemami (jednostkami mowy) i które fonemy są zwykle słyszane razem, a także filtruje szum tła i inne ulepszenia.
Zalety uczenia się bez nadzoru
- Niskie zaangażowanie człowieka.Gdy niezawodność systemu uczenia się bez nadzoru zostanie udowodniona, jego uruchomienie nie wymaga większego wysiłku niż zapewnienie prawidłowego poprowadzenia wejść i wyjść.
- Działa na surowych danych. Nie ma potrzeby podawania etykiet — to znaczy określania, jakie dane wyjściowe powinny wynikać z danych wejściowych. Ta zdolność do przetwarzania danych na bieżąco jest niezwykle cenna w przypadku ogromnych ilości nietkniętych danych.
- Odkrywanie ukrytych wzorców. Uczenie się bez nadzoru, które nie ma innego celu ani planu poza odnajdywaniem wzorców, może wskazać „nieznane niewiadome” — wnioski oparte na danych, których wcześniej nie brałeś pod uwagę, ale które po przedstawieniu mają sens. Podejście to jest szczególnie przydatne przy znajdowaniu igieł w stogach siana, na przykład podczas analizy DNA pod kątem przyczyny śmierci komórki.
- Eksploracja danych. Ograniczając wymiarowość oraz znajdując wzorce i klastry, uczenie się bez nadzoru daje analitykom przewagę w zrozumieniu nowych zbiorów danych.
- Szkolenie przyrostowe. Wiele modeli pracujących bez nadzoru może uczyć się na bieżąco: w miarę napływu większej ilości danych mogą oceniać najnowsze dane wejściowe w odniesieniu do tego, co już odkryli. Zajmuje to znacznie mniej czasu i wysiłku obliczeniowego.
Wady uczenia się bez nadzoru
- Potrzebujesz dużo danych.Uczenie się bez nadzoru jest podatne na duże błędy, jeśli jest szkolone na ograniczonej liczbie przykładów. Może znaleźć w danych wzorce, które nie sprawdzają się w świecie rzeczywistym (nadmierne dopasowanie), radykalnie zmienić się w obliczu nowych danych (niestabilność) lub nie mieć wystarczającej ilości informacji, aby określić cokolwiek znaczącego (ograniczone odkrywanie wzorców).
- Niska interpretowalność. Może być trudno zrozumieć, dlaczego algorytm, taki jak logika grupowania, doszedł do określonego wniosku.
- Fałszywie pozytywne. Model nienadzorowany może zbyt wiele odczytać z anomalnych, ale nieistotnych punktów danych bez etykiet, które nauczyłyby go, na co warto zwrócić uwagę.
- Trudno to systematycznie oceniać.Ponieważ nie ma „właściwej” odpowiedzi, z którą można by to porównać, nie ma prostego sposobu zmierzenia dokładności lub użyteczności wyników. Problem można nieco złagodzić, uruchamiając różne algorytmy na tych samych danych, ale ostatecznie miara jakości będzie w dużej mierze subiektywna.