Uczenie się częściowo nadzorowane: co to jest i jak działa
Opublikowany: 2024-07-18W dziedzinie uczenia maszynowego uczenie się częściowo nadzorowane jawi się jako sprytne podejście hybrydowe, wypełniające lukę między metodami nadzorowanymi i nienadzorowanymi, poprzez wykorzystanie zarówno oznakowanych, jak i nieoznaczonych danych do szkolenia solidniejszych i wydajniejszych modeli.
Spis treści
- Co to jest uczenie się częściowo nadzorowane?
- Uczenie się częściowo nadzorowane a uczenie się nadzorowane i bez nadzoru
- Jak działa uczenie się częściowo nadzorowane
- Rodzaje uczenia się półnadzorowanego
- Zastosowania uczenia się częściowo nadzorowanego
- Zalety uczenia się częściowo nadzorowanego
- Wady uczenia się częściowo nadzorowanego
Co to jest uczenie się częściowo nadzorowane?
Uczenie się częściowo nadzorowane to rodzaj uczenia maszynowego (ML), który wykorzystuje kombinację danych oznaczonych i nieoznaczonych do uczenia modeli. Częściowo nadzorowany oznacza, że model otrzymuje wskazówki na podstawie małej ilości oznaczonych danych, gdzie dane wejściowe są wyraźnie sparowane z prawidłowymi wynikami, a także większej puli nieoznaczonych danych, których zwykle jest więcej. Modele te zazwyczaj uzyskują wstępny wgląd w niewielką ilość oznaczonych danych, a następnie udoskonalają swoje zrozumienie i dokładność, korzystając z większej puli nieoznaczonych danych.
Uczenie maszynowe to podzbiór sztucznej inteligencji (AI), która wykorzystuje dane i metody statystyczne do tworzenia modeli naśladujących ludzkie rozumowanie, zamiast polegać na zakodowanych na stałe instrukcjach. Wykorzystując elementy podejścia nadzorowanego i nienadzorowanego, półnadzorowany to odrębny i skuteczny sposób na poprawę jakości prognoz bez uciążliwych inwestycji w etykietowanie przez ludzi.
Uczenie się częściowo nadzorowane a uczenie się nadzorowane i bez nadzoru
Podczas gdy uczenie się nadzorowane opiera się wyłącznie na oznaczonych danych, a uczenie się bez nadzoru działa z danymi całkowicie nieoznakowanymi, uczenie się częściowo nadzorowane łączy te dwa elementy.
Nauka pod nadzorem
Uczenie nadzorowane wykorzystuje oznaczone dane do uczenia modeli pod kątem określonych zadań. Dwa główne typy to:
- Klasyfikacja:określa, do której klasy lub grupy należy dany element. Może to być wybór binarny, wybór spośród wielu opcji lub członkostwo w wielu grupach.
- Regresja: przewiduje wyniki w oparciu o najlepiej dopasowaną linię z istniejących danych. Zwykle używane do prognozowania, np. prognozowania pogody lub wyników finansowych.
Uczenie się bez nadzoru
Uczenie się bez nadzoru identyfikuje wzorce i struktury w nieoznakowanych danych za pomocą trzech podstawowych technik:
- Grupowanie:definiuje grupy punktów o podobnych wartościach. Mogą być one wykluczające (każdy punkt danych w dokładnie jednym klastrze), nakładające się (stopnie przynależności do jednego lub większej liczby klastrów) lub hierarchiczne (wiele warstw klastrów).
- Powiązanie:wykrywa, które elementy z większym prawdopodobieństwem będą współwystępować, np. produkty często kupowane razem.
- Redukcja wymiarowości:upraszcza zbiory danych poprzez kondensację danych w mniejszej liczbie zmiennych, skracając w ten sposób czas przetwarzania i poprawiając zdolność modelu do uogólniania.
Uczenie się częściowo nadzorowane
Uczenie się częściowo nadzorowane wykorzystuje zarówno dane oznaczone, jak i nieoznaczone, aby poprawić wydajność modelu. Takie podejście jest szczególnie przydatne, gdy etykietowanie danych jest kosztowne lub czasochłonne.
Ten typ uczenia maszynowego jest idealny, gdy masz małą ilość danych oznaczonych etykietą i dużą ilość danych bez etykiet. Dzięki określeniu, które punkty nieoznakowane ściśle odpowiadają punktom oznaczonym, model częściowo nadzorowany może stworzyć bardziej szczegółowe granice klasyfikacji lub modele regresji, co prowadzi do poprawy dokładności i wydajności.
Jak działa uczenie się częściowo nadzorowane
Proces uczenia się częściowo nadzorowanego składa się z kilku etapów, łącząc elementy metod uczenia się pod nadzorem i bez nadzoru:
1 Gromadzenie i etykietowanie danych:Zbierz zbiór danych zawierający małą część danych oznaczonych etykietą i większą część danych nieoznaczonych. Obydwa zbiory danych powinny mieć te same funkcje, zwane także kolumnami lub atrybutami.
2 Przetwarzanie wstępne i ekstrakcja cech:Oczyść i wstępnie przetwórz dane, aby zapewnić modelowi najlepszą możliwą podstawę do uczenia się: Sprawdź wyrywkowo, aby zapewnić jakość, usuń duplikaty i usuń niepotrzebne funkcje. Rozważ utworzenie nowych funkcji, które przekształcają ważne cechy w znaczące zakresy odzwierciedlające zmienność danych (np. konwertowanie dat urodzenia na wiek) w procesie zwanym ekstrakcją.
3 Wstępne uczenie się pod nadzorem:trenuj model, korzystając z oznaczonych danych. Ta początkowa faza pomaga modelowi zrozumieć związek między danymi wejściowymi i wynikami.
4 Uczenie się bez nadzoru:Zastosuj techniki uczenia się bez nadzoru do nieoznakowanych danych, aby zidentyfikować wzorce, klastry lub struktury.
5 Udoskonalanie modelu:Połącz wnioski z danych oznaczonych i nieoznaczonych, aby udoskonalić model. Ten krok często obejmuje iteracyjne szkolenie i korekty w celu poprawy dokładności.
6 Ocena i dostrajanie:Oceń wydajność modelu, korzystając ze standardowych wskaźników nadzorowanego uczenia się, takich jak dokładność, precyzja, zapamiętywanie i wynik F1. Dostosuj model, dostosowując wyraźne instrukcje (znane jako hiperparametry) i ponownie oceniając, aż do osiągnięcia optymalnej wydajności.
7Wdrażanie i monitorowanie:Wdróż model do użytku w świecie rzeczywistym, stale monitoruj jego wydajność i w razie potrzeby aktualizuj go o nowe dane.
Rodzaje uczenia się półnadzorowanego
Uczenie się częściowo nadzorowane można wdrożyć przy użyciu kilku technik, z których każda wykorzystuje oznakowane i nieoznakowane dane w celu usprawnienia procesu uczenia się. Oto główne typy wraz z podtypami i kluczowymi pojęciami:
Samokształcenie
Samokształcenie, znane również jako samokształcenie lub samooznakowanie, jest najprostszym podejściem. W tej technice model początkowo wytrenowany na danych oznaczonych etykietami przewiduje etykiety dla danych nieoznaczonych i rejestruje stopień ich pewności. Model iteracyjnie uczy się ponownie, stosując swoje najbardziej pewne przewidywania jako dodatkowe oznaczone dane — te wygenerowane etykiety są znane jakopseudoetykiety. Proces ten trwa do momentu ustabilizowania się lub wystarczającej poprawy wydajności modelu.
- Szkolenie wstępne:model jest szkolony na małym, oznaczonym zestawie danych.
- Przewidywanie etykiet:przeszkolony model przewiduje etykiety dla danych bez etykiet.
- Próg ufności:wybierane są tylko prognozy powyżej określonego poziomu ufności.
- Ponowne uczenie:wybrane pseudo-oznaczone dane są dodawane do zbioru uczącego, a model jest ponownie uczony.
Ta metoda jest prosta, ale skuteczna, zwłaszcza gdy model może wcześnie dokonać dokładnych przewidywań. Jeśli jednak początkowe przewidywania okażą się błędne, może wystąpić tendencja do wzmacniania własnych błędów. Użyj grupowania, aby sprawdzić, czy pseudoetykiety są spójne z naturalnymi grupowaniami w danych.
Współszkolenie
Wspólne uczenie, zwykle stosowane w przypadku problemów z klasyfikacją, obejmuje uczenie dwóch lub więcej modeli w oparciu o różne widoki lub podzbiory danych. Najbardziej pewne przewidywania każdego modelu dotyczące nieoznaczonych danych zwiększają zbiór szkoleniowy drugiego modelu. Technika ta wykorzystuje różnorodność wielu modeli w celu poprawy uczenia się.
- Podejście dwuwidokowe:zbiór danych jest podzielony na dwa odrębne widoki — czyli podzbiory oryginalnych danych, z których każdy zawiera inne funkcje. Każdy z dwóch nowych widoków ma tę samą etykietę, ale w idealnym przypadku oba są warunkowo niezależne, co oznacza, że znajomość wartości w jednej tabeli nie zapewni żadnych informacji o drugiej.
- Trenowanie modeli:Dwa modele są trenowane oddzielnie w każdym widoku przy użyciu oznaczonych etykietami danych.
- Wzajemne etykietowanie:każdy model przewiduje etykiety dla danych bez etykiet, a najlepsze przewidywania — albo wszystkie te powyżej określonego progu ufności, albo po prostu stała liczba na górze listy — są używane do ponownego uczenia drugiego modelu.
Wspólne szkolenie jest szczególnie przydatne, gdy dane można wykorzystać w wielu widokach, które dostarczają uzupełniających się informacji, takich jak obrazy medyczne i dane kliniczne powiązane z tym samym pacjentem. W tym przykładzie jeden model przewidywałby częstość występowania choroby na podstawie obrazu, a drugi na podstawie danych z dokumentacji medycznej.
Takie podejście pomaga zmniejszyć ryzyko wzmocnienia błędnych przewidywań, ponieważ oba modele mogą się wzajemnie korygować.
Modele generatywne
Modele generatywne uczą się prawdopodobieństwa współwystępowania danych par wejść i wyjść, co jest znane jako łączny rozkład prawdopodobieństwa. Takie podejście pozwala im generować nowe dane, które przypominają to, co już zaobserwowano. Modele te wykorzystują dane oznaczone i nieoznaczone w celu uchwycenia podstawowej dystrybucji danych i usprawnienia procesu uczenia się. Jak można się domyślić z nazwy, jest to podstawa generatywnej sztucznej inteligencji, która może tworzyć tekst, obrazy i tak dalej.
- Generacyjne sieci przeciwstawne (GAN):Sieci GAN składają się z dwóch modeli: generatora i dyskryminatora. Generator tworzy syntetyczne punkty danych, natomiast dyskryminator próbuje rozróżnić te syntetyczne punkty danych od danych rzeczywistych. W miarę szkolenia generator poprawia swoją zdolność do tworzenia realistycznych danych, a dyskryminator staje się lepszy w identyfikowaniu fałszywych danych. Ten kontradyktoryjny proces trwa, a każdy model stara się uzyskać lepsze wyniki niż drugi. Sieci GAN można zastosować do uczenia się częściowo nadzorowanego na dwa sposoby:
- Zmodyfikowany dyskryminator:zamiast po prostu klasyfikować dane jako „fałszywe” lub „prawdziwe”, dyskryminator jest szkolony w klasyfikowaniu danych na wiele klas plus klasę fałszywą. Umożliwia to dyskryminatorowi zarówno klasyfikację, jak i dyskryminację.
- Korzystanie z danych bez etykiet:dyskryminator ocenia, czy dane wejściowe odpowiadają oznaczonym danym, które widział, czy też są fałszywymi danymi z generatora. To dodatkowe wyzwanie zmusza osobę rozróżniającą do rozpoznawania danych nieoznaczonych etykietą na podstawie ich podobieństwa do danych oznaczonych etykietą, co pomaga mu poznać cechy, które czynią je podobnymi.
- Autoenkodery wariacyjne (VAE):VAE wymyślają, jak zakodować dane w prostszą, abstrakcyjną reprezentację, którą mogą zdekodować w możliwie najbliższą reprezentację oryginalnych danych. Wykorzystując zarówno dane oznaczone, jak i nieoznaczone, VAE tworzy pojedynczą abstrakcję, która przechwytuje podstawowe cechy całego zbioru danych, a tym samym poprawia jego wydajność w przypadku nowych danych.
Modele generatywne to potężne narzędzia do uczenia się częściowo nadzorowanego, szczególnie w przypadku dużej liczby, ale złożonych, nieoznaczonych danych, takich jak tłumaczenie językowe lub rozpoznawanie obrazów. Oczywiście potrzebujesz etykiet, aby GAN lub VAE wiedziały, do czego dążyć.
Metody oparte na grafach
Metody oparte na grafach przedstawiają punkty danych jako węzły na wykresie, przy czym istnieją różne podejścia do zrozumienia i wyodrębnienia przydatnych informacji o relacjach między nimi. Niektóre z wielu metod opartych na grafach stosowanych w uczeniu się częściowo nadzorowanym obejmują:
- Propagacja etykiet:stosunkowo proste podejście, w którym wartości liczbowe zwane krawędziami wskazują podobieństwa między pobliskimi węzłami. W pierwszym przebiegu modelu nieoznakowane punkty z najsilniejszymi krawędziami łączą się z oznaczonym punktem, zapożyczając etykietę tego punktu. W miarę oznaczania kolejnych punktów proces jest powtarzany, aż wszystkie punkty zostaną oznaczone.
- Graficzne sieci neuronowe (GNN): wykorzystuje techniki uczenia sieci neuronowych, takie jak uwaga i splot, w celu zastosowania wiedzy z oznaczonych punktów danych do nieoznaczonych, szczególnie w bardzo złożonych sytuacjach, takich jak sieci społecznościowe i analiza genów.
- Autoenkodery graficzne: podobnie jak VAE, tworzą one pojedynczą abstrakcyjną reprezentację, która przechwytuje dane oznaczone i nieoznaczone. Podejście to jest często stosowane w celu znalezienia brakujących ogniw, czyli potencjalnych połączeń nieujętych na wykresie.
Metody oparte na grafach są szczególnie skuteczne w przypadku złożonych danych, które w naturalny sposób tworzą sieci lub mają wewnętrzne powiązania, takich jak sieci społecznościowe, sieci biologiczne i systemy rekomendacji.
Zastosowania uczenia się częściowo nadzorowanego
Niektóre z wielu zastosowań uczenia się częściowo nadzorowanego obejmują:
- Klasyfikacja tekstu:jeśli masz bardzo duży zbiór dostępnych danych, np. miliony recenzji produktów lub miliardy e-maili, wystarczy oznaczyć etykietą tylko ich część. W podejściu częściowo nadzorowanym pozostałe dane zostaną wykorzystane do udoskonalenia modelu.
- Analiza obrazu medycznego:Czas ekspertów medycznych jest kosztowny i nie zawsze jest dokładny. Uzupełnienie analizy obrazów, takich jak rezonans magnetyczny lub zdjęcia rentgenowskie, wieloma nieoznakowanymi obrazami może prowadzić do uzyskania modelu, który będzie równy lub nawet lepszy od ich dokładności.
- Rozpoznawanie mowy:Ręczna transkrypcja mowy jest żmudnym i obciążającym procesem, szczególnie jeśli próbujesz uchwycić szeroką gamę dialektów i akcentów. Połączenie oznaczonych danych mowy z ogromną ilością nieoznakowanego dźwięku poprawi zdolność modelu do dokładnego rozpoznawania tego, co się mówi.
- Wykrywanie oszustw:najpierw wytrenuj model na małym zestawie oznaczonych transakcji, identyfikując znane oszustwa i uzasadnione przypadki. Następnie dodaj większy zestaw nieoznaczonych transakcji, aby narazić model na podejrzane wzorce i anomalie, zwiększając jego zdolność do identyfikowania nowych lub rozwijających się oszukańczych działań w systemach finansowych.
- Segmentacja klientów:Uczenie się częściowo nadzorowane może poprawić precyzję, wykorzystując mały, oznaczony etykietą zbiór danych do zdefiniowania początkowych segmentów na podstawie określonych wzorców i danych demograficznych, a następnie dodając większą pulę nieoznakowanych danych w celu udoskonalenia i rozszerzenia tych kategorii.
Zalety uczenia się częściowo nadzorowanego
- Opłacalność:uczenie się częściowo nadzorowane zmniejsza zapotrzebowanie na obszerne oznakowane dane, obniżając koszty i wysiłek związany z etykietowaniem, a także wpływ błędów ludzkich i uprzedzeń.
- Ulepszone przewidywania:łączenie danych oznaczonych i nieoznaczonych często skutkuje lepszą jakością przewidywań w porównaniu z uczeniem się wyłącznie nadzorowanym, ponieważ zapewnia modelowi więcej danych, z których może się uczyć.
- Skalowalność:uczenie się częściowo nadzorowane dobrze sprawdza się w rzeczywistych zastosowaniach, w których dokładne etykietowanie jest niepraktyczne, np. w przypadku miliardów potencjalnie fałszywych transakcji, ponieważ obsługuje duże zbiory danych przy minimalnej liczbie oznakowanych danych.
- Elastyczność:połączenie zalet uczenia się pod nadzorem i bez nadzoru sprawia, że podejście to można dostosować do wielu zadań i dziedzin.
Wady uczenia się częściowo nadzorowanego
- Złożoność:Integracja danych oznaczonych i nieoznaczonych często wymaga wyrafinowanych technik przetwarzania wstępnego, takich jak normalizacja zakresów danych, przypisywanie brakujących wartości i redukcja wymiarowości.
- Poleganie na założeniach:Metody częściowo nadzorowane często opierają się na założeniach dotyczących rozkładu danych, takich jak punkty danych w tym samym klastrze zasługujące na tę samą etykietę, co nie zawsze jest prawdą.
- Potencjał szumu:dane nieoznakowane mogą powodować szum i niedokładności, jeśli nie będą właściwie obsługiwane za pomocą technik, takich jak wykrywanie wartości odstających i weryfikacja w oparciu o oznaczone dane.
- Trudniejsze do oceny:bez dużej ilości oznakowanych danych nie uzyskasz wielu przydatnych informacji ze standardowych podejść do ewaluacji nadzorowanego uczenia się.