Wyjaśnienie uczenia się zerowego: przyszłość uczenia maszynowego bez etykiet

Opublikowany: 2025-01-13

Uczenie się zero-shot (ZSL) rewolucjonizuje uczenie maszynowe (ML), umożliwiając modelom klasyfikację lub przewidywanie wyników dla koncepcji, z którymi nigdy wcześniej się nie spotkali, co oznacza odejście od tradycyjnych podejść, które wymagają obszernych, oznakowanych danych. W tym przewodniku omówiono sposób działania ZSL, jego zastosowania, porównanie z uczeniem się za pomocą kilku strzałów (FSL) oraz związane z nim wyzwania i przyszły potencjał.

Spis treści

Co to jest nauka od zera?
Jak działa uczenie się od zera
Uczenie się „zero-shot” a uczenie się „kilkukrotne” i „jednorazowe” uczenie się
Uczenie się od zera a monitowanie od zera
Zastosowania uczenia się od zera
Korzyści z uczenia się od zera
Wyzwania uczenia się od zera

Pracuj mądrzej dzięki Grammarly

Partner w pisaniu AI dla każdego, kto ma pracę do wykonania

Czym jest uczenie się od zera (ZSL)?

ZSL umożliwia modelom uczenia maszynowego przewidywanie niewidocznych kategorii bez konieczności stosowania konkretnych przykładów szkoleniowych dla tych kategorii. W przeciwieństwie do tradycyjnych modeli nadzorowanego uczenia się, które w dużej mierze opierają się na oznakowanych zbiorach danych, w których każda kategoria musi być wyraźnie reprezentowana, ZSL wykorzystuje informacje pomocnicze – takie jak osadzenie semantyczne lub atrybuty – do uogólniania wiedzy.

Na przykład model uczenia się nadzorowanego wyszkolony do klasyfikowania zwierząt potrzebowałby oznaczonych przykładów „psa”, „kota” i „zebry”, aby je rozpoznać, podczas gdy model ZSL wytrenowany na obrazach zwierząt mógłby zidentyfikować zebrę na podstawie atrybutów opisowych, takich jak „ w paski” i „podobne do konia”, nawet bez kontaktu z wcześniejszymi przykładami. To sprawia, że ZSL jest szczególnie przydatny do zadań obejmujących duże, nieoznakowane zbiory danych lub w sytuacjach, w których zbieranie oznaczonych danych jest niepraktyczne. Jego zastosowania obejmują wizję komputerową, przetwarzanie języka naturalnego (NLP), robotykę i nie tylko.

Jak działa uczenie się od zera

Modele ZSL są najpierw wstępnie szkolone na dużym, oznaczonym zbiorze danych w celu utworzenia bazy wiedzy. Model wyodrębnia informacje pomocnicze z danych oznaczonych etykietami, w tym takie cechy, jak kolor, kształt i tonacja.

Następnie wykorzystuje te funkcje do mapowania relacji semantycznych między widocznymi i niewidzialnymi kategoriami (lub klasami) danych. Proces ten, zwany transferem wiedzy, pozwala modelowi ZSL zrozumieć na przykład, że kaczka i gęś są spokrewnione, ponieważ obie mają dzioby, pióra i błoniaste stopy.

Najpopularniejsze techniki to ZSL oparty na atrybutach, ZSL oparty na osadzaniu semantycznym i uogólniony ZSL. Poniżej przeanalizujemy każdy z nich.

Uczenie się od zera w oparciu o atrybuty

Modele ZSL oparte na atrybutach są najczęściej używane do zadań związanych z wizją komputerową. Pracują poprzez szkolenie na zbiorach danych zawierających obrazy opatrzone etykietami człowieka. Etykiety składają się z atrybutów, które osoba etykietująca uważa za przydatne. Do każdego obrazu osoba stosuje tekstowy opis jego cech, takich jak kolor, kształt lub inne cechy.

Na przykład w klasyfikacji obrazów atrybuty takie jak „szary”, „czworonożny” i „pies” mogą opisywać różne kategorie. Poprzez trening model uczy się kojarzyć te atrybuty z określonymi kategoriami.

Kiedy pokażesz modelowi przykład czegoś nowego — na przykład gatunku zwierzęcia, którego wcześniej nie widział — może on zorientować się, czy chodzi o zajęcia podobne do zajęć obserwowanych podczas szkolenia, ale nie takie same.

Kiedy model napotyka niewidzialną kategorię – na przykład wilka – może wywnioskować klasę, analizując atrybuty wspólne z wyuczonymi kategoriami, nawet jeśli etykieta „wilk” nie była wyraźnie częścią szkolenia. Te możliwe do zinterpretowania przez człowieka atrybuty poprawiają wyjaśnialność i umożliwiają uogólnienie modelu na nowe klasy.

Uczenie się od zera w oparciu o osadzanie semantyczne

To podejście jest podobne do ZSL opartego na atrybutach, ale zamiast tworzenia przez ludzi etykiet atrybutów na potrzeby szkolenia, model generuje tak zwane osadzenie semantyczne danych szkoleniowych. Te osadzania semantyczne są kodowane jako wektory — matematyczne sposoby przedstawiania obiektów ze świata rzeczywistego — a następnie odwzorowywane w przestrzeni osadzania.

Przestrzeń osadzania umożliwia modelowi uporządkowanie wiedzy kontekstowej poprzez ściślejsze grupowanie powiązanych informacji. Na przykład kategorie „pies” i „wilk” będą bliżej siebie w przestrzeni osadzania niż kategorie „pies” i „ptak” ze względu na wspólne cechy semantyczne. Przypomina to sposób, w jaki duże modele językowe (LLM) wykorzystują osadzenie semantyczne do grupowania synonimów ze względu na ich podobne znaczenia.

Kiedy model otrzymuje niewidoczne kategorie (inny sposób powiedzenia „nowe dane, z którymi model wcześniej się nie spotkał”), rzutuje wektory z tych nowych klas do tej samej przestrzeni osadzania i mierzy odległość między nimi a wektorami klas, które już zna o. Daje to kontekst modelu dla niewidocznych przykładów i pozwala wnioskować o relacjach semantycznych między znanymi i nieznanymi klasami.

Uogólnione uczenie się od zera

Większość technik uczenia się od zera trenuje model na jednym rodzaju danych, a następnie stosuje go do innego, ale powiązanego problemu. Na tym właśnie polega idea „zero shotów”: model nie ma kontaktu z żadnymi przykładami nowych klas, zanim spotka je w naturze.

Jednak rzeczywiste aplikacje nie zawsze są tak czarno-białe. Zbiór danych, który chcesz sklasyfikować w modelu ZSL, może zawierać zarówno elementy ze znanych klas, jak i nowe klasy.

Problem polega na tym, że tradycyjne modele ZSL mogą czasami wykazywać silną skłonność do błędnego oznaczania nowych klas jako rzeczy, które już znają, jeśli zmiesza się nowe i znane. Dlatego przydatne jest posiadanie modelu ZSL, który można uogólnić na zbiór danych, który może zawierać klasy już widziane podczas szkolenia.

W uogólnionym ZSL model wykonuje dodatkowy krok, aby zmniejszyć stronniczość w stosunku do znanych kategorii. Zanim dokona klasyfikacji, najpierw decyduje, czy dany obiekt należy do znanej, czy nieznanej klasy.

Uczenie się „zero-shot” a uczenie się „kilkukrotne” i „jednorazowe” uczenie się

Podobnie jak ZSL, uczenie kilku-shot (FSL) i uczenie się one-shot (OSL) umożliwiają modelom głębokiego uczenia się wykonywanie nowych zadań przy minimalnej ilości nowych danych lub bez nich. Wszystkie trzy podejścia polegają na mapowaniu relacji między cechami znanych przykładów w celu wywnioskowania wzorców w nieznanych przykładach. Ich głównym celem jest tworzenie modeli, które są skuteczne w rzeczywistych scenariuszach, w których danych jest mało lub gdy nie ma czasu na wytrenowanie nowego modelu do określonego zadania.

Kluczowa różnica polega na tym, jak radzą sobie z nowymi danymi:

FSLpolega na dostarczeniu modelowi niewielkiej liczby oznaczonych przykładów nowej klasy, którą ma zidentyfikować.
OSLto bardziej specyficzny przypadek, w którym model jest pokazany tylko jeden oznaczony przykład nowej klasy.

Zarówno FSL, jak i OSL wymagają dodatkowego etapu szkoleniowego w porównaniu do ZSL, co zwiększa czas potrzebny na naukę nowych zadań. Jednak to dodatkowe szkolenie przygotowuje ich do radzenia sobie z zadaniami, które znacznie odbiegają od wiedzy, którą model posiadał wcześniej, dzięki czemu łatwiej można je dostosować w praktyce.

Chociaż ZSL jest często postrzegany jako „elastyczny”, ponieważ nie wymaga oznaczonych przykładów nowych zadań, ta elastyczność jest w dużej mierze teoretyczna. W rzeczywistych zastosowaniach metody ZSL mogą borykać się z:

Zadania obejmujące mieszankę widocznych i niewidocznych przykładów (np. uogólnione scenariusze ZSL)
Zadania, które zasadniczo różnią się od danych szkoleniowych modelu

Modele ZSL są również wrażliwe na takie czynniki, jak sposób podziału zbiorów danych podczas wstępnego szkolenia i oceny, co może mieć wpływ na wydajność. Z drugiej strony FSL i OSL oferują większą praktyczną elastyczność w dostosowywaniu zadań poprzez włączenie nowych przykładów do procesu uczenia się, co pozwala im osiągać lepsze wyniki w różnorodnych scenariuszach.

Uczenie się od zera a monitowanie od zera

ZSL to rodzaj architektury modelu zaprojektowanej do różnych zadań głębokiego uczenia się. Natomiast monitowanie zerowe odnosi się do proszenia LLM, takiego jak ChatGPT lub Claude, o wygenerowanie danych wyjściowych bez podawania konkretnych przykładów w monicie, które pokierują jego odpowiedzią. W obu przypadkach model wykonuje zadanie bez wyraźnych przykładów tego, na czym polega to zadanie.

W podpowiedzi zerowej nie dostarczasz modelowi żadnych przykładów związanych z zadaniem. Zamiast tego polegasz na wcześniej przeszkolonej wiedzy LLM, aby wywnioskować i wykonać zadanie.

Możesz na przykład wprowadzić tekst recenzji restauracji i poprosić LLM o zaklasyfikowanie jej jako pozytywnej, neutralnej lub negatywnej – bez podawania żadnych przykładowych recenzji do wykorzystania jako punkt odniesienia. LLM wykorzysta swoje szkolenie wstępne, aby określić odpowiednią etykietę do przeglądu.

Chociaż uczenie się od zera i podpowiadanie od zera mają tę samą koncepcję wykonywania zadań bez przykładów, istnieje kluczowa różnica:

Uczenie się typu zero-shotto rodzaj architektury modelu zbudowanej do takich zadań.
Podpowiadanie zeroweto technika specyficzna dla interakcji z LLM, a nie architektura modelu.

Zastosowania uczenia się od zera

Ze względu na skupienie się na pomaganiu modelom głębokiego uczenia się w dostosowywaniu się do nowych zadań, ZSL ma zastosowania w wielu obszarach uczenia maszynowego, w tym w wizji komputerowej, NLP i robotyce. ZSL można wykorzystać w służbie zdrowia, analizie nastrojów, obsłudze klienta, tłumaczeniu dokumentów i cyberbezpieczeństwie, na przykład:

Analiza nastrojów:gdy pojawiają się najświeższe wiadomości, model NLP typu zero-shot może przeprowadzić analizę nastrojów w komentarzach publicznych, aby zapewnić wgląd w reakcje opinii publicznej w czasie niemal rzeczywistym.
Wielojęzyczne przetwarzanie dokumentów:modele NLP typu zero-shot przeszkolone w zakresie wydobywania informacji z dokumentów podatkowych w języku angielskim mogą wykonywać te same ekstrakcje z dokumentów podatkowych w języku hiszpańskim bez dodatkowego szkolenia.
Diagnostyka medyczna:Modele ZSL zostały wykorzystane do identyfikacji zdjęć rentgenowskich pacjentów chorych na COVID-19 bez żadnych wizualnych przykładów. Identyfikacja odbywa się na podstawie opisów tekstowych, sporządzonych przez lekarzy pracujących w terenie, pokazujących, jak wyglądają pozytywne zdjęcia rentgenowskie.
Bardziej dopracowane chatboty:Modele ZSL NLP potrafią zrozumieć slang i idiomy, z którymi nie spotkali się wcześniej podczas rozmów z ludźmi, co pozwala im bardziej sensownie odpowiadać na pytania, do obsługi których nie zostali specjalnie przeszkoleni.
Wykrywanie anomalii:ZSL można wykorzystać w cyberbezpieczeństwie do wykrywania nietypowych wzorców aktywności sieciowej lub oznaczania nowych rodzajów ataków hakerskich w miarę pojawiania się nowych zagrożeń.

Korzyści z uczenia się od zera

Tradycyjne podejścia do uczenia się pod nadzorem są często niepraktyczne w wielu rzeczywistych zastosowaniach, biorąc pod uwagę duże zbiory danych, czas szkolenia, pieniądze i zasoby obliczeniowe, których wymagają. ZSL może złagodzić niektóre z tych wyzwań. Korzyści obejmują zmniejszenie kosztów związanych ze szkoleniem nowego modelu i radzenie sobie z sytuacjami, w których danych jest mało lub nie są one jeszcze dostępne:

Ekonomiczny rozwój

Pozyskiwanie i kontrolowanie dużych, oznakowanych zbiorów danych wymaganych w procesie uczenia się pod nadzorem jest kosztowne i czasochłonne. Wyszkolenie modelu na wysokiej jakości oznaczonym zbiorze danych może kosztować dziesiątki tysięcy dolarów, oprócz kosztów serwerów, przestrzeni obliczeniowej w chmurze i inżynierów.

ZSL okazuje się obiecujący w obniżaniu kosztów projektów ML, umożliwiając instytucjom zmianę przeznaczenia modeli do nowych zadań bez dodatkowego szkolenia. Umożliwia także mniejszym podmiotom lub osobom zmianę przeznaczenia modeli zbudowanych przez innych.

Rozwiązywanie problemów z ograniczoną ilością danych

Elastyczność ZSL sprawia, że jest to dobre narzędzie w sytuacjach, gdy dostępnych jest niewiele danych lub gdy dane wciąż się pojawiają. Na przykład jest przydatny do diagnozowania nowych chorób, gdy informacje nie są jeszcze powszechne, lub w sytuacjach katastrof, w których informacje szybko się zmieniają. ZSL jest również przydatny do wykrywania anomalii, gdy dane są zbyt duże, aby analitycy mogli je przetworzyć.

Wyzwania uczenia się od zera

ZSL w dużej mierze opiera się na posiadaniu wysokiej jakości danych szkoleniowych w fazie przedszkoleniowej, aby zrozumieć relacje semantyczne między kategoriami na tyle dobrze, aby można było je uogólniać na nowe. Bez danych wysokiej jakości ZSL może generować niewiarygodne wyniki, które czasami są trudne do oceny.

Typowe problemy, z jakimi borykają się modele ZSL, obejmują problemy z przystosowaniem się do zadań różniących się od zadań, na których już się szkolił, oraz problemy z danymi szkoleniowymi, które powodują, że przy przewidywaniu niewidocznych klas zbyt mocno polegają na pewnych etykietach.

Adaptacja domeny

Modele ZSL działają najlepiej, gdy są proszone o radzenie sobie z nowymi danymi z domeny, która nie różni się znacząco od tej, na której zostały przeszkolone. Na przykład, jeśli model został przeszkolony na podstawie zdjęć, będzie miał trudności z klasyfikacją filmów.

Modele ZSL polegają na mapowaniu informacji pomocniczych z nieznanych danych na znane dane, więc jeśli źródła danych są zbyt różne, model nie ma możliwości uogólnienia swojej wiedzy na nowe zadanie.

Problem z mężem

Problem z koncentracją w ZSL pojawia się, gdy model zaczyna używać tylko kilku etykiet podczas dokonywania prognoz dla niewidocznych kategorii. Dzieje się tak, gdy wiele punktów w osadzonej przestrzeni cech skupia się razem, tworząc „węzły”, które odchylają model w kierunku określonych etykiet.

Może się to zdarzyć z powodu szumu w danych szkoleniowych, zbyt wielu przykładów niektórych rodzajów danych i niewystarczającej liczby innych lub dlatego, że osadzenie semantyczne modelu nie jest wystarczająco wyraźne.