Wyjaśnienie uczenia się „Few-Shot”: przekształcanie sztucznej inteligencji przy minimalnej ilości danych
Opublikowany: 2025-01-13Uczenie się metodą kilku strzałów (FSL) przekształca uczenie maszynowe (ML), umożliwiając modelom uczenie się i generowanie dokładnych wyników na podstawie zaledwie kilku przykładów, w przeciwieństwie do tradycyjnych metod, które wymagają ogromnych zbiorów danych. W tym przewodniku omówiono sposób działania FSL, jego zastosowania, porównania z uczeniem się od zera (ZSL) oraz związane z nim wyzwania i potencjał.
Spis treści
- Co to jest nauka przez kilka strzałów?
- Uczenie się za pomocą kilku strzałów a podpowiadanie za pomocą kilku strzałów: jaka jest różnica?
- Jak działa nauka metodą kilku strzałów
- Uczenie się kilkoma strzałami a uczenie się zerowym
- Aplikacje do nauki przez kilka strzałów
- Korzyści z uczenia się przez kilka strzałów
- Wyzwania uczenia się przez kilka strzałów
Co to jest nauka kilku strzałów (FSL)?
Uczenie się kilkoma strzałami (FSL) odnosi się do rodziny technik uczenia maszynowego zaprojektowanych w celu tworzenia adaptowalnych modeli zdolnych do generowania dokładnych wyników po przeszkoleniu na zaledwie kilku oznaczonych przykładach w każdej kategorii. Kiedy dostępny jest tylko jeden oznaczony przykład w każdej kategorii, nazywa się to nauką jednorazową. Na przykład nowoczesne smartfony wykorzystują technologię FSL do rozpoznawania twarzy użytkownika na podstawie zaledwie kilku zdjęć — a nawet jednego zdjęcia.
FSL jest szczególnie cenny, ponieważ pozwala modelom uczenia maszynowego rozwiązywać problemy tam, gdzie brakuje danych, jak to często ma miejsce w świecie rzeczywistym. Modele FSL mogą również wykonywać szerszy zakres zadań niż tradycyjne modele uczenia się pod nadzorem, ponieważ uczą się generalizować. Oszczędza to zasoby, ponieważ często taniej i szybciej jest dostosować model FSL do nowego zadania niż trenować od zera zupełnie nowy model. FSL jest często opisywany jako uczenie modeli uczenia maszynowego „myślenia” bardziej jak ludzie poprzez uczenie się abstrahowania od zaledwie kilku przykładów.
FSL jest często używany w zastosowaniach związanych z wizją komputerową, ale jest również stosowany w robotyce i przetwarzaniu języka naturalnego (NLP). Na przykład języka FSL używano do tłumaczenia starożytnych tekstów sumeryjskich, co jest przydatnym zadaniem, biorąc pod uwagę, że brakuje ekspertów w dziedzinie języka sumeryjskiego. Sumeryjski tłumacz modeli FSL nauczył się tłumaczyć już na podstawie niewielkiego zestawu wysokiej jakości próbek tabliczek klinowych. Następnie dokładnie przetłumaczyli duże ilości nieznanego tekstu, aby naukowcy mogli go przeanalizować.
Uczenie się za pomocą kilku strzałów a podpowiadanie za pomocą kilku strzałów: jaka jest różnica?
FSL i podpowiedzi kilku strzałów to powiązane pojęcia w ML i NLP, ale służą różnym celom.
Nauka w trybie kilku strzałów
FSL to technika uczenia modeli, która uczy modele klasyfikować niewidoczne dane. Działa poprzez dostosowywanie parametrów modelu w celu dostosowania do nowych rodzajów zadań klasyfikacyjnych w oparciu o wcześniejszą wiedzę. FSL jest powiązany z uczeniem się pod nadzorem, ale różnica polega na tym, że modele FSL są trenowane na znacznie bardziej ograniczonym zbiorze danych.
Podpowiadanie o kilku strzałach
Podpowiadanie z kilkoma strzałami to sposób pracy z dużymi modelami językowymi (LLM). Wykorzystuje uczenie się kontekstowe — rodzaj uczenia się, w którym model wykorzystuje informacje z podpowiedzi, takie jak format i tonacja, aby przewidzieć wynik. W przeciwieństwie do FSL i tradycyjnego uczenia się pod nadzorem, podpowiedzi kilku strzałów nie wymagają zmiany parametrów LLM. Kiedy używasz podpowiedzi kilku strzałów, dostarczasz LLM kilka przykładów rodzaju odpowiedzi, której szukasz. Podobnie jak FSL, podpowiadanie w kilku krokach ma na celu pomóc modelowi w uogólnieniu poprzez wystawienie go na kilka przykładów podobnego zadania.
Jak działa nauka metodą kilku strzałów
Uczenie się metodą kilku strzałów obejmuje dwa etapy: po pierwsze, modele są wstępnie szkolone na ogólnym zestawie danych, aby mogły poznać świat. Następnie przechodzą adaptację zadaniową, podczas której modele uczą się, jak generalizować na podstawie małych próbek danych.
Przed treningiem
Pierwszy etap w przypadku większości modeli FSL rozpoczyna się od wstępnego szkolenia na dużym, oznaczonym zbiorze danych, podobnie jak uczenie się pod nadzorem. Model przeprowadza ekstrakcję cech na tym zbiorze danych i uczy się klasyfikować przykłady, tworząc bazę wiedzy na temat wzorców i relacji w danych.
Adaptacja zadań
Po wstępnym szkoleniu kolejnym etapem FSL jest uczenie modelu w celu uogólnienia go na nowe zadania klasyfikacyjne. Nazywa się to adaptacją zadań i zachodzi podczas wielu odcinków szkoleniowych.
W każdym odcinku znajduje się zestaw pomocniczy zawierający od dwóch do pięciu przykładów do zbadania przez model oraz zestaw zapytań z niewidocznymi celami, które model ma spróbować sklasyfikować. Struktura ta nazywa się N-kierunkową klasyfikacją K-shot, w którejNodnosi się do liczby kategorii (zwanych klasami), aKodnosi się do liczby oznaczonych przykładów (strzałów) każdej kategorii.
Wszystkie modele FSL zostały zaprojektowane w celu osiągnięcia adaptacji do zadań. W ramach zestawu technik FSL jednym z najważniejszych i najbardziej ekscytujących obszarów badawczych jest metauczenie się.
Podejścia meta-uczenia się
Metauczenie się polega na poddawaniu modelu zadaniom podobnym lub związanym z zadaniem klasyfikacyjnym, do rozwiązania którego model został początkowo przeszkolony. Otrzymuje tylko kilka przykładów każdego nowego zadania, ale na ich podstawie uczy się uogólniać, opracowując metastrukturę określającą, co zrobić, gdy otrzyma jakieś nieznane zadanie.
Ogólnie rzecz biorąc, istnieją trzy rodzaje podejść do meta-uczenia się:
- Uczenie się oparte na optymalizacji:obejmuje podejścia, które szkolą modele w celu szybkiego ulepszania ich parametrów. Niektóre z nich wykorzystują proces dwuetapowy, podczas którego osoba ucząca się jest szkolona w zakresie określonego zadania, a następnie metauczący się wykorzystuje funkcję straty z etapu osoby uczącej się, aby poprawić parametry modelu dla następnego zadania.
- Uczenie się na poziomie metrycznym:używane głównie do zadań związanych z widzeniem komputerowym, uczenie się metryczne polega na mapowaniu wyodrębnionych obiektów w przestrzeni osadzania i wykorzystaniu odległości między obiektami na mapie w celu obliczenia prawdopodobieństwa, że dwa obrazy są podobne.
- Metauczenie się niezależne od modelu (MAML):W MAML celem procesu uczenia jest zmniejszenie liczby kroków gradientu wymaganych do optymalizacji parametrów modelu, niezależnie od zadania. MAML analizuje procesy uczenia się pod kątem zadań, wnioskuje wzorce działania procesu i opracowuje modele, które działają jak skróty, przyspieszając proces uczenia się z każdym nowym zadaniem, które widzi.
Lista architektur modeli wykorzystujących techniki metauczenia się stale rośnie, ponieważ badacze opracowują nowe sposoby ułatwiające adaptację modeli.
Podejścia inne niż meta-uczenie się
Istnieją również metody FSL i metody z nimi sąsiadujące, które nie wykorzystują meta-uczenia się. FSL jest czasami wdrażany wraz z tymi technikami, aby stworzyć podejście hybrydowe:
- Uczenie się transferowe:ta metoda polega na wykorzystaniu wstępnie wyszkolonego modelu i dostrojeniu zewnętrznych warstw sieci neuronowej. Uczenie się transferowe jest bardziej przydatne w scenariuszach, w których zadanie, które ma wykonać model, jest zbliżone do zadania, w ramach którego model został już przeszkolony.
- Zwiększanie danych:FSL można wzmocnić poprzez powiększanie danych, co obejmuje wykorzystanie ograniczonych danych jako podstawy do tworzenia danych syntetycznych przy użyciu generatywnych sieci kontradyktoryjnych (GAN) lub wariacyjnych autoenkoderów w celu zwiększenia liczby próbek dla zestawu szkoleniowego.
Uczenie się kilkoma strzałami a uczenie się zerowym
Uczenie się metodą kilku strzałów (lub uczenie się jednorazowo) jest często stosowane w scenariuszach, w których istnieje ograniczona liczba danych o wysokiej jakości do uczenia modelu. Ale co, jeśli w ogóle nie masz danych wysokiej jakości? W uczeniu się od zera (ZSL) nie podajesz modelowi żadnych przykładów, a zamiast tego prosisz go, aby polegał wyłącznie na wcześniejszej wiedzy i osadzeniu semantycznym, z którego może skorzystać w przypadku nieznanych zadań.
ZSL oferuje szybkie i elastyczne rozwiązanie do obsługi sytuacji z bardzo małą ilością danych. Jednak modele ZSL mogą mieć problemy ze zmianą domeny – co oznacza, że mogą mieć problemy, jeśli typ danych, które widzą, zbytnio różni się od ich bazy wiedzy – i może być trudno ocenić skuteczność modelu.
Aplikacje do nauki przez kilka strzałów
Zastosowania FSL są wszechstronne i stale się rozwijają, ale ma ogromny potencjał, aby być użytecznym w obszarach, w których dostępnych jest stosunkowo niewiele przykładów. Niektóre najnowsze obszary badań nad przypadkami użycia obejmują:
- Diagnostyka medyczna:FSL może pomóc w klasyfikacji nowotworów na podstawie obrazu, gdy nie ma wystarczającej ilości oznakowanych danych, aby tradycyjne modele uczenia się pod nadzorem były pomocne.
- Teledetekcja:FSL może przyspieszyć zadania teledetekcji, takie jak wykorzystanie nagrań UAV do oceny skutków katastrof ekologicznych.
- Prototypowanie samochodów wyścigowych F1:modele FSL są wstępnie szkolone w zakresie dynamiki płynów i aerodynamiki oraz innych danych dla setek samochodów podczas tysięcy wyścigów. Następnie wykorzystują FSL do przewidywania aerodynamiki i degradacji części prototypów nowych samochodów na podstawie niewielkiej liczby kosztownych przebiegów testowych.
- Tłumaczenie maszynowe:FSL pomogło w stworzeniu bardziej wydajnych tłumaczy maszynowych, które zużywają bardzo mało danych wejściowych i potrafią z niespotykaną dotąd dokładnością uchwycić niuanse w dialekcie i zróżnicowaniu regionalnym.
- Robotyka:FSL jest używany do uczenia robotów chwytania przedmiotów poprzez obserwowanie ludzkich demonstracji.
- Analiza nastrojów:Model FSL pierwotnie wytrenowany na recenzjach hoteli może zostać wykorzystany do klasyfikowania recenzji restauracji.
FSL wpisuje się również w prace nad sztuczną inteligencją ogólną, ponieważ lepiej naśladuje podejście człowieka do rozwiązywania problemów.
Korzyści z uczenia się przez kilka strzałów
Główne zalety modeli FSL polegają na tym, że radzą sobie z problemami tam, gdzie dostępna jest ograniczona ilość danych, a także mogą pomóc w ograniczeniu zasobów obliczeniowych i finansowych wymaganych do uczenia nowych modeli.
Uogólnianie przy ograniczonych danych
Modele FSL mogą to zrobić, ponieważ nie zapamiętują obrazów, dźwięków ani języka w wielu iteracjach. Zamiast tego uczą się szybko analizować podobieństwa i różnice. Podczas gdy tradycyjne modele doskonale radzą sobie z bardzo specyficznymi zadaniami, takimi jak identyfikacja określonego gatunku ptaka lub dopasowywanie odcisków palców, zawodzą, gdy tylko poprosisz ich o wykonanie jakiegokolwiek innego zadania.
Używanie mniejszej ilości zasobów
Techniki takie jak MAML są znacznie wydajniejszym sposobem wykorzystania zasobów do szkolenia modeli. Umożliwiają szybkie i skuteczne dostosowanie bardzo drogich, wielkoskalowych modeli do konkretnych przypadków użycia, bez kosztownych etapów ponownego szkolenia. Jednym z największych wyzwań w uczeniu maszynowym jest ilość danych wymaganych do wytrenowania modelu w celu uzyskania użytecznych wyników, zarówno pod względem kompilowania dużych, wysokiej jakości zbiorów danych, jak i wymaganego czasu i obliczeń. FSL obiecuje rozwiązać wiele rzeczywistych problemów, w których danych jest mało lub występują w różnych domenach.
Wyzwania uczenia się przez kilka strzałów
Pomimo swoich obietnic, FSL stoi przed wyzwaniami, które mogą utrudniać skuteczność modelu.
Nadmierne dopasowanie
Korzystanie z ograniczonych zbiorów danych może powodować nadmierne dopasowanie, gdy model jest zbyt ściśle dopasowany do danych w zbiorach szkoleniowych i ma trudności z uogólnieniem. Jest to znany problem w ML, który występuje częściej w przypadku FSL niż w przypadku innych podejść ML. Model FSL, który podlega overfitingowi, będzie dobrze działał na danych testowych, ale nie będzie identyfikował nowych kategorii, gdy zostanie przedstawiony na przykładach ze świata rzeczywistego. Aby temu zapobiec, ważne jest zachowanie różnorodności w ograniczonych próbkach wykorzystywanych do treningu składającego się z kilku strzałów. Rozszerzanie danych, omówione powyżej, ma na celu złagodzenie nadmiernego dopasowania poprzez syntezę większej liczby przykładów do szkolenia.
Jakość danych
Ważne są wysokiej jakości dane zarówno na etapie przedszkoleniowym, jak i na etapie uczenia się w kilku etapach. Modele FSL łatwiej zakłócają zakłócone, źle oznakowane dane. Nie sprawdzają się również dobrze, gdy dane zawierają zbyt wiele jednego rodzaju, a innego nie, lub mają zbyt wiele cech, aby model mógł je przeanalizować; w takich przypadkach stają się one zwykle zbyt skomplikowane. Badacze mogą czasami poradzić sobie z tymi problemami, stosując techniki regularyzacji, które pozwalają wygładzić dane, aby pomóc modelowi dowiedzieć się, na co należy zwrócić uwagę, a co zignorować.