Uczenie się transferu: skrót do mądrzejszego, szybszego rozwoju sztucznej inteligencji
Opublikowany: 2025-02-04Ponowne wykorzystanie i dostosowanie wstępnie wyszkolonych modeli AI zmienia sposób podejścia do zadań uczenia maszynowego (ML). Uczenie się transferu jest wydajną i opłacalną metodą dostosowania dużych i złożonych systemów AI do nowych domen i problemów. W tym przewodniku zbadamy kluczowe aspekty uczenia się transferu: jak to działa, jego różne rodzaje i zastosowania oraz jego zalety i wyzwania.
Spis treści
- Co to jest uczenie się transferu?
- Jak działa naukę transferową?
- Uczenie się transferu a dopracowanie
- Rodzaje uczenia się transferu
- Korzyści z nauki transferu
- Wyzwania związane z uczeniem się transferu
- Zastosowania uczenia się transferu
Co to jest uczenie się transferu?
Uczenie się transferu jest potężną techniką uczenia maszynowego, która wykorzystuje wstępnie wyszkolony model dla innego, ale powiązanego zadania. Wykorzystuje wiedzę ogólną przechwyconą w istniejącym modelu jako podstawę do nauki rozwiązywania problemów w bardziej szczegółowych, powiązanych dziedzinach.
Transfer Learning oferuje kilka zalet: przyspiesza rozwój i wdrażanie niestandardowych aplikacji sztucznej inteligencji (AI), obniża koszty zasobów i często zapewnia lepszą wydajność niż budowanie modelu od zera. W rezultacie uczenie się transferu jest szczególnie cenne dla organizacji mających na celu opracowanie wyspecjalizowanych rozwiązań AI bez ogromnych ilości danych lub mocy obliczeniowej zwykle wymaganej do wyszkolenia modelu od zera.
Przykład uczenia się transferu
Rozważ przykład producenta, który chce utworzyć system AI w celu wykrycia wad produktu. Jedną z opcji jest zatrudnienie wyspecjalizowanych praktyków ML, zbieranie i wiklowanie milionów odpowiednich zdjęć produktów oraz odkładanie czasu i zasobów obliczeniowych niezbędnych do wyszkolenia modelu od zera. Uczenie się transferu stanowi znacznie lepszą opcję: producent może zamiast tego zacząć od modelu, który już ukończył drogie i czasochłonne szkolenie na dużym, znormalizowanym zestawie danych obrazu, takiego jak ImageNet. Producent może następnie szybko i skutecznie wykorzystać uczenie się transferu, aby dostosować model do wykrywania defektów na określonych obrazach produktów.
Jak działa naukę transferową?
Przenieś uczenie się dostosowuje ogólną wiedzę modelu wstępnie wyszkolonego do nowego, powiązanego zadania. Proces zwykle obejmuje trzy kluczowe kroki:
- Wybór odpowiedniego modelu wstępnie wyszkolonego
- Aktualizacja architektury modelu
- Szkolenie modelu nowych danych
1. Wybierz model wstępnie wyszkolony
Pierwszym krokiem jest wybór modelu, który został już przeszkolony na zestawie danych w dziedzinie związanej z zadaniem docelowym. Model wcześniej wyszkolony powinien był wyciągnąć funkcje ogólne i wysokiego poziomu istotne dla nowej aplikacji.
- Przykład w opiece zdrowotnej:Organizacja opieki zdrowotnej może zacząć od modelu wstępnie wyszkolonego na zestawie danych NIH (National Institutes of Health) Chestx-Ray14, który zawiera ogromną kolekcję oznaczonych obrazów medycznych. Model nauczyłby się ogólnych cech, takich jak struktury obrazów rentgenowskich i sposób, w jaki właściwości biologiczne korelują z komponentami obrazu. Model ten może służyć jako podstawa do opracowywania narzędzi diagnostycznych dla określonych warunków znajdujących się w obszarze klatki piersiowej i widoczna na zdjęciach rentgenowskich, takich jak zapalenie płuc lub rak płuc.
- Przykład w finansach:przedsiębiorstwo finansowe może korzystać z Finberta, modelu wstępnie wyszkolonego na dokumentach finansowych, połączeniach zarobków i zgłoszeniach regulacyjnych. Model nauczyłby się ogólnych cech, takich jak struktura języka finansowego i konkretne terminy wskazujące na nastroje rynkowe i wyniki biznesowe. Model Finberta może służyć jako podstawa bardziej wyspecjalizowanej funkcjonalności, na przykład automatycznie oznaczania oświadczeń w raportach zysków.
Wybór odpowiedniego wstępnie wyszkolonego modelu polega na zapewnieniu, że jego oryginalny trening dobrze się dostosuje do zamierzonej aplikacji, ponieważ zwiększa to prawdopodobieństwo udanej adaptacji.
2. Modyfikacja architektury modelu
Po wybraniu odpowiedniego wstępnie wyszkolonego modelu jego architektura jest dostosowana do nowego zadania. Ten krok zwykle obejmuje:
- Zastępowanie warstw wyjściowych:Końcowe warstwy modelu wstępnie wyszkolonego, zaprojektowane dla oryginalnego zadania, są usuwane i zastępowane nowymi warstwami specyficznymi dla zadania (np. W pełni podłączonych warstw do klasyfikacji).
- Zachowanie ogólnych cech:Wewnętrzne warstwy, które uchwycają uogólnione wzorce, takie jak krawędzie w obrazach lub relacje językowe w tekście, są często zachowane. Funkcje te mogą skutecznie przenosić się do powiązanych zadań.
Zakres modyfikacji architektonicznej zależy od konkretnego przypadku użycia i stopnia podobieństwa między zadaniami źródłowymi i docelowymi.
3. Szkolenie modelu nowych danych
W ostatnim etapie zmodyfikowany model jest szkolony w zestawie danych dostosowanym do nowego zadania. Do tego etapu można podejść na dwa podstawowe sposoby, w zależności od wielkości zestawu danych i podobieństwa między zadaniami:
- Ekstrakcja funkcji:
- Tylko nowo dodane warstwy są szkolone, a oryginalne warstwy pozostają niezmienione.
- Ta metoda jest idealna, gdy nowe zadanie jest ściśle powiązane z oryginalnym zadaniem lub gdy docelowy zestaw danych jest niewielki.
- Drobne dostrajanie:
- Cały model jest przekwalifikowany, ale z mniejszym zestawem danych i szybkością uczenia się, aby uniknąć utraty cennych cech wyuczonych podczas fazy wstępnej.
- Takie podejście lepiej nadaje się do dużych zestawów danych lub gdy nowe zadanie różni się znacznie od pierwotnego zadania.
Niezależnie od podejścia celem jest narażenie modelu na wystarczające istotne dane, umożliwiając mu skuteczne uczenie się i uogólnienie nowej aplikacji.
Uczenie się transferu a dopracowanie
Uczenie się transferu jest często mylone z dostrajaniem. Chociaż koncepcje są ściśle powiązane, istnieją godne uwagi różnice. Co najważniejsze, uczenie się transferu jest ogólnym procesem dostosowania modelu wstępnie wyszkolonego do nowego celu i może, ale nie musi obejmować dostrajania. Z drugiej strony, dopracowanie jest jedną z kilku technik stosowanych do przekwalifikowania niektórych lub wszystkich parametrów modelu w ramach ogólnego procesu uczenia się transferu. Roztyczanie to nie tylko podzbiór uczenia się transferu; Ma zastosowania w innych kontekstach w ML poza uczeniem się transferu, takie jak poprawa wydajności modelu w określonych podgrupach danych lub dostosowanie modelu do przenoszenia rozkładów danych.
Ponadto uczenie się transferu zwykle wymaga wprowadzenia faktycznych zmian w architekturze modelu, takich jak usunięcie i wymiana istniejących warstw lub restrukturyzacja połączeń między warstwami. W przeciwieństwie do tego, dostrajanie obejmuje ogólnie małe, precyzyjne korekty parametrów bez znaczących zmian w architekturze.
Pomyśl o uczeniu się transferu jako renowacji budynku zaprojektowanego w jednym celu, aby można go było używać na inny, na przykład przekształcanie garażu w mieszkanie. Prawdopodobnie wiązałoby się to z aktualizacjami strukturalnymi, takimi jak instalowanie okien i izolacji, a nawet dodawanie nowych pokoi i połączeń użytkowych. Z drugiej strony dopracowanie jest bardziej jak użycie garażu jako dodatkowego obszaru roboczego bez wprowadzania poważnych zmian w strukturze. Na przykład światła można wymienić i można dodać nowe półki, ale ogólna struktura i architektura garażu pozostają niezmienione.
Rodzaje uczenia się transferu
Uczenie się transferu może przybierać kilka form, z których każda jest dostosowana do określonych scenariuszy. Odpowiedni typ zależy od takich czynników, jak dostępność oznaczonych danych w dziedzinie docelowej, podobieństwo między zadaniami źródłowymi i docelowymi oraz określone wymagania biznesowe. Głównymi rodzajami uczenia się transferu są uczenie się transferu indukcyjnego,uczenie się transferu transdukcyjnegoiuczenie się przeniesienia bez nadzoru. Ponadto nowoczesne podejścia, takie jakuczenie się w niewielkiej stopieiuczenie się zerowego strzału,często wykorzystują techniki uczenia się transferu.
Uczenie się transferu indukcyjnego
Uczenie się indukcyjnego transferu jest najczęstszym rodzajem uczenia się transferu i jest używane, gdy zadania docelowe i źródłowe są ściśle powiązane i bardzo różne.

Przykład:Organizacja opieki zdrowotnej może wykorzystać uczenie się transferu w celu dostosowania modelu przeszkolonego do klasyfikacji ogólnych obrazów MRI w celu wykrycia określonych warunków mózgu.
W tym scenariuszu ogólne możliwości rozpoznawania wizualnego modelu źródłowego dobrze przenoszą się do zadania docelowego, ale wymagane są oznaczone dane w dziedzinie docelowej. Uczenie się transferu jest szczególnie skuteczne w zadaniach, w których dostępne są nowe etykiety, ale samo zadanie różni się od (i zwykle bardziej wyspecjalizowanej wersji) źródła.
Uczenie się transferu transdukcyjnego
Podczas uczenia się transferu transferowego zadania źródłowe i docelowe są takie same, ale domena problemowa jest inna.
Przykład:Filtr spamowy wyszkolony na e-mailach w języku angielskim można dostosować do klasyfikacji francuskich e-maili. W tym scenariuszu rozpoznawanie wzorców tekstu i zrozumienie struktury wiadomości e -mail dobrze przenoszą się dobrze do zadania docelowego, nawet jeśli różnią się słownictwo i wzorce językowe. Zadanie (klasyfikacja e -mail) pozostaje niezmieniona, ale dane (język) różni się. Takie podejście jest przydatne, gdy domena źródłowa ma obfite oznaczone dane, a domena docelowa ma niewielką lub żadną.
Uczenie się transferu bez nadzoru
Uczenie się przeniesienia bez nadzoru jest używane, gdy oznaczone dane są niedostępne w dziedzinie docelowej. Zasadniczo ten rodzaj uczenia się transferu służy do szkolenia modeli do wykonywania zadań bez nadzoru, takich jak klastrowanie lub redukcja wymiarowości.
Przykład:Organizacja IT może zastosować uczenie się bez nadzoru transferu, aby pomóc systemowi wykrywania zagrożeń związanych z AI w identyfikacji nowych typów zagrożeń bez oznaczonych przykładów.
W tym przypadku model może przenieść ogólne zrozumienie normalnych wzorców w porównaniu z potencjalnymi zagrożeniami na nowe, wcześniej nieznane typy zagrożeń.
Niewielka nauka
Uczenie się niewiele strzałów (FSL) to technika ML, która wykorzystuje uczenie się transferu, aby pomóc modelowi uczyć się na podstawie bardzo ograniczonych danych. W FSL modele uczą się wykonywać nowe zadania lub klasyfikacje przy użyciu zaledwie kilku przykładów.
Przykład:Model rozpoznawania twarzy może zidentyfikować nową osobę na podstawie tylko jednego lub dwóch zdjęć.
Uczenie się zero
Zero-Shot Learning (ZSL) to technika ML, która pomaga modelowi nauczyć się nowych zajęć, które nie widziano podczas szkolenia. ZSL często korzysta z koncepcji uczenia się transferu, ale polega na relacjach semantycznych i informacji pomocniczych, aby uogólnić wyuczoną wiedzę na nowe kategorie.
Przykład:Model może nauczyć się rozpoznawać tilapię w oparciu o jej zrozumienie innych rodzajów ryb i wiedzy, że tilapia jest rodzajem ryb, mimo że nigdy nie widział tilapii podczas treningu.
Korzyści z nauki transferu
Uczenie się transferu zapewnia kilka zalet dla organizacji, które starają się opracować dostosowane rozwiązania AI. Obejmują one zmniejszone wymagania dotyczące rozwoju i zasobów, dobrą wydajność z ograniczonymi danymi i ulepszoną solidność modelu.
Zmniejszone wymagania dotyczące rozwoju i zasobów
Uczenie się transferu to świetny sposób na jednoczesne skrócenie cyklu rozwoju i zmniejszenie wymagań dotyczących zasobów dla aplikacji AI. Budowanie modelu od zera obejmuje dane zebrania, czyszczenia i etykietowania - i to przed treningiem może się nawet rozpocząć. Dzięki uczeniu się transferu, rozwój i wdrażanie stają się kwestią tygodni lub nawet dni zamiast miesięcy. Szkolenie modelu od zera często wymaga znacznego czasu obliczeniowego i mocy, podczas gdy uczenie się transferu nie. Oznacza to, że organizacje mogą szybciej wprowadzać swoje rozwiązania AI na rynek.
Dobra wydajność z ograniczonymi danymi
Uczenie się transferu pozwala na dobre wyniki, nawet przy ograniczonych zestawach danych szkoleniowych. Jest to niezwykle przydatne dla organizacji w wyspecjalizowanych dziedzinach, takich jak produkcja lub opieka zdrowotna, w których dane oznaczone są trudne do znalezienia lub drogie. Na przykład organizacja opieki zdrowotnej mogła mieć tylko kilkaset oznaczonych przykładów określonych schorzeń, ale może użyć uczenia się transferu w celu zbudowania wydajnego systemu wykrywania.
Ulepszona odporność i niezawodność modelu
Choć może się to wydawać niezintusyjne, modele przeszkolone poprzez uczenie się transferu często uogólniają się lepiej niż modele przeszkolone od zera na ograniczone dane. Wynika to z faktu, że duże zestawy danych wykorzystywane do wstępnego treningu zapewniają różnorodne wzorce i funkcje, które można uogólnić dla bardziej konkretnych domen i zadań. Dodatkowo, zaczynając od modelu, który został już przetestowany, zmniejsza ryzyko awarii modelu i zwiększa niezawodność. Ta zmniejszona redukcja ryzyka jest ważna w regulowanych branżach, takich jak opieka zdrowotna i finanse.
Wyzwania związane z uczeniem się transferu
Pomimo wielu korzyści, uczenie się transferu ma również kilka wyzwań i ograniczeń. Organizacje muszą zrozumieć te wyzwania, aby mogły zaprojektować odpowiednią strategię wdrażania i mieć realistyczne oczekiwania. Wyzwania te obejmują negatywne przeniesienie, niedopasowanie domeny i wybór modelu.
Przeniesienie negatywne
W negatywnym przeniesieniu wiedza z domeny źródłowej utrudnia uczenie się zadania docelowego i prowadzi do wstępnie wyszkolonego modelu, który osiągnął gorszy niż szkolony od zera. Jest to jedno z najczęstszych wyzwań związanych z uczeniem się transferu i zwykle występuje, gdy domeny docelowe i źródła są zbyt różne. Na przykład model wizji komputerowej przeszkolony do klasyfikacji ras psów na obrazach prawdopodobnie będzie słabo osiągnąć, jeśli zostanie dostosowany do analizy obrazu medycznego, ponieważ wyuczone cechy są nieistotne dla nowego zadania. Funkcje, które pomagają rozróżnić rasy psów, takie jak futrzona tekstura, długość ogona i kształt ucha, nie mają znaczącego zastosowania podczas próby kategoryzacji skanów medycznych. Organizacje powinny dokładnie porównać domeny źródłowe i docelowe, aby uniknąć przeniesienia negatywnego.
Niedopasowanie domeny
Niedopasowanie domeny występuje, gdy różnice między danymi dostępnymi dla domen źródłowych i docelowych zmniejszają wydajność modelu. Różnice te mogą obejmować różnice w jakości lub dystrybucji danych. W przeciwieństwie do negatywnego przeniesienia, model cierpiący na niedopasowanie domeny może nadal wynosić lepiej niż szkolony od zera. Na przykład model wyszkolony na dużym, różnorodnym zestawie danych obrazów CAT nie będzie dobrze identyfikować psów. Jednak model nadal będzie lepiej lepiej niż model wyszkolony na niewielkim zestawie zdjęć psów.
Wybór i modyfikacja modelu
Wybór odpowiedniego modelu wstępnie wyszkolonego i ustalenie, jak go zmodyfikować, może być złożone i czasochłonne. Organizacje muszą wziąć pod uwagę wszelkiego rodzaju czynniki, w tym dostosowanie domen źródłowych i docelowych, dostępną infrastrukturę i zasoby personelu, wielkość i jakość zestawu danych szkoleniowych oraz architekturę modelu. Ponadto modele wstępnie wyszkolone są często budowane z myślą o założeniach i zależnościach, które mogą nie być od razu widoczne. Wybór odpowiedniego modelu i dokonanie właściwych modyfikacji wymaga wiedzy specjalistycznej, czasu na eksperymenty i infrastrukturę, do których nie wszystkie organizacje mogą mieć dostęp.
Zastosowania uczenia się transferu
Uczenie się transferu jest łatwiejszym i bardziej niezawodnym sposobem tworzenia systemów AI dla określonych zadań lub domen niż budowanie nowego modelu. Następnie technika ta znalazła powszechne przyjęcie i ma wiele aplikacji, w tym wizję komputerową, przetwarzanie języka naturalnego (NLP) oraz rozpoznawanie i generowanie mowy.
Wizja komputerowa
Uczenie się transferu było bardzo skuteczne w wizji komputerowej. Organizacje mogą stosunkowo łatwo tworzyć niestandardowe aplikacje wizji, używając wstępnie wyszkolonych modeli wizji, które nauczyły się uogólnionych funkcji z milionów obrazów. Na przykład firma ochroniarska może dostosować wstępnie wyszkolony model wizji komputerowej w celu wykrycia podejrzanego zachowania w kanałach nadzoru lub zidentyfikować określone obiekty zainteresowania, wszystkie bez ogromnych danych szkoleniowych lub wyspecjalizowanego rozwoju modelu.
Przetwarzanie języka naturalnego (NLP)
Głównym zastosowaniem uczenia się transferu jest szkolenie modelu do obsługi określonych zadań NLP. Na przykład firma prawnicza może wybrać wstępnie wyszkolony model NLP jako podstawę narzędzia do analizy dokumentów, a następnie nauczyć model obsługi określonych domen prawnych za pomocą uczenia się transferu.
Rozpoznawanie mowy i pokolenie
Uczenie się transferu służy również do szkolenia modeli specjalistycznych aplikacji mowy. Na przykład call center może dostosować uogólniony model mowy, aby zrozumieć terminologię specyficzną dla branży i stworzyć bardziej zautomatyzowany system obsługi klienta. Innym przykładem byłoby użycie uczenia się transferu w celu dostosowania modelu polecenia głosowego przeszkolonego do zadań ogólnych w celu obsługi określonych dialektów i języków.