Învățarea transferului: scurtătura către dezvoltarea AI mai inteligentă, mai rapidă
Publicat: 2025-02-04Reutilizarea și adaptarea modelelor AI pre-instruite se schimbă modul în care sunt abordate sarcinile de învățare automată (ML). Învățarea transferului este o metodă eficientă și rentabilă pentru adaptarea sistemelor AI mari și complexe la noi domenii și probleme. În acest ghid, vom explora aspectele cheie ale învățării transferului: modul în care funcționează, diferitele sale tipuri și aplicații și avantajele și provocările sale.
Cuprins
- Ce este învățarea transferului?
- Cum funcționează învățarea transferului?
- Transfer de învățare vs. reglare fină
- Tipuri de învățare de transfer
- Beneficiile învățării transferului
- Provocări ale învățării transferului
- Aplicații de învățare a transferului
Ce este învățarea transferului?
Învățarea transferului este o tehnică puternică de învățare automată, care folosește un model pre-instruit pentru o sarcină diferită, dar conexă. Utilizează cunoștințe generale capturate într -un model existent ca fundament pentru a învăța cum să rezolvi problemele în domenii mai specifice, conexe.
Învățarea transferului oferă mai multe avantaje: accelerează dezvoltarea și implementarea aplicațiilor personalizate de inteligență artificială (AI), scade costurile resurselor și oferă adesea performanțe mai bune decât construirea unui model de la zero. Drept urmare, învățarea transferului este deosebit de valoroasă pentru organizațiile care urmăresc să dezvolte soluții AI specializate, fără cantități mari de date sau putere de calcul, de obicei necesare pentru a antrena un model de la zero.
Exemplu de învățare a transferului
Luați în considerare exemplul unui producător care dorește să creeze un sistem AI pentru a detecta defectele produsului. O opțiune este de a angaja practicieni specializați ML, de a colecta și de a curata milioane de imagini relevante de produse și de a pune la o parte resursele de timp și de calcul necesare pentru a instrui un model de la zero. Învățarea transferului prezintă o opțiune mult mai bună: producătorul poate începe în schimb cu un model care a finalizat deja formarea scumpă și consumatoare de timp pe un set de date de imagini mari, standardizate, cum ar fi ImageNet. Producătorul poate apoi să utilizeze rapid și eficient învățarea transferului pentru a adapta modelul pentru a detecta defecte în imagini specifice produsului.
Cum funcționează învățarea transferului?
Învățarea transferului adaptează cunoștințele generale ale unui model pre-instruit la o nouă sarcină conexă. Procesul implică de obicei trei pași cheie:
- Selectarea unui model adecvat pre-instruit
- Actualizarea arhitecturii modelului
- Instruirea modelului pe date noi
1. Selectați un model pre-instruit
Primul pas este alegerea unui model care a fost deja instruit pe un set de date dintr -un domeniu legat de sarcina țintă. Modelul pre-instruit ar fi trebuit să învețe caracteristici generale și înalte, relevante pentru noua aplicație.
- Exemplu în asistență medicală:o organizație medicală ar putea începe cu un model pre-instruit pe setul de date NIH (Institutele Naționale de Sănătate) Chestx-Ray14, care conține o colecție vastă de imagini medicale etichetate. Modelul ar fi învățat caracteristici generale, cum ar fi modul în care sunt structurate imaginile cu raze X și modul în care proprietățile biologice se corelează cu componentele imaginii. Acest model poate servi drept fundament pentru dezvoltarea instrumentelor de diagnostic pentru condiții specifice localizate în zona toracică și vizibilă pe imaginile cu raze X, cum ar fi pneumonia sau cancerul pulmonar.
- Exemplu în finanțe:o întreprindere financiară ar putea folosi Finbert, un model pre-instruit pe documente financiare, apeluri de câștig și înregistrări de reglementare. Modelul ar fi învățat caracteristici generale, cum ar fi structura limbajului financiar și termenii specifici care indică sentimentul pieței și performanța afacerii. Modelul Finbert ar putea servi drept fundament pentru o funcționalitate mai specializată, cum ar fi semnalizarea automată a declarațiilor din rapoartele de câștiguri.
Selectarea modelului potrivit pre-instruit implică asigurarea faptului că pregătirea sa originală se aliniază bine cu aplicația prevăzută, deoarece aceasta crește probabilitatea unei adaptări de succes.
2. Modificarea arhitecturii modelului
Odată selectat un model pre-instruit adecvat, arhitectura sa este adaptată pentru a se potrivi noii sarcini. Acest pas include de obicei:
- Înlocuirea straturilor de ieșire:straturile finale ale modelului pre-instruit, proiectat pentru sarcina inițială, sunt eliminate și înlocuite cu noi straturi specifice sarcinii (de exemplu, straturi complet conectate pentru clasificare).
- Reținerea caracteristicilor generale:straturile interioare, care surprind modele generalizabile precum marginile în imagini sau relații lingvistice în text, sunt adesea păstrate. Aceste caracteristici se pot transfera eficient către sarcini conexe.
Mărimea modificării arhitecturale depinde de cazul de utilizare specific și de gradul de similaritate între sarcinile sursă și țintă.
3. Instruirea modelului pe date noi
În ultima etapă, modelul modificat este instruit pe un set de date adaptat la noua sarcină. Acest pas poate fi abordat în două moduri principale, în funcție de dimensiunea setului de date și de asemănarea dintre sarcini:
- Extragerea caracteristicilor:
- Doar straturile nou adăugate sunt instruite, în timp ce straturile originale rămân neschimbate.
- Această metodă este ideală atunci când noua sarcină este strâns legată de sarcina inițială sau când setul de date țintă este mic.
- Reglare fină:
- Întregul model este retras, dar cu un set de date mai mic și o rată de învățare pentru a evita pierderea caracteristicilor valoroase învățate în faza de pre-instruire.
- Această abordare este mai potrivită pentru seturi de date mari sau când noua sarcină diferă semnificativ de sarcina inițială.
Indiferent de abordare, obiectivul este de a expune modelul la date relevante suficiente, permițându -i să învețe și să se generalizeze pentru noua aplicație în mod eficient.
Transfer de învățare vs. reglare fină
Învățarea transferului este adesea confundată cu reglarea fină. În timp ce conceptele sunt strâns legate, există diferențe notabile. Cel mai important, învățarea transferului este procesul general de adaptare a unui model pre-instruit pentru un nou scop și poate sau nu implica reglarea fină. Pe de altă parte, reglarea fină este una dintre mai multe tehnici utilizate pentru a recalifica unii sau toți parametrii modelului ca parte a procesului general de învățare a transferului. Reglarea fină nu este doar un subset de învățare a transferului; Are aplicații în alte contexte în ML în afara învățării transferului, cum ar fi îmbunătățirea performanței modelului pe subgrupuri specifice de date sau adaptarea unui model la schimbarea distribuțiilor de date.
În plus, învățarea de transfer necesită, de obicei, modificări reale la arhitectura modelului, cum ar fi eliminarea și înlocuirea straturilor existente sau restructurarea conexiunilor dintre straturi. În schimb, reglarea fină implică, în general, ajustări mici și precise a parametrilor, fără modificări semnificative ale arhitecturii.
Gândiți -vă la învățarea de transfer ca la renovarea unei clădiri concepute într -un singur scop, astfel încât să poată fi folosită pentru alta, cum ar fi transformarea unui garaj într -un apartament. Acest lucru ar implica probabil actualizări structurale precum instalarea Windows și izolație sau chiar adăugarea de camere noi și conexiuni de utilitate. Reglarea fină, pe de altă parte, este mai degrabă ca utilizarea garajului ca spațiu de lucru suplimentar, fără a face modificări majore ale structurii. De exemplu, luminile ar putea fi înlocuite și s -ar putea adăuga rafturi noi, dar structura generală și arhitectura garajului rămân neschimbate.
Tipuri de învățare de transfer
Învățarea transferului poate lua mai multe forme, fiecare potrivită pentru scenarii specifice. Tipul corespunzător depinde de factori precum disponibilitatea datelor etichetate în domeniul țintă, similitudinea dintre sarcinile sursă și țintă și cerințele specifice de afaceri. Principalele tipuri de învățare a transferului sunt învățarea transferului inductiv,învățarea transferului transductivșiînvățarea nesupravegheată a transferului. În plus, abordări moderne, cum ar fiînvățarea cu câteva fotografiișiînvățarea zero-împușcat,adesea folosesc tehnici de învățare a transferului.
Învățare de transfer inductiv
Învățarea de transfer inductivă este cel mai frecvent tip de învățare a transferului și este utilizată atunci când sarcinile țintă și sursă sunt strâns legate și foarte diferite.
Exemplu:O organizație medicală ar putea folosi învățarea transferului pentru a adapta un model instruit pentru a clasifica imaginile RMN generale pentru a detecta condiții specifice ale creierului.

În acest scenariu, capacitățile generale de recunoaștere vizuală a modelului sursă se transferă bine în sarcina țintă, dar sunt necesare date etichetate în domeniul țintă. Învățarea transferului este deosebit de eficientă pentru sarcinile în care sunt disponibile noi etichete, dar sarcina în sine este distinctă de (și de obicei o versiune mai specializată a sursei).
Învățarea transferului transductiv
În învățarea transferului transductiv, sarcinile sursă și țintă sunt aceleași, dar domeniul problemei este diferit.
Exemplu:Un filtru de spam instruit pe e-mailuri în limba engleză poate fi adaptat pentru a clasifica e-mailurile franceze. În acest scenariu, recunoașterea modelului de text a modelului sursă și înțelegerea structurii de e -mail se transferă bine la sarcina țintă, chiar dacă modelele de vocabular și limbaj diferă. Sarcina (clasificarea prin e -mail) rămâne neschimbată, dar datele (limbajul) diferă. Această abordare este utilă atunci când domeniul sursă are date etichetate abundente, iar domeniul țintă are puțin sau deloc.
Învățare de transfer nesupravegheată
Învățarea de transfer nesupervizată este utilizată atunci când datele etichetate nu sunt disponibile în domeniul țintă. În general, acest tip de învățare de transfer este utilizat pentru a antrena modele pentru a efectua sarcini nesupravegheate, cum ar fi clustering sau reducerea dimensionalității.
Exemplu:O organizație IT ar putea folosi învățarea de transfer nesupravegheată pentru a ajuta un sistem de detectare a amenințărilor alimentat de AI-ul să identifice noi tipuri de amenințări fără exemple etichetate.
În acest caz, modelul își poate transfera înțelegerea generală a modelelor normale față de amenințări potențiale la noi tipuri de amenințări necunoscute anterior.
Învățare cu puține fotografii
Învățarea cu câteva fotografii (FSL) este o tehnică ML care folosește învățarea transferului pentru a ajuta un model să învețe din date foarte limitate. În FSL, modelele învață să îndeplinească noi sarcini sau clasificări folosind doar câteva exemple.
Exemplu:Un model de recunoaștere facială poate identifica un individ nou bazat pe doar una sau două fotografii.
Învățare zero
Învățarea zero-shot (ZSL) este o tehnică ML care ajută un model să învețe noi clase care nu se văd în formare. ZSL folosește adesea concepte de învățare a transferului, dar se bazează pe relații semantice și informații auxiliare pentru a generaliza cunoștințele învățate la noi categorii.
Exemplu:Un model ar putea învăța să recunoască o tilapie bazată pe înțelegerea altor tipuri de pești și cunoștința că tilapia este un tip de pește, în ciuda faptului că nu a văzut niciodată o tilapie în timpul antrenamentului.
Beneficiile învățării transferului
Învățarea transferului oferă mai multe avantaje pentru organizațiile care doresc să dezvolte soluții AI adaptate. Acestea includ cerințele reduse de dezvoltare și resurse, performanțe bune cu date limitate și o rezistență îmbunătățită a modelului.
Cerințe reduse de dezvoltare și resurse
Învățarea transferului este o modalitate excelentă de a scurta simultan ciclul de dezvoltare și de a reduce cerințele de resurse pentru aplicațiile AI. Construirea unui model de la zero implică colectarea, curățarea și etichetarea datelor - și asta înainte de a începe chiar și antrenamentul. Odată cu învățarea, dezvoltarea și desfășurarea transferului devin o chestiune de săptămâni sau chiar zile în loc de luni. Instruirea unui model de la zero necesită adesea timp de calcul și putere semnificative, în timp ce învățarea transferului nu. Acest lucru înseamnă că organizațiile își pot aduce soluțiile AI pe piață mai rapid și cu mai puțin cheltuieli generale.
Performanță bună cu date limitate
Învățarea transferului permite modelelor să funcționeze bine, chiar și cu seturi de date de instruire limitate. Acest lucru este extrem de util pentru organizațiile din domenii specializate, cum ar fi fabricarea sau asistența medicală, unde datele etichetate sunt greu de găsit sau costisitoare de procurat. De exemplu, o organizație medicală ar putea avea doar câteva sute de exemple etichetate de afecțiuni medicale specifice, dar poate utiliza învățarea transferului pentru a construi un sistem de detectare performant, indiferent.
Modelul îmbunătățit robustetea și fiabilitatea modelului
Deși poate părea neintuitiv, modelele instruite prin învățarea transferului se generalizează mai bine decât modelele antrenate de la zero pe date limitate. Acest lucru se datorează faptului că seturile de date pe scară largă utilizate pentru pre-instruire oferă modele și caracteristici diverse care pot fi generalizabile pentru domenii și sarcini mai specifice. În plus, începând cu un model care a fost deja testat reduce riscul de eșec al modelului și crește fiabilitatea. Această scădere a reducerii riscului este importantă în industriile reglementate precum asistența medicală și finanțele.
Provocări ale învățării transferului
În ciuda numeroaselor sale avantaje, învățarea transferului are, de asemenea, mai multe provocări și limitări. Organizațiile trebuie să înțeleagă aceste provocări, astfel încât să poată proiecta strategia de implementare corectă și să aibă așteptări realiste. Aceste provocări includ transferul negativ, nepotrivirea domeniului și selecția modelului.
Transfer negativ
În transferul negativ, cunoștințele din domeniul sursă împiedică învățarea sarcinii țintă și duc la modelul pre-instruit în prealabil mai rău decât unul instruit de la zero. Aceasta este una dintre cele mai frecvente provocări cu învățarea transferului și apare de obicei atunci când domeniile țintă și sursă sunt prea diferite. De exemplu, un model de viziune computerizată instruit să clasifice rasele de câini în imagini probabil va funcționa slab dacă este adaptat la analiza imaginilor medicale, deoarece caracteristicile învățate sunt irelevante pentru noua sarcină. Caracteristicile care ajută la distingerea raselor de câini, cum ar fi textura blană, lungimea cozii și forma urechii, nu au o aplicație semnificativă atunci când încearcă să clasifice scanări medicale. Organizațiile ar trebui să compare cu atenție domeniile sursă și țintă pentru a evita transferul negativ.
Nepotrivire de domeniu
Nepotrivirea domeniului apare atunci când diferențele dintre datele disponibile pentru sursă și domeniile țintă reduc performanța modelului. Aceste diferențe pot include variații ale calității sau distribuției datelor. Spre deosebire de transferul negativ, un model care suferă de nepotrivire a domeniului ar putea să funcționeze mai bine decât unul antrenat de la zero. De exemplu, un model instruit pe un set de date mare și variat de imagini CAT nu se va descurca bine la identificarea câinilor. Cu toate acestea, modelul se va descurca mai bine în general decât un model instruit pe un set mic de imagini pentru câini.
Selectarea și modificarea modelului
Selectarea modelului corespunzător pre-instruit și descoperirea modului de modificare a acestuia poate fi complexă și consumatoare de timp. Organizațiile trebuie să ia în considerare tot felul de factori, inclusiv alinierea între domeniile sursă și țintă, infrastructura disponibilă și resursele de personal, dimensiunea și calitatea setului de date de instruire și arhitectura modelului. În plus, modelele pre-instruite sunt adesea construite cu presupuneri și dependențe în minte, care nu pot fi imediat aparente. Selectarea modelului adecvat și realizarea modificărilor corecte necesită expertiză, timp pentru experimentare și infrastructură la care nu toate organizațiile pot avea acces.
Aplicații de învățare a transferului
Învățarea transferului este o modalitate mai ușoară și mai fiabilă de a crea sisteme AI pentru sarcini sau domenii specifice decât construirea unui nou model. Ulterior, tehnica a găsit adoptarea pe scară largă și are numeroase aplicații, inclusiv viziunea computerului, procesarea limbajului natural (NLP) și recunoașterea vorbirii și generarea.
Viziunea computerului
Învățarea transferului a avut un mare succes în viziunea computerului. Organizațiile pot crea aplicații de viziune personalizate relativ ușor prin utilizarea modelelor de viziune pre-instruite care au învățat caracteristici generalizabile din milioane de imagini. De exemplu, o firmă de securitate poate adapta un model de viziune computerizat pre-instruit pentru a detecta un comportament suspect în fluxurile de supraveghere sau pentru a identifica obiecte specifice de interes, toate fără cantități masive de date de instruire sau dezvoltare de model specializată.
Procesarea limbajului natural (NLP)
O aplicație majoră a învățării transferului este formarea unui model pentru a gestiona sarcini specifice NLP. De exemplu, o firmă juridică ar putea selecta un model NLP pre-instruit ca bază pentru un instrument de analiză a documentelor și apoi să învețe modelul să se ocupe de domenii legale specifice folosind învățarea transferului.
Recunoașterea vorbirii și generarea
Învățarea transferului este, de asemenea, utilizată pentru a antrena modele pentru aplicații de vorbire specializate. De exemplu, un centru de apel ar putea adapta un model de vorbire generalizat pentru a înțelege terminologia specifică industriei și pentru a crea un sistem automat de servicii pentru clienți. Un alt exemplu ar fi utilizarea învățării transferului pentru a adapta un model de comandă vocală instruit pentru sarcini generale ale limbajului pentru a gestiona dialecte și limbi specifice.