Învățare zero-shot explicată: viitorul învățării automate fără etichete

Publicat: 2025-01-13

Învățarea zero-shot (ZSL) revoluționează învățarea automată (ML), permițând modelelor să clasifice sau să prezică rezultate pentru concepte pe care nu le-au mai întâlnit până acum, marcând o abatere de la abordările tradiționale care necesită date extinse etichetate. Acest ghid explorează modul în care funcționează ZSL, aplicațiile sale, modul în care se compară cu învățarea în scurt timp (FSL) și provocările și potențialul viitor.

Cuprins

  • Ce este învățarea zero-shot?
  • Cum funcționează învățarea zero-shot
  • Învățare zero față de învățare cu câteva lovituri și învățare unică
  • Învățare zero vs. promptare zero
  • Aplicații ale învățării zero-shot
  • Beneficiile învățării zero-shot
  • Provocări ale învățării zero-shot

Lucrați mai inteligent cu Grammarly
Partenerul de scriere AI pentru oricine are de lucru

Ce este învățarea zero-shot (ZSL)?

ZSL permite modelelor de învățare automată să facă predicții despre categorii nevăzute fără a necesita exemple de antrenament specifice pentru acele categorii. Spre deosebire de modelele tradiționale de învățare supravegheată, care se bazează în mare măsură pe seturi de date etichetate în care fiecare categorie trebuie să fie reprezentată în mod explicit, ZSL folosește informații auxiliare, cum ar fi încorporarea semantică sau atributele, pentru a generaliza cunoștințele.

De exemplu, un model de învățare supravegheat antrenat să clasifice animalele ar avea nevoie de exemple etichetate de „câine”, „pisică” și „zebră” pentru a le recunoaște, în timp ce un model ZSL antrenat pe imagini de animale ar putea identifica o zebră pe baza atributelor descriptive precum „ dungi” și „ca un cal”, chiar și fără expunere la exemplele anterioare. Acest lucru face ca ZSL să fie deosebit de util pentru sarcinile care implică seturi de date mari, neetichetate sau situații în care colectarea datelor etichetate este imposibilă. Aplicațiile sale includ viziunea computerizată, procesarea limbajului natural (NLP), robotică și multe altele.

Cum funcționează învățarea zero-shot

Modelele ZSL sunt mai întâi antrenate în prealabil pe un set de date mare etichetat pentru a crea o bază de cunoștințe. Modelul extrage informații auxiliare din datele etichetate, inclusiv caracteristici precum culoarea, forma și sentimentul.

Apoi utilizează acele caracteristici pentru a mapa relațiile semantice dintre categoriile (sau clasele) de date văzute și nevăzute. Acest proces, numit transfer de cunoștințe, permite unui model ZSL să înțeleagă, de exemplu, că o rață și o gâscă sunt legate, deoarece ambele au cioc, pene și picioare palmate.

Cele mai comune tehnici sunt ZSL bazate pe atribute, ZSL bazate pe încorporare semantică și ZSL generalizată. Mai jos, le examinăm pe fiecare.

Învățare zero-shot bazată pe atribute

Modelele ZSL bazate pe atribute sunt cel mai adesea folosite pentru sarcini de viziune computerizată. Aceștia lucrează prin instruire pe seturi de date de imagini etichetate de om. Etichetele constau din atribute pe care etichetarea persoanei le consideră utile. Pentru fiecare imagine, persoana aplică o descriere text a caracteristicilor sale, cum ar fi culoarea, forma sau alte caracteristici.

De exemplu, în clasificarea imaginilor, atribute precum „gri”, „cu patru picioare” și „câine” pot descrie diferite categorii. Prin antrenament, modelul învață să asocieze aceste atribute cu categorii specifice.

Când îi arăți modelului un exemplu de ceva nou, cum ar fi un tip de animal pe care nu l-a văzut până acum, acesta își poate da seama dacă se uită la o clasă care este similară, dar nu la fel cu clasele văzute la antrenament.

Când modelul întâlnește o categorie nevăzută, de exemplu, un lup, poate deduce clasa analizând atribute partajate cu categoriile învățate, chiar dacă eticheta „lup” nu a făcut în mod explicit parte din antrenament. Aceste atribute interpretabile de către om îmbunătățesc explicabilitatea și permit modelului să se generalizeze la noi clase.

Învățare zero-shot bazată pe încorporarea semantică

Această abordare este similară cu ZSL bazată pe atribute, dar în loc ca oamenii să creeze etichete de atribute pentru antrenament, modelul generează ceea ce sunt cunoscute sub numele de înglobare semantică a datelor de antrenament. Aceste înglobări semantice sunt codificate ca vectori - moduri matematice de reprezentare a obiectelor din lumea reală - și apoi mapate într-un spațiu de încorporare.

Spațiul de încorporare permite modelului să-și organizeze cunoștințele contextuale prin gruparea informațiilor conexe mai aproape. De exemplu, categoriile „câine” și „lup” vor fi mai aproape una de cealaltă într-un spațiu de încorporare decât vor fi categoriile „câine” și „pasăre”, datorită caracteristicilor semantice comune. Acest lucru este similar cu modul în care modelele de limbaj mari (LLMs) folosesc înglobările semantice pentru a grupa sinonimele din cauza semnificațiilor lor similare.

Când modelului i se oferă categorii nevăzute (un alt mod de a spune „date noi pe care modelul nu le-a mai întâlnit înainte”), proiectează vectori din acele clase noi în același spațiu de încorporare și măsoară distanța dintre ei și vectorii pentru clasele pe care îi cunoaște deja. despre. Aceasta oferă contextul modelului pentru exemplele nevăzute și îi permite să deducă relații semantice între clasele cunoscute și necunoscute.

Învățare generalizată zero-shot

Majoritatea tehnicilor de învățare zero-shot antrenează modelul pe un singur tip de date și apoi îl aplică la o problemă diferită, dar conexă. Aceasta este ideea „zero shots”: modelul nu este expus la niciun exemplu de noile clase înainte de a le întâlni în sălbăticie.

Cu toate acestea, aplicațiile din lumea reală nu sunt întotdeauna atât de alb-negru. Setul de date pe care doriți să-l clasifice modelul dvs. ZSL poate conține lucruri din clase cunoscute alături de clase noi.

Problema este că modelele ZSL tradiționale pot prezenta uneori o predispoziție puternică pentru etichetarea greșită a noilor clase ca lucruri pe care le știe deja dacă amestecați noi și familiare împreună. Deci, este util să aveți un model ZSL care se poate generaliza la un set de date care ar putea conține clase deja văzute la antrenament.

În ZSL generalizat, modelul face un pas suplimentar pentru a reduce părtinirea față de categoriile cunoscute. Înainte de a efectua clasificarea, mai întâi decide dacă obiectul în cauză aparține unei clase cunoscute sau necunoscute.

Învățare zero față de învățare cu câteva lovituri și învățare unică

La fel ca ZSL, învățarea cu câteva injecții (FSL) și învățarea unică (OSL) permit modelelor de învățare profundă să efectueze sarcini noi cu date noi minime sau fără date noi. Toate cele trei abordări se bazează pe maparea relațiilor dintre caracteristicile exemplelor cunoscute pentru a deduce modele în exemplele necunoscute. Scopul lor principal este de a crea modele care sunt eficiente în scenariile din lumea reală în care datele sunt rare sau în care nu există timp pentru a antrena un nou model pentru o anumită sarcină.

Diferența cheie constă în modul în care gestionează datele noi:

  • FSLimplică furnizarea modelului cu un număr mic de exemple etichetate pentru noua clasă pe care trebuie să o identifice.
  • OSLeste un caz mai specific, în care modelul este prezentat doar un exemplu etichetat al noii clase.

Atât FSL, cât și OSL necesită un pas suplimentar de instruire în comparație cu ZSL, ceea ce crește timpul necesar pentru a învăța noi sarcini. Cu toate acestea, această pregătire suplimentară îi echipează să se ocupe de sarcini care se abat semnificativ de la cunoștințele pre-instruite ale modelului, făcându-i mai adaptabili în practică.

În timp ce ZSL este adesea văzut ca „flexibil”, deoarece nu necesită exemple etichetate pentru sarcini noi, această flexibilitate este în mare parte teoretică. În aplicațiile din lumea reală, metodele ZSL se pot lupta cu:

  • Sarcini care implică un amestec de exemple văzute și nevăzute (de exemplu, scenarii ZSL generalizate)
  • Sarcini care sunt substanțial diferite de datele de antrenament ale modelului

Modelele ZSL sunt, de asemenea, sensibile la factori precum modul în care seturile de date sunt împărțite în timpul pregătirii și evaluării prealabile, care pot afecta performanța. Pe de altă parte, FSL și OSL oferă mai multă flexibilitate practică pentru adaptarea sarcinilor prin încorporarea de noi exemple în procesul de învățare, permițându-le să performeze mai bine în diverse scenarii.

Învățare zero vs. promptare zero

ZSL este un tip de arhitectură model conceput pentru diverse sarcini de învățare profundă. În schimb, promptarea zero-shot se referă la solicitarea unui LLM precum ChatGPT sau Claude să genereze o ieșire fără a furniza exemple specifice în prompt pentru a-și ghida răspunsul. În ambele cazuri, modelul realizează o sarcină fără exemple explicite despre ceea ce implică sarcina.

În promptarea zero-shot, nu furnizați modelului niciun exemplu legat de sarcină. În schimb, te bazezi pe cunoștințele pregătite în prealabil ale LLM pentru a deduce și a executa sarcina.

De exemplu, puteți introduce textul unei recenzii a unui restaurant și puteți cere LLM să-l clasifice drept pozitiv, neutru sau negativ, fără a-i oferi niciun eșantion de recenzie pe care să îl utilizați ca referință. LLM se va baza pe pregătirea sa prealabilă pentru a determina eticheta adecvată pentru revizuire.

În timp ce învățarea zero-shot și indicarea zero-shot împărtășesc conceptul de a efectua sarcini fără exemple, există o distincție cheie:

  • Învățarea zero-shoteste un tip de arhitectură model construit pentru astfel de sarcini.
  • Zero-shot promptingeste o tehnică specifică interacțiunii cu LLM-urile, nu o arhitectură model.

Aplicații ale învățării zero-shot

Datorită atenției sale pe a ajuta modelele de învățare profundă să se adapteze la noile sarcini, ZSL are aplicații în multe domenii ale ML, inclusiv viziunea computerizată, NLP și robotică. ZSL poate fi utilizat în asistența medicală, analiza sentimentelor, serviciul pentru clienți, traducerea documentelor și securitatea cibernetică, de exemplu:

  • Analiza sentimentelor:atunci când apar știri de ultimă oră, un model NLP zero-shot poate efectua o analiză a sentimentelor asupra comentariilor publice pentru a oferi o privire aproape în timp real asupra reacțiilor publicului.
  • Procesarea documentelor multilingve:modelele NLP zero-shot instruite pentru a extrage informații din documentele fiscale în limba engleză pot efectua aceleași extrageri pe documentele fiscale în spaniolă fără pregătire suplimentară.
  • Diagnosticare medicală:Modelele ZSL au fost folosite pentru a identifica razele X ale pacienților cu COVID-19 fără exemple vizuale. Identificările se bazează pe descrieri textuale, făcute de medicii care lucrează în domeniu, a modului în care arată razele X pozitive.
  • Chatbot-uri mai nuanțate:modelele ZSL NLP pot înțelege argou și idiomuri pe care nu le-au mai întâlnit înainte în timpul conversațiilor cu oameni, permițându-le să răspundă mai semnificativ la întrebările pe care nu au fost instruiți în mod special să le gestioneze.
  • Detectarea anomaliilor:ZSL poate fi folosit în securitatea cibernetică pentru a detecta modele neobișnuite în activitatea rețelei sau pentru a eticheta noi tipuri de atacuri de hacking pe măsură ce apar noi amenințări.

Beneficiile învățării zero-shot

Abordările tradiționale de învățare supravegheată sunt adesea impracticabile pentru multe aplicații din lumea reală, având în vedere seturile mari de date, timpul de instruire, banii și resursele de calcul de care au nevoie. ZSL poate atenua unele dintre aceste provocări. Beneficiile includ reducerea costurilor asociate cu formarea unui nou model și gestionarea situațiilor în care datele sunt limitate sau nu sunt încă disponibile:

Dezvoltare rentabilă

Achiziționarea și gestionarea seturilor mari de date etichetate necesare învățării supravegheate este costisitoare și necesită timp. Formarea unui model pe un set de date etichetat de înaltă calitate poate costa zeci de mii de dolari, pe lângă costul serverelor, spațiului de cloud computing și inginerilor.

ZSL arată promițătoare în reducerea costurilor proiectelor ML, permițând instituțiilor să reutilizeze modele pentru sarcini noi fără instruire suplimentară. De asemenea, permite entităților sau indivizilor mai mici să reutilizeze modelele construite de alții.

Rezolvarea problemelor cu date limitate

Flexibilitatea ZSL îl face un instrument bun pentru situațiile în care sunt disponibile puține date sau în care datele sunt încă în curs de dezvoltare. De exemplu, este util pentru diagnosticarea noilor boli atunci când informația nu este încă răspândită sau pentru situații de dezastru în care informațiile evoluează rapid. ZSL este, de asemenea, util pentru detectarea anomaliilor atunci când datele sunt prea substanțiale pentru ca analiștii umani să le proceseze.

Provocări ale învățării zero-shot

ZSL se bazează în mare măsură pe deținerea de date de antrenament de înaltă calitate în timpul fazei sale pre-antrenament pentru a înțelege relațiile semantice dintre categorii suficient de bine pentru a se generaliza la altele noi. Fără date de înaltă calitate, ZSL poate produce rezultate nesigure, care uneori sunt dificil de evaluat.

Problemele obișnuite cu care se confruntă modelele ZSL includ probleme de adaptare la sarcini care sunt diferite de sarcinile pe care le-a antrenat deja și probleme cu datele de antrenament care îl fac să se bazeze prea mult pe anumite etichete atunci când prezice clase nevăzute.

Adaptarea domeniului

Modelele ZSL performează cel mai bine atunci când li se cere să se ocupe de date noi dintr-un domeniu care nu este dramatic diferit de ceea ce a fost instruit. De exemplu, dacă un model a fost instruit pe fotografii, va avea dificultăți în clasificarea videoclipurilor.

Modelele ZSL se bazează pe maparea informațiilor auxiliare de la date necunoscute pe date cunoscute, așa că dacă sursele de date sunt prea diferite, modelul nu are nicio modalitate de a-și generaliza cunoștințele la noua sarcină.

Problema hubness

Problema hubness în ZSL apare atunci când un model începe să folosească doar câteva etichete atunci când face predicții pentru categorii nevăzute. Se întâmplă atunci când multe puncte din spațiul caracteristicilor încorporate devin grupate, formând „huburi” care orientează modelul către anumite etichete.

Acest lucru se poate întâmpla din cauza zgomotului în datele de antrenament, a prea multe exemple de anumite tipuri de date și nu suficiente din altele sau din cauza înglobărilor semantice ale modelului nu sunt suficient de distincte.