Învățare semi-supravegheată: ce este și cum funcționează

Publicat: 2024-07-18

În domeniul învățării automate, învățarea semi-supravegheată apare ca o abordare hibridă inteligentă, reducând decalajul dintre metodele supravegheate și cele nesupravegheate prin valorificarea atât a datelor etichetate, cât și a celor neetichetate pentru a antrena modele mai robuste și mai eficiente.

Cuprins

  • Ce este învățarea semi-supravegheată?
  • Învățare semi-supravegheată vs. supravegheată și nesupravegheată
  • Cum funcționează învățarea semi-supravegheată
  • Tipuri de învățare semisupravegheată
  • Aplicații ale învățării semi-supervizate
  • Avantajele învățării semi-supravegheate
  • Dezavantajele învățării semi-supravegheate

Ce este învățarea semi-supravegheată?

Învățarea semi-supravegheată este un tip de învățare automată (ML) care utilizează o combinație de date etichetate și neetichetate pentru a antrena modele. Semi-supravegheat înseamnă că modelul primește îndrumări de la o cantitate mică de date etichetate, unde intrările sunt asociate în mod explicit cu ieșirile corecte, plus un grup mai mare de date neetichetate, care este de obicei mai abundent. Aceste modele găsesc în mod obișnuit informații inițiale într-o cantitate mică de date etichetate și apoi își perfecționează și mai mult înțelegerea și acuratețea folosind un grup mai mare de date neetichetate.

Învățarea automată este un subset al inteligenței artificiale (AI) care utilizează date și metode statistice pentru a construi modele care imită raționamentul uman, mai degrabă decât să se bazeze pe instrucțiuni codificate. Folosind elemente din abordările supravegheate și nesupravegheate, semi-supravegheat este o modalitate distinctă și puternică de a îmbunătăți calitatea predicției fără investiții oneroase în etichetarea umană.

Lucrați mai inteligent cu Grammarly
Partenerul de scriere AI pentru oricine are de lucru

Învățare semi-supravegheată vs. supravegheată și nesupravegheată

În timp ce învățarea supravegheată se bazează exclusiv pe date etichetate, iar învățarea nesupravegheată funcționează cu date complet neetichetate, învățarea semi-supravegheată combină cele două.

Învățare supravegheată

Învățarea supravegheată utilizează date etichetate pentru a antrena modele pentru sarcini specifice. Cele două tipuri majore sunt:

  • Clasificare: determină cărei clase sau grup îi aparține un articol.Aceasta poate fi o alegere binară, o alegere între mai multe opțiuni sau apartenența la mai multe grupuri.
  • Regresie: prezice rezultatele pe baza unei linii care se potrivește cel mai bine din datele existente. Utilizat de obicei pentru prognoză, cum ar fi prezicerea vremii sau a performanței financiare.

Învățare nesupravegheată

Învățarea nesupravegheată identifică modele și structuri în datele neetichetate prin trei tehnici principale:

  • Clustering: Definește grupuri de puncte care au valori similare.Acestea pot fi exclusive (fiecare punct de date într-un singur cluster), suprapuse (grade de apartenență la unul sau mai multe clustere) sau ierarhice (mai multe straturi de clustere).
  • Asociere: găsește ce articole au mai multe șanse să apară concomitent, cum ar fi produsele achiziționate frecvent împreună.
  • Reducerea dimensionalității: simplifică seturile de date prin condensarea datelor în mai puține variabile, reducând astfel timpul de procesare și îmbunătățind capacitatea modelului de a generaliza.

Învățare semi-supravegheată

Învățarea semi-supravegheată folosește atât datele etichetate, cât și cele neetichetate pentru a îmbunătăți performanța modelului. Această abordare este utilă în special atunci când etichetarea datelor este costisitoare sau necesită timp.

Acest tip de învățare automată este ideal atunci când aveți o cantitate mică de date etichetate și o cantitate mare de date neetichetate. Prin identificarea punctelor neetichetate se potrivesc îndeaproape cu cele etichetate, un model semi-supravegheat poate crea limite de clasificare sau modele de regresie mai nuanțate, ceea ce duce la o precizie și performanță îmbunătățite.

Cum funcționează învățarea semi-supravegheată

Procesul de învățare semi-supravegheată presupune mai multe etape, combinând elemente atât ale metodelor de învățare supravegheată, cât și ale celor nesupravegheate:

  1. Colectarea și etichetarea datelor: adunați un set de date care include o mică parte de date etichetate și o porțiune mai mare de date neetichetate.Ambele seturi de date ar trebui să aibă aceleași caracteristici, cunoscute și sub numele de coloane sau atribute.
  2. Preprocesare și extragerea caracteristicilor: Curățați și preprocesați datele pentru a oferi modelului cea mai bună bază posibilă pentru învățare: Verificați la punct pentru a asigura calitatea, eliminați duplicatele și ștergeți caracteristicile inutile.Luați în considerare crearea de noi caracteristici care transformă caracteristicile importante în intervale semnificative care reflectă variația datelor (de exemplu, conversia datelor de naștere în vârste) într-un proces cunoscut sub numele de extracție.
  3. Învățare inițială supravegheată: Antrenați modelul folosind datele etichetate.Această fază inițială ajută modelul să înțeleagă relația dintre intrări și ieșiri.
  4. Învățare nesupravegheată: aplicați tehnici de învățare nesupravegheată datelor neetichetate pentru a identifica modele, clustere sau structuri.
  5. Rafinarea modelului: combinați informațiile din datele etichetate și neetichetate pentru a rafina modelul.Acest pas implică adesea antrenament iterativ și ajustări pentru a îmbunătăți acuratețea.
  6. Evaluare și ajustare: Evaluați performanța modelului utilizând valori standard de învățare supravegheată, cum ar fi acuratețea, precizia, reamintirea și scorul F1.Ajustați modelul ajustând instrucțiunile explicite (cunoscute sub numele de hiperparametri) și reevaluând până când se obține performanța optimă.
  7. Implementare și monitorizare: implementați modelul pentru utilizare în lumea reală, monitorizați-i continuu performanța și actualizați-l cu date noi, după cum este necesar.

Tipuri de învățare semisupravegheată

Învățarea semi-supravegheată poate fi implementată folosind mai multe tehnici, fiecare utilizând date etichetate și neetichetate pentru a îmbunătăți procesul de învățare. Iată principalele tipuri, împreună cu subtipurile și conceptele cheie:

Autoinstruire

Auto-instruirea, cunoscută și sub numele de auto-învățare sau auto-etichetare, este cea mai simplă abordare. În această tehnică, un model antrenat inițial pe date etichetate prezice etichetele pentru datele neetichetate și înregistrează gradul de încredere al acestuia. Modelul se reantrenează în mod iterativ prin aplicarea celor mai sigure predicții ale sale ca date suplimentare etichetate - aceste etichete generate sunt cunoscute capseudo-etichete. Acest proces continuă până când performanța modelului se stabilizează sau se îmbunătățește suficient.

  • Antrenament inițial: modelul este antrenat pe un set de date mic etichetat.
  • Predicție etichetă: modelul antrenat prezice etichete pentru datele neetichetate.
  • Limitarea încrederii: sunt selectate numai predicțiile peste un anumit nivel de încredere.
  • Reantrenare: Datele pseudo-etichetate selectate sunt adăugate la setul de antrenament, iar modelul este reantrenat.

Această metodă este simplă, dar puternică, mai ales atunci când modelul poate face predicții precise de la început. Cu toate acestea, dacă previziunile inițiale sunt incorecte, poate fi predispusă să-și întărească propriile erori. Utilizați gruparea pentru a ajuta la validarea faptului că pseudo-etichetele sunt consecvente cu grupările naturale din date.

Co-training

Co-instruirea, utilizată de obicei pentru probleme de clasificare, implică antrenarea a două sau mai multe modele pe vederi sau subseturi diferite de date. Cele mai sigure predicții ale fiecărui model cu privire la datele neetichetate sporesc setul de antrenament al celuilalt model. Această tehnică valorifică diversitatea modelelor multiple pentru a îmbunătăți învățarea.

  • Abordare cu două vizualizări: setul de date este împărțit în două vederi distincte, adică subseturi de date originale, fiecare conținând caracteristici diferite.Fiecare dintre cele două vederi noi are aceeași etichetă, dar în mod ideal, cele două sunt independente condiționat, ceea ce înseamnă că cunoașterea valorilor dintr-un tabel nu îți va oferi informații despre celălalt.
  • Antrenamentul modelului: Două modele sunt antrenate separat pe fiecare vizualizare folosind datele etichetate.
  • Etichetare reciprocă: fiecare model prezice etichete pentru datele neetichetate, iar cele mai bune predicții - fie toate cele care depășesc un anumit prag de încredere, fie pur și simplu un număr fix din partea de sus a listei - sunt folosite pentru a reanaliza celălalt model.

Co-instruirea este deosebit de utilă atunci când datele se pretează la mai multe vederi care oferă informații complementare, cum ar fi imagini medicale și date clinice asociate aceluiași pacient. În acest exemplu, un model ar prezice incidența bolii pe baza imaginii, în timp ce celălalt ar prezice pe baza datelor din fișa medicală.

Această abordare ajută la reducerea riscului de consolidare a predicțiilor incorecte, deoarece cele două modele se pot corecta reciproc.

Modele generative

Modelele generative învață probabilitatea ca perechile date de intrări și ieșiri să apară concomitent, cunoscută sub numele de distribuție de probabilitate comună. Această abordare le permite să genereze date noi care seamănă cu ceea ce au văzut deja. Aceste modele folosesc date etichetate și neetichetate pentru a capta distribuția de date de bază și pentru a îmbunătăți procesul de învățare. După cum ați putea ghici din nume, aceasta este baza AI generativă care poate crea text, imagini și așa mai departe.

  • Rețele adverse generative (GAN): GAN-urile constau din două modele: un generator și un discriminator.Generatorul creează puncte de date sintetice, în timp ce discriminatorul încearcă să facă distincția între aceste puncte de date sintetice și datele reale. Pe măsură ce se antrenează, generatorul își îmbunătățește capacitatea de a crea date realiste, iar discriminatorul devine mai bun la identificarea datelor false. Acest proces contradictoriu continuă, fiecare model încercând să-l depășească pe celălalt. GAN-urile pot fi aplicate învățării semi-supravegheate în două moduri:
    • Discriminator modificat: în loc să clasifice pur și simplu datele ca „false” sau „reale”, discriminatorul este antrenat să clasifice datele în mai multe clase plus o clasă falsă.Acest lucru îi permite discriminatorului să clasifice și să discrimineze.
    • Utilizarea datelor neetichetate: discriminatorul judecă dacă o intrare se potrivește cu datele etichetate pe care le-a văzut sau este un punct de date fals de la generator.Această provocare suplimentară îl obligă pe discriminator să recunoască datele neetichetate după asemănarea lor cu datele etichetate, ajutându-l să învețe caracteristicile care le fac similare.
  • Autoencodere variaționale (VAE): VAE-urile își dau seama cum să codifice datele într-o reprezentare mai simplă, abstractă, pe care o poate decoda într-o reprezentare cât mai apropiată a datelor originale.Folosind atât date etichetate, cât și neetichetate, VAE creează o singură abstractizare care surprinde caracteristicile esențiale ale întregului set de date și, astfel, își îmbunătățește performanța pe date noi.

Modelele generative sunt instrumente puternice pentru învățarea semi-supravegheată, în special cu date abundente, dar complexe, neetichetate, cum ar fi traducerea limbii sau recunoașterea imaginilor. Desigur, aveți nevoie de niște etichete, astfel încât GAN-urile sau VAE-urile să știe spre ce să țintească.

Metode bazate pe grafice

Metodele bazate pe grafice reprezintă punctele de date ca noduri pe un grafic, cu abordări diferite pentru înțelegerea și extragerea de informații utile despre relațiile dintre ele. Unele dintre numeroasele metode bazate pe grafice aplicate învățării semi-supravegheate includ:

  • Propagarea etichetelor: o abordare relativ simplă în care valorile numerice cunoscute sub numele de margini indică asemănări între nodurile din apropiere.La prima rulare a modelului, punctele neetichetate cu marginile cele mai puternice la un punct etichetat împrumută eticheta punctului respectiv. Pe măsură ce mai multe puncte sunt etichetate, procesul se repetă până când toate punctele sunt etichetate.
  • Rețele neuronale grafice (GNN): Utilizează tehnici de antrenare a rețelelor neuronale, cum ar fi atenția și convoluția, pentru a aplica învățăturile de la punctele de date etichetate la cele neetichetate, în special în situații extrem de complexe, cum ar fi rețelele sociale și analiza genelor.
  • Autoencodere grafice: similare cu VAE, acestea creează o singură reprezentare abstractă care captează date etichetate și neetichetate. Această abordare este adesea folosită pentru a găsi legăturile lipsă, care sunt conexiuni potențiale care nu sunt capturate în grafic.

Metodele bazate pe grafice sunt deosebit de eficiente pentru datele complexe care formează în mod natural rețele sau au relații intrinseci, cum ar fi rețelele sociale, rețelele biologice și sistemele de recomandare.

Aplicații ale învățării semi-supervizate

Unele dintre numeroasele aplicații ale învățării semi-supravegheate includ:

  • Clasificare text: atunci când aveți un set foarte mare de date disponibile, cum ar fi milioane de recenzii de produse sau miliarde de e-mailuri, trebuie să etichetați doar o fracțiune din ele.O abordare semi-supravegheată va folosi datele rămase pentru a rafina modelul.
  • Analiza imaginilor medicale: timpul experților medicali este costisitor și nu sunt întotdeauna exacte.Suplimentarea analizei imaginilor, cum ar fi RMN-urile sau razele X, cu multe imagini neetichetate, poate duce la un model care egalează sau chiar depășește acuratețea acestora.
  • Recunoașterea vorbirii: transcrierea manuală a vorbirii este un proces obositor și solicitant, mai ales dacă încercați să captați o mare varietate de dialecte și accente.Combinarea datelor de vorbire etichetate cu cantități mari de sunet neetichetat va îmbunătăți capacitatea modelului de a discerne cu precizie ceea ce se spune.
  • Detectarea fraudei: mai întâi, instruiți un model pe un set mic de tranzacții etichetate, identificând fraudele cunoscute și cazurile legitime.Apoi adăugați un set mai mare de tranzacții neetichetate pentru a expune modelul la modele și anomalii suspecte, sporind capacitatea acestuia de a identifica activități frauduloase noi sau în evoluție în sistemele financiare.
  • Segmentarea clienților: învățarea semi-supravegheată poate îmbunătăți precizia utilizând un set mic de date etichetat pentru a defini segmentele inițiale pe baza anumitor modele și date demografice, apoi adăugând un grup mai mare de date neetichetate pentru a rafina și extinde aceste categorii.

Avantajele învățării semi-supravegheate

  • Eficient din punct de vedere al costurilor: Învățarea semi-supravegheată reduce nevoia de date extinse etichetate, reducând costurile și efortul de etichetare, precum și influența erorii umane și a părtinirii.
  • Predicții îmbunătățite: combinarea datelor etichetate și neetichetate duce adesea la o calitate mai bună a predicției în comparație cu învățarea pur supravegheată, deoarece oferă mai multe date din care să învețe modelul.
  • Scalabilitate: Învățarea semi-supravegheată este potrivită pentru aplicațiile din lumea reală în care etichetarea completă nu este practică, cum ar fi miliarde de tranzacții potențial frauduloase, deoarece gestionează seturi mari de date cu date etichetate minime.
  • Flexibilitate: combinarea punctelor forte ale învățării supravegheate și nesupravegheate face ca această abordare să fie adaptabilă la multe sarcini și domenii.

Dezavantajele învățării semi-supravegheate

  • Complexitate: Integrarea datelor etichetate și neetichetate necesită adesea tehnici sofisticate de preprocesare, cum ar fi normalizarea intervalelor de date, imputarea valorilor lipsă și reducerea dimensionalității.
  • Încredere în ipoteze: metodele semi-supravegheate se bazează adesea pe ipoteze despre distribuția datelor, cum ar fi punctele de date din același cluster care merită aceeași etichetă, ceea ce poate să nu fie întotdeauna adevărat.
  • Potențial de zgomot: datele neetichetate pot introduce zgomot și inexactități dacă nu sunt tratate corespunzător cu tehnici precum detectarea valorii aberante și validarea față de datele etichetate.
  • Mai greu de evaluat: fără multe date etichetate, nu veți obține multe informații utile din abordările standard de evaluare a învățării supravegheate.