Învățare nesupravegheată: ce este și cum funcționează
Publicat: 2024-07-03Dezvăluie misterele învățării nesupravegheate, o tehnică revoluționară care permite mașinilor să devină analiști de date autonomi, extragând informații valoroase fără intervenția umană.
Cuprins
- Ce este învățarea nesupravegheată?
- Învățare nesupravegheată vs. supravegheată
- Cum funcționează învățarea nesupravegheată
- Tipuri de învățare nesupravegheată
- Aplicații ale învățării nesupravegheate
- Avantajele învățării nesupravegheate
- Dezavantajele învățării nesupravegheate
Ce este învățarea nesupravegheată?
Învățarea nesupravegheată este un tip de învățare automată (ML) care găsește singur modele și relații în cadrul datelor. Termenulnesupravegheatînseamnă că modelul folosește date neetichetate, ceea ce înseamnă că nu primește instrucțiuni de la oameni despre ce să caute sau chiar îndrumări cu privire la ceea ce privește. În schimb, folosește algoritmi pentru a evalua seturile de date și pentru a găsi corelații, asemănări, diferențe și alte moduri de a descrie datele folosind matematica.
Învățarea automată este un subset de inteligență artificială (AI) care utilizează date și metode statistice pentru a construi modele care imită raționamentul uman, mai degrabă decât să se bazeze pe instrucțiuni codificate. Învățarea nesupravegheată adoptă o abordare exploratorie, bazată pe date, pentru a trage concluzii din seturi mari de date, cum ar fi gruparea entităților după caracteristici comune sau găsirea punctelor de date care tind să apară concomitent - ceea ce ar putea juca ca sortarea imaginilor foioase din copaci veșnic verzi sau găsirea că oamenii care transmit în fluxSesame Streetsunt probabil să îl urmărească șipe Daniel Tiger.
Învățare nesupravegheată vs. supravegheată
Spre deosebire de metodele nesupravegheate, învățarea supravegheată utilizează date etichetate care împerechează intrările cu ieșirile corecte. În schimb, învățarea nesupravegheată nu are intrări și ieșiri pe care modelul să le intuiască, ci doar date de analizat.
Etichetele oferă așa-numita supraveghere a procesului de învățare al modelului, ghidându-l să-și facă inginerie inversă către răspunsul corect de la o anumită intrare. Utilizarea învățării supravegheate are sens atunci când aveți acest tip de date spre care modelul poate viza și de la care poate extrapola, inclusiv:
- Da sau nu decizii , cum ar fi spam-ul sau detectarea fraudei
- Clasificare , cum ar fi identificarea obiectelor dintr-o imagine sau recunoașterea vorbirii
- Prognoze , cum ar fi prețurile caselor sau vremea
Învățarea nesupravegheată, dimpotrivă, nu este pentru a ajunge la răspunsul corect, ci mai degrabă pentru a găsi modele sau grupări în cadrul datelor. Cele trei aplicații principale sunt:
- Clustering , cum ar fi segmentarea clienților sau gruparea documentelor
- Asociere , cum ar fi motoare de recomandare sau anomalii de securitate
- Reducerea dimensionalității , folosită în general pentru a comprima seturi mari de date pentru a le face mai ușor de gestionat
Învățarea automată nu se limitează doar la metode supravegheate sau nesupravegheate; acestea sunt doar două capete ale unui spectru. Alte tipuri de metode de învățare automată includ învățarea semi-supravegheată, de întărire și auto-supravegheată.
Cum funcționează învățarea nesupravegheată
Învățarea nesupravegheată este simplă din punct de vedere conceptual: algoritmii procesează cantități mari de date pentru a determina modul în care sunt legate diferite puncte de date. Deoarece datele nu sunt etichetate, învățarea nesupravegheată nu are context sau scop. Pur și simplu încearcă să găsească modele și alte caracteristici.
Iată o scurtă prezentare generală a procesului de învățare nesupravegheată:
1 Colectarea și curățarea datelor.Învățarea nesupravegheată evaluează un tabel la un moment dat, așa că dacă aveți mai multe seturi de date, trebuie să le îmbinați cu atenție. De asemenea, este important să aranjați datele cât mai bine, cum ar fi eliminarea duplicatelor și corectarea erorilor.
2 Scalarea caracteristicilor.Algoritmii nesupravegheați pot fi anulați de intervale mari, așa că luați în considerare transformarea caracteristicilor în intervale mai strânse folosind tehnici precum:
- Normalizare: transformă valoarea superioară la 1, cea mai mică valoare la 0 și orice altceva ca zecimală.
- Standardizare: specifică valoarea medie ca 0 și abaterea standard ca 1, fiecare punct de date ajustat corespunzător.
- Transformare logaritmică: comprimă intervale largi, astfel încât cu un logaritm de bază 10, 100.000 devine 6, iar 1.000.000 devine 7.
3 Selectarea algoritmului.Există mai mulți algoritmi pentru fiecare tip de învățare nesupravegheată, fiecare cu puncte forte și puncte slabe (le vom analiza în secțiunea următoare). Puteți alege să aplicați diferiți algoritmi la același set de date și să comparați.
4 Descoperirea și identificarea modelelor.Algoritmul ales începe să lucreze. Acest lucru poate dura de la secunde la ore, în funcție de dimensiunea setului de date și de eficiența algoritmului. Dacă aveți un set de date mare, este posibil să doriți să rulați algoritmul pe un subset înainte de a procesa întregul lucru.
5 Interpretare.În această etapă, este timpul ca oamenii să preia conducerea. Un analist de date poate folosi diagrame, verificări punctuale și diverse calcule pentru a analiza și interpreta datele.
6 Aplicare.Odată ce sunteți sigur că obțineți rezultate utile, folosiți-l. Vom vorbi mai târziu despre câteva aplicații ale învățării nesupravegheate.
Tipuri de învățare nesupravegheată
Există mai multe tipuri de învățare nesupravegheată, dar cele trei cele mai utilizate sunt gruparea, regulile de asociere și reducerea dimensionalității.
Clustering
Clustering creează grupuri de puncte de date. Este cu adevărat util pentru gruparea articolelor care sunt similare între ele, astfel încât să poată fi clasificate ulterior prin analiză umană. De exemplu, dacă aveți un set de date care include vârsta clientului și suma medie în dolari pentru tranzacție, este posibil să găsească grupuri care vă ajută să decideți unde să vizați suma publicitară.
Tipurile de grupare includ:
- Clustering exclusiv sau dur.Fiecare punct de date poate aparține unui singur cluster. O abordare populară cunoscută sub numele de k-means vă permite să specificați câte clustere doriți să creați, deși altele pot determina numărul optim de clustere.
- Suprapunere sau grupare moale. Această abordare permite unui punct de date să fie în mai multe clustere și să aibă un „grad” de apartenență la fiecare, mai degrabă decât pur în interior sau în exterior.
- Gruparea ierarhică. Dacă se face de jos în sus, se numește clustering aglomerativ ierarhic sau HAC; de sus în jos se numește grupare divizionară. Ambele implică o mulțime de grupuri organizate în altele din ce în ce mai mari.
- clustering probabilistic. Aceasta este o abordare diferită care calculează probabilitatea procentuală ca orice punct de date dat să aparțină oricărei categorii. Un avantaj al acestei abordări este că poate atribui unui anumit punct de date o probabilitate foarte scăzută de a face parte dintr-un anumit cluster, ceea ce ar putea evidenția date anormale sau corupte.
Regulile de asociere
Cunoscută și ca extragerea regulilor de asociere sau învățarea regulilor de asociere, această abordare găsește relații interesante între punctele de date. Cea mai obișnuită utilizare a regulilor de asociere este de a afla ce articole sunt cumpărate sau utilizate în mod obișnuit împreună, astfel încât modelul să poată sugera următorul lucru de cumpărat sau de afișat pentru vizionat.
Cele trei concepte de bază ale regulilor de asociere sunt:
- A sustine.Cât de des se găsesc A și B împreună ca procent din toate instanțele disponibile (de exemplu, tranzacții)? A și B pot fi articole individuale sau seturi reprezentând mai multe articole.
- Încredere. Cât de des, dacă se vede A, se vede și B?
- Lift. Care este probabilitatea ca A și B să fie văzute împreună, în comparație cu dacă nu ar exista o corelație? Lift este măsura „interesantului” unei asociații.
Reducerea dimensionalității
Reducerea dimensionalității corespunde numărului de coloane dintr-un tabel. Alți termeni pentru coloane în acest context suntcaracteristicisauatribute. Pe măsură ce numărul de caracteristici dintr-un set de date crește, analiza datelor și obținerea de rezultate optime devine mai dificilă.
Procesarea datelor cu dimensiuni mari necesită mai mult timp, putere de calcul și energie. De asemenea, poate duce la ieșiri substandard. Un exemplu deosebit de pernicios este supraadaptarea, tendința modelelor de învățare automată de a învăța prea mult din detaliile din datele de antrenament în detrimentul modelelor mai largi care se generalizează bine la date noi.
Algoritmii de reducere a dimensionalității creează seturi de date simplificate prin condensarea datelor originale în versiuni mai mici, mai ușor de gestionat, care păstrează cele mai importante informații. Acestea funcționează prin îmbinarea caracteristicilor corelate și notând variația față de tendința generală, reducând efectiv numărul de coloane fără a pierde detaliile cheie.
De exemplu, dacă ați avut un set de date despre hoteluri și facilitățile acestora, modelul ar putea descoperi că multe caracteristici sunt corelate cu evaluarea cu stele, astfel încât ar putea comprima atribute precum spa, room service și recepție de 24 de ore într-o singură coloană.
De obicei, inginerii reduc dimensionalitatea ca pas de pre-procesare pentru a îmbunătăți performanța și rezultatele altor procese, inclusiv, dar fără a se limita la, învățarea regulilor de asociere și clustering.
Aplicații ale învățării nesupravegheate
Câteva exemple includ:
- Analiza coșului de piață.Comercianții cu amănuntul folosesc din abundență regulile de asociere. De exemplu, dacă ați pus hot-dog-uri în coșul de cumpărături, s-ar putea să vă sugereze să cumpărați ketchup și chifle pentru hot-dog, deoarece s-a observat o creștere mare a acestor combinații de la alți cumpărători. Aceleași date îi pot determina să pună ketchup și hot dog unul lângă celălalt în supermarket.
- Motoare de recomandare. Acestea analizează datele tale personale — demografii și modele de comportament — și le compară cu ale altora pentru a ghici ce ți-ar putea plăcea să cumperi sau să urmărești în continuare. Ei pot folosi cele trei tipuri de învățare nesupravegheată: gruparea pentru a determina ce tipare ale altor clienți le-ar putea prezice pe ale dvs., reguli de asociere pentru a găsi corelații între anumite activități sau achiziții și reducerea dimensionalității pentru a face seturi de date complexe mai ușor de procesat.
- Segmentarea clienților. În timp ce specialiștii în marketing și-au împărțit audiența în categorii numite de zeci de ani, gruparea nesupravegheată poate alege grupări care poate nu au fost în mintea niciunui om. Această abordare permite o analiză bazată pe comportament și poate ajuta echipele să vizeze mesajele și promoțiile în moduri noi.
- Detectarea anomaliilor.Deoarece este foarte bun la înțelegerea tiparelor, învățarea nesupravegheată este adesea folosită pentru a alerta atunci când lucrurile sunt anormale. Utilizările includ semnalarea achizițiilor frauduloase cu carduri de credit, date corupte într-un tabel și oportunități de arbitraj pe piețele financiare.
- Recunoaștere a vorbirii.Analiza vorbirii este complicată de computere, deoarece acestea trebuie să se confrunte cu zgomotul de fundal, accentele, dialectele și vocile. Învățarea nesupravegheată ajută motoarele de recunoaștere a vorbirii să învețe care sunete corelează cu ce foneme (unități de vorbire) și ce foneme sunt auzite de obicei împreună, pe lângă filtrarea zgomotului de fundal și alte îmbunătățiri.
Avantajele învățării nesupravegheate
- Implicare umană scăzută.Odată ce un sistem de învățare nesupravegheat se dovedește fiabil, rularea acestuia necesită puțin efort în afară de asigurarea că intrările și ieșirile sunt direcționate corect.
- Funcționează pe date brute. Nu este nevoie să furnizați etichete, adică să specificați ce ieșire ar trebui să rezulte dintr-o intrare dată. Această capacitate de a gestiona datele așa cum apar este extrem de valoroasă atunci când aveți de-a face cu cantități enorme de date neatinse.
- Descoperirea modelelor ascunse. Fără alt scop sau agendă decât găsirea de modele, învățarea nesupravegheată vă poate îndruma către „cunoscute necunoscute” – concluzii bazate pe date pe care nu le-ați luat în considerare anterior, dar care au sens odată prezentate. Această abordare este deosebit de utilă pentru găsirea de ace în căile de fân, cum ar fi analiza ADN-ului pentru cauza morții celulare.
- Explorarea datelor. Prin reducerea dimensionalității și găsirea de modele și clustere, învățarea nesupravegheată oferă analiștilor un avans în a înțelege seturile de date noi.
- Antrenament incremental. Multe modele nesupravegheate pot învăța pe măsură ce merg: pe măsură ce apar mai multe date, pot evalua cea mai recentă intrare în raport cu ceea ce au descoperit deja. Acest lucru necesită mult mai puțin timp și efort de calcul.
Dezavantajele învățării nesupravegheate
- Ai nevoie de multe date.Învățarea nesupravegheată este predispusă la greșeli mari dacă este instruită pe exemple limitate. S-ar putea să găsească modele în datele care nu sunt valabile în lumea reală (suprafitting), să se schimbe dramatic în fața noilor date (instabilitate) sau să nu aibă suficiente informații pentru a determina ceva semnificativ (descoperire limitată a modelelor).
- Interpretabilitate scăzută. Ar putea fi greu de înțeles de ce un algoritm, cum ar fi logica grupării, a ajuns la o anumită concluzie.
- False pozitive. Un model nesupravegheat ar putea citi prea mult în puncte de date anormale, dar neimportante, fără etichete care să-l învețe ce merită atenție.
- Greu de evaluat sistematic.Deoarece nu există un răspuns „corect” cu care să-l comparați, nu există o modalitate simplă de a măsura acuratețea sau utilitatea rezultatelor. Problema poate fi oarecum atenuată prin rularea unor algoritmi diferiți pe aceleași date, dar în final, măsura calității va fi în mare măsură subiectivă.