Regresia în învățarea automată: ce este și cum funcționează
Publicat: 2024-11-13Regresia în învățarea automată (ML) este un concept fundamental folosit pentru a prezice valori continue pe baza caracteristicilor de intrare. Indiferent dacă se estimează prețurile locuințelor sau se prognozează vânzările, modelele de regresie stabilesc relații între variabile. În acest articol, vom detalia diferitele tipuri de modele de regresie, algoritmii din spatele lor și când fiecare metodă este cel mai bine aplicată. Veți descoperi, de asemenea, cum funcționează regresia, cazurile sale practice de utilizare și avantajele și provocările asociate cu utilizarea regresiei în învățarea automată.
Cuprins
- Ce este regresia?
- Tipuri de modele de regresie
- Algoritmi utilizați pentru regresie
- Exemple de regresie
- Beneficiile regresiei
- Provocări ale regresiei
Ce este regresia în învățarea automată?
Regresia este un tip de învățare supravegheată folosit pentru a prezice valori continue pe baza datelor de intrare. Estimează relațiile dintre variabile pentru a prezice și explica diverse lucruri, cum ar fi prețurile caselor, tendințele pieței bursiere sau condițiile meteorologice. Modelele de regresie mapează caracteristicile de intrare la o variabilă țintă continuă, permițând predicții numerice precise.
De exemplu, folosind datele meteo din săptămâna trecută, un model de regresie poate prognoza precipitațiile de mâine. Valorile pe care le prezice sunt continue, ceea ce înseamnă că pot scădea oriunde pe o scară numerică, cum ar fi temperatura măsurată până la zecimale sau veniturile din vânzări proiectate pentru lunile următoare.
Regresie vs. clasificare: Care este diferența?
În timp ce regresia prezice rezultate continue, clasificarea se concentrează pe prezicerea categoriilor sau claselor discrete. De exemplu, un model de regresie ar putea prezice cantitatea exactă de precipitații mâine, în timp ce un model de clasificare ar putea prezice dacă va ploua deloc (da sau nu). Diferența cheie este că regresia se ocupă de valori numerice, în timp ce clasificarea atribuie date unor categorii predefinite.
În unele cazuri, este posibil să se adapteze rezultatul unui model de regresie la o sarcină de clasificare și invers, dar cele două abordări sunt în general potrivite pentru diferite tipuri de probleme.
Regresie: algoritm, model sau analiză?
Regresia este uneori denumită analiză de regresie, un termen statistic larg folosit pentru a descrie căutarea unor relații continue între observații și rezultate. Un algoritm de regresie este un instrument matematic specific conceput pentru a identifica aceste relații. Când se folosește un algoritm pentru a antrena un model de învățare automată, rezultatul se numeștemodel de regresie.
Acești trei termeni –analiză de regresie,algoritm de regresieșimodel de regresie– sunt adesea folosiți în mod interschimbabil, dar fiecare reprezintă un aspect diferit al procesului de regresie.
Tipuri de regresie în învățarea automată
Modelele de regresie vin sub mai multe forme, fiecare concepută pentru a gestiona relații diferite dintre datele de intrare și rezultatele prezise. În timp ce regresia liniară este cea mai frecvent utilizată și relativ ușor de înțeles, alte modele, cum ar fi regresia polinomială, logistică și Bayesiană, sunt mai potrivite pentru sarcini mai complexe sau specializate. Mai jos sunt câteva dintre principalele tipuri de modele de regresie și când sunt utilizate de obicei.
Regresie simplă și multiplă (liniară).
Regresia liniară, o tehnică populară de regresie, este cunoscută pentru ușurința sa de interpretare, antrenamentul rapid și performanța fiabilă în diverse aplicații. Estimează relația dintre variabilele explicative și cele țintă folosind linii drepte. Regresia liniară simplă implică o variabilă explicativă, în timp ce regresia liniară multiplă implică două sau mai multe. În general, când cineva discută despre analiza regresiei, înseamnă regresie liniară.
Regresie polinomială
Dacă liniile drepte nu reușesc să explice în mod satisfăcător relația dintre variabilele observate și rezultatele așteptate, un model de regresie polinomială ar putea fi o opțiune mai bună. Acest model caută relații continue și complexe și poate identifica modele cel mai bine descrise folosind curbe sau o combinație de curbe și linii drepte.
Regresia logistică
Atunci când relația dintre observații și valorile prezise nu este continuă (sau discretă), regresia logistică este cel mai comun instrument pentru job. Discret în acest context înseamnă situații în care fracțiile sau numerele reale nu sunt la fel de relevante (să zicem, dacă preziceți câți clienți vor intra într-o cafenea, regresia logistică va răspunde cu 4 sau 5 în loc de ceva mai greu de interpretat, cum ar fi 4,35).
Cea mai cunoscută formă de regresie logistică esteregresia binară, care prezice răspunsurile la întrebările binare (adică da/nu); de obicei, regresia logistică este binară. Variațiile mai complexe, cum ar fi regresia multinomială, prezic răspunsuri la întrebările care oferă mai mult de două opțiuni. Modelele logistice, la baza lor, se bazează pe selectarea uneia dintre mai multe funcții pentru a converti intrările continue în unele discrete.
Regresia bayesiană
Tehnicile liniare și alte tehnici de regresie necesită date substanțiale de antrenament pentru a face predicții precise. În schimb, regresia bayesiană este un algoritm statistic avansat care poate face predicții fiabile cu mai puține date, cu condiția ca unele dintre proprietățile statistice ale datelor să fie cunoscute sau să poată fi estimate. De exemplu, prezicerea vânzărilor de produse noi în timpul sezonului de vacanță ar putea fi o provocare pentru regresia liniară din cauza lipsei de date privind vânzările pentru noul produs. O regresie bayesiană poate prezice datele vânzărilor cu o acuratețe mai mare, presupunând că vânzările noului produs urmează aceeași distribuție statistică ca și vânzările altor produse similare. În mod obișnuit, regresiile bayesiene presupun că datele urmează o distribuție statistică Gaussiană, ceea ce duce la utilizarea interschimbabilă a termenilor regresieBayesianășiGaussiană.
Regresie cu efecte mixte
Regresia presupune că există o relație non-aleatorie între datele observate și datele prezise. Uneori, această relație este dificil de definit din cauza interdependențelor complexe în datele observate sau a comportamentului ocazional aleatoriu. Modelele cu efecte mixte sunt modele de regresie care includ mecanisme de gestionare a datelor aleatorii și alte comportamente care sunt dificil de modelat. Aceste modele sunt, de asemenea, denumite interschimbabil ca modele mixte, cu efecte mixte sau cu erori mixte.
Alți algoritmi de regresie
Regresia este foarte bine studiată. Există mulți alți algoritmi de regresie, mai complexi sau specializați, inclusiv cei care utilizează tehnici binomiale, multinomiale și avansate cu efecte mixte, precum și cei care combină mai mulți algoritmi. Mai mulți algoritmi combinați pot fi organizați în ordine secvențială, cum ar fi în mai multe straturi secvențiale, sau rulați în paralel și apoi agregați într-un fel. Un sistem care rulează mai multe modele în paralel este adesea denumit pădure.
Algoritmi utilizați pentru analiza regresiei
Multe tipuri de algoritmi de regresie sunt utilizate în învățarea automată pentru a genera modele de regresie. Unii algoritmi sunt proiectați pentru a construi tipuri specifice de modele (caz în care algoritmul și modelul au adesea același nume). Alții se concentrează pe îmbunătățirea aspectelor modelelor existente, cum ar fi îmbunătățirea acurateței sau eficienței acestora. Vom acoperi mai jos câțiva dintre algoritmii mai des utilizați. Înainte de a face asta, totuși, este important să înțelegem cum sunt evaluate: în general, se bazează pe două proprietăți cheie, varianță și părtinire.
- Variantamăsoară cât de mult fluctuează predicțiile unui model atunci când sunt antrenate pe diferite seturi de date. Un model cu varianță mare se poate potrivi foarte bine cu datele de antrenament, dar are rezultate slabe pe date noi, nevăzute - un fenomen cunoscut sub numele de supraadaptare. În mod ideal, algoritmii de regresie ar trebui să producă modele cu varianță scăzută, ceea ce înseamnă că se generalizează bine la datele noi și nu sunt prea sensibili la schimbările din setul de antrenament.
- Biasse referă la eroarea introdusă prin aproximarea unei probleme din lumea reală, care poate fi prea complexă, cu un model simplificat. Prejudecățile mari pot cauza o adaptare insuficientă, în cazul în care modelul nu reușește să capteze modele importante în date, ceea ce duce la predicții inexacte. În mod ideal, părtinirea ar trebui să fie scăzută, ceea ce indică faptul că modelul surprinde în mod eficient relațiile din date fără a simplifica excesiv. În unele cazuri, părtinirea poate fi atenuată prin îmbunătățirea datelor de antrenament sau prin ajustarea parametrilor algoritmului de regresie.
Regresie simplă și multiplă (liniară).
Regresia liniară simplă analizează relația dintre o singură variabilă explicativă și un rezultat prezis, făcându-l cea mai simplă formă de regresie. Regresia liniară multiplă este mai complicată și găsește relații între două sau mai multe variabile și un rezultat. Amândoi găsesc relații care au o structură liniară, bazate pe ecuații liniare care se potrivesc în general cu acest model:
y =β + β1x + ε
Aiciyeste un rezultat de prezis,xeste o variabilă din care să-l prezică,εeste o eroare de încercat să o minimizeze șiβșiβ1 sunt valori pe care regresia le calculează.
Regresia liniară folosește un proces de învățare supravegheat pentru a construi asocieri între variabilele explicative și rezultatele prezise. Procesul de învățare examinează datele de antrenament în mod repetat, îmbunătățind parametrii pentru ecuațiile liniare subiacente cu fiecare iterație asupra datelor. Cele mai comune metode de evaluare a performanței parametrilor implică calcularea valorilor medii de eroare pentru toate datele disponibile utilizate în testare sau antrenament. Exemple de metode de calcul al erorii includeroarea pătrată medie(media distanțelor pătrate dintre predicții și rezultatele reale),eroarea medie absolutăși metode mai complexe, cum ar fisuma reziduală a pătratelor(erorile totale, mai degrabă decât media).
Regresia polinomială
Regresia polinomială tratează probleme mai complexe decât regresia liniară și necesită rezolvarea sistemelor de ecuații liniare, de obicei cu operații avansate cu matrice. Poate găsi relații în datele care se curbează, nu doar cele care pot fi reprezentate prin linii drepte. Când este aplicat corect, va reduce varianța pentru problemele în care regresia liniară eșuează. De asemenea, este mai dificil de înțeles, implementat și optimizat, deoarece depinde de concepte și operații matematice avansate.
O regresie polinomială va încerca să rezolve ecuații care leagăyși multiplexcu ecuații în formă de polinomi care urmează acest model:
y =β + β1x + β2x2+ … + ε
Algoritmul de regresie polinomială va căuta atât valorileβideale de utilizat, cât și forma polinomului (de câți exponenți ai luixar putea fi necesari pentru a defini relația dintreyși fiecarex?).
Regresie lazo
Regresia lasso (care reprezintă operatorul de contracție și selecție minimă absolută), cunoscută și sub denumirea de regresie de normă lasso,L1șiL1, este o tehnică utilizată pentru a reduce supraadaptarea și pentru a îmbunătăți acuratețea modelului. Funcționează prin aplicarea unei penalități la valorile absolute ale coeficienților modelului, reducând efectiv, sau reducând, unii coeficienți la zero. Acest lucru duce la modele mai simple în care sunt excluse caracteristicile irelevante. Algoritmul lasso ajută la prevenirea supraajustării prin controlul complexității modelului, făcând modelul mai interpretabil fără a sacrifica prea multă precizie.
Lasso este util mai ales atunci când variabilele explicative sunt corelate. De exemplu, în predicția vremii, temperatura și umiditatea pot fi corelate, ceea ce duce la supraadaptare. Lasso reduce efectul unor astfel de corelații, creând un model mai robust.
Regresia crestei
Regresia crestei (cunoscuta si caL2, normaL2sau regularizare Tikhonov) este o alta tehnica de prevenire a supraajustarii, mai ales atunci cand multicoliniaritatea (corelatia intre variabilele explicative) este prezenta. Spre deosebire de lasso, care poate micșora coeficienții la zero, regresia Ridge adaugă o penalizare proporțională cu pătratul coeficienților modelului. Scopul este de a face mici ajustări ale coeficienților fără a elimina complet variabilele.
Exemple de cazuri de utilizare a regresiei
Modelele de regresie sunt utilizate pe scară largă în diverse industrii pentru a face predicții bazate pe date istorice. Prin identificarea tiparelor și a relațiilor dintre variabile, aceste modele pot oferi informații valoroase pentru luarea deciziilor. Mai jos sunt trei exemple binecunoscute de domenii în care se aplică regresia.
Analiza si prognoza vremii
Analiza de regresie poate prezice modele meteorologice, cum ar fi temperatura și precipitațiile așteptate pentru fiecare zi săptămâna viitoare. Adesea, mai mulți algoritmi de regresie diferiți sunt antrenați pe datele meteo istorice, inclusiv umiditatea, viteza vântului, presiunea atmosferică și acoperirea norilor. Măsurătorile orare sau zilnice ale acestor variabile servesc ca caracteristici din care modelul poate învăța, iar algoritmul are sarcina de a prezice schimbările de temperatură în timp. Când mai mulți algoritmi de regresie (un ansamblu) sunt utilizați în paralel pentru a prezice modelele meteorologice, predicțiile lor sunt de obicei combinate printr-o formă de medie, cum ar fi media ponderată.
Prognoza vânzărilor și a veniturilor
Într-un context de afaceri, modelele de regresie sunt frecvent utilizate pentru a estima veniturile și alte valori cheie ale performanței. Un model de regresie multiplă poate lua în considerare variabile care influențează volumul vânzărilor, cum ar fi valorile din campaniile de marketing, feedback-ul clienților și tendințele macroeconomice. Modelul are apoi sarcina de a prezice vânzările și veniturile pentru o perioadă viitoare specificată. Pe măsură ce noi date devin disponibile, modelul poate fi reantrenat sau actualizat pentru a-și rafina predicțiile pe baza celor mai recente observații.
Prezicerea rezultatelor în domeniul sănătății
Modelele de regresie au numeroase aplicații în prezicerea rezultatelor asupra sănătății. De exemplu, modelele bayesiene ar putea fi utilizate pentru a estima ratele de incidență prin învățarea din datele istorice ale pacienților. Aceste modele ajută să răspundă la întrebări precum „Ce se poate întâmpla dacă ajustăm doza unui medicament?” Regresia liniară poate fi folosită pentru a identifica factorii de risc, cum ar fi prezicerea schimbărilor în sănătatea pacientului pe baza ajustărilor stilului de viață. Regresia logistică, folosită în mod obișnuit pentru diagnostic, calculează odds ratio pentru prezența unei boli pe baza istoricului medical al pacientului și a altor variabile relevante.
Beneficiile regresiei
Algoritmii și modelele de regresie, în special regresia liniară, sunt componente de bază ale multor sisteme de învățare automată. Sunt utilizate pe scară largă datorită următoarelor beneficii:
- Ele pot fi rapide.Tehnicile de regresie pot stabili rapid relații între mai multe variabile (funcții) și o valoare țintă, făcându-le utile pentru analiza exploratorie a datelor și accelerând antrenamentul modelelor de învățare automată.
- Sunt versatile. Multe modele de regresie, cum ar fi regresia liniară, polinomială și logistică, sunt bine studiate și pot fi adaptate pentru a rezolva o gamă largă de probleme din lumea reală, de la predicție la sarcini de clasificare.
- Ele pot fi ușor de implementat. Modelele de regresie liniară, de exemplu, pot fi implementate fără a necesita tehnici matematice sau de inginerie complexe, făcându-le accesibile oamenilor de știință de date și inginerilor la diferite niveluri de calificare.
- Sunt ușor de înțeles. Modelele de regresie, în special regresia liniară, oferă rezultate interpretabile în care relațiile dintre variabile și impactul acestora asupra rezultatului prezis sunt adesea clare. Acest lucru le face utile pentru identificarea tendințelor și modelelor în date care pot informa o analiză ulterioară și mai profundă. În unele cazuri, modelele de regresie pot schimba interpretabilitatea pentru o precizie mai mare, în funcție de cazul de utilizare.
Provocări în regresie
În timp ce modelele de regresie oferă multe beneficii, ele vin și cu propriul set de provocări. Adesea, aceste provocări se vor reflecta în performanță redusă sau generalizare, în special atunci când se lucrează cu probleme complexe sau date limitate. Mai jos sunt câteva dintre cele mai frecvente probleme cu care se confruntă analiza de regresie.
- Supraadaptare:Modelele se luptă adesea să echilibreze părtinirea și variația. Dacă un model este prea complex, se poate potrivi foarte bine cu datele istorice (reducerea variației), dar devine părtinitor atunci când este expus la date noi. Acest lucru se datorează adesea faptului că modelul memorează datele de antrenament în loc să învețe o abstractizare generalizată.
- Underfitting:Un model care este prea simplu pentru problema în cauză poate suferi de părtinire mare. Va afișa rate mari de eroare atât pentru datele de antrenament, cât și pentru datele nevăzute, indicând faptul că nu a învățat tiparele de bază. Ajustările excesive pentru a corecta prejudecățile mari pot duce la o adaptare insuficientă, în cazul în care modelul nu reușește să surprindă complexitatea datelor.
- Date complexe de antrenament:Modelele de regresie presupun de obicei că observațiile utilizate pentru antrenament sunt independente. Dacă datele conțin relații complexe sau aleatoriu inerent, modelul poate avea dificultăți să construiască predicții precise și de încredere.
- Date incomplete sau lipsă:algoritmii de regresie supravegheați necesită cantități mari de date pentru a învăța modele și pentru a lua în considerare cazurile de colț. Atunci când se ocupă de date lipsă sau incomplete, modelul poate să nu funcționeze bine, în special atunci când se învață relații complexe care necesită o acoperire extinsă a datelor.
- Selectarea variabilelor predictoare:modelele de regresie se bazează pe oameni pentru a selecta variabilele (caracteristicile) predictorii potrivite. Dacă sunt incluse prea multe variabile irelevante, performanța modelului se poate degrada. În schimb, dacă sunt alese prea puține sau variabile greșite, modelul poate eșua să rezolve problema cu acuratețe sau să facă predicții fiabile.