Ce este regresia logistică în învățarea automată?
Publicat: 2024-10-04Regresia logistică este o metodă de temelie în analiza statistică și învățarea automată (ML). Acest ghid cuprinzător va explica elementele de bază ale regresiei logistice și va discuta diferite tipuri, aplicații din lumea reală și avantajele și dezavantajele utilizării acestei tehnici puternice.
Cuprins
- Ce este regresia logistică?
- Tipuri de regresie logistică
- Regresie logistică vs. liniară
- Cum funcționează regresia logistică
- Aplicații
- Avantaje
- Dezavantaje
Ce este regresia logistică?
Regresia logistică, cunoscută și ca regresie logit sau model logit, este un tip de algoritm de învățare supravegheată utilizat pentru sarcini de clasificare, în special pentru prezicerea probabilității unui rezultat binar (adică două clase posibile). Se bazează pe metodele statistice cu același nume, care estimează probabilitatea ca un anumit eveniment să se producă. De exemplu, regresia logistică poate fi utilizată pentru a prezice probabilitatea ca un e-mail să fie spam sau ca un client să facă o achiziție sau să părăsească un site web.
Modelul evaluează proprietățile relevante ale evenimentului (numite „variabile predictoare” sau „caracteristici”). De exemplu, dacă evenimentul este „a sosit un e-mail”, proprietățile relevante ar putea include adresa IP sursă, adresa de e-mail a expeditorului sau o evaluare a lizibilității conținutului. Modelează relația dintre acești predictori și probabilitatea rezultatului folosind funcția logistică, care are următoarea formă:
f (x) = 1 / ( 1 + e -x )
Această funcție emite o valoare între 0 și 1, reprezentând probabilitatea estimată a evenimentului (s-ar putea spune: „Acest e-mail are 80% probabilitate de a fi spam”).
Regresia logistică este utilizată pe scară largă în ML, în special pentru sarcinile de clasificare binară. Funcția sigmoidă (un tip de funcție logistică) este adesea folosită pentru a converti rezultatul oricărui model de clasificare binar într-o probabilitate. Deși regresia logistică este simplă, ea servește ca tehnică de bază pentru modele mai complexe, cum ar fi rețelele neuronale, în care funcții logistice similare sunt utilizate pentru a modela probabilitățile. Termenulde model logitse referă la modele care utilizează această funcție logit pentru a mapa caracteristicile de intrare la probabilitățile prezise.
Tipuri de regresie logistică
Există trei tipuri principale de regresie logistică: binară, multinomială și ordinală.
Regresie logistică binară
Cunoscută și sub numele de regresie binară, aceasta este forma standard și cea mai comună de regresie logistică. Când termenulde regresie logisticăeste folosit fără calificative, de obicei se referă la acest tip. Numele „binar” vine de la faptul că ia în considerare exact două rezultate; poate fi considerat ca un răspuns la întrebări da sau nu. Regresia binară poate gestiona întrebări mai complicate dacă sunt reîncadrate ca lanțuri de întrebări da sau nu, sau binare.
Exemplu:Imaginați-vă că calculați șansele a trei opțiuni care se exclud reciproc: dacă un client va renunța (adică, nu va mai folosi produsul), se va înscrie pentru o versiune gratuită a unui serviciu sau se va înscrie pentru versiunea premium plătită. Regresia binară înlănțuită ar putea rezolva această problemă, răspunzând la următorul lanț de întrebări:
- Va renunța clientul (da sau nu)?
- Dacă nu, clientul se va înscrie pentru serviciul gratuit (da sau nu)?
- Dacă nu, clientul se va înscrie pentru serviciul premium plătit (da sau nu)?
Regresie logistică multinomială
Cunoscută și sub numele de regresie multinomială, această formă de regresie logistică este o extensie a regresiei binare care poate răspunde la întrebări cu mai mult de două rezultate potențiale. Evită necesitatea înlănțuirii întrebărilor pentru a rezolva probleme mai complexe. Regresia multinomială presupune că cotele care sunt calculate nu au nicio interdependență sau ordine față de ele și că setul de opțiuni luate în considerare acoperă toate rezultatele posibile.
Exemplu:regresia multinomială funcționează bine atunci când prezice ce culoare ar putea dori un client pentru o mașină pe care o cumpără dintr-o listă de culori disponibile. Cu toate acestea, nu funcționează bine pentru calcularea cotelor acolo unde comanda contează, cum ar fi evaluarea culorilor verde, galben și roșu ca etichete de severitate pentru o problemă de asistență pentru clienți, unde problema începe întotdeauna ca verde și poate fi escaladată la galben și apoi roșu (cu galben mereu după verde și roșu după galben mereu).
Regresia logistică ordinală
Cunoscută și ca model de cote proporționale pentru regresie, această formă specializată de regresie logistică este concepută pentru valori ordinale - situații în care ordinea relativă între rezultate contează. Regresia logistică ordinală este utilizată atunci când rezultatele au o ordine naturală, dar distanțele dintre categorii nu sunt cunoscute.
Exemplu:poate fi folosit pentru a calcula șansele în care un oaspete al hotelului își va clasifica șederea pe o scară din cinci părți: foarte rău, rău, neutru, bun și foarte bun. Ordinea relativă este importantă - rău este întotdeauna mai rău decât neutru și este important să rețineți în ce direcție se vor muta recenziile pe scară. Atunci când ordinea contează, regresia ordinală poate cuantifica relațiile dintre valorile ale căror cote sunt calculate (de exemplu, s-ar putea detecta că răul tinde să apară la jumătate mai des decât neutru).
Regresia logistică vs. regresia liniară
Deși diferite, regresia logistică și regresia liniară apar adesea în contexte similare, deoarece fac parte dintr-un set de instrumente matematice mai larg înrudit. Regresia logistică calculează în general probabilitățile pentru rezultate discrete, în timp ce regresia liniară calculează valorile așteptate pentru rezultatele continue.
De exemplu, dacă cineva ar încerca să prezică cea mai probabilă temperatură pentru o zi în viitor, un model de regresie liniară ar fi un instrument bun pentru muncă. Modelele de regresie logistică, în schimb, încearcă să calculeze sau să prezică șansele pentru două sau mai multe opțiuni dintr-o listă fixă de opțiuni. În loc să prezică o anumită temperatură, un model de regresie logistică ar putea oferi șansele ca o anumită zi să se încadreze în intervale de temperatură caldă, confortabilă sau rece.
Deoarece sunt construite pentru a aborda cazuri de utilizare separate, cele două modele fac ipoteze diferite despre proprietățile statistice ale valorilor pe care le prezic și sunt implementate cu instrumente statistice diferite. Regresia logistică presupune de obicei o distribuție statistică care se aplică valorilor discrete, cum ar fi o distribuție Bernoulli, în timp ce regresia liniară ar putea folosi o distribuție Gaussiană. Regresia logistică necesită adesea seturi de date mai mari pentru a funcționa eficient, în timp ce regresia liniară este de obicei mai sensibilă la valorile aberante influente. În plus, regresia logistică face ipoteze despre structura cotelor pe care le calculează, în timp ce regresia liniară face ipoteze despre modul în care erorile sunt distribuite în setul de date de antrenament.
Diferențele dintre aceste modele le fac să aibă performanțe mai bune pentru cazurile lor ideale de utilizare. Regresia logistică va fi mai precisă pentru prezicerea valorilor categorice, iar regresia liniară va fi mai precisă atunci când prezice valori continue. Cele două tehnici sunt adesea confundate una cu cealaltă, deoarece rezultatele lor pot fi reutilizate cu calcule matematice simple. Rezultatul unui model de regresie logistică poate fi aplicat, după o transformare, la aceleași tipuri de probleme ca rezultatul unui model liniar, economisind costul antrenării a două modele separate. Dar nu va funcționa la fel de bine; același lucru este valabil și în sens invers.
Cum funcționează regresia logistică?
Ca un fel de algoritm de învățare supravegheată, regresia logistică depinde de învățarea din seturi de date bine adnotate. Seturile de date conțin de obicei liste de reprezentări de caracteristici care se potrivesc cu rezultatul așteptat al modelului pentru fiecare.
Pentru a obține o înțelegere mai clară a regresiei logistice, este esențial să înțelegeți mai întâi următoarea terminologie cheie:
- Variabile de predicție:proprietăți sau caracteristici luate în considerare de modelul logistic la calcularea cotelor pentru rezultate. De exemplu, variabilele de predicție pentru estimarea probabilității unui client de a cumpăra un produs ar putea include date demografice și istoricul de navigare.
- Reprezentare caracteristică:o instanță specifică a variabilelor predictoare. De exemplu, dacă variabilele de predicție sunt „codul poștal”, „stat” și „grupa de venit”, o reprezentare a caracteristicilor poate fi „90210”, „California” și „75K+/an”.
- Funcția de legătură:Funcția matematică care se află la baza unui model de regresie care conectează variabilele predictoare cu șansele unui anumit rezultat. Funcția va urma modelul:
θ = b(μ)
unde θeste cota de prezis pe categorie,beste o funcție specifică (de obicei o funcție în formădeS, numită sigmoid), iarμreprezintă valoarea prezisă (dintr-un interval continuu de valori).
- Funcția logistică:Funcția de legătură specifică utilizată în regresia logistică, definită ca
σ ( x ) =1 / ( 1 +e-x)
Normalizează rezultatul la o probabilitate între 0 și 1, transformând modificările proporționale, bazate pe multiplicare, ale variabilelor predictoare în modificări coerente și aditive ale cotelor.
- Funcția logit:inversul funcției logistice, conversia valorilor de probabilitate în log-cote, ceea ce ajută la explicarea modului în care variabilele de predicție se raportează la șansele unui rezultat. Ajută la explicarea modului în care variabilele predictoare sunt legate de șansele unui rezultat. Este definit ca:
logit p =σ ( p ) -1= ln ( p / ( 1 – p ) )
Pentru o cotă dată p, efectuează inversul funcției logistice.
- Pierderea logică:Cunoscută și ca pierdere de entropie încrucișată sau pierdere logistică, măsoară diferența dintre probabilitățile prezise și rezultatele reale în modelele de clasificare. Pentru clasificarea binară, este adesea numită „entropie încrucișată binară”.
La baza unui proces de regresie logistică se află decizia ce funcție de legătură să folosească. Pentru o regresie logistică binară, aceasta va fi întotdeauna funcția logistică. Regresiile mai complexe vor folosi alte tipuri de funcții sigmoide; una dintre cele mai populare funcții sigmoide este cunoscută sub numele de softmax și este foarte frecvent utilizată în modelele ML și pentru cazurile de utilizare a regresiei multinomiale.
În timpul antrenamentului, sistemul va depinde și de o funcție de pierdere, care calculează cât de bine funcționează regresia sau potrivirea acesteia. Obiectivul sistemelor poate fi considerat ca reducerea distanței dintre un rezultat prezis sau o șansă și ceea ce se întâmplă în lumea reală (uneori această distanță este numită „surpriză”). Pentru regresia logistică, funcția de pierdere este o variație a funcției foarte populare de pierdere a jurnalului.
O varietate de algoritmi standard de antrenament ML pot fi utilizați pentru a antrena modelul de regresie logistică, inclusiv coborârea gradientului, estimarea probabilității maxime și coborârea gradientului stocastic.
Aplicații ale regresiei logistice în ML
Modelele ML de regresie logistică sunt utilizate de obicei pentru sarcini de clasificare sau pentru a prezice clase din informații parțiale. Cazurile de utilizare acoperă multe domenii, inclusiv financiar, asistență medicală, epidemiologie și marketing. Două dintre cele mai cunoscute aplicații sunt pentru detectarea spam-ului prin e-mail și diagnosticarea medicală.
Detectarea spam-ului prin e-mail
Regresia logistică poate fi un instrument eficient pentru clasificarea comunicării, cum ar fi identificarea e-mailurilor ca spam sau nu, deși metode mai avansate sunt adesea folosite în cazuri complexe. Adresa expeditorului, destinația, conținutul textului mesajului, adresa IP sursă și așa mai departe - toate proprietățile unui e-mail - pot fi marcate ca variabile predictoare și luate în considerare în șansele ca un anumit e-mail să fie spam. Instrumentele de filtrare a spamului prin e-mail antrenează și actualizează rapid modelele logistice binare cu privire la noile mesaje de e-mail și detectează și reacționează rapid la noile strategii de spam.
Versiunile mai avansate ale filtrelor de spam preprocesează e-mailurile pentru a le face mai ușor de identificat ca spam. De exemplu, un script ar putea adăuga un procent de e-mailuri care sunt marcate ca spam pentru adresa IP a expeditorului într-un e-mail, iar regresia poate lua în considerare aceste informații.
Diagnosticul medical
Modelele de regresie logistică sunt utilizate în mod obișnuit pentru a ajuta la diagnosticarea afecțiunilor medicale, cum ar fi diabetul și cancerul de sân. Ei învață și se bazează pe analizele efectuate de medici și cercetători medicali.
Pentru un diagnostic cu imagini grele, cum ar fi detectarea cancerului, cercetătorii medicali și profesioniștii construiesc seturi de date din diferite teste, imagistică și scanări. Aceste date sunt apoi procesate și transformate în liste de evaluări textuale. O imagine poate fi analizată pentru detalii precum densitatea pixelilor, numărul și raza medie a diferitelor grupuri de pixeli și așa mai departe. Aceste măsurători sunt apoi incluse într-o listă de variabile predictoare care includ rezultatele altor teste și evaluări. Sistemele de regresie logistică învață de la ele și prezic dacă un pacient este probabil să fie diagnosticat cu cancer.
Pe lângă predicția diagnosticului medical cu acuratețe ridicată, sistemele de regresie logistică pot indica și rezultatele testelor care sunt cele mai relevante pentru evaluările sale. Aceste informații pot ajuta la prioritizarea testelor pentru un pacient nou, accelerând procesul de diagnosticare.
Avantajele regresiei logistice în ML
Regresia logistică este adesea favorizată pentru simplitatea și interpretabilitatea sa, în special în cazurile în care rezultatele trebuie produse relativ rapid și în care informațiile despre date sunt importante.
Rezultate rapide, practice
Din punct de vedere practic, regresia logistică este ușor de implementat și ușor de interpretat. Funcționează fiabil și oferă informații valoroase chiar și atunci când datele nu se aliniază perfect cu ipotezele sau așteptările. Modelele matematice subiacente sunt eficiente și relativ simplu de optimizat, făcând regresia logistică o alegere robustă și practică pentru multe aplicații.
Informații utile asupra proprietăților datelor
Teoretic, regresia logistică excelează în sarcinile de clasificare binară și este în general foarte rapidă la clasificarea datelor noi. Poate ajuta la identificarea variabilelor asociate cu rezultatul de interes, oferind o perspectivă asupra locurilor în care ar trebui să se concentreze analiza ulterioară a datelor. Regresia logistică oferă adesea o precizie ridicată în cazuri simple de utilizare; chiar și atunci când acuratețea scade pentru anumite seturi de date, oferă totuși perspective semnificative asupra importanței relative a variabilelor și direcției impactului lor (pozitiv sau negativ).
Dezavantajele regresiei logistice în ML
Regresia logistică face ipoteze despre datele pe care le analizează, ajutând algoritmii de bază să fie mai rapidi și mai ușor de înțeles cu prețul limitării utilității acestora. Ele nu pot fi folosite pentru a modela rezultate continue sau relații neliniare, pot eșua dacă relația cu modelul este prea complexă și se vor supraadapta dacă analizează prea multe date.
Limitat la rezultate discrete
Regresia logistică poate fi folosită doar pentru a prezice rezultate discrete. Dacă problema necesită predicții continue, tehnici precum regresia liniară sunt mai potrivite.
Să presupunem relații liniare
Modelul presupune o relație liniară între variabilele predictoare și cotele estimate, ceea ce este rareori cazul în datele din lumea reală. Acest lucru necesită adesea preprocesare și ajustări suplimentare pentru a îmbunătăți acuratețea. În plus, regresia logistică presupune că deciziile de clasificare pot fi luate folosind funcții liniare simple, care ar putea să nu reflecte complexitatea scenariilor din lumea reală. Ca rezultat, regresia logistică este adesea o aproximare care poate necesita optimizare și actualizări regulate pentru a rămâne relevantă.
Poate nu reușește să modeleze relații complexe
Dacă un set de variabile predictoare nu are o relație liniară cu cotele calculate sau dacă variabilele predictoare nu sunt suficient de independente unele de altele, regresia logistică poate să nu funcționeze cu totul sau poate detecta doar un subset de relații liniare atunci când sistemul are un amestec atât de proprietăți liniare, cât și de alte proprietăți mai complexe.
Supraadaptați seturi mari de date
Pentru seturi de date mai mari și mai complexe, regresia logistică este predispusă la supraadaptare, în cazul în care modelul devine prea strâns aliniat cu datele specifice pe care a fost antrenat, captând zgomot și detalii minore, mai degrabă decât modele generale. Acest lucru poate duce la performanțe slabe pe date noi, nevăzute. Tehnici precum regularizarea pot ajuta la atenuarea supraadaptării, dar este necesară o atenție atentă atunci când se aplică regresia logistică datelor complexe.