Che cos'è la regressione logistica nell'apprendimento automatico?

Pubblicato: 2024-10-04

La regressione logistica è un metodo fondamentale nell'analisi statistica e nell'apprendimento automatico (ML). Questa guida completa spiegherà le basi della regressione logistica e discuterà di vari tipi, applicazioni nel mondo reale e vantaggi e svantaggi dell'utilizzo di questa potente tecnica.

Sommario

  • Cos'è la regressione logistica?
  • Tipi di regressione logistica
  • Regressione logistica e lineare
  • Come funziona la regressione logistica
  • Applicazioni
  • Vantaggi
  • Svantaggi

Cos'è la regressione logistica?

La regressione logistica, nota anche come regressione logit o modello logit, è un tipo di algoritmo di apprendimento supervisionato utilizzato per attività di classificazione, in particolare per prevedere la probabilità di un risultato binario (ovvero due possibili classi). Si basa sugli omonimi metodi statistici che stimano la probabilità che si verifichi un determinato evento. Ad esempio, la regressione logistica può essere utilizzata per prevedere la probabilità che un'e-mail sia spam o che un cliente effettui un acquisto o abbandoni un sito Web.

Il modello valuta le proprietà rilevanti dell'evento (chiamate “variabili predittive” o “caratteristiche”). Ad esempio, se l'evento è "è arrivata un'e-mail", le proprietà pertinenti potrebbero includere l'indirizzo IP di origine, l'indirizzo e-mail del mittente o una valutazione della leggibilità del contenuto. Modella la relazione tra questi predittori e la probabilità del risultato utilizzando la funzione logistica, che ha la seguente forma:

f (x) = 1 / ( 1 + e -x )

Questa funzione restituisce un valore compreso tra 0 e 1, che rappresenta la probabilità stimata dell'evento (potrebbe dire: "Questa email ha l'80% di probabilità di essere spam").

La regressione logistica è ampiamente utilizzata in ML, in particolare per attività di classificazione binaria. La funzione sigmoide (un tipo di funzione logistica) viene spesso utilizzata per convertire l'output di qualsiasi modello di classificazione binaria in una probabilità. Sebbene la regressione logistica sia semplice, funge da tecnica fondamentale per modelli più complessi, come le reti neurali, in cui funzioni logistiche simili vengono utilizzate per modellare le probabilità. Il terminemodello logitsi riferisce a modelli che utilizzano questa funzione logit per mappare le caratteristiche di input alle probabilità previste.

Lavora in modo più intelligente con Grammarly
Il partner di scrittura basato sull'intelligenza artificiale per chiunque abbia del lavoro da svolgere

Tipi di regressione logistica

Esistono tre tipi principali di regressione logistica: binaria, multinomiale e ordinale.

Regressione logistica binaria

Conosciuta anche come regressione binaria, questa è la forma standard e più comune di regressione logistica. Quando il termineregressione logisticaviene utilizzato senza qualificatori, di solito si riferisce a questo tipo. Il nome “binario” deriva dal fatto che considera esattamente due risultati; può essere pensato come una risposta a domande sì o no. La regressione binaria può gestire domande più complicate se vengono riformulate come catene di domande sì o no o binarie.

Esempio:immagina di calcolare le probabilità di tre opzioni reciprocamente esclusive: se un cliente abbandonerà (cioè smetterà di utilizzare il prodotto), si iscriverà a una versione gratuita di un servizio o si iscriverà a una versione premium a pagamento. La regressione binaria concatenata potrebbe risolvere questo problema rispondendo alla seguente catena di domande:

  • Il cliente rinuncerà (sì o no)?
  • In caso negativo, il cliente si registrerà al servizio gratuito (sì o no)?
  • In caso contrario, il cliente si registrerà al servizio premium a pagamento (sì o no)?

Regressione logistica multinomiale

Conosciuta anche come regressione multinomiale, questa forma di regressione logistica è un'estensione della regressione binaria che può rispondere a domande con più di due risultati potenziali. Evita la necessità di concatenare domande per risolvere problemi più complessi. La regressione multinomiale presuppone che le quote calcolate non abbiano alcuna interdipendenza o ordine e che l'insieme di opzioni considerate copra tutti i possibili risultati.

Esempio:la regressione multinomiale funziona bene quando si prevede quale colore un cliente probabilmente vorrà per un'auto che sta acquistando da un elenco di colori disponibili. Tuttavia, non funziona bene per calcolare le probabilità in cui l'ordine conta, come valutare i colori verde, giallo e rosso come tag di gravità per un problema di assistenza clienti, dove il problema inizia sempre come verde e potrebbe passare al giallo e poi rosso (con il giallo che segue sempre il verde e il rosso che segue sempre il giallo).

Regressione logistica ordinale

Conosciuto anche come modello di regressione a quote proporzionali, questa forma specializzata di regressione logistica è progettata per valori ordinali, ovvero situazioni in cui l'ordine relativo tra i risultati è importante. La regressione logistica ordinale viene utilizzata quando i risultati hanno un ordine naturale ma le distanze tra le categorie non sono note.

Esempio:potrebbe essere utilizzato per calcolare le probabilità di dove un ospite dell'hotel possa classificare il proprio soggiorno su una scala in cinque parti: molto cattivo, cattivo, neutro, buono e molto buono. L'ordine relativo è importante: cattivo è sempre peggiore di neutrale, ed è importante notare in quale direzione si muoveranno le revisioni sulla scala. Quando l'ordine è importante, la regressione ordinale può quantificare le relazioni tra i valori di cui vengono calcolate le probabilità (ad esempio, potrebbe rilevare che il valore negativo tende a comparire la metà delle volte rispetto a quello neutro).

Regressione logistica e regressione lineare

Sebbene diverse, la regressione logistica e la regressione lineare spesso compaiono in contesti simili, poiché fanno parte di un set di strumenti matematici più ampio e correlato. La regressione logistica generalmente calcola le probabilità per risultati discreti, mentre la regressione lineare calcola i valori attesi per risultati continui.

Ad esempio, se si dovesse provare a prevedere la temperatura più probabile per un giorno futuro, un modello di regressione lineare sarebbe un buon strumento per questo lavoro. I modelli di regressione logistica, al contrario, tentano di calcolare o prevedere le probabilità per due o più opzioni da un elenco fisso di scelte. Invece di prevedere una temperatura specifica, un modello di regressione logistica potrebbe fornire le probabilità che un particolare giorno rientri in intervalli di temperatura caldi, confortevoli o freddi.

Poiché sono progettati per affrontare casi d'uso separati, i due modelli formulano ipotesi diverse sulle proprietà statistiche dei valori che prevedono e vengono implementati con strumenti statistici diversi. La regressione logistica presuppone in genere una distribuzione statistica che si applica a valori discreti, come una distribuzione di Bernoulli, mentre la regressione lineare potrebbe utilizzare una distribuzione gaussiana. La regressione logistica spesso richiede set di dati più grandi per funzionare in modo efficace, mentre la regressione lineare è solitamente più sensibile ai valori anomali influenti. Inoltre, la regressione logistica formula ipotesi sulla struttura delle quote che sta calcolando, mentre la regressione lineare formula ipotesi su come vengono distribuiti gli errori nel set di dati di addestramento.

Le differenze tra questi modelli fanno sì che funzionino meglio per i loro casi d'uso ideali specifici. La regressione logistica sarà più accurata per la previsione di valori categoriali, mentre la regressione lineare sarà più accurata per la previsione di valori continui. Le due tecniche vengono spesso confuse tra loro, poiché i loro risultati possono essere riproposti con semplici calcoli matematici. L'output di un modello di regressione logistica può essere applicato, dopo una trasformazione, agli stessi tipi di problemi dell'output di un modello lineare, risparmiando sul costo di addestramento di due modelli separati. Ma non funzionerà altrettanto bene; lo stesso vale al contrario.

Come funziona la regressione logistica?

Essendo una sorta di algoritmo di apprendimento supervisionato, la regressione logistica dipende dall'apprendimento da set di dati ben annotati. I set di dati solitamente contengono elenchi di rappresentazioni di caratteristiche abbinate all'output del modello previsto per ciascuna.

Per ottenere una comprensione più chiara della regressione logistica, è essenziale innanzitutto comprendere la seguente terminologia chiave:

  • Variabili predittive:proprietà o caratteristiche considerate dal modello logistico nel calcolo delle probabilità per i risultati. Ad esempio, le variabili predittive per stimare la probabilità di un cliente di acquistare un prodotto potrebbero includere dati demografici e cronologia di navigazione.
  • Rappresentazione delle funzionalità:un'istanza specifica di variabili predittive. Ad esempio, se le variabili predittive sono "codice postale", "stato" e "fascia di reddito", una rappresentazione della caratteristica potrebbe essere "90210", "California" e "75.000+/anno".
  • Funzione di collegamento:la funzione matematica al centro di un modello di regressione che collega le variabili predittive alle probabilità di un particolare risultato. La funzione seguirà lo schema:

θ = b(μ)

dove θè la probabilità da prevedere per categoria,bè una funzione specifica (solitamente una funzione a formadiS, chiamata sigmoide) eμrappresenta il valore previsto (da un intervallo continuo di valori).

  • Funzione logistica:la funzione di collegamento specifica utilizzata nella regressione logistica, definita come

σ ( x ) =1 / ( 1 +e-x)

Normalizza l'output su una probabilità compresa tra 0 e 1, convertendo cambiamenti proporzionali e basati sulla moltiplicazione nelle variabili predittive in cambiamenti additivi e coerenti nelle quote.

  • Funzione logit:l'inverso della funzione logistica, che converte i valori di probabilità in probabilità logaritmiche, che aiuta a spiegare come le variabili predittive si riferiscono alle probabilità di un risultato. Aiuta a spiegare come le variabili predittive si riferiscono alle probabilità di un risultato. È definito come:

logit p =σ ( p ) -1= ln ( p / ( 1 – p ) )

Per una data quota p, esegue l'inverso della funzione logistica.

  • Perdita logaritmica:nota anche come perdita di entropia incrociata o perdita logistica, misura la differenza tra le probabilità previste e i risultati effettivi nei modelli di classificazione. Per la classificazione binaria, viene spesso chiamata “entropia incrociata binaria”.

Al centro di un processo di regressione logistica c'è la decisione su quale funzione di collegamento utilizzare. Per una regressione logistica binaria, quella sarà sempre la funzione logistica. Regressioni più complesse utilizzeranno altri tipi di funzioni sigmoidali; una delle funzioni sigmoidali più popolari è nota come softmax ed è utilizzata molto frequentemente nei modelli ML e per casi d'uso di regressione multinomiale.

Durante l'addestramento, il sistema dipenderà anche da una funzione di perdita, che calcola il rendimento della regressione, o il suo adattamento. L'obiettivo del sistema può essere pensato come la riduzione della distanza tra un risultato previsto o delle probabilità e ciò che accade nel mondo reale (a volte questa distanza è chiamata “la sorpresa”). Per la regressione logistica, la funzione di perdita è una variazione della molto popolare funzione di perdita logaritmica.

È possibile utilizzare diversi algoritmi di training ML standard per addestrare il modello di regressione logistica, tra cui la discesa del gradiente, la stima della massima verosimiglianza e la discesa del gradiente stocastica.

Applicazioni della regressione logistica in ML

I modelli ML di regressione logistica vengono in genere utilizzati per attività di classificazione o per prevedere classi da informazioni parziali. I casi d'uso abbracciano molti ambiti, tra cui finanziario, sanitario, epidemiologico e marketing. Due delle applicazioni più conosciute riguardano il rilevamento dello spam via e-mail e la diagnosi medica.

Rilevamento dello spam tramite posta elettronica

La regressione logistica può essere uno strumento efficace per classificare la comunicazione, ad esempio identificare le e-mail come spam o meno, sebbene nei casi complessi vengano spesso utilizzati metodi più avanzati. L'indirizzo del mittente, la destinazione, il contenuto del testo del messaggio, l'indirizzo IP di origine e così via, tutte le proprietà di un'e-mail, possono essere contrassegnate come variabili predittrici e prese in considerazione nelle probabilità che una determinata e-mail sia spam. Gli strumenti di filtro antispam delle e-mail addestrano e aggiornano rapidamente i modelli logistici binari sui nuovi messaggi e-mail e rilevano e reagiscono rapidamente alle nuove strategie di spam.

Versioni più avanzate dei filtri antispam preelaborano le email per renderle più facili da identificare come spam. Ad esempio, uno script potrebbe aggiungere una percentuale di messaggi di posta elettronica contrassegnati come spam per l'indirizzo IP del mittente in un messaggio di posta elettronica e la regressione può tenere conto di tali informazioni.

Diagnosi medica

I modelli di regressione logistica sono comunemente utilizzati per assistere nella diagnosi di condizioni mediche come il diabete e il cancro al seno. Imparano e si basano sulle analisi eseguite da medici e ricercatori medici.

Per una diagnosi ricca di immagini, come il rilevamento del cancro, ricercatori e professionisti medici creano set di dati da vari test, imaging e scansioni. Questi dati vengono poi elaborati e trasformati in elenchi di valutazioni testuali. Un'immagine potrebbe essere analizzata per dettagli come la densità dei pixel, il numero e il raggio medio dei vari gruppi di pixel e così via. Queste misurazioni vengono quindi incluse in un elenco di variabili predittive che includono i risultati di altri test e valutazioni. I sistemi di regressione logistica imparano da essi e prevedono se è probabile che a un paziente venga diagnosticato un cancro.

Oltre a prevedere la diagnosi medica con elevata precisione, i sistemi di regressione logistica possono anche indicare quali risultati dei test sono più rilevanti per le sue valutazioni. Queste informazioni possono aiutare a stabilire la priorità dei test per un nuovo paziente, accelerando il processo di diagnosi.

Vantaggi della regressione logistica in ML

La regressione logistica è spesso preferita per la sua semplicità e interpretabilità, in particolare nei casi in cui i risultati devono essere prodotti in tempi relativamente brevi e dove le informazioni dettagliate sui dati sono importanti.

Risultati rapidi e pratici

Da un punto di vista pratico, la regressione logistica è semplice da implementare e facile da interpretare. Funziona in modo affidabile e fornisce informazioni preziose anche quando i dati non sono perfettamente in linea con ipotesi o aspettative. I modelli matematici sottostanti sono efficienti e relativamente semplici da ottimizzare, rendendo la regressione logistica una scelta solida e pratica per molte applicazioni.

Approfondimenti utili sulle proprietà dei dati

Teoricamente, la regressione logistica eccelle nelle attività di classificazione binaria ed è generalmente molto veloce nella classificazione di nuovi dati. Può aiutare a identificare quali variabili sono associate al risultato di interesse, fornendo informazioni su dove dovrebbe concentrarsi un'ulteriore analisi dei dati. La regressione logistica spesso offre un'elevata precisione in casi d'uso semplici; anche quando l’accuratezza diminuisce per determinati set di dati, fornisce comunque informazioni significative sull’importanza relativa delle variabili e sulla direzione del loro impatto (positivo o negativo).

Svantaggi della regressione logistica in ML

La regressione logistica formula ipotesi sui dati che analizza, aiutando gli algoritmi sottostanti a essere più veloci e più facili da comprendere, a costo di limitarne l'utilità. Non possono essere utilizzati per modellare risultati continui o relazioni non lineari, possono fallire se la relazione con il modello è troppo complessa e si adatteranno eccessivamente se analizzano troppi dati.

Limitato a risultati discreti

La regressione logistica può essere utilizzata solo per prevedere risultati discreti. Se il problema richiede previsioni continue, tecniche come la regressione lineare sono più adatte.

Assumere relazioni lineari

Il modello presuppone una relazione lineare tra le variabili predittive e le probabilità stimate, cosa che raramente accade nei dati del mondo reale. Ciò spesso richiede ulteriore preelaborazione e aggiustamenti per migliorare la precisione. Inoltre, la regressione logistica presuppone che le decisioni di classificazione possano essere prese utilizzando semplici funzioni lineari, che potrebbero non riflettere la complessità degli scenari del mondo reale. Di conseguenza, la regressione logistica è spesso un'approssimazione che potrebbe richiedere ottimizzazioni e aggiornamenti regolari per rimanere rilevante.

Potrebbe non riuscire a modellare relazioni complesse

Se un insieme di variabili predittive non ha una relazione lineare con le quote calcolate o se le variabili predittive non sono sufficientemente indipendenti l'una dall'altra, la regressione logistica potrebbe non funzionare del tutto o potrebbe rilevare solo un sottoinsieme di relazioni lineari quando il sistema ha un mix di proprietà lineari e altre più complesse.

Sovradimensionare set di dati di grandi dimensioni

Per set di dati più grandi e complessi, la regressione logistica tende a un adattamento eccessivo, in cui il modello si allinea troppo strettamente ai dati specifici su cui è stato addestrato, acquisendo rumore e dettagli minori anziché modelli generali. Ciò può comportare prestazioni scadenti su dati nuovi e invisibili. Tecniche come la regolarizzazione possono aiutare a mitigare l'overfitting, ma è necessaria un'attenta considerazione quando si applica la regressione logistica a dati complessi.