Regressione nell'apprendimento automatico: cos'è e come funziona

Pubblicato: 2024-11-13

La regressione nell'apprendimento automatico (ML) è un concetto fondamentale utilizzato per prevedere valori continui in base alle funzionalità di input. Che si tratti di stimare i prezzi delle case o di prevedere le vendite, i modelli di regressione stabiliscono relazioni tra le variabili. In questo articolo analizzeremo i diversi tipi di modelli di regressione, gli algoritmi dietro di essi e quando ciascun metodo è applicato al meglio. Scoprirai anche come funziona la regressione, i suoi casi d'uso pratici e i vantaggi e le sfide associati all'utilizzo della regressione nell'apprendimento automatico.

Sommario

  • Cos'è la regressione?
  • Tipi di modelli di regressione
  • Algoritmi utilizzati per la regressione
  • Esempi di regressione
  • Benefici della regressione
  • Sfide di regressione

Cos'è la regressione nell'apprendimento automatico?

La regressione è un tipo di apprendimento supervisionato utilizzato per prevedere valori continui in base ai dati di input. Stima le relazioni tra le variabili per prevedere e spiegare varie cose, come i prezzi delle case, le tendenze del mercato azionario o le condizioni meteorologiche. I modelli di regressione mappano le caratteristiche di input su una variabile target continua, consentendo previsioni numeriche precise.

Ad esempio, utilizzando i dati meteorologici della settimana scorsa, un modello di regressione può prevedere le precipitazioni di domani. I valori previsti sono continui, il che significa che possono cadere ovunque su una scala numerica, come la temperatura misurata fino ai punti decimali o i ricavi delle vendite previsti per i prossimi mesi.

Lavora in modo più intelligente con Grammarly
Il partner di scrittura basato sull'intelligenza artificiale per chiunque abbia del lavoro da svolgere

Regressione e classificazione: qual è la differenza?

Mentre la regressione prevede risultati continui, la classificazione si concentra sulla previsione di categorie o classi discrete. Ad esempio, un modello di regressione potrebbe prevedere l’esatta quantità di pioggia domani, mentre un modello di classificazione potrebbe prevedere se pioverà davvero (sì o no). La differenza fondamentale è che la regressione si occupa di valori numerici, mentre la classificazione assegna i dati a categorie predefinite.

In alcuni casi è possibile adattare l'output di un modello di regressione a un compito di classificazione e viceversa, ma i due approcci sono generalmente adatti a diversi tipi di problemi.

Regressione: algoritmo, modello o analisi?

La regressione viene talvolta definita analisi di regressione, un termine statistico ampio utilizzato per descrivere la ricerca di relazioni continue tra osservazioni e risultati. Un algoritmo di regressione è uno strumento matematico specifico progettato per identificare queste relazioni. Quando un algoritmo viene utilizzato per addestrare un modello di machine learning, il risultato viene chiamatomodello di regressione.

Questi tre termini –analisi di regressione,algoritmo di regressioneemodello di regressione– sono spesso usati in modo intercambiabile, ma rappresentano ciascuno un aspetto diverso del processo di regressione.

Tipi di regressione nell'apprendimento automatico

I modelli di regressione sono disponibili in molte forme, ciascuna progettata per gestire diverse relazioni tra dati di input e risultati previsti. Sebbene la regressione lineare sia quella utilizzata più frequentemente e relativamente facile da comprendere, altri modelli, come la regressione polinomiale, logistica e bayesiana, sono più adatti per attività più complesse o specializzate. Di seguito sono riportati alcuni dei principali tipi di modelli di regressione e quando vengono generalmente utilizzati.

Regressione semplice e multipla (lineare).

La regressione lineare, una tecnica di regressione popolare, è nota per la sua facilità di interpretazione, formazione rapida e prestazioni affidabili in varie applicazioni. Stima la relazione tra variabili esplicative e variabili target utilizzando linee rette. La regressione lineare semplice coinvolge una variabile esplicativa, mentre la regressione lineare multipla ne coinvolge due o più. Generalmente, quando qualcuno parla di analisi di regressione, intende la regressione lineare.

Regressione polinomiale

Se le linee rette non riescono a spiegare in modo soddisfacente la relazione tra le variabili osservate e i risultati attesi, un modello di regressione polinomiale potrebbe essere un’opzione migliore. Questo modello cerca relazioni continue e complesse e può identificare modelli meglio descritti utilizzando curve o una combinazione di curve e linee rette.

Regressione logistica

Quando la relazione tra le osservazioni e i valori previsti non è continua (o discreta), la regressione logistica è lo strumento più comune per il lavoro. Discreto in questo contesto significa situazioni in cui le frazioni o i numeri reali non sono così rilevanti (ad esempio, se si prevede quanti clienti entreranno in un bar, la regressione logistica risponderà 4 o 5 invece di qualcosa di più difficile da interpretare, come 4,35).

La forma più conosciuta di regressione logistica èla regressione binaria, che prevede le risposte a domande binarie (cioè sì/no); tipicamente, la regressione logistica è binaria. Variazioni più complesse, come la regressione multinomiale, prevedono le risposte a domande che offrono più di due scelte. I modelli logistici, nella loro essenza, si basano sulla selezione di una delle numerose funzioni per convertire gli input continui in input discreti.

Regressione bayesiana

Le tecniche di regressione lineare e di altro tipo richiedono dati di addestramento sostanziali per effettuare previsioni accurate. Al contrario, la regressione bayesiana è un algoritmo statistico avanzato che può effettuare previsioni affidabili con meno dati, a condizione che alcune proprietà statistiche dei dati siano note o possano essere stimate. Ad esempio, prevedere le vendite di nuovi prodotti durante le festività natalizie potrebbe risultare difficile per la regressione lineare a causa della mancanza di dati sulle vendite del nuovo prodotto. Una regressione bayesiana può prevedere i dati di vendita con maggiore precisione presupponendo che le vendite del nuovo prodotto seguano la stessa distribuzione statistica delle vendite di altri prodotti simili. In genere, le regressioni bayesiane presuppongono che i dati seguano una distribuzione statistica gaussiana, portando all'uso intercambiabile dei termini regressionebayesianaegaussiana.

Regressione ad effetti misti

La regressione presuppone che esista una relazione non casuale tra i dati osservati e i dati previsti. A volte, questa relazione è difficile da definire a causa di complesse interdipendenze nei dati osservati o di comportamenti casuali occasionali. I modelli a effetti misti sono modelli di regressione che includono meccanismi per gestire dati casuali e altri comportamenti difficili da modellare. Questi modelli sono anche indicati in modo intercambiabile come modelli misti, a effetti misti o a errori misti.

Altri algoritmi di regressione

La regressione è molto ben studiata. Esistono molti altri algoritmi di regressione più complessi o specializzati, compresi quelli che utilizzano tecniche binomiali, multinomiali e avanzate a effetti misti, nonché quelli che combinano più algoritmi. Più algoritmi combinati possono essere organizzati in ordine sequenziale, ad esempio in più livelli sequenziali, oppure eseguiti in parallelo e quindi aggregati in qualche modo. Un sistema che esegue più modelli in parallelo viene spesso definito foresta.

Algoritmi utilizzati per l'analisi di regressione

Molti tipi di algoritmi di regressione vengono utilizzati nell'apprendimento automatico per generare modelli di regressione. Alcuni algoritmi sono progettati per creare tipi specifici di modelli (nel qual caso l'algoritmo e il modello spesso condividono lo stesso nome). Altri si concentrano sul miglioramento degli aspetti dei modelli esistenti, come il miglioramento della loro accuratezza o efficienza. Di seguito tratteremo alcuni degli algoritmi più comunemente utilizzati. Prima di farlo, però, è importante capire come vengono valutati: generalmente si basa su due proprietà chiave, varianza e distorsione.

  • La varianzamisura la fluttuazione delle previsioni di un modello quando vengono addestrate su set di dati diversi. Un modello con varianza elevata può adattarsi molto fedelmente ai dati di addestramento ma avere prestazioni scarse su dati nuovi e invisibili, un fenomeno noto come overfitting. Idealmente, gli algoritmi di regressione dovrebbero produrre modelli con bassa varianza, il che significa che si generalizzano bene ai nuovi dati e non sono eccessivamente sensibili ai cambiamenti nel set di addestramento.
  • Il biassi riferisce all’errore introdotto approssimando un problema reale, che potrebbe essere troppo complesso, con un modello semplificato. Un bias elevato può causare un underfitting, in cui il modello non riesce a catturare modelli importanti nei dati, portando a previsioni imprecise. Idealmente, la distorsione dovrebbe essere bassa, indicando che il modello cattura efficacemente le relazioni nei dati senza semplificare eccessivamente. In alcuni casi, la distorsione può essere mitigata migliorando i dati di addestramento o regolando i parametri dell'algoritmo di regressione.

Regressione semplice e multipla (lineare).

La regressione lineare semplice analizza la relazione tra una singola variabile esplicativa e un risultato previsto, rendendola la forma più semplice di regressione. La regressione lineare multipla è più complicata e trova relazioni tra due o più variabili e un risultato. Entrambi trovano relazioni che hanno una struttura lineare, basata su equazioni lineari che generalmente si adattano a questo modello:

y =β + β1x + ε

Quiyè un risultato da prevedere,xè una variabile da cui prevederlo,εè un errore da tentare di minimizzare eβeβ1 sono i valori calcolati dalla regressione.

La regressione lineare utilizza un processo di apprendimento supervisionato per creare associazioni tra variabili esplicative e risultati previsti. Il processo di apprendimento esamina ripetutamente i dati di training, migliorando i parametri per le equazioni lineari sottostanti ad ogni iterazione sui dati. I metodi più comuni per valutare le prestazioni dei parametri implicano il calcolo dei valori di errore medi per tutti i dati disponibili utilizzati nei test o nella formazione. Esempi di metodi di calcolo dell'errore includonol'errore quadratico medio(la media delle distanze quadrate tra previsioni e risultati effettivi),l'errore medio assolutoe metodi più complessi come lasomma residua dei quadrati(gli errori totali anziché la media).

Regressione polinomiale

La regressione polinomiale gestisce problemi più complessi rispetto alla regressione lineare e richiede la risoluzione di sistemi di equazioni lineari, solitamente con operazioni matriciali avanzate. Può trovare relazioni nei dati che curvano, non solo quelli che possono essere rappresentati da linee rette. Se applicato correttamente, ridurrà la varianza per i problemi in cui la regressione lineare fallisce. È anche più difficile da comprendere, implementare e ottimizzare poiché dipende da concetti e operazioni matematici avanzati.

Una regressione polinomiale tenterà di risolvere le equazioni che mettono in relazioneye multiplixcon equazioni a forma polinomiale che seguono questo schema:

y =β + β1x + β2x2+ … + ε

L'algoritmo di regressione polinomiale cercherà sia i valoriβideali da utilizzare sia la forma del polinomio (quanti esponenti dixpotrebbero essere necessari per definire la relazione traye ciascunx?).

Regressione al lazo

La regressione lazo (che sta per operatore di contrazione e selezione minimo assoluto), nota anche come regressione lazo,L1e normaL1, è una tecnica utilizzata per ridurre l'adattamento eccessivo e migliorare l'accuratezza del modello. Funziona applicando una penalità ai valori assoluti dei coefficienti del modello, riducendo di fatto, o riducendo, alcuni coefficienti a zero. Ciò porta a modelli più semplici in cui le caratteristiche irrilevanti sono escluse. L'algoritmo lazo aiuta a prevenire l'adattamento eccessivo controllando la complessità del modello, rendendolo più interpretabile senza sacrificare troppa precisione.

Il lazo è particolarmente utile quando le variabili esplicative sono correlate. Ad esempio, nelle previsioni del tempo, la temperatura e l’umidità possono essere correlate, portando a un overfitting. Lasso riduce l’effetto di tali correlazioni, creando un modello più robusto.

Regressione della cresta

La regressione della cresta (nota anche comeL2, normaL2o regolarizzazione di Tikhonov) è un'altra tecnica per prevenire l'overfitting, specialmente quando è presente la multicollinearità (correlazione tra variabili esplicative). A differenza del lazo, che può ridurre i coefficienti a zero, la regressione Ridge aggiunge una penalità proporzionale al quadrato dei coefficienti del modello. L’obiettivo è apportare piccole modifiche ai coefficienti senza rimuovere completamente le variabili.

Esempi di casi d'uso di regressione

I modelli di regressione sono ampiamente utilizzati in vari settori per fare previsioni basate su dati storici. Identificando modelli e relazioni tra variabili, questi modelli possono fornire informazioni preziose per il processo decisionale. Di seguito sono riportati tre esempi ben noti di aree in cui viene applicata la regressione.

Analisi e previsione meteorologica

L'analisi di regressione può prevedere modelli meteorologici, come la temperatura e le precipitazioni previste per ogni giorno della prossima settimana. Spesso, diversi algoritmi di regressione vengono addestrati su dati meteorologici storici, tra cui umidità, velocità del vento, pressione atmosferica e copertura nuvolosa. Le misurazioni orarie o giornaliere di queste variabili servono come caratteristiche da cui il modello può imparare e l’algoritmo ha il compito di prevedere i cambiamenti di temperatura nel tempo. Quando algoritmi di regressione multipli (un insieme) vengono utilizzati in parallelo per prevedere i modelli meteorologici, le loro previsioni vengono generalmente combinate attraverso una forma di media, come la media ponderata.

Previsione delle vendite e dei ricavi

In un contesto aziendale, i modelli di regressione vengono spesso utilizzati per prevedere le entrate e altri parametri chiave delle prestazioni. Un modello di regressione multipla potrebbe includere variabili che influenzano il volume delle vendite, come i parametri delle campagne di marketing, il feedback dei clienti e le tendenze macroeconomiche. Il modello ha quindi il compito di prevedere le vendite e i ricavi per un periodo futuro specificato. Man mano che diventano disponibili nuovi dati, il modello può essere riqualificato o aggiornato per affinare le sue previsioni sulla base delle osservazioni più recenti.

Prevedere i risultati sanitari

I modelli di regressione hanno numerose applicazioni nella previsione dei risultati sanitari. Ad esempio, i modelli bayesiani potrebbero essere utilizzati per stimare i rapporti dei tassi di incidenza imparando dai dati storici dei pazienti. Questi modelli aiutano a rispondere a domande come “Cosa è probabile che accada se modifichiamo il dosaggio di un farmaco?” La regressione lineare può essere utilizzata per identificare i fattori di rischio, ad esempio prevedere i cambiamenti nella salute di un paziente in base agli aggiustamenti dello stile di vita. La regressione logistica, comunemente utilizzata per la diagnosi, calcola l'odds ratio per la presenza di una malattia in base all'anamnesi del paziente e ad altre variabili rilevanti.

Benefici della regressione

Gli algoritmi e i modelli di regressione, in particolare la regressione lineare, sono componenti fondamentali di molti sistemi di machine learning. Sono ampiamente utilizzati per i seguenti vantaggi:

  • Possono essere veloci.Le tecniche di regressione possono stabilire rapidamente relazioni tra più variabili (caratteristiche) e un valore target, rendendole utili per l'analisi esplorativa dei dati e accelerando l'addestramento dei modelli di machine learning.
  • Sono versatili. Molti modelli di regressione, come la regressione lineare, polinomiale e logistica, sono ben studiati e possono essere adattati per risolvere un'ampia gamma di problemi del mondo reale, dalla previsione ai compiti di classificazione.
  • Possono essere facili da implementare. I modelli di regressione lineare, ad esempio, possono essere implementati senza richiedere complesse tecniche matematiche o ingegneristiche, rendendoli accessibili a data scientist e ingegneri a vari livelli di competenza.
  • Sono facili da capire. I modelli di regressione, in particolare la regressione lineare, offrono risultati interpretabili in cui le relazioni tra le variabili e il loro impatto sul risultato previsto sono spesso chiari. Ciò li rende utili per identificare tendenze e modelli nei dati che possono fornire informazioni su analisi ulteriori e più approfondite. In alcuni casi, i modelli di regressione possono compromettere l’interpretabilità con una maggiore precisione, a seconda del caso d’uso.

Sfide nella regressione

Sebbene i modelli di regressione offrano molti vantaggi, comportano anche una serie di sfide. Spesso queste sfide si riflettono in prestazioni ridotte o generalizzabilità, in particolare quando si lavora con problemi complessi o dati limitati. Di seguito sono riportati alcuni dei problemi più comuni affrontati nell'analisi di regressione.

  • Overfitting:i modelli spesso faticano a bilanciare bias e varianza. Se un modello è troppo complesso, può adattarsi molto bene ai dati storici (riducendo la varianza), ma diventare distorto se esposto a nuovi dati. Ciò è spesso dovuto al fatto che il modello memorizza i dati di addestramento invece di apprendere un'astrazione generalizzata.
  • Underfitting:un modello troppo semplice per il problema in questione può soffrire di un elevato bias. Mostrerà tassi di errore elevati sia sui dati di addestramento che sui dati invisibili, indicando che non ha appreso i modelli sottostanti. Aggiustamenti eccessivi per correggere bias elevati possono portare a un underfitting, in cui il modello non riesce a catturare la complessità dei dati.
  • Dati di addestramento complessi:i modelli di regressione in genere presuppongono che le osservazioni utilizzate per l'addestramento siano indipendenti. Se i dati contengono relazioni complesse o casualità intrinseca, il modello potrebbe avere difficoltà a creare previsioni accurate e affidabili.
  • Dati incompleti o mancanti:gli algoritmi di regressione supervisionata richiedono grandi quantità di dati per apprendere modelli e tenere conto di casi limite. Quando si gestiscono dati mancanti o incompleti, il modello potrebbe non funzionare bene, in particolare quando si apprendono relazioni complesse che richiedono un'ampia copertura dei dati.
  • Selezione delle variabili predittive:i modelli di regressione si affidano agli esseri umani per selezionare le giuste variabili predittive (caratteristiche). Se vengono incluse troppe variabili irrilevanti, le prestazioni del modello possono peggiorare. Al contrario, se vengono scelte troppo poche o sbagliate variabili, il modello potrebbe non riuscire a risolvere accuratamente il problema o a fare previsioni affidabili.