Apprendimento semi-supervisionato: cos'è e come funziona
Pubblicato: 2024-07-18Nel campo dell’apprendimento automatico, l’apprendimento semi-supervisionato emerge come un approccio ibrido intelligente, colmando il divario tra metodi supervisionati e non supervisionati sfruttando sia i dati etichettati che quelli non etichettati per addestrare modelli più robusti ed efficienti.
Sommario
- Cos’è l’apprendimento semi-supervisionato?
- Apprendimento semi-supervisionato vs. supervisionato e non supervisionato
- Come funziona l'apprendimento semi-supervisionato
- Tipi di apprendimento semi-supervisionato
- Applicazioni dell'apprendimento semi-supervisionato
- Vantaggi dell'apprendimento semi-supervisionato
- Svantaggi dell’apprendimento semi-supervisionato
Cos’è l’apprendimento semi-supervisionato?
L'apprendimento semi-supervisionato è un tipo di machine learning (ML) che utilizza una combinazione di dati etichettati e non etichettati per addestrare i modelli. Semi-supervisionato significa che il modello riceve indicazioni da una piccola quantità di dati etichettati, in cui gli input sono esplicitamente abbinati a output corretti, oltre a un pool più ampio di dati non etichettati, che in genere è più abbondante. Questi modelli in genere trovano informazioni iniziali in una piccola quantità di dati etichettati, quindi perfezionano ulteriormente la loro comprensione e accuratezza utilizzando un pool più ampio di dati non etichettati.
L'apprendimento automatico è un sottoinsieme dell'intelligenza artificiale (AI) che utilizza dati e metodi statistici per costruire modelli che imitano il ragionamento umano anziché fare affidamento su istruzioni codificate. Sfruttando elementi provenienti da approcci supervisionati e non supervisionati, il semi-supervisionato è un modo distinto e potente per migliorare la qualità delle previsioni senza onerosi investimenti nell’etichettatura umana.
Apprendimento semi-supervisionato vs. supervisionato e non supervisionato
Mentre l’apprendimento supervisionato si basa esclusivamente su dati etichettati e l’apprendimento non supervisionato funziona con dati interamente non etichettati, l’apprendimento semi-supervisionato unisce i due.
Apprendimento supervisionato
L'apprendimento supervisionato utilizza dati etichettati per addestrare modelli per attività specifiche. I due tipi principali sono:
- Classificazione: determina a quale classe o gruppo appartiene un articolo.Può trattarsi di una scelta binaria, di una scelta tra più opzioni o dell'appartenenza a più gruppi.
- Regressione: prevede i risultati in base alla linea più adatta dai dati esistenti. Solitamente utilizzato per previsioni, ad esempio previsioni meteorologiche o prestazioni finanziarie.
Apprendimento non supervisionato
L'apprendimento non supervisionato identifica modelli e strutture nei dati senza etichetta attraverso tre tecniche principali:
- Clustering: definisce gruppi di punti che hanno valori simili.Questi possono essere esclusivi (ogni punto dati esattamente in un cluster), sovrapposti (gradi di appartenenza a uno o più cluster) o gerarchici (più livelli di cluster).
- Associazione: individua quali elementi hanno maggiori probabilità di verificarsi contemporaneamente, ad esempio i prodotti acquistati frequentemente insieme.
- Riduzione della dimensionalità: semplifica i set di dati condensando i dati in meno variabili, riducendo così i tempi di elaborazione e migliorando la capacità di generalizzazione del modello.
Apprendimento semi-supervisionato
L'apprendimento semi-supervisionato sfrutta sia i dati etichettati che quelli senza etichetta per migliorare le prestazioni del modello. Questo approccio è particolarmente utile quando l'etichettatura dei dati è costosa o richiede molto tempo.
Questo tipo di machine learning è ideale quando si dispone di una piccola quantità di dati etichettati e di una grande quantità di dati senza etichetta. Identificando quali punti senza etichetta corrispondono strettamente a quelli etichettati, un modello semi-supervisionato può creare confini di classificazione o modelli di regressione più sfumati, portando a una migliore accuratezza e prestazioni.
Come funziona l'apprendimento semi-supervisionato
Il processo di apprendimento semi-supervisionato prevede diverse fasi, combinando elementi di metodi di apprendimento supervisionati e non supervisionati:
- Raccolta ed etichettatura dei dati: raccogli un set di dati che include una piccola porzione di dati etichettati e una porzione maggiore di dati senza etichetta.Entrambi i set di dati dovrebbero avere le stesse funzionalità, note anche come colonne o attributi.
- Pre-elaborazione ed estrazione delle funzionalità: pulire e preelaborare i dati per fornire al modello la migliore base possibile per l'apprendimento: controllo a campione per garantire la qualità, rimuovere i duplicati ed eliminare le funzionalità non necessarie.Prendi in considerazione la creazione di nuove funzionalità che trasformino caratteristiche importanti in intervalli significativi che riflettano la variazione dei dati (ad esempio, conversione delle date di nascita in età) in un processo noto come estrazione.
- Apprendimento supervisionato iniziale: addestra il modello utilizzando i dati etichettati.Questa fase iniziale aiuta il modello a comprendere la relazione tra input e output.
- Apprendimento non supervisionato: applica tecniche di apprendimento non supervisionato ai dati senza etichetta per identificare modelli, cluster o strutture.
- Perfezionamento del modello: combina le informazioni provenienti dai dati etichettati e non etichettati per perfezionare il modello.Questo passaggio spesso comporta formazione iterativa e aggiustamenti per migliorare la precisione.
- Valutazione e ottimizzazione: valuta le prestazioni del modello utilizzando metriche di apprendimento supervisionate standard, come accuratezza, precisione, richiamo e punteggio F1.Perfeziona il modello modificando le istruzioni esplicite (note come iperparametri) e rivalutandolo fino al raggiungimento delle prestazioni ottimali.
- Distribuzione e monitoraggio: distribuisci il modello per l'uso nel mondo reale, monitora continuamente le sue prestazioni e aggiornalo con nuovi dati secondo necessità.
Tipi di apprendimento semi-supervisionato
L’apprendimento semi-supervisionato può essere implementato utilizzando diverse tecniche, ciascuna delle quali sfrutta dati etichettati e non etichettati per migliorare il processo di apprendimento. Ecco i tipi principali, insieme ai sottotipi e ai concetti chiave:
Auto allenamento
L’autoformazione, nota anche come autoapprendimento o autoetichettatura, è l’approccio più diretto. In questa tecnica, un modello inizialmente addestrato sui dati etichettati prevede le etichette per i dati non etichettati e ne registra il grado di confidenza. Il modello si riqualifica in modo iterativo applicando le sue previsioni più attendibili come dati etichettati aggiuntivi: queste etichette generate sono note comepseudo-etichette. Questo processo continua finché le prestazioni del modello non si stabilizzano o migliorano sufficientemente.
- Addestramento iniziale: il modello viene addestrato su un piccolo set di dati etichettato.
- Previsione delle etichette: il modello addestrato prevede le etichette per i dati senza etichetta.
- Soglia di confidenza: vengono selezionate solo le previsioni al di sopra di un determinato livello di confidenza.
- Riaddestramento: i dati pseudo-etichettati selezionati vengono aggiunti al set di addestramento e il modello viene riqualificato.
Questo metodo è semplice ma potente, soprattutto quando il modello può fare previsioni accurate nella fase iniziale. Tuttavia, se le previsioni iniziali sono errate, può essere incline a rafforzare i propri errori. Utilizzare il clustering per verificare che le pseudoetichette siano coerenti con i raggruppamenti naturali all'interno dei dati.
Co-formazione
Il co-training, tipicamente utilizzato per problemi di classificazione, prevede l'addestramento di due o più modelli su visualizzazioni o sottoinsiemi di dati diversi. Le previsioni più attendibili di ciascun modello sui dati senza etichetta aumentano il set di addestramento dell'altro modello. Questa tecnica sfrutta la diversità di più modelli per migliorare l’apprendimento.
- Approccio a due visualizzazioni: il set di dati è diviso in due visualizzazioni distinte, ovvero sottoinsiemi dei dati originali, ciascuno contenente caratteristiche diverse.Ognuna delle due nuove visualizzazioni ha la stessa etichetta, ma idealmente le due sono condizionatamente indipendenti, il che significa che conoscere i valori in una tabella non fornirebbe alcuna informazione sull'altra.
- Addestramento del modello: due modelli vengono addestrati separatamente su ciascuna vista utilizzando i dati etichettati.
- Etichettatura reciproca: ciascun modello prevede etichette per i dati senza etichetta e le migliori previsioni, ovvero tutte quelle al di sopra di una determinata soglia di confidenza o semplicemente un numero fisso in cima all'elenco, vengono utilizzate per riqualificare l'altro modello.
La co-formazione è particolarmente utile quando i dati si prestano a visualizzazioni multiple che forniscono informazioni complementari, come immagini mediche e dati clinici abbinati allo stesso paziente. In questo esempio, un modello prevederebbe l'incidenza della malattia in base all'immagine, mentre l'altro in base ai dati della cartella clinica.
Questo approccio aiuta a ridurre il rischio di rafforzare previsioni errate, poiché i due modelli possono correggersi a vicenda.
Modelli generativi
I modelli generativi apprendono la probabilità che determinate coppie di input e output si verifichino simultaneamente, nota come distribuzione di probabilità congiunta. Questo approccio consente loro di generare nuovi dati che assomigliano a quelli già visti. Questi modelli utilizzano dati etichettati e non etichettati per acquisire la distribuzione dei dati sottostanti e migliorare il processo di apprendimento. Come puoi intuire dal nome, questa è la base dell'intelligenza artificiale generativa in grado di creare testo, immagini e così via.
- Reti avversarie generative (GAN): le GAN sono costituite da due modelli: un generatore e un discriminatore.Il generatore crea punti dati sintetici, mentre il discriminatore cerca di distinguere tra questi punti dati sintetici e dati reali. Man mano che si addestrano, il generatore migliora la sua capacità di creare dati realistici e il discriminatore diventa più bravo a identificare i dati falsi. Questo processo contraddittorio continua, con ciascun modello che cerca di sovraperformare l’altro. I GAN possono essere applicati all’apprendimento semi-supervisionato in due modi:
- Discriminatore modificato: invece di classificare semplicemente i dati come “falsi” o “reali”, il discriminatore viene addestrato a classificare i dati in più classi più una classe falsa.Ciò consente al discriminatore sia di classificare che di discriminare.
- Utilizzo di dati senza etichetta: il discriminatore giudica se un input corrisponde ai dati etichettati che ha visto o è un punto dati falso dal generatore.Questa ulteriore sfida costringe il discriminatore a riconoscere i dati senza etichetta in base alla loro somiglianza con i dati etichettati, aiutandolo ad apprendere le caratteristiche che li rendono simili.
- Autoencoder variazionali (VAE): i VAE capiscono come codificare i dati in una rappresentazione più semplice e astratta che possa decodificare in una rappresentazione il più fedele possibile ai dati originali.Utilizzando sia dati etichettati che non etichettati, il VAE crea un'unica astrazione che cattura le caratteristiche essenziali dell'intero set di dati e quindi migliora le sue prestazioni sui nuovi dati.
I modelli generativi sono strumenti potenti per l’apprendimento semi-supervisionato, in particolare con dati non etichettati abbondanti ma complessi, come nella traduzione linguistica o nel riconoscimento delle immagini. Naturalmente, sono necessarie alcune etichette in modo che i GAN o i VAE sappiano a cosa puntare.
Metodi basati su grafici
I metodi basati su grafici rappresentano i punti dati come nodi su un grafico, con diversi approcci per comprendere ed estrarre informazioni utili sulle relazioni tra loro. Alcuni dei numerosi metodi basati su grafici applicati all'apprendimento semi-supervisionato includono:
- Propagazione dell'etichetta: un approccio relativamente semplice in cui i valori numerici noti come bordi indicano somiglianze tra i nodi vicini.Nella prima esecuzione del modello, i punti senza etichetta con i bordi più forti verso un punto etichettato prendono in prestito l'etichetta di quel punto. Man mano che vengono etichettati più punti, il processo viene ripetuto finché tutti i punti non vengono etichettati.
- Reti neurali a grafo (GNN): utilizza tecniche per l'addestramento delle reti neurali, come l'attenzione e la convoluzione, per applicare gli apprendimenti dai punti dati etichettati a quelli senza etichetta, in particolare in situazioni altamente complesse come i social network e l'analisi genetica.
- Codificatori automatici di grafici: simili ai VAE, creano un'unica rappresentazione astratta che cattura dati etichettati e non etichettati. Questo approccio viene spesso utilizzato per trovare collegamenti mancanti, ovvero potenziali connessioni non catturate nel grafico.
I metodi basati su grafici sono particolarmente efficaci per dati complessi che formano naturalmente reti o hanno relazioni intrinseche, come social network, reti biologiche e sistemi di raccomandazione.
Applicazioni dell'apprendimento semi-supervisionato
Alcune delle numerose applicazioni dell'apprendimento semi-supervisionato includono:
- Classificazione del testo: quando disponi di un insieme molto ampio di dati disponibili, come milioni di recensioni di prodotti o miliardi di e-mail, devi etichettarne solo una frazione.Un approccio semi-supervisionato utilizzerà i dati rimanenti per perfezionare il modello.
- Analisi delle immagini mediche: il tempo degli esperti medici è costoso e non sempre sono accurati.Integrando la loro analisi di immagini come MRI o raggi X con molte immagini senza etichetta può portare a un modello che eguaglia o addirittura supera la loro precisione.
- Riconoscimento vocale: trascrivere manualmente il parlato è un processo noioso e faticoso, soprattutto se stai cercando di catturare un'ampia varietà di dialetti e accenti.La combinazione di dati vocali etichettati con grandi quantità di audio senza etichetta migliorerà la capacità di un modello di discernere con precisione ciò che viene detto.
- Rilevamento delle frodi: in primo luogo, addestrare un modello su un piccolo insieme di transazioni etichettate, identificando frodi note e casi legittimi.Quindi aggiungere un insieme più ampio di transazioni non etichettate per esporre il modello a modelli e anomalie sospetti, migliorando la sua capacità di identificare attività fraudolente nuove o in evoluzione nei sistemi finanziari.
- Segmentazione della clientela: l'apprendimento semi-supervisionato può migliorare la precisione utilizzando un piccolo set di dati etichettati per definire i segmenti iniziali in base a determinati modelli e dati demografici, quindi aggiungendo un pool più ampio di dati senza etichetta per perfezionare ed espandere queste categorie.
Vantaggi dell'apprendimento semi-supervisionato
- Conveniente: l’apprendimento semi-supervisionato riduce la necessità di dati etichettati estesi, diminuendo i costi e gli sforzi di etichettatura, nonché l’influenza dell’errore umano e dei pregiudizi.
- Previsioni migliorate: la combinazione di dati etichettati e non etichettati spesso si traduce in una migliore qualità della previsione rispetto all’apprendimento puramente supervisionato, poiché fornisce più dati da cui il modello può imparare.
- Scalabilità: l’apprendimento semi-supervisionato è adatto per le applicazioni del mondo reale in cui un’etichettatura completa non è pratica, come miliardi di transazioni potenzialmente fraudolente, perché gestisce set di dati di grandi dimensioni con un numero minimo di dati etichettati.
- Flessibilità: la combinazione dei punti di forza dell’apprendimento supervisionato e non supervisionato rende questo approccio adattabile a molti compiti e ambiti.
Svantaggi dell’apprendimento semi-supervisionato
- Complessità: l'integrazione di dati etichettati e non etichettati spesso richiede sofisticate tecniche di pre-elaborazione come la normalizzazione degli intervalli di dati, l'imputazione di valori mancanti e la riduzione della dimensionalità.
- Affidamento alle ipotesi: i metodi semi-supervisionati spesso si basano su ipotesi sulla distribuzione dei dati, come punti dati nello stesso cluster che meritano la stessa etichetta, il che potrebbe non essere sempre vero.
- Potenziale rumore: i dati senza etichetta possono introdurre rumore e imprecisioni se non gestiti correttamente con tecniche come il rilevamento dei valori anomali e la convalida rispetto ai dati etichettati.
- Più difficile da valutare: senza molti dati etichettati, non otterrai molte informazioni utili dagli approcci standard di valutazione dell'apprendimento supervisionato.