Spiegazione dello Zero-Shot Learning: il futuro dell'apprendimento automatico senza etichette
Pubblicato: 2025-01-13L'apprendimento zero-shot (ZSL) sta rivoluzionando l'apprendimento automatico (ML) consentendo ai modelli di classificare o prevedere risultati per concetti mai incontrati prima, segnando un allontanamento dagli approcci tradizionali che richiedono numerosi dati etichettati. Questa guida esplora il funzionamento di ZSL, le sue applicazioni, il suo confronto con l'apprendimento a poche riprese (FSL), le sue sfide e il potenziale futuro.
Sommario
- Cos’è l’apprendimento zero-shot?
- Come funziona l'apprendimento zero-shot
- Apprendimento zero-shot rispetto all'apprendimento poche-shot e all'apprendimento one-shot
- Apprendimento zero-shot e suggerimento zero-shot
- Applicazioni dell'apprendimento zero-shot
- Vantaggi dell’apprendimento zero-shot
- Le sfide dell’apprendimento zero-shot
Che cos'è l'apprendimento zero-shot (ZSL)?
ZSL consente ai modelli di machine learning di fare previsioni su categorie invisibili senza richiedere esempi di formazione specifici per tali categorie. A differenza dei tradizionali modelli di apprendimento supervisionato, che fanno molto affidamento su set di dati etichettati in cui ogni categoria deve essere rappresentata esplicitamente, ZSL sfrutta informazioni ausiliarie, come incorporamenti o attributi semantici, per generalizzare la conoscenza.
Ad esempio, un modello di apprendimento supervisionato addestrato per classificare gli animali avrebbe bisogno di esempi etichettati di “cane”, “gatto” e “zebra” per riconoscerli, mentre un modello ZSL addestrato su immagini di animali potrebbe identificare una zebra sulla base di attributi descrittivi come “ a strisce” e “a forma di cavallo”, anche senza l’esposizione a esempi precedenti. Ciò rende ZSL particolarmente utile per attività che coinvolgono set di dati di grandi dimensioni e senza etichetta o situazioni in cui la raccolta di dati etichettati non è pratica. Le sue applicazioni spaziano dalla visione artificiale, all'elaborazione del linguaggio naturale (PNL), alla robotica e altro ancora.
Come funziona l'apprendimento zero-shot
I modelli ZSL vengono prima addestrati su un set di dati etichettato di grandi dimensioni per creare una base di conoscenza. Il modello estrae informazioni ausiliarie dai dati etichettati, incluse caratteristiche come colore, forma e sentimento.
Quindi utilizza tali funzionalità per mappare le relazioni semantiche tra categorie (o classi) di dati visibili e invisibili. Questo processo, chiamato trasferimento di conoscenza, consente a un modello ZSL di comprendere, ad esempio, che un’anatra e un’oca sono imparentate perché entrambe hanno becco, piume e piedi palmati.
Le tecniche più comuni sono ZSL basato sugli attributi, ZSL basato sull'incorporamento semantico e ZSL generalizzato. Di seguito, li esaminiamo ciascuno.
Apprendimento zero-shot basato sugli attributi
I modelli ZSL basati sugli attributi vengono spesso utilizzati per attività di visione artificiale. Funzionano addestrandosi su set di dati di immagini etichettati da esseri umani. Le etichette sono costituite da attributi che la persona che etichetta considera utili. Per ogni immagine, la persona applica una descrizione testuale delle sue caratteristiche, come colore, forma o altre caratteristiche.
Ad esempio, nella classificazione delle immagini, attributi come "grigio", "a quattro zampe" e "cane" potrebbero descrivere categorie diverse. Attraverso l'addestramento, il modello impara ad associare questi attributi a categorie specifiche.
Quando mostri al modello un esempio di qualcosa di nuovo, come un tipo di animale che non ha mai visto prima, può capire se sta guardando una classe simile ma non uguale a quelle viste durante l'addestramento.
Quando il modello incontra una categoria invisibile, ad esempio un lupo, può dedurre la classe analizzando gli attributi condivisi con le categorie apprese, anche se l'etichetta "lupo" non faceva esplicitamente parte della formazione. Questi attributi interpretabili dall'uomo migliorano la spiegabilità e consentono al modello di generalizzarsi a nuove classi.
Apprendimento zero-shot basato sull'incorporamento semantico
Questo approccio è simile allo ZSL basato sugli attributi, ma invece che gli esseri umani creino etichette di attributi per l'addestramento, il modello genera quelli che sono noti come incorporamenti semantici dei dati di addestramento. Questi incorporamenti semantici sono codificati come vettori (modi matematici di rappresentare oggetti del mondo reale) e quindi mappati in uno spazio di incorporamento.
Lo spazio di incorporamento consente al modello di organizzare la propria conoscenza contestuale raggruppando le informazioni correlate più vicine. Ad esempio, le categorie “cane” e “lupo” saranno più vicine tra loro in uno spazio di incorporamento rispetto alle categorie “cane” e “uccello”, a causa di caratteristiche semantiche condivise. Questo è simile al modo in cui i modelli linguistici di grandi dimensioni (LLM) utilizzano gli incorporamenti semantici per raggruppare i sinonimi a causa dei loro significati simili.
Quando al modello vengono assegnate categorie invisibili (un altro modo per dire "nuovi dati che il modello non ha mai incontrato prima"), proietta i vettori di quelle nuove classi nello stesso spazio di incorporamento e misura la distanza tra loro e i vettori delle classi che già conosce Di. Ciò fornisce il contesto del modello per gli esempi invisibili e gli consente di dedurre relazioni semantiche tra classi conosciute e sconosciute.
Apprendimento zero-shot generalizzato
La maggior parte delle tecniche di apprendimento zero-shot addestrano il modello su un tipo di dati e quindi lo applicano a un problema diverso ma correlato. Questa è l'idea di “scatti zero”: il modello non viene esposto a nessun esempio delle nuove classi prima di incontrarle in natura.
Tuttavia, le applicazioni del mondo reale non sono sempre così in bianco e nero. Il set di dati che desideri che il tuo modello ZSL classifichi potrebbe contenere elementi di classi conosciute insieme a nuove classi.
Il problema è che i modelli ZSL tradizionali a volte possono mostrare una forte propensione a etichettare erroneamente le nuove classi come cose che già conoscono se si mescolano insieme nuovo e familiare. Pertanto, è utile disporre di un modello ZSL in grado di generalizzare a un set di dati che potrebbe contenere classi già viste durante l'addestramento.
Nella ZSL generalizzata, il modello compie un ulteriore passo avanti per ridurre la distorsione verso le categorie conosciute. Prima di effettuare la classificazione, decide se l'oggetto in questione appartiene a una classe conosciuta o sconosciuta.
Apprendimento zero-shot rispetto all'apprendimento poche-shot e all'apprendimento one-shot
Come ZSL, il little-shot learning (FSL) e il one-shot learning (OSL) consentono ai modelli di deep learning di eseguire nuove attività con dati nuovi minimi o assenti. Tutti e tre gli approcci si basano sulla mappatura delle relazioni tra le caratteristiche degli esempi noti per dedurre modelli in esempi sconosciuti. Il loro obiettivo principale è creare modelli efficaci negli scenari del mondo reale in cui i dati sono scarsi o in cui non c'è tempo per addestrare un nuovo modello per un'attività specifica.
La differenza fondamentale sta nel modo in cui gestiscono i nuovi dati:
- L'FSLprevede di fornire al modello un piccolo numero di esempi etichettati per la nuova classe che deve identificare.
- OSLè un caso più specifico, in cui nel modello viene mostrato solo un esempio etichettato della nuova classe.
Sia FSL che OSL richiedono una fase di formazione aggiuntiva rispetto a ZSL, che aumenta il tempo necessario per apprendere nuovi compiti. Tuttavia, questa formazione aggiuntiva consente loro di gestire compiti che si discostano in modo significativo dalle conoscenze pre-addestrate del modello, rendendoli più adattabili nella pratica.
Sebbene ZSL sia spesso visto come “flessibile” perché non richiede esempi etichettati per nuovi compiti, questa flessibilità è in gran parte teorica. Nelle applicazioni del mondo reale, i metodi ZSL possono avere difficoltà con:
- Compiti che coinvolgono un mix di esempi visti e invisibili (ad esempio, scenari ZSL generalizzati)
- Attività sostanzialmente diverse dai dati di training del modello
I modelli ZSL sono inoltre sensibili a fattori come il modo in cui i set di dati vengono suddivisi durante il pre-addestramento e la valutazione, che possono influire sulle prestazioni. D’altro canto, FSL e OSL offrono una maggiore flessibilità pratica per l’adattamento dei compiti incorporando nuovi esempi nel processo di apprendimento, consentendo loro di ottenere risultati migliori in diversi scenari.
Apprendimento zero-shot e suggerimento zero-shot
ZSL è un tipo di architettura del modello progettata per varie attività di deep learning. Al contrario, il prompt zero-shot si riferisce alla richiesta a un LLM come ChatGPT o Claude di generare un output senza fornire esempi specifici nel prompt per guidare la sua risposta. In entrambi i casi, il modello esegue un'attività senza esempi espliciti di ciò che l'attività comporta.
Nel prompt zero-shot, non fornisci al modello alcun esempio relativo all'attività. Invece, fai affidamento sulle conoscenze pre-addestrate del LLM per dedurre ed eseguire l'attività.
Ad esempio, potresti inserire il testo di una recensione di un ristorante e chiedere al LLM di classificarlo come positivo, neutro o negativo, senza fornirgli alcuna recensione di esempio da utilizzare come riferimento. Il LLM attingerà alla sua pre-formazione per determinare l'etichetta appropriata per la revisione.
Sebbene l’apprendimento zero-shot e il suggerimento zero-shot condividano il concetto di eseguire attività senza esempi, esiste una distinzione fondamentale:
- L’apprendimento zero-shotè un tipo di architettura modello creata per tali compiti.
- La richiesta zero-shotè una tecnica specifica per interagire con gli LLM, non un'architettura modello.
Applicazioni dell'apprendimento zero-shot
Grazie alla sua attenzione nell'aiutare i modelli di deep learning ad adattarsi a nuovi compiti, ZSL ha applicazioni in molte aree del ML, tra cui visione artificiale, PNL e robotica. ZSL può essere utilizzato nel settore sanitario, nell'analisi del sentiment, nel servizio clienti, nella traduzione di documenti e nella sicurezza informatica, ad esempio:
- Analisi del sentiment:quando si verificano le ultime notizie, un modello PNL zero-shot può eseguire l'analisi del sentiment sui commenti pubblici per fornire uno sguardo quasi in tempo reale alle reazioni del pubblico.
- Elaborazione di documenti multilingue:i modelli zero-shot della PNL formati per estrarre informazioni da documenti fiscali in inglese possono eseguire le stesse estrazioni su documenti fiscali in spagnolo senza formazione aggiuntiva.
- Diagnostica medica:i modelli ZSL sono stati utilizzati per identificare le radiografie di pazienti affetti da COVID-19 senza alcun esempio visivo. Le identificazioni si basano su descrizioni testuali, fatte da medici che lavorano sul campo, di come appaiono le radiografie positive.
- Chatbot più sfumati:i modelli PNL ZSL possono comprendere lo slang e gli idiomi che non hanno mai incontrato prima durante le chat con le persone, consentendo loro di rispondere in modo più significativo a domande che non sono stati specificamente formati a gestire.
- Rilevamento di anomalie:ZSL può essere utilizzato nella sicurezza informatica per rilevare modelli insoliti nell’attività di rete o etichettare nuovi tipi di attacchi di hacking quando emergono nuove minacce.
Vantaggi dell’apprendimento zero-shot
Gli approcci tradizionali all’apprendimento supervisionato sono spesso poco pratici per molte applicazioni del mondo reale, dati i grandi set di dati, i tempi di formazione, i soldi e le risorse computazionali che richiedono. ZSL può mitigare alcune di queste sfide. I vantaggi includono la riduzione dei costi associati alla formazione di un nuovo modello e la gestione di situazioni in cui i dati sono scarsi o non ancora disponibili:
Sviluppo economicamente vantaggioso
Acquisire e curare i grandi set di dati etichettati richiesti dall’apprendimento supervisionato è costoso e richiede tempo. L'addestramento di un modello su un set di dati etichettati di alta qualità può costare decine di migliaia di dollari, oltre al costo dei server, dello spazio di cloud computing e degli ingegneri.
ZSL si dimostra promettente nel ridurre il costo dei progetti ML consentendo alle istituzioni di riutilizzare i modelli per nuovi compiti senza formazione aggiuntiva. Consente inoltre a entità o individui più piccoli di riutilizzare modelli costruiti da altri.
Risolvere problemi con dati scarsi
La flessibilità di ZSL lo rende un ottimo strumento per le situazioni in cui sono disponibili pochi dati o in cui i dati stanno ancora emergendo. Ad esempio, è utile per diagnosticare nuove malattie quando le informazioni non sono ancora diffuse o per situazioni di catastrofe in cui le informazioni si evolvono rapidamente. ZSL è utile anche per il rilevamento di anomalie quando i dati sono troppo consistenti per essere elaborati dagli analisti umani.
Le sfide dell’apprendimento zero-shot
ZSL fa molto affidamento sulla disponibilità di dati di addestramento di alta qualità durante la fase di pre-addestramento per comprendere le relazioni semantiche tra le categorie sufficientemente bene da poter generalizzare a nuove. Senza dati di alta qualità, ZSL può produrre risultati inaffidabili che a volte sono difficili da valutare.
I problemi comuni che i modelli ZSL devono affrontare includono problemi di adattamento a compiti diversi da quelli su cui si è già addestrato e problemi con i dati di addestramento che li inducono a fare troppo affidamento su determinate etichette quando si prevedono classi invisibili.
Adattamento del dominio
I modelli ZSL funzionano meglio quando viene loro richiesto di gestire nuovi dati provenienti da un dominio che non è molto diverso da quello su cui sono stati addestrati. Ad esempio, se un modello è stato addestrato sulle foto, avrà difficoltà a classificare i video.
I modelli ZSL si basano sulla mappatura delle informazioni ausiliarie da dati sconosciuti a dati noti, quindi se le origini dati sono troppo diverse, il modello non ha modo di generalizzare la sua conoscenza alla nuova attività.
Il problema dell'hubness
Il problema dell'hubness in ZSL si verifica quando un modello inizia a utilizzare solo poche etichette quando fa previsioni per categorie invisibili. Succede quando molti punti nello spazio delle caratteristiche incorporate si raggruppano insieme, formando “hub” che orientano il modello verso etichette particolari.
Ciò può accadere a causa del rumore nei dati di addestramento, di troppi esempi di alcuni tipi di dati e di un numero insufficiente di altri, o perché gli incorporamenti semantici del modello non sono sufficientemente distinti.