Spiegazione dell'apprendimento "few-shot": trasformare l'intelligenza artificiale con dati minimi
Pubblicato: 2025-01-13Il Few-shot Learning (FSL) sta trasformando il machine learning (ML) consentendo ai modelli di apprendere e generare risultati accurati solo da una manciata di esempi, a differenza dei metodi tradizionali che richiedono vasti set di dati. Questa guida esplora come funziona l'FSL, le sue applicazioni, i confronti con l'apprendimento zero-shot (ZSL), le sue sfide e il suo potenziale.
Sommario
- Cos'è l'apprendimento a pochi colpi?
- Apprendimento con pochi colpi e suggerimento con pochi colpi: qual è la differenza?
- Come funziona l'apprendimento a pochi colpi
- Apprendimento con pochi colpi e apprendimento con zero colpi
- Applicazioni per l'apprendimento a poche riprese
- Vantaggi dell'apprendimento a pochi colpi
- Sfide dell'apprendimento a pochi colpi
Che cos'è l'apprendimento a colpi brevi (FSL)?
Il Few-shot learning (FSL) si riferisce a una famiglia di tecniche ML progettate per creare modelli adattabili in grado di generare risultati accurati dopo essere stati addestrati su pochi esempi etichettati per categoria. Quando è disponibile un solo esempio etichettato per categoria, si parla di apprendimento one-shot. Ad esempio, i moderni smartphone sfruttano l'FSL per riconoscere il volto di un utente con solo poche foto o anche con una singola foto.
L'FSL è particolarmente prezioso perché consente ai modelli ML di affrontare problemi in cui i dati sono scarsi, come spesso accade nel mondo reale. I modelli FSL possono anche gestire una gamma più ampia di compiti rispetto ai tradizionali modelli di apprendimento supervisionato perché imparano a generalizzare. Ciò consente di risparmiare risorse perché spesso è più economico e veloce adattare un modello FSL a una nuova attività piuttosto che addestrare un modello completamente nuovo da zero. L'FSL viene spesso descritto come un metodo che insegna ai modelli ML a "pensare" più come gli esseri umani, imparando ad astrarre solo da una manciata di esempi.
L'FSL viene spesso utilizzato per applicazioni di visione artificiale, ma viene utilizzato anche nella robotica e nell'elaborazione del linguaggio naturale (PNL). Ad esempio, l’FSL è stato utilizzato per tradurre antichi testi sumeri, un compito utile dato che gli esperti di lingua sumera scarseggiano. I modelli FSL del traduttore sumero hanno imparato a tradurre solo da un piccolo insieme di campioni di tavolette cuneiformi di alta qualità. Hanno poi tradotto accuratamente grandi quantità di testi sconosciuti affinché gli studiosi potessero analizzarli.
Apprendimento con pochi colpi e suggerimento con pochi colpi: qual è la differenza?
L'FSL e il prompt a pochi colpi sono concetti correlati in ML e NLP, ma hanno scopi diversi.
Apprendimento con pochi colpi
FSL è una tecnica di addestramento dei modelli che insegna ai modelli a classificare i dati invisibili. Funziona regolando i parametri del modello per adattarsi a nuovi tipi di compiti di classificazione, attingendo alle conoscenze precedenti. L’FSL è legato all’apprendimento supervisionato, ma la differenza è che i modelli FSL vengono addestrati su un set di dati molto più limitato.
Suggerimento per pochi colpi
Il suggerimento in pochi passaggi è un modo di lavorare con modelli linguistici di grandi dimensioni (LLM). Utilizza l'apprendimento in contesto, un tipo di apprendimento in cui il modello utilizza le informazioni provenienti dal prompt, come formato e sentiment, per prevedere un output. A differenza dell’FSL e dell’apprendimento supervisionato tradizionale, il suggerimento a pochi colpi non comporta la modifica dei parametri dell’LLM. Quando utilizzi la richiesta a pochi colpi, fornisci a LLM diversi esempi del tipo di risposta che stai cercando. Come FSL, il suggerimento a pochi colpi consiste nell'aiutare un modello a generalizzare esponendolo ad alcuni esempi di un'attività simile.
Come funziona l'apprendimento a pochi colpi
L’apprendimento “few-shot” prevede due fasi: in primo luogo, i modelli vengono pre-addestrati su un set di dati generale per conoscere il mondo. Quindi vengono sottoposti ad adattamento delle attività, in cui i modelli imparano come generalizzare da piccoli campioni di dati.
Pre-allenamento
La prima fase per la maggior parte dei modelli FSL inizia con il pre-addestramento su un ampio set di dati etichettati, proprio come l’apprendimento supervisionato. Il modello esegue l'estrazione delle caratteristiche su questo set di dati e impara a classificare gli esempi sviluppando una base di conoscenza sui modelli e sulle relazioni nei dati.
Adattamento del compito
Dopo il pre-addestramento, la fase successiva dell'FSL è l'addestramento del modello per la generalizzazione a nuovi compiti di classificazione. Questo si chiama adattamento del compito e avviene in più episodi di formazione.
In ogni episodio, è presente una serie di supporto da due a cinque esempi per il modello da studiare e una serie di query con obiettivi invisibili che il modello deve provare a classificare. Questo quadro è chiamato classificazione K-shot a N vie, in cuiNsi riferisce al numero di categorie (chiamate classi) eKsi riferisce al numero di esempi etichettati (scatti) di ciascuna categoria.
Tutti i modelli FSL sono progettati per ottenere l'adattamento al compito. All'interno dell'insieme delle tecniche FSL, una delle aree di ricerca più importanti ed interessanti è il meta-apprendimento.
Approcci di metaapprendimento
Il meta-apprendimento implica l'esposizione del modello a compiti simili o correlati al compito di classificazione per cui il modello è stato inizialmente addestrato a risolvere. Riceve solo alcuni esempi di ogni nuovo compito, ma da questi impara a generalizzare sviluppando un meta-quadro su cosa fare quando gli viene assegnato un compito non familiare.
In generale, esistono tre tipi di approcci al meta-apprendimento:
- Apprendimento basato sull'ottimizzazione:include approcci che addestrano i modelli per migliorare rapidamente i loro parametri. Alcuni di essi utilizzano un processo in due fasi in cui uno studente viene formato su un compito specifico e poi un meta-discente utilizza la funzione di perdita della fase di discente per migliorare i parametri del modello per il compito successivo.
- Apprendimento a livello metrico:utilizzato principalmente per attività di visione artificiale, l'apprendimento metrico funziona mappando le caratteristiche estratte in uno spazio di incorporamento e utilizzando la distanza tra le caratteristiche sulla mappa per generare una probabilità che due immagini siano simili.
- Meta-apprendimento indipendente dal modello (MAML):in MAML, l'obiettivo del processo di formazione è ridurre il numero di passaggi del gradiente richiesti per ottimizzare i parametri del modello, indipendentemente dall'attività. MAML analizza i processi di apprendimento per attività, deduce modelli nel funzionamento del processo e sviluppa modelli che fungono da scorciatoie, accelerando il processo di apprendimento con ogni nuova attività che vede.
L'elenco delle architetture di modelli che utilizzano tecniche di meta-apprendimento è in continua crescita man mano che i ricercatori escogitano nuovi modi per aiutare i modelli a diventare adattabili.
Approcci di non metaapprendimento
Esistono anche metodi FSL e adiacenti a FSL che non utilizzano il meta-apprendimento. L'FSL viene talvolta utilizzato insieme a queste tecniche per creare un approccio ibrido:
- Trasferimento dell'apprendimento:questo metodo prevede l'adozione di un modello pre-addestrato e la messa a punto degli strati esterni della rete neurale. Il trasferimento dell'apprendimento è più utile negli scenari in cui l'attività che si desidera venga eseguita dal modello è vicina all'attività su cui è già stato addestrato.
- Aumento dei dati:l'FSL può essere rafforzato con l'aumento dei dati, che prevede l'utilizzo di dati limitati come base per creare dati sintetici utilizzando reti generative avversarie (GAN) o autoencoder variazionali per aumentare il numero di campioni per il set di addestramento.
Apprendimento con pochi colpi e apprendimento con zero colpi
L'apprendimento "few-shot" (o apprendimento "one-shot") viene spesso utilizzato in scenari in cui sono disponibili dati limitati ma di alta qualità per addestrare un modello. Ma cosa succede se non disponi di dati di alta qualità? Nell'apprendimento zero-shot (ZSL), non fornisci al tuo modello alcun esempio e gli chiedi invece di fare affidamento esclusivamente sulla conoscenza pregressa e sugli incorporamenti semantici a cui può attingere per gestire compiti non familiari.
ZSL offre una soluzione rapida e flessibile per gestire situazioni con pochissimi dati. Tuttavia, i modelli ZSL possono avere difficoltà con lo spostamento del dominio, il che significa che potrebbero avere difficoltà se il tipo di dati che vedono è troppo diverso dalla loro base di conoscenza, e può essere difficile valutare le prestazioni di un modello.
Applicazioni per l'apprendimento a poche riprese
Le applicazioni dell'FSL sono ampie e in continua evoluzione, ma ha un enorme potenziale per essere utile in aree in cui sono disponibili relativamente pochi esempi. Alcune recenti aree di ricerca per i casi d'uso includono:
- Diagnostica medica:l'FSL può aiutare nella classificazione dei tumori basata su immagini laddove non sono disponibili dati etichettati sufficienti affinché i tradizionali modelli di apprendimento supervisionato siano utili.
- Rilevamento remoto:FSL può accelerare le attività di rilevamento remoto come l’utilizzo di filmati UAV per valutare gli impatti dei disastri ambientali.
- Prototipazione di auto da corsa F1:i modelli FSL sono pre-addestrati sulla fluidodinamica, sull'aerodinamica e su altri dati per centinaia di auto nel corso di migliaia di gare. Quindi utilizzano l'FSL per prevedere l'aerodinamica e il degrado delle parti per i nuovi prototipi di automobili sulla base di un numero limitato di costosi test.
- Traduzione automatica:FSL ha contribuito a creare traduttori automatici più efficienti che utilizzano pochissimi input e possono catturare le sfumature del dialetto e delle variazioni regionali con una precisione senza precedenti.
- Robotica:l'FSL viene utilizzato per insegnare ai robot ad imparare ad afferrare oggetti osservando dimostrazioni umane.
- Analisi del sentiment:un modello FSL originariamente addestrato sulle recensioni degli hotel può essere utilizzato per classificare le recensioni dei ristoranti.
L’FSL rientra anche nella ricerca per costruire un’intelligenza artificiale generale perché imita più da vicino il modo in cui gli esseri umani affrontano la risoluzione dei problemi.
Vantaggi dell'apprendimento a pochi colpi
I principali vantaggi dei modelli FSL sono che possono gestire problemi in cui sono disponibili dati limitati e possono aiutare a ridurre le risorse computazionali e finanziarie necessarie per addestrare nuovi modelli.
Generalizzare con dati limitati
I modelli FSL possono farlo perché non memorizzano immagini, suoni o linguaggio attraverso molte iterazioni. Invece, imparano ad analizzare rapidamente somiglianze e differenze. Mentre i modelli tradizionali eccellono in compiti altamente specifici come l’identificazione di una particolare specie di uccelli o la corrispondenza delle impronte digitali, falliscono non appena si chiede loro di completare qualsiasi altro compito.
Utilizzando meno risorse
Tecniche come MAML sono un modo molto più efficiente per utilizzare le risorse di addestramento dei modelli. Consentono di adattare in modo rapido ed efficiente modelli su larga scala molto costosi a casi d'uso specifici senza costose fasi di riqualificazione. Una delle grandi sfide dell’apprendimento automatico è la quantità di dati necessari per addestrare un modello a produrre output utili, sia in termini di compilazione di set di dati di grandi dimensioni e di alta qualità, sia in quanto tempo e calcoli sono necessari. FSL promette di risolvere molti problemi del mondo reale in cui i dati sono scarsi o attraversano domini diversi.
Le sfide dell'apprendimento a pochi colpi
Nonostante le sue promesse, l’FSL deve affrontare sfide che possono ostacolare l’efficacia del modello.
Adattamento eccessivo
L'utilizzo di set di dati limitati può causare un overfitting, in cui il modello si allinea troppo strettamente con i dati nei suoi set di training e fatica a generalizzare. Questo è un problema familiare nel ML che si verifica più frequentemente con FSL che con altri approcci ML. Un modello FSL che si adatta eccessivamente funzionerà bene sui dati di test ma non identificherà nuove categorie se presentato con esempi del mondo reale. Per evitare ciò, è importante che ci sia diversità nei campioni limitati utilizzati per l’addestramento a pochi colpi. L'aumento dei dati, discusso sopra, cerca di alleviare l'adattamento eccessivo sintetizzando più esempi per la formazione.
Qualità dei dati
Sono importanti dati di alta qualità sia nella fase di pre-allenamento che nella fase di apprendimento a pochi colpi. I modelli FSL sono più facilmente ostacolati da dati rumorosi e mal etichettati. Inoltre non funzionano bene quando i dati contengono troppi dati di un tipo e non di un altro o hanno troppe caratteristiche da poter essere analizzate dal modello; in questi casi tendono a diventare eccessivamente complessi. I ricercatori a volte possono affrontare questi problemi utilizzando tecniche di regolarizzazione, che sono modi per appianare i dati per aiutare un modello a capire a cosa prestare attenzione e cosa ignorare.