Transfer Learning: il collegamento allo sviluppo più intelligente e più veloce dell'IA

Pubblicato: 2025-02-04

Il riutilizzo e l'adattamento dei modelli di intelligenza artificiale pre-addestrati sta cambiando il modo in cui vengono affrontate le attività di apprendimento automatico (ML). Il trasferimento dell'apprendimento è un metodo efficiente ed economico per adattare sistemi di intelligenza artificiale grandi e complessi a nuovi settori e problemi. In questa guida, esploreremo gli aspetti chiave dell'apprendimento del trasferimento: come funziona, i suoi vari tipi e applicazioni e i suoi vantaggi e sfide.

Sommario

  • Cos'è l'apprendimento del trasferimento?
  • Come funziona l'apprendimento del trasferimento?
  • Trasferisci l'apprendimento vs. messa a punto
  • Tipi di apprendimento del trasferimento
  • Vantaggi dell'apprendimento del trasferimento
  • Sfide dell'apprendimento del trasferimento
  • Applicazioni dell'apprendimento del trasferimento

Cos'è l'apprendimento del trasferimento?

Il trasferimento dell'apprendimento è una potente tecnica di apprendimento automatico che sfrutta un modello pre-addestrato per un compito diverso ma correlato. Utilizza le conoscenze generali catturate in un modello esistente come base per imparare a risolvere i problemi in domini più specifici e correlati.

Il trasferimento dell'apprendimento offre diversi vantaggi: accelera lo sviluppo e la distribuzione delle applicazioni di intelligenza artificiale personalizzata (AI), riduce i costi delle risorse e spesso offre prestazioni migliori rispetto alla costruzione di un modello da zero. Di conseguenza, l'apprendimento del trasferimento è particolarmente prezioso per le organizzazioni che mirano a sviluppare soluzioni di intelligenza artificiale specializzate senza la grande quantità di dati o energia computazionale in genere necessarie per addestrare un modello da zero.

Lavora più intelligente con grammatica
Il partner di scrittura di intelligenza artificiale per chiunque abbia un lavoro da fare

Esempio di apprendimento del trasferimento

Considera l'esempio di un produttore che desidera creare un sistema di intelligenza artificiale per rilevare i difetti del prodotto. Un'opzione è quella di assumere professionisti ML specializzati, raccogliere e curare milioni di immagini di prodotti pertinenti e mettere da parte il tempo e le risorse computazionali necessarie per formare un modello da zero. Il trasferimento dell'apprendimento presenta un'opzione molto migliore: il produttore può invece iniziare con un modello che ha già completato una formazione costosa e che richiede tempo su un set di dati di immagini grandi e standardizzato, come ImageNet. Il produttore può quindi utilizzare in modo rapido ed efficiente il trasferimento dell'apprendimento per adattare il modello per rilevare difetti in immagini specifiche del prodotto.

Come funziona l'apprendimento del trasferimento?

Il trasferimento dell'apprendimento adatta le conoscenze generali di un modello pre-allenato a un nuovo compito correlato. Il processo prevede in genere tre passaggi chiave:

  • Selezione di un modello pre-allenato appropriato
  • Aggiornamento dell'architettura del modello
  • Formazione del modello su nuovi dati

1. Seleziona un modello pre-allenato

Il primo passo è scegliere un modello che è già stato addestrato su un set di dati in un dominio relativo all'attività di destinazione. Il modello pre-allenato avrebbe dovuto apprendere funzionalità generali e di alto livello pertinenti alla nuova applicazione.

  • Esempio di assistenza sanitaria:un'organizzazione sanitaria potrebbe iniziare con un modello pre-addestrato sul set di dati NIH (National Institutes of Health) Chestx-Ray14, che contiene una vasta raccolta di immagini mediche etichettate. Il modello avrebbe appreso caratteristiche generali come il modo in cui le immagini a raggi X sono strutturate e il modo in cui le proprietà biologiche sono correlate ai componenti delle immagini. Questo modello può fungere da base per lo sviluppo di strumenti diagnostici per condizioni specifiche situate nell'area toracica e visibile su immagini a raggi X, come la polmonite o il cancro ai polmoni.
  • Esempio di finanza:un'impresa finanziaria potrebbe utilizzare Finbert, un modello pre-addestrato su documenti finanziari, chiamate di utili e depositi normativi. Il modello avrebbe appreso caratteristiche generali come la struttura del linguaggio finanziario e termini specifici che indicano il sentimento del mercato e le prestazioni aziendali. Il modello Finbert potrebbe fungere da base per funzionalità più specializzate, come l'adattamento automatico delle dichiarazioni nei rapporti sugli utili.

La selezione del modello pre-addestrato giusto implica garantire che la sua formazione originale si allinei bene con l'applicazione prevista, poiché ciò aumenta la probabilità di un adattamento di successo.

2. Modifica dell'architettura del modello

Una volta selezionato un modello pre-addestrato adatto, la sua architettura è adattata per adattarsi al nuovo compito. Questo passaggio in genere include:

  • Sostituzione dei livelli di output:i livelli finali del modello pre-addestrati, progettati per l'attività originale, vengono rimossi e sostituiti con nuovi livelli specifici per attività (ad es. Livelli completamente collegati per la classificazione).
  • Le caratteristiche generali di mantenimento:gli strati interni, che catturano modelli generalizzabili come i bordi nelle immagini o nelle relazioni linguistiche nel testo, sono spesso conservati. Queste funzionalità possono trasferirsi efficacemente a compiti correlati.

L'entità della modifica architettonica dipende dal caso d'uso specifico e dal grado di somiglianza tra le attività di fonte e target.

3. Formazione del modello su nuovi dati

Nel passaggio finale, il modello modificato viene addestrato su un set di dati su misura per il nuovo compito. Questo passaggio può essere affrontato in due modi principali, a seconda della dimensione del set di dati e della somiglianza tra le attività:

  • Estrazione delle caratteristiche:
    • Solo gli strati appena aggiunti sono addestrati, mentre gli strati originali rimangono invariati.
    • Questo metodo è ideale quando il nuovo compito è strettamente correlato all'attività originale o quando il set di dati target è piccolo.
  • Ritocchi:
    • L'intero modello viene riqualificato ma con un set di dati e un tasso di apprendimento più piccolo per evitare di perdere le preziose caratteristiche apprese durante la fase di pre-allenamento.
    • Questo approccio è più adatto per set di dati di grandi dimensioni o quando il nuovo compito differisce in modo significativo dall'attività originale.

Indipendentemente dall'approccio, l'obiettivo è quello di esporre il modello a dati sufficienti pertinenti, consentendogli di apprendere e generalizzare in modo efficace la nuova applicazione.

Trasferisci l'apprendimento vs. messa a punto

Il trasferimento dell'apprendimento è spesso confuso con la messa a punto. Mentre i concetti sono strettamente correlati, ci sono differenze notevoli. Ancora più importante, l'apprendimento del trasferimento è il processo complessivo di adattamento di un modello pre-addestrato per un nuovo scopo e può o non può comportare una messa a punto. D'altra parte, la messa a punto è una delle numerose tecniche utilizzate per riqualificare alcuni o tutti i parametri del modello come parte del processo di apprendimento del trasferimento complessivo. La messa a punto non è solo un sottoinsieme di apprendimento del trasferimento; Ha applicazioni in altri contesti in ML al di fuori dell'apprendimento del trasferimento, come il miglioramento delle prestazioni del modello su sottogruppi specifici di dati o l'adattamento di un modello alle distribuzioni di dati mutevoli.

Inoltre, l'apprendimento del trasferimento di solito richiede modifiche effettive all'architettura del modello, come la rimozione e la sostituzione di livelli esistenti o la ristrutturazione delle connessioni tra i livelli. Al contrario, la messa a punto comporta generalmente regolazioni di parametri piccoli e precisi senza modifiche significative all'architettura.

Pensa all'apprendimento del trasferimento come al rinnovamento di un edificio progettato per uno scopo in modo che possa essere utilizzato per un altro, come convertire un garage in un appartamento. Ciò comporterebbe probabilmente aggiornamenti strutturali come l'installazione di finestre e l'isolamento o persino l'aggiunta di nuove stanze e connessioni di utilità. La messa a punto, d'altra parte, è più simile all'uso del garage come spazio di lavoro extra senza apportare importanti modifiche alla struttura. Ad esempio, le luci potrebbero essere sostituite e potrebbero essere aggiunte nuove scaffali, ma la struttura e l'architettura complessive del garage rimangono invariate.

Tipi di apprendimento del trasferimento

Il trasferimento dell'apprendimento può assumere diverse forme, ognuna adatta a scenari specifici. Il tipo appropriato dipende da fattori come la disponibilità di dati etichettati nel dominio target, la somiglianza tra attività di origine e target e requisiti aziendali specifici. I principali tipi di apprendimento del trasferimento sono l'apprendimento del trasferimento induttivo,l'apprendimento trasduttivo di trasferimentoel'apprendimento del trasferimento non supervisionato. Inoltre, gli approcci moderni comel'apprendimento a pochi colpiel'apprendimento a colpo zerospesso sfruttano le tecniche di apprendimento del trasferimento.

Apprendimento del trasferimento induttivo

L'apprendimento del trasferimento induttivo è il tipo più comune di apprendimento del trasferimento e viene utilizzato quando le attività di destinazione e fonte sono strettamente correlate e molto diverse.

Esempio:un'organizzazione sanitaria potrebbe utilizzare l'apprendimento del trasferimento per adattare un modello addestrato per classificare le immagini MRI generali per rilevare condizioni cerebrali specifiche.

In questo scenario, le capacità di riconoscimento visivo generale del modello di origine si trasferiscono bene all'attività di destinazione, ma sono necessari dati etichettati nel dominio target. Il trasferimento dell'apprendimento è particolarmente efficace per le attività in cui sono disponibili nuove etichette, ma l'attività stessa è distinta da (e di solito una versione più specializzata di) la fonte.

Apprendimento trasduttivo di trasferimento

Nell'apprendimento del trasferimento trasdottivo, le attività di fonte e target sono le stesse, ma il dominio problematico è diverso.

Esempio:un filtro spam addestrato su e-mail in lingua inglese può essere adattato per classificare le e-mail francesi. In questo scenario, il riconoscimento del modello di testo del modello di origine e la comprensione della struttura e -mail trasferiscono bene all'attività target, anche se i modelli di vocabolario e lingua differiscono. L'attività (classificazione e -mail) rimane invariata, ma i dati (lingua) differiscono. Questo approccio è utile quando il dominio di origine ha dati etichettati abbondanti e il dominio target ha poco o nessuno.

Apprendimento di trasferimento non supervisionato

L'apprendimento di trasferimento non supervisionato viene utilizzato quando i dati etichettati non sono disponibili nel dominio target. In generale, questo tipo di apprendimento di trasferimento viene utilizzato per formare modelli per eseguire attività senza supervisione come la riduzione del clustering o della dimensionalità.

Esempio:un'organizzazione IT potrebbe utilizzare l'apprendimento del trasferimento non supervisionato per aiutare un sistema di rilevamento delle minacce alimentato dall'intelligenza artificiale a identificare nuovi tipi di minaccia senza esempi etichettati.

In questo caso, il modello può trasferire la sua comprensione generale dei modelli normali rispetto alle potenziali minacce a nuovi tipi di minacce precedentemente sconosciuti.

Apprendimento a pochi colpi

L'apprendimento a pochi tiri (FSL) è una tecnica ML che utilizza l'apprendimento del trasferimento per aiutare un modello a imparare da dati molto limitati. In FSL, i modelli imparano a eseguire nuove attività o classificazioni utilizzando solo alcuni esempi.

Esempio:un modello di riconoscimento facciale può identificare un nuovo individuo in base a una o due foto.

Apprendimento zero-shot

Zero-Shot Learning (ZSL) è una tecnica ML che aiuta un modello a imparare nuove lezioni non viste in formazione. ZSL utilizza spesso concetti di apprendimento del trasferimento ma si basa su relazioni semantiche e informazioni ausiliarie per generalizzare la conoscenza appresa a nuove categorie.

Esempio:un modello potrebbe imparare a riconoscere una tilapia in base alla sua comprensione di altri tipi di pesce e alla sua consapevolezza che la tilapia è un tipo di pesce nonostante non abbia mai visto una tilapia durante l'allenamento.

Vantaggi dell'apprendimento del trasferimento

Il trasferimento dell'apprendimento offre diversi vantaggi per le organizzazioni che cercano di sviluppare soluzioni AI su misura. Questi includono requisiti di sviluppo e risorse ridotti, buone prestazioni con dati limitati e robustezza del modello migliorata.

Requisiti di sviluppo e risorse ridotte

Il trasferimento dell'apprendimento è un ottimo modo per ridurre contemporaneamente il ciclo di sviluppo e ridurre i requisiti delle risorse per le applicazioni di intelligenza artificiale. Costruire un modello da zero comporta i dati di raccolta, pulizia e etichettatura, e questo prima dell'allenamento può persino iniziare. Con l'apprendimento del trasferimento, lo sviluppo e la distribuzione diventano una questione di settimane o addirittura giorni anziché mesi. La formazione di un modello da zero richiede spesso tempo e potenza computazionali significativi, mentre l'apprendimento del trasferimento non lo fa. Ciò significa che le organizzazioni possono portare le loro soluzioni di intelligenza artificiale sul mercato più rapidamente e con meno sovraccarico.

Buone prestazioni con dati limitati

Il trasferimento dell'apprendimento consente ai modelli di funzionare bene, anche con set di dati di formazione limitati. Ciò è estremamente utile per le organizzazioni in campi specializzati, come la produzione o l'assistenza sanitaria, in cui i dati etichettati sono difficili da trovare o costosi da procurarsi. Ad esempio, un'organizzazione sanitaria potrebbe avere solo poche centinaia di esempi etichettati di condizioni mediche specifiche, ma può utilizzare l'apprendimento del trasferimento per costruire un sistema di rilevamento performanti indipendentemente.

Modello migliorato robustezza e affidabilità

Sebbene possa sembrare intuitivo, i modelli addestrati attraverso l'apprendimento del trasferimento spesso generalizzano meglio dei modelli addestrati da zero su dati limitati. Questo perché i set di dati su larga scala utilizzati per il pre-allenamento forniscono diversi schemi e caratteristiche che sono generalizzabili a domini e attività più specifici. Inoltre, a partire da un modello che è già stato testato riduce il rischio di fallimento del modello e aumenta l'affidabilità. Questa riduzione della riduzione del rischio è importante in settori regolamentati come l'assistenza sanitaria e la finanza.

Sfide dell'apprendimento del trasferimento

Nonostante i suoi numerosi vantaggi, l'apprendimento del trasferimento ha anche diverse sfide e limitazioni. Le organizzazioni devono comprendere queste sfide in modo da poter progettare la giusta strategia di implementazione e avere aspettative realistiche. Queste sfide includono trasferimento negativo, disallineamento del dominio e selezione del modello.

Trasferimento negativo

Nel trasferimento negativo, la conoscenza del dominio di origine impedisce l'apprendimento dell'attività target e porta al modello pre-allenato che si esibisce peggio di uno addestrato da zero. Questa è una delle sfide più comuni con l'apprendimento del trasferimento e in genere si verifica quando i domini target e di origine sono troppo diversi. Ad esempio, un modello di visione artificiale addestrato a classificare le razze dei cani nelle immagini probabilmente funzionerà male se adattato all'analisi delle immagini mediche, poiché le caratteristiche apprese sono irrilevanti per il nuovo compito. Le caratteristiche che aiutano a distinguere le razze dei cani, come la trama della pelliccia, la lunghezza della coda e la forma dell'orecchio, non hanno alcuna applicazione significativa quando si tenta di classificare le scansioni mediche. Le organizzazioni dovrebbero confrontare attentamente i domini di origine e target per evitare il trasferimento negativo.

Dominio Mismatch

La mancata corrispondenza del dominio si verifica quando le differenze tra i dati disponibili per i domini di origine e target riducono le prestazioni del modello. Queste differenze possono includere variazioni nella qualità o alla distribuzione dei dati. A differenza del trasferimento negativo, un modello che soffriva di mancata corrispondenza del dominio potrebbe ancora funzionare meglio di uno addestrato da zero. Ad esempio, un modello addestrato su un set di dati vari e vari di immagini CAT non andrà bene per identificare i cani. Tuttavia, il modello farà comunque meglio in generale rispetto a un modello addestrato su una piccola serie di immagini per cani.

Selezione e modifica del modello

Selezione del modello pre-addestrato appropriato e capire come modificarlo può essere complesso e richiedere molto tempo. Le organizzazioni devono considerare tutti i tipi di fattori, tra cui l'allineamento tra domini di origine e target, infrastrutture disponibili e risorse del personale, dimensioni e qualità del set di dati di formazione e architettura modello. Inoltre, i modelli pre-addestrati sono spesso costruiti con ipotesi e dipendenze che potrebbero non essere immediatamente evidenti. La selezione del modello appropriato e apportare le giuste modifiche richiede competenze, tempo per la sperimentazione e infrastrutture a cui non tutte le organizzazioni possono avere accesso.

Applicazioni dell'apprendimento del trasferimento

Il trasferimento dell'apprendimento è un modo più semplice e affidabile per creare sistemi di intelligenza artificiale per compiti o domini specifici rispetto alla costruzione di un nuovo modello. Successivamente, la tecnica ha trovato un'adozione diffusa e ha numerose applicazioni, tra cui la visione artificiale, l'elaborazione del linguaggio naturale (NLP) e il riconoscimento e la generazione vocale.

Visione artificiale

Il trasferimento dell'apprendimento ha avuto molto successo nella visione artificiale. Le organizzazioni possono creare applicazioni di visione personalizzate relativamente facilmente utilizzando modelli di visione pre-addestrati che hanno appreso funzionalità generalizzabili da milioni di immagini. Ad esempio, un'impresa di sicurezza può adattare un modello di visione artificiale pre-addestrata per rilevare comportamenti sospetti nei feed di sorveglianza o identificare oggetti di interesse specifici, il tutto senza enormi quantità di dati di formazione o sviluppo di modelli specializzati.

Elaborazione del linguaggio naturale (PNL)

Un'importante applicazione dell'apprendimento del trasferimento è la formazione di un modello per gestire compiti specifici della PNL. Ad esempio, uno studio legale potrebbe selezionare un modello PNL pre-addestrato come base per uno strumento di analisi del documento e quindi insegnare il modello a gestire domini legali specifici utilizzando l'apprendimento del trasferimento.

Riconoscimento vocale e generazione

Il trasferimento dell'apprendimento viene anche utilizzato per formare modelli per applicazioni vocali specializzate. Ad esempio, un call center potrebbe adattare un modello vocale generalizzato per comprendere la terminologia specifica del settore e creare un sistema di servizio clienti automatizzato più su misura. Un altro esempio sarebbe l'utilizzo dell'apprendimento del trasferimento per personalizzare un modello di comando vocale addestrato per attività linguistiche generali per gestire dialetti e lingue specifici.