Apprendimento per rinforzo: cos'è e come funziona

Pubblicato: 2024-07-17

Nell’affascinante mondo dell’intelligenza artificiale, l’apprendimento per rinforzo si distingue come una potente tecnica che consente alle macchine di apprendere comportamenti ottimali attraverso prove ed errori, proprio come gli esseri umani e gli animali acquisiscono competenze nel mondo reale.

Sommario

  • Cos’è l’apprendimento per rinforzo?
  • RL vs apprendimento supervisionato e non supervisionato
  • Come funziona l'apprendimento per rinforzo
  • Tipi di apprendimento per rinforzo
  • Applicazioni dell'apprendimento per rinforzo
  • Vantaggi dell'apprendimento per rinforzo
  • Svantaggi dell’apprendimento per rinforzo

Cos’è l’apprendimento per rinforzo (RL)?

L'apprendimento per rinforzo (RL) è un tipo di apprendimento automatico (ML) in cui un agente impara a prendere decisioni interagendo con il suo ambiente. In questo contesto, l'agente è un programma che prende decisioni sulle azioni da intraprendere, riceve feedback sotto forma di premi o penalità e adatta il proprio comportamento per massimizzare i premi cumulativi.

L'apprendimento automatico è un sottoinsieme dell'intelligenza artificiale (AI) che utilizza dati e metodi statistici per creare programmi che imitano il ragionamento umano anziché fare affidamento su istruzioni codificate. RL si ispira direttamente al modo in cui le persone utilizzano tentativi ed errori per ottimizzare le proprie decisioni.

Lavora in modo più intelligente con Grammarly
Il partner di scrittura basato sull'intelligenza artificiale per chiunque abbia del lavoro da svolgere

Rinforzo vs. apprendimento supervisionato e non supervisionato

Nell'apprendimento supervisionato , i modelli vengono addestrati utilizzando dati etichettati, in cui viene fornito l'output corretto per ciascun input.Questa guida aiuta il modello a fare previsioni accurate quando si trova ad affrontare dati nuovi e invisibili. L'apprendimento supervisionato è utile per attività come il rilevamento dello spam, la classificazione delle immagini e le previsioni meteorologiche.

D’altra parte,l’apprendimento non supervisionato funziona con dati senza etichetta per trovare modelli e raggruppamenti.Può raggruppare punti dati simili, trovare associazioni tra elementi e ridurre la complessità dei dati per un'elaborazione più semplice. Gli esempi includono la segmentazione della clientela, i sistemi di raccomandazione e il rilevamento delle anomalie.

L’apprendimento per rinforzo è distinto da entrambi.In RL, un agente impara interagendo con il suo ambiente e ricevendo feedback positivi o negativi. Questo ciclo di feedback consente all'agente di adattare le proprie azioni per ottenere i migliori risultati possibili. RL è particolarmente utile per attività in cui l'agente deve apprendere una sequenza di decisioni, come nel gioco, nella robotica e nella guida autonoma.

Come funziona l'apprendimento per rinforzo

Comprendere i principi di RL è fondamentale per comprendere come gli agenti intelligenti apprendono e prendono decisioni. Di seguito, esploreremo i concetti chiave e il processo RL in dettaglio.

Concetti chiave in RL

RL ha un vocabolario distinto che non si applica ad altri tipi di ML. Le principali nozioni da comprendere sono:

1 Agente e ambiente: l'agente è il programma informatico che prende le decisioni, mentre l'ambiente comprende tutto ciò con cui interagisce.Ciò include tutti gli stati e le azioni possibili, comprese le decisioni precedenti prese dall'agente. L’interazione tra l’agente e l’ambiente è il fulcro del processo di apprendimento.

2 Stato e azione: lo stato rappresenta la situazione attuale dell'agente in un dato momento e un'azione è una decisione che l'agente può prendere in risposta al suo stato.L'agente mira a scegliere le azioni che porteranno agli stati più favorevoli.

3 Ricompensa e punizione: Dopo aver compiuto un'azione, l'agente riceve un feedback dall'ambiente: se positivo si chiama ricompensa, se negativo, punizione.Questo feedback aiuta l'agente a capire quali azioni sono vantaggiose e quali dovrebbero essere evitate, guidando le sue decisioni future.

4 Politica: una politica è la strategia dell'agente per decidere quale azione intraprendere in ciascuno stato.Associa gli stati alle azioni, fungendo da guida dell'agente per ottenere i migliori risultati in base alle esperienze passate.

5 Funzione valore: la funzione valore stima il beneficio a lungo termine derivante dall'essere in un determinato stato o dall'intraprendere una determinata azione.Aiuta l'agente a comprendere le potenziali ricompense future, anche se ciò significa sopportare una ricompensa negativa a breve termine per massimizzare il guadagno a lungo termine. La funzione valore è essenziale per prendere decisioni che ottimizzino i premi cumulativi nel tempo.

Il processo RL

Sebbene lo scopo e il metodo di apprendimento siano piuttosto diversi da altri tipi di ML, il processo è simile in termini di preparazione dei dati, scelta dei parametri, valutazione e iterazione.

Ecco una breve panoramica del processo RL:

1 Definizione del problema e definizione degli obiettivi.Definire chiaramente il problema e determinare gli scopi e gli obiettivi dell'agente, inclusa la struttura della ricompensa. Questo ti aiuterà a decidere quali dati ti servono e quale algoritmo selezionare.

2 Raccolta e inizializzazione dei dati.Raccogli i dati iniziali, definisci l'ambiente e imposta i parametri necessari per l'esperimento RL.

3 Preelaborazione e ingegneria delle funzionalità.Pulisci i dati: controlla a campione, rimuovi i duplicati, assicurati di avere le etichette delle caratteristiche corrette e decidi come gestire i valori mancanti. In molti casi, ti consigliamo di creare nuove funzionalità per chiarire aspetti importanti dell'ambiente, come la creazione di un singolo punto dati di posizionamento da diversi input di sensori.

4 Selezione dell'algoritmo.In base al problema e all'ambiente, scegli l'algoritmo RL appropriato e configura le impostazioni principali, note come iperparametri. Ad esempio, dovrai stabilire l'equilibrio tra esplorazione (provare nuovi percorsi) e sfruttamento (seguire percorsi conosciuti).

5 Formazione.Addestra l'agente permettendogli di interagire con l'ambiente, intraprendere azioni, ricevere ricompense e aggiornare la sua politica. Regola gli iperparametri e ripeti il ​​processo. Continuare a monitorare e adattare il compromesso esplorazione-sfruttamento per garantire che l'agente impari in modo efficace.

6 Valutazione.Valuta le prestazioni dell'agente utilizzando i parametri e osserva le sue prestazioni negli scenari applicabili per garantire che soddisfi gli scopi e gli obiettivi definiti.

7 Messa a punto e ottimizzazione del modello.Regola gli iperparametri, perfeziona l'algoritmo e riqualifica l'agente per migliorare ulteriormente le prestazioni.

8 Distribuzione e monitoraggio.Una volta che sei soddisfatto delle prestazioni dell'agente, distribuisci l'agente addestrato in un ambiente reale. Monitorare continuamente le sue prestazioni e implementare un ciclo di feedback per l'apprendimento e il miglioramento continui.

9 Manutenzione e aggiornamento.Sebbene l'apprendimento continuo sia molto utile, occasionalmente potrebbe essere necessario riqualificarsi rispetto alle condizioni iniziali per sfruttare al meglio nuovi dati e tecniche. Aggiorna periodicamente la knowledge base dell'agente, riqualificalo con nuovi dati e assicurati che si adatti ai cambiamenti nell'ambiente o negli obiettivi.

Tipi di apprendimento per rinforzo

L’apprendimento per rinforzo può essere ampiamente classificato in tre tipologie: senza modello, basato su modello e ibrido. Ogni tipo ha i suoi casi d'uso e metodi specifici.

Apprendimento per rinforzo senza modelli

Con RL senza modello, l'agente apprende direttamente dalle interazioni con l'ambiente. Non cerca di comprendere o prevedere l'ambiente ma cerca semplicemente di massimizzare le proprie prestazioni all'interno della situazione presentata. Un esempio di RL senza modello è un aspirapolvere robotico Roomba: man mano che procede, impara dove si trovano gli ostacoli e li scontra progressivamente di meno mentre pulisce di più.

Esempi:

  • Metodi basati sul valore.Il più comune è il Q-learning, dove un valore Q rappresenta le ricompense future previste per aver intrapreso una determinata azione in un dato stato. Questo metodo è ottimale per situazioni con scelte discrete, vale a dire opzioni limitate e definite, come ad esempio quale direzione svoltare a un incrocio. È possibile assegnare manualmente valori Q, utilizzare un valore zero o basso per evitare distorsioni, randomizzare valori per incoraggiare l'esplorazione o utilizzare valori uniformemente alti per garantire un'esplorazione iniziale approfondita. Ad ogni iterazione, l'agente aggiorna questi valori Q per riflettere strategie migliori. L’apprendimento basato sui valori è popolare perché è semplice da implementare e funziona bene in spazi di azione discreti, sebbene possa avere difficoltà con troppe variabili.
  • Metodi del gradiente di politica: a differenza del Q-learning, che cerca di stimare il valore delle azioni in ciascuno stato, i metodi del gradiente di politica si concentrano direttamente sul miglioramento della strategia (o politica) che l’agente utilizza per scegliere le azioni.Invece di stimare i valori, questi metodi adattano la politica per massimizzare la ricompensa attesa. I metodi del gradiente politico sono utili in situazioni in cui le azioni possono avere qualsiasi valore – seguendo l’analogia di cui sopra, ciò potrebbe significare camminare in qualsiasi direzione attraverso un campo – o dove è difficile determinare il valore di diverse azioni. Possono gestire processi decisionali più complessi e un continuum di scelte, ma di solito necessitano di maggiore potenza di calcolo per funzionare in modo efficace.

Apprendimento per rinforzo basato su modelli

Il RL basato su modello implica la creazione di un modello dell'ambiente per pianificare azioni e prevedere stati futuri. Questi modelli catturano l’interazione tra azioni e cambiamenti di stato prevedendo la probabilità che un’azione influenzi lo stato dell’ambiente e le conseguenti ricompense o penalità. Questo approccio può essere più efficiente, poiché l’agente può simulare internamente diverse strategie prima di agire. Un’auto a guida autonoma utilizza questo approccio per capire come rispondere alle caratteristiche del traffico e ai vari oggetti. La tecnica senza modello di Roomba sarebbe inadeguata per compiti così complessi.

Esempi:

  • Dyna-Q: Dyna-Q è un algoritmo ibrido di apprendimento per rinforzo che combina l'apprendimento Q con la pianificazione.L'agente aggiorna i suoi valori Q in base alle interazioni reali con l'ambiente e alle esperienze simulate generate da un modello. Dyna-Q è particolarmente utile quando le interazioni nel mondo reale sono costose o richiedono molto tempo.
  • Monte Carlo Tree Search (MCTS): MCTS simula molte possibili azioni future e afferma di costruire un albero di ricerca per rappresentare le decisioni che seguono ciascuna scelta.L'agente utilizza questo albero per decidere l'azione migliore stimando le potenziali ricompense dei diversi percorsi. MCTS eccelle negli scenari decisionali con una struttura chiara, come i giochi da tavolo come gli scacchi, e può gestire una pianificazione strategica complessa.

I metodi basati su modelli sono appropriati quando l’ambiente può essere modellato accuratamente e quando le simulazioni possono fornire informazioni preziose. Richiedono meno campioni rispetto ai metodi senza modello, ma tali campioni devono essere accurati, il che significa che potrebbero richiedere uno sforzo computazionale maggiore per essere sviluppati.

Apprendimento per rinforzo ibrido

L’apprendimento per rinforzo ibrido combina approcci per sfruttare i rispettivi punti di forza. Questa tecnica può aiutare a bilanciare i compromessi tra efficienza del campione e complessità computazionale.

Esempi:

  • Ricerca politica guidata (GPS): il GPS è una tecnica ibrida che alterna l’apprendimento supervisionato e l’apprendimento per rinforzo.Utilizza l'apprendimento supervisionato per addestrare una policy basata sui dati generati da un controller basato su modello. La politica viene quindi perfezionata utilizzando l’apprendimento per rinforzo per gestire parti dello spazio degli stati in cui il modello è meno accurato. Questo approccio aiuta a trasferire la conoscenza dalla pianificazione basata su modelli all’apprendimento diretto delle politiche.
  • Architetture integrate: alcune architetture integrano vari componenti basati su modelli e senza modelli in un unico framework, adattandosi a diversi aspetti di un ambiente complesso anziché imporre un approccio su tutto.Ad esempio, un agente potrebbe utilizzare un approccio basato su modelli per la pianificazione a lungo termine e un approccio privo di modelli per il processo decisionale a breve termine.
  • Modelli mondiali: i modelli mondiali sono un approccio in cui l'agente costruisce una rappresentazione compatta e astratta dell'ambiente, che utilizza per simulare stati futuri.L'agente utilizza un approccio senza modello per apprendere le politiche all'interno di questo ambiente simulato interno. Questa tecnica riduce la necessità di interazioni nel mondo reale.

Applicazioni dell'apprendimento per rinforzo

RL ha una vasta gamma di applicazioni in vari settori:

  • Gioco: gli algoritmi RL hanno raggiunto prestazioni sovrumane in casi come gli scacchi e i videogiochi.Un esempio notevole è AlphaGo, che gioca al gioco da tavolo Go utilizzando un ibrido di reti neurali profonde e Monte Carlo Tree Search. Questi successi dimostrano la capacità di RL di sviluppare strategie complesse e di adattarsi ad ambienti dinamici.
  • Robotica: nella robotica, RL aiuta ad addestrare i robot a svolgere compiti come afferrare oggetti e superare ostacoli.Il processo di apprendimento per tentativi ed errori consente ai robot di adattarsi alle incertezze del mondo reale e di migliorare le proprie prestazioni nel tempo, superando approcci inflessibili basati su regole.
  • Sanità: rispondendo ai dati specifici del paziente, RL può ottimizzare i piani di trattamento, gestire studi clinici e personalizzare la medicina.RL può anche suggerire interventi che massimizzano i risultati dei pazienti imparando continuamente dai dati dei pazienti.
  • Finanza: il RL basato su modelli ben si adatta ai parametri chiari e alle dinamiche complesse di varie parti del campo finanziario, in particolare quelle che interagiscono con mercati altamente dinamici.I suoi usi qui includono la gestione del portafoglio, la valutazione del rischio e le strategie di trading che si adattano alle nuove condizioni di mercato.
  • Veicoli autonomi: le auto a guida autonoma utilizzano modelli addestrati alla RL per rispondere a ostacoli, condizioni stradali e modelli di traffico dinamici.Applicano immediatamente questi modelli per adattarsi alle condizioni di guida attuali, reimmettendo allo stesso tempo i dati in un processo di formazione continua centralizzato. Il feedback continuo proveniente dall’ambiente aiuta questi veicoli a migliorare la loro sicurezza ed efficienza nel tempo.

Vantaggi dell'apprendimento per rinforzo

  • Apprendimento adattivo: gli agenti RL imparano continuamente e si adattano alle loro interazioni con l'ambiente.L'apprendimento al volo rende RL particolarmente adatto per ambienti dinamici e imprevedibili.
  • Versatilità: RL funziona per una vasta gamma di problemi che coinvolgono una sequenza di decisioni in cui una influenza l'ambiente successivo, dal gioco alla robotica all'assistenza sanitaria.
  • Processo decisionale ottimale: RL si concentra sulla massimizzazione delle ricompense a lungo termine, garantendo che gli agenti RL sviluppino strategie ottimizzate per i migliori risultati possibili nel tempo piuttosto che semplicemente per la decisione successiva.
  • Automazione di attività complesse: RL può automatizzare attività difficili da codificare, come l'allocazione dinamica delle risorse, sistemi di controllo complessi come la gestione della rete elettrica e raccomandazioni personalizzate con precisione.

Svantaggi dell’apprendimento per rinforzo

  • Dati e requisiti computazionali: RL spesso richiede grandi quantità di dati e potenza di elaborazione, entrambi i quali possono diventare piuttosto costosi.
  • Tempi di formazione lunghi: la formazione degli agenti RL può richiedere settimane o addirittura mesi quando il processo prevede l'interazione con il mondo reale e non semplicemente con un modello.
  • Complessità: progettare e mettere a punto i sistemi RL implica un’attenta considerazione della struttura della ricompensa, della rappresentazione delle politiche e dell’equilibrio esplorazione-sfruttamento.Queste decisioni devono essere prese attentamente per evitare di impiegare troppo tempo o risorse.
  • Sicurezza e affidabilità: per applicazioni critiche come l’assistenza sanitaria e la guida autonoma, comportamenti imprevisti e decisioni non ottimali possono avere conseguenze significative.
  • Bassa interpretabilità: in alcuni processi RL, soprattutto in ambienti complessi, è difficile o impossibile sapere esattamente come l'agente è arrivato alle sue decisioni.
  • Inefficienza del campione: molti algoritmi RL richiedono un gran numero di interazioni con l’ambiente per apprendere politiche efficaci.Ciò può limitare la loro utilità in scenari in cui le interazioni nel mondo reale sono costose o limitate.