Apprendimento non supervisionato: cos'è e come funziona

Pubblicato: 2024-07-03

Svela i misteri dell'apprendimento non supervisionato, una tecnica rivoluzionaria che consente alle macchine di diventare analisti di dati autonomi, estraendo informazioni preziose senza l'intervento umano.

Sommario

Cos’è l’apprendimento non supervisionato?
Apprendimento non supervisionato e apprendimento supervisionato
Come funziona l'apprendimento non supervisionato
Tipi di apprendimento non supervisionato
Applicazioni dell'apprendimento non supervisionato
Vantaggi dell’apprendimento non supervisionato
Svantaggi dell’apprendimento non supervisionato

Cos’è l’apprendimento non supervisionato?

L'apprendimento non supervisionato è un tipo di machine learning (ML) che trova autonomamente modelli e relazioni all'interno dei dati. Il terminenon supervisionatosignifica che il modello utilizza dati senza etichetta, il che significa che non riceve istruzioni dagli esseri umani su cosa cercare o addirittura indicazioni su cosa sta guardando. Utilizza invece algoritmi per valutare set di dati e trovare correlazioni, somiglianze, differenze e altri modi per descrivere i dati utilizzando la matematica.

L'apprendimento automatico è un sottoinsieme dell'intelligenza artificiale (AI) che utilizza dati e metodi statistici per costruire modelli che imitano il ragionamento umano anziché fare affidamento su istruzioni codificate. L'apprendimento non supervisionato adotta un approccio esplorativo e basato sui dati per trarre conclusioni da grandi set di dati, ad esempio raggruppando entità in base a caratteristiche comuni o scoprendo quali punti dati tendono a coesistere, il che potrebbe comportare la separazione di immagini di alberi decidui da alberi sempreverdi o la scoperta di che le persone che guardano in streamingSesame Streetprobabilmente guarderanno ancheDaniel Tiger.

Lavora in modo più intelligente con Grammarly

Il partner di scrittura basato sull'intelligenza artificiale per chiunque abbia del lavoro da svolgere

Apprendimento non supervisionato e apprendimento supervisionato

A differenza dei metodi non supervisionati, l’apprendimento supervisionato utilizza dati etichettati che accoppiano gli input con gli output corretti. Al contrario, l’apprendimento non supervisionato non ha input e output che il modello possa intuire, ma solo dati da analizzare.

Le etichette forniscono la cosiddetta supervisione del processo di apprendimento del modello, guidandolo a decodificare il suo percorso verso la risposta corretta da un dato input. L'uso dell'apprendimento supervisionato ha senso quando si dispone di questo tipo di dati a cui il modello può mirare e da cui estrapolare, tra cui:

Decisioni sì o no , come il rilevamento di spam o frode
Classificazione , come l'identificazione di oggetti all'interno di un'immagine o il riconoscimento vocale
Previsioni , come i prezzi delle case o il meteo

L'apprendimento non supervisionato, al contrario, non serve per arrivare alla risposta giusta ma piuttosto per trovare modelli o raggruppamenti all'interno dei dati. Le tre applicazioni principali sono:

Clustering , come la segmentazione dei clienti o il raggruppamento di documenti
Associazione , come motori di raccomandazione o anomalie di sicurezza
Riduzione della dimensionalità , generalmente utilizzata per comprimere dataset di grandi dimensioni per renderli più gestibili

L'apprendimento automatico non si limita solo ai metodi supervisionati o non supervisionati; queste sono semplicemente le due estremità di uno spettro. Altri tipi di metodi di apprendimento automatico includono l’apprendimento semi-supervisionato, di rinforzo e auto-supervisionato.

Come funziona l'apprendimento non supervisionato

L’apprendimento non supervisionato è concettualmente semplice: gli algoritmi elaborano grandi quantità di dati per determinare come sono correlati i vari punti dati. Poiché i dati non sono etichettati, l’apprendimento non supervisionato non ha contesto né obiettivo. Sta semplicemente cercando di trovare modelli e altre caratteristiche.

Ecco una breve panoramica del processo di apprendimento non supervisionato:

1 Raccolta e pulizia dei dati.L'apprendimento non supervisionato valuta una tabella alla volta, quindi se disponi di più set di dati, devi unirli attentamente. È anche importante riordinare i dati al meglio delle tue capacità, ad esempio rimuovendo i duplicati e correggendo gli errori.

2 Ridimensionamento delle caratteristiche.Gli algoritmi non supervisionati possono essere influenzati da intervalli ampi, quindi valuta la possibilità di trasformare le funzionalità in intervalli più ristretti utilizzando tecniche tra cui:

Normalizzazione: trasforma il valore più alto in 1, il valore più basso in 0 e tutto il resto come decimale.
Standardizzazione: specifica il valore medio come 0 e la deviazione standard come 1, con ciascun punto dati modificato di conseguenza.
Trasformazione logaritmica: comprime ampi intervalli, quindi con un logaritmo in base 10, 100.000 diventa 6 e 1.000.000 diventa 7.

3 Selezione dell'algoritmo.Esistono più algoritmi per ogni tipo di apprendimento non supervisionato, ciascuno con punti di forza e di debolezza (li esamineremo nella sezione successiva). Puoi scegliere di applicare algoritmi diversi allo stesso set di dati e confrontarli.

4 Scoperta e identificazione di modelli.L'algoritmo scelto si mette al lavoro. Questa operazione può richiedere da secondi ad ore, a seconda delle dimensioni del set di dati e dell'efficienza dell'algoritmo. Se disponi di un set di dati di grandi dimensioni, potresti voler eseguire l'algoritmo su un sottoinsieme prima di elaborare il tutto.

5 Interpretazione.In questa fase, è tempo che gli esseri umani prendano il sopravvento. Un analista di dati può utilizzare grafici, controlli a campione e vari calcoli per analizzare e interpretare i dati.

6 Applicazione.Una volta che sei sicuro di ottenere risultati utili, mettilo in pratica. Parleremo più avanti di alcune applicazioni dell'apprendimento non supervisionato.

Tipi di apprendimento non supervisionato

Esistono diversi tipi di apprendimento non supervisionato, ma i tre più utilizzati sono il clustering, le regole di associazione e la riduzione della dimensionalità.

Raggruppamento

Il clustering crea gruppi di punti dati. È davvero utile per raggruppare elementi simili tra loro in modo che possano essere successivamente classificati mediante analisi umana. Ad esempio, se disponi di un set di dati che include l'età del cliente e l'importo medio in dollari della transazione, potrebbe trovare cluster che ti aiutano a decidere dove indirizzare i tuoi dollari pubblicitari.

I tipi di clustering includono:

Clustering esclusivo o rigido.Ogni punto dati può appartenere a un solo cluster. Un approccio popolare noto come k-means ti consente di specificare il numero di cluster che desideri creare, sebbene altri possano determinare il numero ottimale di cluster.
Raggruppamento sovrapposto o morbido. Questo approccio consente a un punto dati di trovarsi in più cluster e di avere un "grado" di appartenenza a ciascuno anziché puramente in entrata o in uscita.
Clustering gerarchico. Se viene eseguito dal basso verso l'alto, si chiama clustering agglomerativo gerarchico o HAC; il metodo top-down è chiamato clustering divisivo. Entrambi coinvolgono molti cluster organizzati in cluster sempre più grandi.
Cluster probabilistico. Questo è un approccio diverso che calcola la probabilità percentuale che un dato punto dati appartenga a qualsiasi categoria. Un vantaggio di questo approccio è che può assegnare a un determinato punto dati una probabilità molto bassa di far parte di un determinato cluster, il che potrebbe evidenziare dati anomali o corrotti.

Regole dell'associazione

Conosciuto anche come mining di regole di associazione o apprendimento di regole di associazione, questo approccio trova relazioni interessanti tra i punti dati. L'uso più comune delle regole di associazione è quello di capire quali articoli vengono comunemente acquistati o utilizzati insieme in modo che il modello possa suggerire la prossima cosa da acquistare o mostrare da guardare.

I tre concetti fondamentali delle regole di associazione sono:

Supporto.Con quale frequenza A e B si trovano insieme come percentuale di tutte le istanze disponibili (ad esempio, transazioni)? A e B possono essere elementi singoli o insiemi che rappresentano più elementi.
Fiducia. Quanto spesso accade che se si vede A, si vede anche B?
Sollevare. Qual è la probabilità che A e B vengano visti insieme, rispetto a se non ci fosse correlazione? Il lift è la misura dell'“interesse” di un'associazione.

Riduzione della dimensionalità

La riduzione della dimensionalità corrisponde al numero di colonne in una tabella. Altri termini per le colonne in questo contesto sonocaratteristicheoattributi. Man mano che il numero di funzionalità in un set di dati cresce, analizzare i dati e ottenere risultati ottimali diventa più impegnativo.

I dati ad alta dimensione richiedono più tempo, potenza di calcolo ed energia per essere elaborati. Può anche portare a risultati inferiori agli standard. Un esempio particolarmente dannoso è l’overfitting, la tendenza dei modelli di machine learning a imparare troppo dai dettagli dei dati di addestramento a scapito di modelli più ampi che si generalizzano bene ai nuovi dati.

Gli algoritmi di riduzione della dimensionalità creano set di dati semplificati condensando i dati originali in versioni più piccole e più gestibili che conservano le informazioni più importanti. Funzionano unendo caratteristiche correlate e rilevando la variazione rispetto alla tendenza generale, riducendo efficacemente il numero di colonne senza perdere i dettagli chiave.

Ad esempio, se disponi di un set di dati sugli hotel e sui relativi servizi, il modello potrebbe scoprire che molte funzionalità sono correlate alla valutazione in stelle, quindi potrebbe comprimere attributi come spa, servizio in camera e reception aperta 24 ore su 24 in un'unica colonna.

In genere, gli ingegneri riducono la dimensionalità come fase di pre-elaborazione per migliorare le prestazioni e i risultati di altri processi, incluso ma non limitato al clustering e all'apprendimento delle regole di associazione.

Applicazioni dell'apprendimento non supervisionato

Alcuni esempi includono:

Analisi del paniere di mercato.I rivenditori fanno ampio uso delle regole associative. Ad esempio, se hai messo gli hot dog nel carrello della spesa, potrebbe suggerirti di acquistare ketchup e panini per hot dog perché ha riscontrato un notevole aumento di queste combinazioni da parte di altri acquirenti. Gli stessi dati potrebbero anche portarli a mettere ketchup e hot dog uno accanto all’altro al supermercato.
Motori di raccomandazione. Questi esaminano i tuoi dati personali, dati demografici e modelli di comportamento, e li confrontano con quelli degli altri per indovinare cosa potresti divertirti ad acquistare o guardare dopo. Possono utilizzare tre tipi di apprendimento non supervisionato: clustering per determinare quali modelli di altri clienti potrebbero prevedere i tuoi, regole di associazione per trovare correlazioni tra determinate attività o acquisti e riduzione della dimensionalità per facilitare l'elaborazione di set di dati complessi.
Segmentazione della clientela. Mentre gli esperti di marketing dividono da decenni il loro pubblico in categorie denominate, il clustering senza supervisione può individuare raggruppamenti che potrebbero non essere stati nella mente di nessun essere umano. Questo approccio consente un'analisi basata sul comportamento e può aiutare i team a indirizzare messaggi e promozioni in modi nuovi.
Rilevamento anomalie.Poiché è molto efficace nel comprendere i modelli, l'apprendimento non supervisionato viene spesso utilizzato per avvisare quando le cose sono anormali. Gli usi includono la segnalazione di acquisti fraudolenti con carta di credito, dati corrotti in una tabella e opportunità di arbitraggio nei mercati finanziari.
Riconoscimento vocale.Il parlato è complicato da analizzare per i computer, poiché devono fare i conti con il rumore di fondo, gli accenti, i dialetti e le voci. L'apprendimento non supervisionato aiuta i motori di riconoscimento vocale ad apprendere quali suoni sono correlati a quali fonemi (unità del discorso) e quali fonemi vengono generalmente ascoltati insieme, oltre a filtrare il rumore di fondo e altri miglioramenti.

Vantaggi dell’apprendimento non supervisionato

Basso coinvolgimento umano.Una volta che un sistema di apprendimento non supervisionato si è dimostrato affidabile, la sua gestione richiede poco sforzo oltre a garantire che gli input e gli output siano instradati correttamente.
Funziona su dati grezzi. Non è necessario fornire etichette, ovvero specificare quale output dovrebbe risultare da un dato input. Questa capacità di gestire i dati così come arrivano è estremamente preziosa quando si ha a che fare con enormi quantità di dati non trattati.
Scoperta di modelli nascosti. Senza alcun obiettivo o programma diverso dalla ricerca di modelli, l'apprendimento non supervisionato può indirizzarti verso "conoscenze sconosciute", conclusioni basate su dati che non avevi considerato in precedenza ma che hanno senso una volta presentati. Questo approccio è particolarmente utile per trovare gli aghi nei pagliai, come l’analisi del DNA per individuare la causa della morte cellulare.
Esplorazione dei dati. Riducendo la dimensionalità e individuando modelli e cluster, l'apprendimento non supervisionato offre agli analisti un vantaggio nel dare un senso a nuovi set di dati.
Formazione incrementale. Molti modelli non supervisionati possono apprendere strada facendo: man mano che arrivano più dati, possono valutare l'input più recente in relazione a ciò che hanno già scoperto. Ciò richiede molto meno tempo e sforzi di calcolo.

Svantaggi dell’apprendimento non supervisionato

Hai bisogno di molti dati.L’apprendimento non supervisionato è soggetto a grossi errori se addestrato su esempi limitati. Potrebbe trovare modelli nei dati che non sono validi nel mondo reale (overfitting), cambiare radicalmente di fronte a nuovi dati (instabilità) o non avere informazioni sufficienti per determinare qualcosa di significativo (scoperta di modelli limitata).
Bassa interpretabilità. Potrebbe essere difficile capire perché un algoritmo, come la logica del clustering, sia giunto a una conclusione particolare.
Falsi positivi. Un modello non supervisionato potrebbe leggere troppo in punti dati anomali ma non importanti senza etichette per insegnargli ciò che merita attenzione.
Difficile da valutare sistematicamente.Poiché non esiste una risposta “giusta” con cui confrontarla, non esiste un modo semplice per misurare l'accuratezza o l'utilità dell'output. Il problema può essere in qualche modo mitigato eseguendo algoritmi diversi sugli stessi dati, ma alla fine la misura della qualità sarà in gran parte soggettiva.