L'apprentissage Zero-Shot expliqué : l'avenir de l'apprentissage automatique sans étiquettes

Publié: 2025-01-13

L'apprentissage zéro-shot (ZSL) révolutionne l'apprentissage automatique (ML) en permettant aux modèles de classer ou de prédire les résultats de concepts qu'ils n'ont jamais rencontrés auparavant, marquant une rupture avec les approches traditionnelles qui nécessitent de nombreuses données étiquetées. Ce guide explore le fonctionnement du ZSL, ses applications, sa comparaison avec l'apprentissage en quelques étapes (FSL), ainsi que ses défis et son potentiel futur.

Table des matières

  • Qu’est-ce que l’apprentissage sans tir ?
  • Comment fonctionne l'apprentissage sans tir
  • Apprentissage sans tir vs apprentissage en quelques coups et apprentissage en un seul coup
  • Apprentissage zéro tir ou invite zéro tir
  • Applications de l'apprentissage zéro-shot
  • Avantages de l'apprentissage sans tir
  • Les défis de l'apprentissage sans tir

Travaillez plus intelligemment avec Grammarly
Le partenaire d'écriture IA pour tous ceux qui ont du travail à faire

Qu'est-ce que l'apprentissage sans tir (ZSL) ?

ZSL permet aux modèles d'apprentissage automatique de faire des prédictions sur des catégories invisibles sans nécessiter d'exemples de formation spécifiques pour ces catégories. Contrairement aux modèles d'apprentissage supervisé traditionnels, qui s'appuient fortement sur des ensembles de données étiquetés dans lesquels chaque catégorie doit être explicitement représentée, ZSL exploite des informations auxiliaires, telles que des intégrations sémantiques ou des attributs, pour généraliser les connaissances.

Par exemple, un modèle d'apprentissage supervisé formé pour classer les animaux aurait besoin d'exemples étiquetés de « chien », « chat » et « zèbre » pour les reconnaître, alors qu'un modèle ZSL formé sur des images d'animaux pourrait identifier un zèbre sur la base d'attributs descriptifs tels que « rayé »et« ressemblant à un cheval », même sans exposition à des exemples antérieurs. Cela rend ZSL particulièrement utile pour les tâches impliquant de grands ensembles de données non étiquetés ou dans les situations où la collecte de données étiquetées n'est pas pratique. Ses applications couvrent la vision par ordinateur, le traitement du langage naturel (NLP), la robotique, etc.

Comment fonctionne l'apprentissage sans tir

Les modèles ZSL sont d'abord pré-entraînés sur un grand ensemble de données étiquetées pour créer une base de connaissances. Le modèle extrait des informations auxiliaires des données étiquetées, notamment des caractéristiques telles que la couleur, la forme et le sentiment.

Il utilise ensuite ces fonctionnalités pour cartographier les relations sémantiques entre les catégories (ou classes) de données visibles et invisibles. Ce processus, appelé transfert de connaissances, permet à un modèle ZSL de comprendre, par exemple, qu'un canard et une oie sont liés parce qu'ils ont tous deux un bec, des plumes et des pattes palmées.

Les techniques les plus courantes sont le ZSL basé sur les attributs, le ZSL basé sur l'intégration sémantique et le ZSL généralisé. Ci-dessous, nous examinons chacun.

Apprentissage zéro-shot basé sur les attributs

Les modèles ZSL basés sur les attributs sont le plus souvent utilisés pour les tâches de vision par ordinateur. Ils travaillent par formation sur des ensembles de données d’images étiquetées par l’homme. Les étiquettes sont constituées d'attributs que la personne qui étiquette considère comme utiles. Pour chaque image, la personne applique une description textuelle de ses caractéristiques, telles que la couleur, la forme ou d'autres caractéristiques.

Par exemple, dans la classification d'images, des attributs tels que « gris », « à quatre pattes » et « chien » peuvent décrire différentes catégories. Grâce à la formation, le modèle apprend à associer ces attributs à des catégories spécifiques.

Lorsque vous montrez au modèle un exemple de quelque chose de nouveau, comme un type d'animal qu'il n'a jamais vu auparavant, il peut déterminer s'il s'agit d'une classe similaire mais différente aux classes vues en formation.

Lorsque le modèle rencontre une catégorie invisible, par exemple un loup, il peut déduire la classe en analysant les attributs partagés avec les catégories apprises, même si l'étiquette « loup » ne faisait pas explicitement partie de la formation. Ces attributs interprétables par l'homme améliorent l'explicabilité et permettent au modèle de se généraliser à de nouvelles classes.

Apprentissage sans tir basé sur l'intégration sémantique

Cette approche est similaire au ZSL basé sur les attributs, mais au lieu que les humains créent des étiquettes d'attributs pour la formation, le modèle génère ce que l'on appelle des intégrations sémantiques des données de formation. Ces intégrations sémantiques sont codées sous forme de vecteurs (des manières mathématiques de représenter des objets du monde réel), puis cartographiées dans un espace d'intégration.

L'espace d'intégration permet au modèle d'organiser ses connaissances contextuelles en regroupant les informations associées plus étroitement. Par exemple, les catégories « chien » et « loup » seront plus proches l'une de l'autre dans un espace d'intégration que les catégories « chien » et « oiseau », en raison de caractéristiques sémantiques partagées. Ceci est similaire à la façon dont les grands modèles de langage (LLM) utilisent les intégrations sémantiques pour regrouper les synonymes en raison de leurs significations similaires.

Lorsque le modèle reçoit des catégories invisibles (une autre manière de dire « de nouvelles données que le modèle n'a jamais rencontrées auparavant »), il projette les vecteurs de ces nouvelles classes dans le même espace d'intégration et mesure la distance entre eux et les vecteurs des classes qu'il connaît déjà. à propos de. Cela donne le contexte du modèle pour les exemples invisibles et lui permet de déduire des relations sémantiques entre les classes connues et inconnues.

Apprentissage généralisé sans tir

La plupart des techniques d'apprentissage zéro-shot entraînent le modèle sur un type de données, puis l'appliquent à un problème différent mais connexe. C'est l'idée du « zéro tir » : le modèle n'est exposé à aucun exemple des nouvelles classes avant de les rencontrer dans la nature.

Cependant, les applications du monde réel ne sont pas toujours aussi noires et blanches. L'ensemble de données que vous souhaitez que votre modèle ZSL classifie peut contenir des éléments de classes connues ainsi que de nouvelles classes.

Le problème est que les modèles ZSL traditionnels peuvent parfois montrer un fort biais en étiquetant à tort les nouvelles classes comme des choses qu'ils connaissent déjà si vous mélangez du nouveau et du familier. Il est donc utile de disposer d'un modèle ZSL pouvant se généraliser à un ensemble de données pouvant contenir des classes déjà vues en formation.

Dans le ZSL généralisé, le modèle franchit une étape supplémentaire pour réduire le biais en faveur des catégories connues. Avant d'effectuer une classification, il décide d'abord si l'objet en question appartient à une classe connue ou inconnue.

Apprentissage sans tir vs apprentissage en quelques coups et apprentissage en un seul coup

Comme ZSL, l'apprentissage en quelques étapes (FSL) et l'apprentissage en une seule fois (OSL) permettent aux modèles d'apprentissage en profondeur d'effectuer de nouvelles tâches avec peu ou pas de nouvelles données. Les trois approches reposent sur la cartographie des relations entre les caractéristiques d'exemples connus pour déduire des modèles dans des exemples inconnus. Leur objectif principal est de créer des modèles efficaces dans des scénarios réels où les données sont rares ou où l'on n'a pas le temps de former un nouveau modèle pour une tâche spécifique.

La principale différence réside dans la manière dont ils traitent les nouvelles données :

  • FSLimplique de fournir au modèle un petit nombre d’exemples étiquetés pour la nouvelle classe qu’il doit identifier.
  • OSLest un cas plus spécifique, dans lequel le modèle ne présente qu'un seul exemple étiqueté de la nouvelle classe.

FSL et OSL nécessitent tous deux une étape de formation supplémentaire par rapport au ZSL, ce qui augmente le temps nécessaire pour apprendre de nouvelles tâches. Cependant, cette formation supplémentaire leur permet de gérer des tâches qui s'écartent considérablement des connaissances pré-entraînées du modèle, ce qui les rend plus adaptables dans la pratique.

Bien que ZSL soit souvent considéré comme « flexible » car il ne nécessite pas d'exemples étiquetés pour les nouvelles tâches, cette flexibilité est en grande partie théorique. Dans les applications réelles, les méthodes ZSL peuvent rencontrer des difficultés avec :

  • Tâches impliquant un mélange d'exemples vus et invisibles (par exemple, scénarios ZSL généralisés)
  • Tâches sensiblement différentes des données d'entraînement du modèle

Les modèles ZSL sont également sensibles à des facteurs tels que la manière dont les ensembles de données sont divisés lors de la pré-formation et de l'évaluation, ce qui peut affecter les performances. D’un autre côté, le FLS et l’OSL offrent une plus grande flexibilité pratique pour l’adaptation des tâches en incorporant de nouveaux exemples dans le processus d’apprentissage, leur permettant ainsi de mieux performer dans divers scénarios.

Apprentissage zéro tir ou invite zéro tir

ZSL est un type d'architecture de modèle conçu pour diverses tâches d'apprentissage en profondeur. En revanche, l'invite zéro consiste à demander à un LLM comme ChatGPT ou Claude de générer une sortie sans fournir d'exemples spécifiques dans l'invite pour guider sa réponse. Dans les deux cas, le modèle exécute une tâche sans exemples explicites de ce qu’implique la tâche.

Dans l'invite Zero-shot, vous ne fournissez au modèle aucun exemple lié à la tâche. Au lieu de cela, vous vous appuyez sur les connaissances pré-formées du LLM pour déduire et exécuter la tâche.

Par exemple, vous pouvez saisir le texte d'une critique de restaurant et demander au LLM de la classer comme positive, neutre ou négative, sans lui donner d'échantillons d'avis à utiliser comme référence. Le LLM s'appuierait sur sa pré-formation pour déterminer l'étiquette appropriée pour l'évaluation.

Bien que l'apprentissage sans tir et l'incitation à tir zéro partagent le concept d'exécution de tâches sans exemples, il existe une distinction clé :

  • L'apprentissage zéro-shotest un type d'architecture de modèle conçu pour de telles tâches.
  • L'invite Zero-shotest une technique spécifique à l'interaction avec les LLM, et non une architecture de modèle.

Applications de l'apprentissage zéro-shot

En raison de son objectif d'aider les modèles d'apprentissage profond à s'adapter à de nouvelles tâches, ZSL a des applications dans de nombreux domaines du ML, notamment la vision par ordinateur, la PNL et la robotique. ZSL peut être utilisé dans les domaines de la santé, de l'analyse des sentiments, du service client, de la traduction de documents et de la cybersécurité, par exemple :

  • Analyse des sentiments :lorsque des nouvelles de dernière minute surviennent, un modèle NLP à tir nul peut effectuer une analyse des sentiments sur les commentaires publics pour fournir un aperçu presque en temps réel des réactions du public.
  • Traitement de documents multilingues :les modèles NLP zero-shot formés pour extraire des informations de documents fiscaux en anglais peuvent effectuer les mêmes extractions sur des documents fiscaux en espagnol sans formation supplémentaire.
  • Diagnostic médical :des modèles ZSL ont été utilisés pour identifier les radiographies de patients atteints de COVID-19 sans aucun exemple visuel. Les identifications sont basées sur des descriptions textuelles, faites par des médecins travaillant dans le domaine, de ce à quoi ressemblent les rayons X positifs.
  • Chatbots plus nuancés :les modèles ZSL NLP peuvent comprendre l'argot et les expressions idiomatiques qu'ils n'ont jamais rencontrés auparavant lors de discussions avec des personnes, ce qui leur permet de répondre de manière plus significative aux questions pour lesquelles ils n'ont pas été spécifiquement formés.
  • Détection d'anomalies :ZSL peut être utilisé en cybersécurité pour détecter des modèles inhabituels dans l'activité réseau ou pour identifier de nouveaux types d'attaques de piratage à mesure que de nouvelles menaces émergent.

Avantages de l'apprentissage sans tir

Les approches traditionnelles d’apprentissage supervisé sont souvent peu pratiques pour de nombreuses applications du monde réel, étant donné les grands ensembles de données, le temps de formation, l’argent et les ressources informatiques qu’elles nécessitent. ZSL peut atténuer certains de ces défis. Les avantages incluent la réduction des coûts associés à la formation d'un nouveau modèle et la gestion des situations où les données sont rares ou pas encore disponibles :

Développement rentable

L'acquisition et la conservation des grands ensembles de données étiquetées nécessaires à l'apprentissage supervisé sont coûteuses et prennent du temps. La formation d'un modèle sur un ensemble de données étiquetées de haute qualité peut coûter des dizaines de milliers de dollars, en plus du coût des serveurs, de l'espace de cloud computing et des ingénieurs.

ZSL se montre prometteur en réduisant le coût des projets ML en permettant aux institutions de réutiliser les modèles pour de nouvelles tâches sans formation supplémentaire. Cela permet également à des entités ou à des individus plus petits de réutiliser des modèles construits par d’autres.

Résoudre les problèmes avec des données rares

La flexibilité de ZSL en fait un bon outil pour les situations où peu de données sont disponibles ou où les données sont encore émergentes. Par exemple, il est utile pour diagnostiquer de nouvelles maladies lorsque l’information n’est pas encore répandue, ou pour des situations de catastrophe où l’information évolue rapidement. ZSL est également utile pour la détection d’anomalies lorsque les données sont trop volumineuses pour être traitées par des analystes humains.

Les défis de l'apprentissage sans tir

ZSL s'appuie fortement sur la disponibilité de données de formation de haute qualité au cours de sa phase de pré-formation pour comprendre suffisamment bien les relations sémantiques entre les catégories pour pouvoir les généraliser à de nouvelles. Sans données de haute qualité, ZSL peut produire des résultats peu fiables et parfois difficiles à évaluer.

Les problèmes courants auxquels les modèles ZSL sont confrontés incluent des difficultés d'adaptation à des tâches différentes de celles sur lesquelles ils ont déjà été entraînés et des problèmes avec les données d'entraînement qui les amènent à s'appuyer trop fortement sur certaines étiquettes lors de la prédiction de classes invisibles.

Adaptation de domaine

Les modèles ZSL fonctionnent mieux lorsqu'on leur demande de traiter de nouvelles données provenant d'un domaine qui n'est pas radicalement différent de celui sur lequel ils ont été formés. Par exemple, si un modèle a été formé sur des photos fixes, il aura du mal à classer les vidéos.

Les modèles ZSL reposent sur le mappage d'informations auxiliaires provenant de données inconnues sur des données connues. Ainsi, si les sources de données sont trop différentes, le modèle n'a aucun moyen de généraliser ses connaissances à la nouvelle tâche.

Le problème du hubness

Le problème de hubness dans ZSL se produit lorsqu'un modèle commence à utiliser seulement quelques étiquettes lors de la réalisation de prédictions pour des catégories invisibles. Cela se produit lorsque de nombreux points dans l'espace de fonctionnalités intégré sont regroupés, formant des « hubs » qui orientent le modèle vers des étiquettes particulières.

Cela peut se produire en raison du bruit dans les données d'entraînement, d'un trop grand nombre d'exemples pour certains types de données et pas assez pour d'autres, ou parce que les intégrations sémantiques du modèle ne sont pas suffisamment distinctes.