Apprentissage auto-supervisé : qu'est-ce que c'est et comment ça marche

Publié: 2024-07-18

L'apprentissage auto-supervisé, une technique de pointe en matière d'intelligence artificielle, permet aux machines de découvrir des modèles et des structures intrinsèques au sein des données, imitant la capacité humaine à apprendre du contexte et de l'expérience plutôt que par des instructions explicites.

Table des matières

Qu’est-ce que l’apprentissage auto-supervisé ?
Auto-supervisé par rapport aux autres types d'apprentissage automatique
Comment fonctionne l'apprentissage auto-supervisé
Types d’apprentissage auto-supervisé
Applications de l’apprentissage auto-supervisé
Avantages de l’apprentissage auto-supervisé
Inconvénients de l’apprentissage auto-supervisé

Qu’est-ce que l’apprentissage auto-supervisé ?

L'apprentissage auto-supervisé est un type d'apprentissage automatique (ML) qui entraîne les modèles à créer leurs propres étiquettes, c'est-à-dire des entrées et des sorties explicitement appariées, à l'aide de données brutes et non étiquetées. Contrairement à l’apprentissage supervisé, qui nécessite une quantité importante de données étiquetées, l’apprentissage auto-supervisé génère des pseudo-étiquettes (étiquettes artificielles) à partir des données elles-mêmes. Cette technique donne au modèle l'orientation vers les objectifs et la mesurabilité d'une approche d'apprentissage supervisé, ainsi que la capacité de l'apprentissage non supervisé à tirer des conclusions utiles à partir de quantités massives de données non étiquetées.

L'apprentissage automatique est un sous-ensemble de l'intelligence artificielle (IA) qui utilise des données et des méthodes statistiques pour créer des modèles qui imitent le raisonnement humain plutôt que de s'appuyer sur des instructions codées en dur. L'apprentissage auto-supervisé exploite les grandes quantités de données non étiquetées disponibles, ce qui en fait une approche puissante pour améliorer les performances du modèle avec une intervention manuelle minimale. En fait, les principaux modèles de texte et d’images d’IA générative actuels sont en grande partie formés à l’aide d’un apprentissage auto-supervisé.

Travaillez plus intelligemment avec Grammarly

Le partenaire d'écriture IA pour tous ceux qui ont du travail à faire

Auto-supervisé par rapport aux autres types d'apprentissage automatique

L'apprentissage auto-supervisé combine des éléments de l'apprentissage supervisé et non supervisé, mais se distingue de l'apprentissage semi-supervisé :

Apprentissage supervisé :utilise des données étiquetées pour entraîner des modèles pour des tâches spécifiques telles que la classification et la régression. Les étiquettes fournissent des indications explicites, permettant au modèle de faire des prédictions précises. Les applications courantes incluent la détection du spam, la classification des images et les prévisions météorologiques.
Apprentissage non supervisé :fonctionne avec des données non étiquetées pour trouver des modèles et des regroupements. Il identifie les clusters et les associations et réduit la complexité des données pour un traitement plus facile. Les exemples incluent la segmentation des clients, les systèmes de recommandation et la détection des anomalies.
Apprentissage semi-supervisé :utilise une quantité modeste de données étiquetées pour fournir des conseils initiaux, puis exploite une ou plusieurs collections plus importantes de données non étiquetées pour affiner et améliorer le modèle. Cette approche est particulièrement utile lorsque vous disposez de données étiquetées, mais il serait trop difficile ou trop coûteux d'en générer suffisamment pour un apprentissage entièrement supervisé.
Apprentissage auto-supervisé :utilise des données brutes pour générer ses propres étiquettes, permettant au modèle d'apprendre à partir des données sans aucune donnée étiquetée initiale. Cette approche est particulièrement utile lorsque les données étiquetées ne sont pas disponibles du tout ou ne représentent qu'une infime fraction des données disponibles, comme avec le traitement du langage naturel (NLP) ou la reconnaissance d'images.

Comment fonctionne l'apprentissage auto-supervisé

L’auto-supervision signifie que les données elles-mêmes fournissent les bonnes réponses. Le processus d’apprentissage auto-supervisé comporte plusieurs étapes, combinant des aspects des méthodes supervisées et non supervisées :

Collecte de données :rassemblez une grande quantité de données brutes et non étiquetées. Ces données constituent la base de la création de pseudo-étiquettes et de la formation du modèle. De nombreux ensembles de données sont disponibles gratuitement.

Prétraitement :préparez les données pour garantir la qualité. Cette étape comprend la suppression des doublons, la gestion des valeurs manquantes et la normalisation des plages de données.
Création de tâches :créez des énigmes que le modèle doit résoudre, appelées tâches prétextes. Ceux-ci sont créés en supprimant ou en mélangeant des parties des données, par exemple en supprimant des mots, en supprimant des pixels d'image ou en mélangeant des images vidéo. Tout ce qui existait avant cette corruption intentionnelle est connu sous le nom de pseudo-étiquette : une « bonne réponse » créée à partir des données elles-mêmes plutôt que d’un étiquetage humain.
Formation :Entraînez le modèle sur les tâches prétextes à l'aide des pseudo-étiquettes générées. Cela signifie que le modèle essaie de générer la bonne réponse, compare sa réponse au pseudo-étiquette, s'ajuste et essaie à nouveau de générer la bonne réponse. Cette phase aide le modèle à comprendre les relations au sein des données et crée finalement une compréhension complexe de la relation entre les entrées et les sorties.
Affinement :changez de modèle pour apprendre à partir d'un ensemble de données plus petit et étiqueté afin d'améliorer ses performances sur des tâches spécifiques. Cette étape garantit que le modèle exploite les représentations apprises au cours de la phase de formation initiale. Un réglage fin n’est pas strictement nécessaire, mais il conduit généralement à de meilleurs résultats.
Évaluation :évaluez les performances du modèle sur des données qu'il n'a pas encore vues. En utilisant des mesures standard pertinentes pour la tâche, telles que le score F1, cette évaluation garantit que le modèle se généralise bien aux nouvelles données.
Déploiement et surveillance :déployez le modèle formé dans des applications réelles et surveillez en permanence ses performances. Mettez à jour le modèle avec de nouvelles données si nécessaire pour maintenir son exactitude et sa pertinence.

Types d’apprentissage auto-supervisé

L’apprentissage auto-supervisé englobe différents types, chacun comportant de multiples techniques et approches. Ici, nous explorerons plusieurs types, en mettant en évidence leurs méthodes de formation uniques et en fournissant un ou deux exemples représentatifs pour chacun.

Pour les images

Apprentissage auto-prédictif :l'apprentissage auto-prédictif implique des techniques telles que l'auto-codage, dans lesquelles un modèle apprend à compresser les informations sous une forme plus simple, puis à recréer les données originales à partir de celles-ci. En traitement d'image, cela signifie souvent corrompre sélectivement certaines parties d'une image (par exemple, en masquant des sections) et entraîner le modèle à reconstruire l'original. Cela aide le modèle à mieux reconnaître les objets dans différentes positions, tailles et même lorsqu'ils sont partiellement cachés.
Apprentissage contrastif :dans l'apprentissage contrastif, le modèle apprend à distinguer des images similaires et différentes en les comparant par paires ou par groupes. Par exemple, la méthode SimCLR utilise des augmentations d'image (comme le recadrage, la distorsion et le retournement) pour créer des paires d'entraînement. Les paires positives sont créées en appliquant différentes modifications à la même image, tandis que les paires négatives proviennent d'images différentes. Le modèle apprend ensuite quelles caractéristiques sont communes dans des paires similaires et différentes dans des paires différentes.
Méthodes basées sur le clustering :les méthodes basées sur le clustering regroupent des points de données similaires et utilisent ces clusters comme pseudo-étiquettes pour la formation. Par exemple, DeepCluster regroupe les images selon des fonctionnalités similaires et utilise ces clusters pour entraîner le modèle. Le processus alterne entre le clustering et la formation jusqu'à ce que le modèle fonctionne correctement. SwAV (Swapping Assignments Between Views) améliore cela en utilisant plusieurs versions de la même image pour aider le modèle à apprendre les caractéristiques essentielles qui restent constantes, telles que les bords, les textures et les positions des objets.

Pour le texte

Apprentissage auto-prédictif :il s'agit du mécanisme de formation de base des grands modèles linguistiques (LLM), qui comprennent le texte comme une série de jetons. Ceux-ci représentent généralement un mot mais parfois une partie d'un mot ou un groupe de mots.
- Modèles de langage masqué (MLM) :il s'agit de phrases affichées avec certains jetons manquants et chargées de prédire les mots manquants. En apprenant à remplir ces espaces, les MLM développent une représentation approfondie de la structure et du contexte du langage, et ils peuvent prendre en compte le contexte d'une entrée entière lors de leurs prédictions. Des résultats utiles, tels que l’analyse des sentiments ou la reconnaissance d’entités nommées, sont développés grâce à un réglage fin. Un bon exemple est BERT, que Google utilise pour comprendre l’intention des requêtes de recherche.
- Modèles de langage causal (CLM) :les modèles génératifs tels que ChatGPT, Claude et Gemini apprennent à recréer le texte qu'ils ont vu en prédisant un mot à la fois, sur la base des jetons précédents. Une fois formés, ils traitent le texte saisi comme contexte de leurs prédictions et continuent de faire des prédictions avec chaque nouveau jeton qu'ils génèrent. Cette prédiction séquentielle est la raison pour laquelle leur sortie semble s'écrire elle-même plutôt que d'apparaître d'un seul coup.
Apprentissage contrastif :cette approche compare des paires d'échantillons de texte, en soulignant les différences et les similitudes entre eux. SimCSE crée deux versions légèrement différentes de la même phrase en appliquant un abandon, qui ignore aléatoirement des parties de la représentation de la phrase dans les couches cachées pendant l'entraînement (pour en savoir plus sur les couches cachées dans notre article sur l'apprentissage profond). Le modèle apprend à reconnaître ces versions comme similaires. Cette technique améliore la capacité du modèle à comprendre et à comparer des phrases, ce qui la rend utile pour des applications telles que la recherche de phrases similaires ou la récupération d'informations pertinentes pour les requêtes de recherche.
Prédiction de la phrase suivante (NSP) :comme son nom l'indique, la NSP consiste à prédire si une phrase donnée est la phrase suivante d'une autre dans un document, aidant ainsi les modèles à comprendre les relations entre les phrases et le flux logique du texte. Il est couramment utilisé avec un MLM pour améliorer sa compréhension de corps de texte plus volumineux. Par exemple, dans BERT NSP, le modèle prédit si deux phrases apparaissent consécutivement dans le texte original.

Applications de l’apprentissage auto-supervisé

L’apprentissage auto-supervisé a un large éventail d’applications dans divers domaines :

Traitement du langage naturel :des modèles tels que BERT et GPT-3 utilisent l'apprentissage auto-supervisé pour comprendre et générer un langage humain dans des applications telles que les chatbots, la traduction et le résumé de texte.
Vision par ordinateur :l'apprentissage auto-supervisé améliore l'analyse d'images et de vidéos en générant des pseudo-étiquettes à partir de données visuelles brutes. Les utilisations incluent la détection d'objets (comme sur une caméra de sonnette), la reconnaissance faciale et la création automatique de clips à partir de vidéos plus longues.
Reconnaissance vocale :les modèles auto-supervisés améliorent les systèmes de reconnaissance vocale en apprenant à partir de grandes quantités de données audio non étiquetées. Cette approche réduit le besoin de transcription manuelle et améliore la précision entre les différents accents et dialectes.
Santé :l'apprentissage auto-supervisé contribue à améliorer l'analyse des images médicales, la découverte de médicaments et le suivi des patients en exploitant de vastes ensembles de données avec un minimum d'exemples étiquetés. Il améliore la précision de la détection des maladies et des recommandations de traitement sans nécessiter un étiquetage humain approfondi et coûteux.
Robotique :les robots utilisent l'apprentissage autosupervisé pour comprendre leur environnement et améliorer leurs processus de prise de décision. Les utilisations incluent la navigation autonome, la manipulation d'objets et l'interaction homme-robot.

Avantages de l’apprentissage auto-supervisé

Rentable :réduit le besoin de données étiquetées volumineuses, réduisant ainsi les coûts d'annotation et les efforts humains.
Évolutivité :peut gérer de grands ensembles de données, ce qui le rend adapté aux applications du monde réel où les données étiquetées sont limitées mais les données non étiquetées sont abondantes.
Généralisation :lorsqu'il est formé sur suffisamment de données brutes, le modèle peut en apprendre suffisamment pour effectuer de nouvelles tâches même s'il n'a pas été formé sur des données directement pertinentes. Par exemple, un modèle PNL basé sur une langue pourrait être utilisé pour augmenter l’apprentissage d’un modèle basé sur une autre langue.
Flexibilité : Adaptable à une grande variété de tâches et de domaines, avec de nombreux sous-types disponibles pour répondre à des besoins particuliers.

Inconvénients de l’apprentissage auto-supervisé

Complexité :créer des tâches de prétexte efficaces et générer des pseudo-étiquettes nécessite une conception et une expérimentation minutieuses.
Sensibilité au bruit :les pseudo-étiquettes générées à partir de données brutes peuvent ne pas être pertinentes par rapport à l'objectif, ce qui peut avoir un impact sur les performances en donnant au modèle trop d'entrées inutiles à traiter.
Ressources informatiques :la formation de modèles autosupervisés, en particulier avec de grands ensembles de données, nécessite une puissance et un temps de calcul importants.