Apprentissage semi-supervisé : qu'est-ce que c'est et comment ça marche
Publié: 2024-07-18Dans le domaine de l’apprentissage automatique, l’apprentissage semi-supervisé apparaît comme une approche hybride intelligente, comblant le fossé entre les méthodes supervisées et non supervisées en exploitant à la fois les données étiquetées et non étiquetées pour former des modèles plus robustes et efficaces.
Table des matières
- Qu’est-ce que l’apprentissage semi-supervisé ?
- Apprentissage semi-supervisé vs apprentissage supervisé et non supervisé
- Comment fonctionne l'apprentissage semi-supervisé
- Types d'apprentissage semi-supervisé
- Applications de l'apprentissage semi-supervisé
- Avantages de l'apprentissage semi-supervisé
- Inconvénients de l’apprentissage semi-supervisé
Qu’est-ce que l’apprentissage semi-supervisé ?
L'apprentissage semi-supervisé est un type d'apprentissage automatique (ML) qui utilise une combinaison de données étiquetées et non étiquetées pour entraîner des modèles. Semi-supervisé signifie que le modèle reçoit des conseils d'une petite quantité de données étiquetées, où les entrées sont explicitement associées aux sorties correctes, ainsi que d'un plus grand pool de données non étiquetées, qui sont généralement plus abondantes. Ces modèles trouvent généralement des informations initiales dans une petite quantité de données étiquetées, puis affinent davantage leur compréhension et leur précision en utilisant le plus grand pool de données non étiquetées.
L'apprentissage automatique est un sous-ensemble de l'intelligence artificielle (IA) qui utilise des données et des méthodes statistiques pour créer des modèles qui imitent le raisonnement humain plutôt que de s'appuyer sur des instructions codées en dur. Tirant parti des éléments d’approches supervisées et non supervisées, la semi-supervisée constitue un moyen distinct et puissant d’améliorer la qualité des prédictions sans investissement onéreux dans l’étiquetage humain.
Apprentissage semi-supervisé vs apprentissage supervisé et non supervisé
Alors que l’apprentissage supervisé repose uniquement sur des données étiquetées et que l’apprentissage non supervisé fonctionne avec des données entièrement non étiquetées, l’apprentissage semi-supervisé mélange les deux.
Enseignement supervisé
L'apprentissage supervisé utilise des données étiquetées pour entraîner des modèles pour des tâches spécifiques. Les deux principaux types sont :
- Classification : détermine à quelle classe ou groupe appartient un élément.Cela peut être un choix binaire, un choix parmi plusieurs options ou une appartenance à plusieurs groupes.
- Régression : prédit les résultats en fonction de la ligne la mieux adaptée à partir des données existantes. Généralement utilisé pour les prévisions, telles que la prévision des conditions météorologiques ou des performances financières.
Apprentissage non supervisé
L'apprentissage non supervisé identifie des modèles et des structures dans des données non étiquetées grâce à trois techniques principales :
- Clustering : définit des groupes de points ayant des valeurs similaires.Ceux-ci peuvent être exclusifs (chaque point de données dans exactement un cluster), se chevauchant (degrés d'appartenance à un ou plusieurs clusters) ou hiérarchiques (plusieurs couches de clusters).
- Association : recherche les éléments les plus susceptibles de coexister, tels que les produits fréquemment achetés ensemble.
- Réduction de la dimensionnalité : simplifie les ensembles de données en condensant les données en moins de variables, réduisant ainsi le temps de traitement et améliorant la capacité de généralisation du modèle.
Apprentissage semi-supervisé
L'apprentissage semi-supervisé exploite à la fois les données étiquetées et non étiquetées pour améliorer les performances du modèle. Cette approche est particulièrement utile lorsque l’étiquetage des données est coûteux ou prend du temps.
Ce type d’apprentissage automatique est idéal lorsque vous disposez d’une petite quantité de données étiquetées et d’une grande quantité de données non étiquetées. En identifiant les points non étiquetés qui correspondent étroitement à ceux étiquetés, un modèle semi-supervisé peut créer des limites de classification ou des modèles de régression plus nuancés, conduisant à une précision et des performances améliorées.
Comment fonctionne l'apprentissage semi-supervisé
Le processus d’apprentissage semi-supervisé comporte plusieurs étapes, combinant des éléments de méthodes d’apprentissage supervisé et non supervisé :
- Collecte et étiquetage des données : rassemblez un ensemble de données comprenant une petite partie de données étiquetées et une plus grande partie de données non étiquetées.Les deux ensembles de données doivent avoir les mêmes fonctionnalités, également appelées colonnes ou attributs.
- Prétraitement et extraction de fonctionnalités : nettoyez et prétraitez les données pour donner au modèle la meilleure base d'apprentissage possible : vérifiez ponctuellement pour garantir la qualité, supprimez les doublons et supprimez les fonctionnalités inutiles.Envisagez de créer de nouvelles fonctionnalités qui transforment les fonctionnalités importantes en plages significatives qui reflètent la variation des données (par exemple, conversion des dates de naissance en âges) dans un processus appelé extraction.
- Apprentissage supervisé initial : entraînez le modèle à l'aide des données étiquetées.Cette phase initiale aide le modèle à comprendre la relation entre les entrées et les sorties.
- Apprentissage non supervisé : appliquez des techniques d'apprentissage non supervisé aux données non étiquetées pour identifier des modèles, des clusters ou des structures.
- Affinement du modèle : combinez les informations des données étiquetées et non étiquetées pour affiner le modèle.Cette étape implique souvent une formation itérative et des ajustements pour améliorer la précision.
- Évaluation et réglage : évaluez les performances du modèle à l'aide de mesures d'apprentissage supervisé standard, telles que l'exactitude, la précision, le rappel et le score F1.Affinez le modèle en ajustant les instructions explicites (appelées hyperparamètres) et en réévaluant jusqu'à ce que des performances optimales soient atteintes.
- Déploiement et surveillance : déployez le modèle pour une utilisation réelle, surveillez en permanence ses performances et mettez-le à jour avec de nouvelles données si nécessaire.
Types d'apprentissage semi-supervisé
L'apprentissage semi-supervisé peut être mis en œuvre à l'aide de plusieurs techniques, chacune exploitant des données étiquetées et non étiquetées pour améliorer le processus d'apprentissage. Voici les principaux types, ainsi que les sous-types et les concepts clés :
Auto entrainement
L’autoformation, également appelée auto-apprentissage ou auto-étiquetage, est l’approche la plus simple. Dans cette technique, un modèle initialement formé sur des données étiquetées prédit les étiquettes pour les données non étiquetées et enregistre son degré de confiance. Le modèle se recycle de manière itérative en appliquant ses prédictions les plus fiables sous forme de données étiquetées supplémentaires. Ces étiquettes générées sont appeléespseudo-étiquettes. Ce processus se poursuit jusqu'à ce que les performances du modèle se stabilisent ou s'améliorent suffisamment.
- Formation initiale : le modèle est formé sur un petit ensemble de données étiqueté.
- Prédiction d'étiquette : le modèle entraîné prédit les étiquettes pour les données non étiquetées.
- Seuil de confiance : seules les prédictions supérieures à un certain niveau de confiance sont sélectionnées.
- Recyclage : les données pseudo-étiquetées sélectionnées sont ajoutées à l'ensemble de formation et le modèle est recyclé.
Cette méthode est simple mais puissante, surtout lorsque le modèle peut faire des prédictions précises dès le début. Cependant, si les prévisions initiales sont incorrectes, elle peut avoir tendance à renforcer ses propres erreurs. Utilisez le clustering pour valider que les pseudo-étiquettes sont cohérentes avec les regroupements naturels au sein des données.
Co-formation
La co-formation, généralement utilisée pour les problèmes de classification, implique la formation de deux modèles ou plus sur différentes vues ou sous-ensembles de données. Les prédictions les plus fiables de chaque modèle sur les données non étiquetées augmentent l'ensemble d'apprentissage de l'autre modèle. Cette technique exploite la diversité de plusieurs modèles pour améliorer l’apprentissage.
- Approche à deux vues : l'ensemble de données est divisé en deux vues distinctes, c'est-à-dire des sous-ensembles des données d'origine, chacune contenant des caractéristiques différentes.Chacune des deux nouvelles vues porte la même étiquette, mais idéalement, les deux sont conditionnellement indépendantes, ce qui signifie que connaître les valeurs d'une table ne vous donnera aucune information sur l'autre.
- Entraînement du modèle : deux modèles sont entraînés séparément sur chaque vue à l'aide des données étiquetées.
- Étiquetage mutuel : chaque modèle prédit des étiquettes pour les données non étiquetées, et les meilleures prédictions (soit toutes celles dépassant un certain seuil de confiance, soit simplement un nombre fixe en haut de la liste) sont utilisées pour recycler l'autre modèle.
La co-formation est particulièrement utile lorsque les données se prêtent à plusieurs vues fournissant des informations complémentaires, telles que des images médicales et des données cliniques associées au même patient. Dans cet exemple, un modèle prédirait l’incidence de la maladie sur la base de l’image, tandis que l’autre prédirait sur la base des données du dossier médical.
Cette approche permet de réduire le risque de renforcer des prédictions incorrectes, dans la mesure où les deux modèles peuvent se corriger mutuellement.
Modèles génératifs
Les modèles génératifs apprennent la probabilité que des paires données d'entrées et de sorties se produisent simultanément, ce que l'on appelle la distribution de probabilité conjointe. Cette approche leur permet de générer de nouvelles données qui ressemblent à ce qu'elles ont déjà vu. Ces modèles utilisent des données étiquetées et non étiquetées pour capturer la distribution des données sous-jacentes et améliorer le processus d'apprentissage. Comme son nom l’indique, c’est la base de l’IA générative qui peut créer du texte, des images, etc.
- Réseaux adverses génératifs (GAN) : les GAN se composent de deux modèles : un générateur et un discriminateur.Le générateur crée des points de données synthétiques, tandis que le discriminateur tente de faire la distinction entre ces points de données synthétiques et les données réelles. Au fur et à mesure de leur entraînement, le générateur améliore sa capacité à créer des données réalistes et le discriminateur parvient à mieux identifier les fausses données. Ce processus contradictoire se poursuit, chaque modèle s’efforçant de surpasser l’autre. Les GAN peuvent être appliqués à l’apprentissage semi-supervisé de deux manières :
- Discriminateur modifié : au lieu de simplement classer les données comme « fausses » ou « réelles », le discriminateur est formé pour classer les données en plusieurs classes plus une fausse classe.Cela permet au discriminateur de classer et de discriminer.
- Utilisation de données non étiquetées : le discriminateur juge si une entrée correspond aux données étiquetées qu'il a vues ou s'il s'agit d'un faux point de données provenant du générateur.Ce défi supplémentaire oblige le discriminateur à reconnaître les données non étiquetées par leur ressemblance avec les données étiquetées, l'aidant ainsi à apprendre les caractéristiques qui les rendent similaires.
- Auto-encodeurs variationnels (VAE) : les VAE découvrent comment encoder les données dans une représentation abstraite plus simple qu'ils peuvent décoder en une représentation aussi proche que possible des données d'origine.En utilisant à la fois des données étiquetées et non étiquetées, le VAE crée une abstraction unique qui capture les caractéristiques essentielles de l'ensemble de données et améliore ainsi ses performances sur les nouvelles données.
Les modèles génératifs sont des outils puissants pour l’apprentissage semi-supervisé, en particulier avec des données non étiquetées abondantes mais complexes, comme dans la traduction linguistique ou la reconnaissance d’images. Bien sûr, il faut des labels pour que les GAN ou VAE sachent vers quoi viser.
Méthodes basées sur des graphiques
Les méthodes basées sur des graphiques représentent les points de données sous forme de nœuds sur un graphique, avec différentes approches pour comprendre et extraire des informations utiles sur les relations entre eux. Certaines des nombreuses méthodes basées sur des graphiques appliquées à l'apprentissage semi-supervisé comprennent :
- Propagation d'étiquettes : une approche relativement simple dans laquelle les valeurs numériques connues sous le nom d'arêtes indiquent des similitudes entre les nœuds proches.Lors de la première exécution du modèle, les points non étiquetés présentant les arêtes les plus fortes par rapport à un point étiqueté empruntent l'étiquette de ce point. Au fur et à mesure que d’autres points sont étiquetés, le processus est répété jusqu’à ce que tous les points soient étiquetés.
- Réseaux de neurones graphiques (GNN) : utilise des techniques de formation des réseaux de neurones, telles que l'attention et la convolution, pour appliquer les apprentissages des points de données étiquetés à ceux non étiquetés, en particulier dans des situations très complexes telles que les réseaux sociaux et l'analyse génétique.
- Auto-encodeurs graphiques : similaires aux VAE, ils créent une représentation abstraite unique qui capture les données étiquetées et non étiquetées. Cette approche est souvent utilisée pour trouver les liens manquants, qui sont des connexions potentielles non capturées dans le graphique.
Les méthodes basées sur des graphiques sont particulièrement efficaces pour les données complexes qui forment naturellement des réseaux ou entretiennent des relations intrinsèques, telles que les réseaux sociaux, les réseaux biologiques et les systèmes de recommandation.
Applications de l'apprentissage semi-supervisé
Certaines des nombreuses applications de l’apprentissage semi-supervisé comprennent :
- Classification de texte : lorsque vous disposez d'un très grand nombre de données disponibles, telles que des millions d'avis sur des produits ou des milliards d'e-mails, il vous suffit d'en étiqueter une fraction.Une approche semi-supervisée utilisera les données restantes pour affiner le modèle.
- Analyse d'images médicales : le temps des experts médicaux coûte cher et ils ne sont pas toujours précis.Compléter leur analyse d'images telles que les IRM ou les rayons X avec de nombreuses images non étiquetées peut conduire à un modèle qui égale, voire dépasse, leur précision.
- Reconnaissance vocale : la transcription manuelle de la parole est un processus fastidieux et éprouvant, surtout si vous essayez de capturer une grande variété de dialectes et d'accents.La combinaison de données vocales étiquetées avec de grandes quantités d'audio non étiqueté améliorera la capacité d'un modèle à discerner avec précision ce qui est dit.
- Détection de fraude : tout d'abord, entraînez un modèle sur un petit ensemble de transactions étiquetées, en identifiant les fraudes connues et les cas légitimes.Ajoutez ensuite un ensemble plus large de transactions non étiquetées pour exposer le modèle à des schémas et anomalies suspectes, améliorant ainsi sa capacité à identifier les activités frauduleuses nouvelles ou en évolution dans les systèmes financiers.
- Segmentation des clients : l'apprentissage semi-supervisé peut améliorer la précision en utilisant un petit ensemble de données étiquetées pour définir des segments initiaux en fonction de certains modèles et données démographiques, puis en ajoutant un plus grand pool de données non étiquetées pour affiner et élargir ces catégories.
Avantages de l'apprentissage semi-supervisé
- Rentable : l'apprentissage semi-supervisé réduit le besoin de données étiquetées étendues, réduisant ainsi les coûts et les efforts d'étiquetage ainsi que l'influence des erreurs humaines et des biais.
- Prédictions améliorées : la combinaison de données étiquetées et non étiquetées entraîne souvent une meilleure qualité de prédiction par rapport à l'apprentissage purement supervisé, car elle fournit plus de données sur lesquelles le modèle peut apprendre.
- Évolutivité : l'apprentissage semi-supervisé convient parfaitement aux applications du monde réel dans lesquelles un étiquetage approfondi n'est pas pratique, comme des milliards de transactions potentiellement frauduleuses, car il gère de grands ensembles de données avec un minimum de données étiquetées.
- Flexibilité : La combinaison des atouts de l’apprentissage supervisé et non supervisé rend cette approche adaptable à de nombreuses tâches et domaines.
Inconvénients de l’apprentissage semi-supervisé
- Complexité : l'intégration de données étiquetées et non étiquetées nécessite souvent des techniques de prétraitement sophistiquées telles que la normalisation des plages de données, l'imputation des valeurs manquantes et la réduction de la dimensionnalité.
- Fiabilité des hypothèses : les méthodes semi-supervisées reposent souvent sur des hypothèses concernant la distribution des données, comme des points de données dans le même cluster méritant la même étiquette, ce qui n'est pas toujours vrai.
- Potentiel de bruit : les données non étiquetées peuvent introduire du bruit et des inexactitudes si elles ne sont pas traitées correctement avec des techniques telles que la détection des valeurs aberrantes et la validation par rapport aux données étiquetées.
- Plus difficile à évaluer : sans beaucoup de données étiquetées, vous n'obtiendrez pas beaucoup d'informations utiles à partir des approches standard d'évaluation de l'apprentissage supervisé.