Apprentissage supervisé : qu'est-ce que c'est et comment ça marche
Publié: 2024-07-03De la reconnaissance d'images au filtrage du spam, découvrez comment l'apprentissage supervisé alimente de nombreuses applications d'IA que nous rencontrons quotidiennement dans ce guide informatif.
Table des matières
- Qu’est-ce que l’apprentissage supervisé ?
- Apprentissage supervisé ou non supervisé
- Comment fonctionne l'apprentissage supervisé
- Types d'apprentissage supervisé
- Applications de l'apprentissage supervisé
- Avantages de l'apprentissage supervisé
- Inconvénients de l’apprentissage supervisé
Qu’est-ce que l’apprentissage supervisé ?
L'apprentissage supervisé est un type d'apprentissage automatique (ML) qui entraîne des modèles à l'aide de données étiquetées avec la bonne réponse. Le termesupervisésignifie que ces étiquettes fournissent des indications claires sur la relation entre les entrées et les sorties. Ce processus aide le modèle à faire des prédictions précises sur de nouvelles données invisibles.
L'apprentissage automatique est un sous-ensemble de l'intelligence artificielle (IA) qui utilise des données et des méthodes statistiques pour créer des modèles qui imitent le raisonnement humain plutôt que de s'appuyer sur des instructions codées en dur. L'apprentissage supervisé adopte une approche guidée et basée sur les données pour identifier des modèles et des relations dans des ensembles de données étiquetés. Il extrapole à partir de ses évaluations pour prédire les résultats de nouvelles données invisibles. Il apprend en comparant ses prédictions aux étiquettes connues et en ajustant son modèle pour minimiser les erreurs.
Apprentissage supervisé ou non supervisé
Contrairement à l’apprentissage supervisé, qui utilise des données étiquetées, l’apprentissage non supervisé trouve des modèles dans les données non étiquetées.
Sans la « supervision » fournie par les bonnes réponses explicites dans les données d’entraînement, l’apprentissage non supervisé traite tout ce qu’il voit comme des données à analyser pour détecter des modèles et des regroupements. Les trois principaux types sont :
- Clustering :cette technique regroupe les points de données les plus adjacents les uns aux autres. Il est utile pour la segmentation des clients ou le tri des documents.
- Association : déterminer quand les choses ont tendance à se produire simultanément, notamment pour relocaliser les articles fréquemment achetés ensemble ou suggérer ce qu'il faut diffuser ensuite.
- Réduction de la dimensionnalité : réduire les ensembles de données pour les rendre plus faciles à traiter tout en préservant la totalité ou la plupart des détails.
D’un autre côté, l’apprentissage supervisé a du sens lorsque vous souhaitez que le modèle prenne des décisions. Les principales applications comprennent :
- Décisions oui ou non :marquage des données comme étant une classe ou une autre. Souvent utilisé pour le filtrage comme le spam ou la détection de fraude.
- Classification : déterminer à quelle classe appartient quelque chose, comme identifier des objets dans une image ou reconnaître la parole.
- Régression : prévision de valeurs continues basées sur des données historiques, telles que la prévision des prix de l'immobilier ou des conditions météorologiques.
D'autres types de ML se situent entre ces deux : l'apprentissage semi-supervisé, par renforcement et auto-supervisé.
Comment fonctionne l'apprentissage supervisé
L'apprentissage supervisé implique un processus structuré de choix et de formatage des données, d'exécution du modèle et de test de ses performances.
Voici un bref aperçu du processus d’apprentissage supervisé :
1 Étiquetage :les données étiquetées sont essentielles pour apprendre l'association correcte entre les entrées et les sorties. Par exemple, si vous créez un modèle pour analyser les sentiments dans les avis sur les produits, commencez par demander à des évaluateurs humains de lire les avis et de les marquer comme positifs, négatifs ou neutres.
2 Collecte et nettoyage des données :assurez-vous que vos données de formation sont complètes et représentatives. Nettoyez les données en supprimant les doublons, en corrigeant les erreurs et en traitant les valeurs manquantes pour les préparer à l'analyse.
3 Sélection et extraction des fonctionnalités :identifiez et sélectionnez les attributs les plus influents, rendant le modèle plus efficient et efficace. Cette étape peut également impliquer la création de nouvelles fonctionnalités à partir de fonctionnalités existantes pour mieux capturer les modèles sous-jacents dans les données, comme la conversion de la date de naissance en âge.
4 Fractionnement des données :divisez l'ensemble de données en ensembles de formation et de test. Utilisez l'ensemble d'entraînement pour entraîner le modèle et l'ensemble de tests pour voir dans quelle mesure il se généralise à de nouvelles données invisibles.
5 Sélection d'algorithme :choisissez un algorithme d'apprentissage supervisé en fonction des caractéristiques de la tâche et des données. Vous pouvez également exécuter et comparer plusieurs algorithmes pour trouver le meilleur.
6 Formation du modèle :entraînez le modèle à l'aide des données pour améliorer sa précision prédictive. Au cours de cette phase, le modèle apprend la relation entre les entrées et les sorties en minimisant de manière itérative l'erreur entre ses prédictions et les étiquettes réelles fournies dans les données d'entraînement. Selon la complexité de l'algorithme et la taille de l'ensemble de données, cela peut prendre de quelques secondes à plusieurs jours.
7 Évaluation du modèle :l'évaluation des performances du modèle garantit qu'il produit des prédictions fiables et précises sur les nouvelles données. Il s’agit d’une différence clé par rapport à l’apprentissage non supervisé : puisque vous connaissez le résultat attendu, vous pouvez évaluer les performances du modèle.
8 Réglage du modèle :ajustez et recyclez les paramètres du modèle pour affiner les performances. Ce processus itératif, appelé réglage des hyperparamètres, vise à optimiser le modèle et à éviter des problèmes tels que le surajustement. Ce processus doit être répété après chaque ajustement.
9 Déploiement et surveillance :déployez le modèle entraîné pour faire des prédictions sur de nouvelles données dans un environnement réel. Par exemple, déployez le modèle de détection du spam formé pour filtrer les e-mails, surveiller ses performances et ajuster si nécessaire.
10 Affinement au fil du temps :à mesure que vous collectez davantage de données réelles, continuez à entraîner le modèle pour qu'il devienne plus précis et pertinent.
Types d'apprentissage supervisé
Il existe deux principaux types d’apprentissage supervisé : la classification et la régression. Chaque type a ses propres sous-types et cas d'utilisation spécifiques. Explorons-les plus en détail :
Classification
La classification implique de prédire à quelle catégorie ou classe appartient une entrée. Divers sous-types et concepts sont utilisés pour traiter différents problèmes de classification. Voici quelques types populaires :
- Classification binaire :le modèle prédit l'une des deux classes possibles. Ceci est utile lorsque le résultat est binaire, ce qui signifie qu’il n’y a que deux états ou catégories possibles. Cette approche est utilisée dans les décisions où une distinction claire est nécessaire.
- Classification multi-classes : Comme la binaire, mais avec plus de deux choix pour lesquels il n'y a qu'une seule bonne réponse. Cette approche est utilisée lorsqu'il existe plusieurs catégories auxquelles une entrée peut appartenir.
- Classification multi-étiquettes : chaque entrée peut appartenir à plusieurs classes simultanément. Contrairement à la classification binaire ou multi-classes, où chaque entrée est affectée à une seule classe, la classification multi-étiquettes permet d'attribuer plusieurs étiquettes à une seule entrée. Il s’agit d’une analyse plus complexe car plutôt que de simplement choisir la classe à laquelle l’entrée est la plus susceptible d’appartenir, vous devez décider d’un seuil de probabilité d’inclusion.
- Régression logistique : application de la régression (voir ci-dessous) à la classification binaire. Cette approche peut vous indiquer la fiabilité de sa prédiction plutôt qu'un simple ceci ou cela.
Il existe plusieurs façons de mesurer la qualité d'un modèle de classification, notamment :
- Précision :combien de prédictions totales étaient correctes ?
- Précision :combien de points positifs sont réellement positifs ?
- Rappelez-vous :combien de positifs réels a-t-il marqué comme positifs ?
- Score F1 :sur une échelle de 0 % à 100 %, dans quelle mesure le modèle équilibre-t-il précision et rappel ?
Régression
La régression consiste à prédire une valeur continue basée sur les caractéristiques d'entrée, en produisant un nombre qui peut également être appelé prédiction. Différents types de modèles de régression sont utilisés pour capturer les relations entre ces caractéristiques d'entrée et la sortie continue. Voici quelques types populaires :
- Régression linéaire :modélise la relation entre les entités en entrée et la sortie sous forme de ligne droite. Le modèle suppose une relation linéaire entre la variable dépendante (la sortie) et les variables indépendantes (les entrées). L'objectif est de trouver la ligne la mieux ajustée à travers les points de données qui minimise la différence entre les valeurs prédites et réelles.
- Régression polynomiale : plus complexe que la régression linéaire car elle utilise des polynômes tels que le carré et le cube pour capturer des relations plus complexes entre les variables d'entrée et de sortie. Le modèle peut ajuster des données non linéaires en utilisant ces termes d'ordre supérieur.
- Régression Ridge et Lasso : résout le problème du surajustement, qui est la tendance d'un modèle à trop lire dans les données sur lesquelles il est formé au détriment de la généralisation. La régression Ridge réduit la sensibilité du modèle aux petits détails, tandis que la régression Lasso élimine les caractéristiques moins importantes.
La plupart des mesures de la qualité de la régression concernent l’écart entre les prévisions et les valeurs réelles. Les questions auxquelles ils répondent sont :
- Erreur absolue moyenne :en moyenne, à quelle distance les prévisions sont-elles éloignées des valeurs réelles ?
- Erreur quadratique moyenne :de combien les erreurs augmentent-elles lorsque les erreurs plus importantes sont plus significatives ?
- Erreur quadratique moyenne : dans quelle mesure les erreurs importantes entraînent-elles un écart entre les prédictions et les valeurs réelles ?
- R au carré : dans quelle mesure la régression s’ajuste-t-elle aux données ?
Applications de l’apprentissage supervisé
L’apprentissage supervisé a un large éventail d’applications dans divers secteurs. Voici quelques exemples courants :
- Détection du spam :les services de messagerie utilisent une classification binaire pour décider si un e-mail doit arriver dans votre boîte de réception ou être acheminé vers le spam. Ils s'améliorent continuellement en réponse aux personnes marquant les e-mails dans le dossier spam comme non spam, et vice versa.
- Reconnaissance d'images :les modèles sont formés sur des images étiquetées pour reconnaître et catégoriser les objets. Les exemples incluent la fonction Face ID d'Apple, qui déverrouille votre tablette ou appareil mobile, la reconnaissance optique de caractères (OCR) pour transformer les mots imprimés en texte numérique et la détection d'objets pour les voitures autonomes.
- Diagnostic médical :les modèles supervisés peuvent prédire les maladies et suggérer des diagnostics potentiels à l’aide des données des patients et des dossiers médicaux. Par exemple, des modèles peuvent être formés pour reconnaître les tumeurs cancéreuses dans les IRM ou élaborer des plans de gestion du diabète.
- Détection de la fraude :les institutions financières utilisent l'apprentissage supervisé pour identifier les transactions frauduleuses en analysant les modèles dans les données de transaction étiquetées.
- Analyse des sentiments :qu'il s'agisse de mesurer des réactions positives ou négatives ou des émotions telles que le bonheur ou le dégoût, les ensembles de données marqués manuellement informent les modèles pour interpréter les entrées telles que les publications sur les réseaux sociaux, les critiques de produits ou les résultats d'enquêtes.
- Maintenance prédictive :sur la base des données de performances historiques et des facteurs environnementaux, les modèles peuvent prédire quand les machines sont susceptibles de tomber en panne afin qu'elles puissent être réparées ou remplacées avant qu'elles ne surviennent.
Avantages de l'apprentissage supervisé
- Précis et prévisible.En supposant qu’ils disposent de bonnes données, les modèles d’apprentissage supervisé ont tendance à être plus précis que les autres méthodes d’apprentissage automatique. Les modèles plus simples sont généralement déterministes, ce qui signifie qu’une entrée donnée produira toujours le même résultat.
- Objectif clair. Grâce à la supervision, vous savez ce que votre modèle essaie d'accomplir. Cela contraste clairement avec l’apprentissage non supervisé et auto-supervisé.
- Facile à évaluer. Vous disposez de plusieurs mesures de qualité pour juger de l’exactitude des modèles de classification et de régression.
- Interprétable. Les modèles supervisés utilisent des techniques, telles que des régressions et des arbres de décision, qui sont relativement simples à comprendre pour les data scientists. L'interprétabilité améliore la confiance des décideurs, en particulier dans les contextes à fort impact et les secteurs réglementés.
Inconvénients de l’apprentissage supervisé
- Nécessite des données étiquetées.Vos données doivent avoir des entrées et des étiquettes claires. Cela constitue souvent un défi pour la formation en classification, avec des milliers (voire des millions) de personnes employées pour annoter manuellement les données.
- Erreurs et jugement incohérent dans les données de formation. L’étiquetage humain entraîne des erreurs humaines, telles que des erreurs, des fautes de frappe et des opinions différentes. Ce dernier point constitue un aspect particulièrement difficile de l’analyse des sentiments ; les données de formation des sentiments de haute qualité nécessitent généralement que plusieurs personnes évaluent un point de données donné avec un résultat enregistré uniquement s'il y a un accord.
- Surapprentissage. Souvent, un modèle propose des calculs qui fonctionnent très bien pour les données d'entraînement, mais mal pour les données qu'il n'a pas encore vues. Un entraîneur attentif recherchera toujours le surajustement et utilisera des techniques pour réduire l’impact.
- Limité aux modèles connus. Si votre modèle de prévision du cours des actions est basé uniquement sur les données d'un marché haussier, il ne sera pas très précis une fois le marché baissier atteint. Par conséquent, soyez sensible aux limites des données que vous avez présentées à votre modèle et réfléchissez à l'opportunité de rechercher des données d'entraînement qui l'exposeront à davantage de circonstances ou simplement d'ignorer leur sortie.