Apprentissage non supervisé : qu'est-ce que c'est et comment ça marche
Publié: 2024-07-03Percez les mystères de l'apprentissage non supervisé, une technique révolutionnaire qui permet aux machines de devenir des analystes de données autonomes, extrayant des informations précieuses sans intervention humaine.
Table des matières
- Qu’est-ce que l’apprentissage non supervisé ?
- Apprentissage non supervisé ou supervisé
- Comment fonctionne l'apprentissage non supervisé
- Types d'apprentissage non supervisé
- Applications de l'apprentissage non supervisé
- Avantages de l'apprentissage non supervisé
- Inconvénients de l’apprentissage non supervisé
Qu’est-ce que l’apprentissage non supervisé ?
L'apprentissage non supervisé est un type d'apprentissage automatique (ML) qui trouve lui-même des modèles et des relations au sein des données. Le termenon supervisésignifie que le modèle utilise des données non étiquetées, ce qui signifie qu'il ne reçoit aucune instruction de la part des humains sur ce qu'il faut rechercher, ni même des conseils sur ce qu'il recherche. Au lieu de cela, il utilise des algorithmes pour évaluer des ensembles de données et trouver des corrélations, des similitudes, des différences et d'autres moyens de décrire les données à l'aide des mathématiques.
L'apprentissage automatique est un sous-ensemble de l'intelligence artificielle (IA) qui utilise des données et des méthodes statistiques pour créer des modèles qui imitent le raisonnement humain plutôt que de s'appuyer sur des instructions codées en dur. L'apprentissage non supervisé adopte une approche exploratoire et basée sur les données pour tirer des conclusions à partir de grands ensembles de données, par exemple en regroupant des entités selon des caractéristiques communes ou en trouvant quels points de données ont tendance à coexister, ce qui pourrait consister à trier des images d'arbres à feuilles caduques ou à trouver des arbres à feuilles persistantes. que les personnes qui diffusentSesame Streetsont susceptibles de regarder égalementDaniel Tiger.
Apprentissage non supervisé ou supervisé
Contrairement aux méthodes non supervisées, l’apprentissage supervisé utilise des données étiquetées qui associent les entrées aux sorties correctes. À l’inverse, l’apprentissage non supervisé n’a pas d’entrées ni de sorties pour que le modèle puisse l’intuitionner, seulement des données à analyser.
Les étiquettes assurent ce que l'on appelle la supervision du processus d'apprentissage du modèle, le guidant vers la rétro-ingénierie pour obtenir la réponse correcte à partir d'une entrée donnée. L’utilisation de l’apprentissage supervisé est logique lorsque vous disposez de ce type de données vers lesquelles le modèle peut viser et extrapoler, notamment :
- Décisions oui ou non , comme la détection de spam ou de fraude
- Classification , comme l'identification d'objets dans une image ou la reconnaissance vocale
- Prévisions , telles que les prix de l'immobilier ou la météo
En revanche, l’apprentissage non supervisé ne sert pas à trouver la bonne réponse, mais plutôt à trouver des modèles ou des regroupements au sein des données. Les trois applications principales sont :
- Clustering , tel que la segmentation des clients ou le regroupement de documents
- Association , comme des moteurs de recommandation ou des anomalies de sécurité
- Réduction de dimensionnalité , généralement utilisée pour compresser de grands ensembles de données afin de les rendre plus gérables
L'apprentissage automatique ne se limite pas aux méthodes supervisées ou non supervisées ; ce ne sont que les deux extrémités d’un spectre. D'autres types de méthodes d'apprentissage automatique incluent l'apprentissage semi-supervisé, par renforcement et auto-supervisé.
Comment fonctionne l'apprentissage non supervisé
L’apprentissage non supervisé est conceptuellement simple : les algorithmes traitent de grandes quantités de données pour déterminer la relation entre les différents points de données. Parce que les données ne sont pas étiquetées, l’apprentissage non supervisé n’a ni contexte ni objectif. Il s'agit simplement d'essayer de trouver des modèles et d'autres caractéristiques.
Voici un bref aperçu du processus d’apprentissage non supervisé :
1 Collecte et nettoyage des données.L'apprentissage non supervisé évalue une table à la fois, donc si vous disposez de plusieurs ensembles de données, vous devez les fusionner soigneusement. Il est également important de ranger les données au mieux de vos capacités, par exemple en supprimant les doublons et en corrigeant les erreurs.
2 Mise à l'échelle des fonctionnalités.Les algorithmes non supervisés peuvent être perturbés par de grandes plages, alors envisagez de transformer les fonctionnalités en plages plus étroites en utilisant des techniques telles que :
- Normalisation :transforme la valeur supérieure en 1, la valeur la plus basse en 0 et tout le reste en décimal.
- Standardisation :spécifie la valeur moyenne sur 0 et l'écart type sur 1, chaque point de données étant ajusté en conséquence.
- Transformation logarithmique :compresse de larges plages, donc avec un logarithme en base 10, 100 000 devient 6 et 1 000 000 devient 7.
3 Sélection de l'algorithme.Il existe plusieurs algorithmes pour chaque type d’apprentissage non supervisé, chacun présentant des forces et des faiblesses (nous les passerons en revue dans la section suivante). Vous pouvez choisir d'appliquer différents algorithmes au même ensemble de données et de comparer.
4 Découverte et identification de modèles.L’algorithme choisi se met au travail. Cela peut prendre de quelques secondes à quelques heures, selon la taille de l'ensemble de données et l'efficacité de l'algorithme. Si vous disposez d'un grand ensemble de données, vous souhaiterez peut-être exécuter l'algorithme sur un sous-ensemble avant de traiter l'ensemble.
5 Interprétation.A ce stade, il est temps que les humains prennent le relais. Un analyste de données peut utiliser des graphiques, des vérifications ponctuelles et divers calculs pour analyser et interpréter les données.
6 Demande.Une fois que vous êtes sûr d’obtenir des résultats utiles, utilisez-le. Nous parlerons plus tard de certaines applications de l’apprentissage non supervisé.
Types d'apprentissage non supervisé
Il existe plusieurs types d’apprentissage non supervisé, mais les trois plus largement utilisés sont le clustering, les règles d’association et la réduction de dimensionnalité.
Regroupement
Le clustering crée des groupes de points de données. C'est vraiment utile pour regrouper des éléments similaires les uns aux autres afin qu'ils puissent ensuite être classés par analyse humaine. Par exemple, si vous disposez d'un ensemble de données incluant l'âge du client et le montant moyen des transactions, il peut trouver des clusters qui vous aident à décider où cibler vos dollars publicitaires.
Les types de regroupement comprennent :
- Clustering exclusif ou dur.Chaque point de données ne peut appartenir qu'à un seul cluster. Une approche populaire connue sous le nom de k-means vous permet de spécifier le nombre de clusters que vous souhaitez créer, bien que d'autres puissent déterminer le nombre optimal de clusters.
- Chevauchement ou regroupement souple. Cette approche permet à un point de données de se trouver dans plusieurs clusters et d'avoir un « degré » d'appartenance à chacun plutôt que simplement dedans ou dehors.
- Regroupement hiérarchique. Si cela se fait de bas en haut, cela s’appelle le clustering agglomératif hiérarchique, ou HAC ; la méthode descendante est appelée regroupement diviseur. Les deux impliquent de nombreux clusters organisés en clusters de plus en plus grands.
- Regroupement probabiliste. Il s'agit d'une approche différente qui calcule le pourcentage de probabilité qu'un point de données donné appartienne à n'importe quelle catégorie. L’un des avantages de cette approche est qu’elle peut attribuer à un certain point de données une très faible probabilité de faire partie d’un cluster donné, ce qui pourrait mettre en évidence des données anormales ou corrompues.
Règles d'association
Également connue sous le nom d’exploration de règles d’association ou d’apprentissage de règles d’association, cette approche trouve des relations intéressantes entre les points de données. L'utilisation la plus courante des règles d'association consiste à déterminer quels articles sont couramment achetés ou utilisés ensemble afin que le modèle puisse suggérer la prochaine chose à acheter ou à montrer.
Les trois concepts fondamentaux des règles d'association sont :
- Soutien.À quelle fréquence A et B sont-ils trouvés ensemble en pourcentage de toutes les instances disponibles (par exemple, transactions) ? A et B peuvent être des éléments individuels ou des ensembles représentant plusieurs éléments.
- Confiance. À quelle fréquence si A est vu, B est également vu ?
- Ascenseur. Quelle est la probabilité que A et B soient vus ensemble, par rapport à s’il n’y avait pas de corrélation ? Le lift est la mesure de « l’intérêt » d’une association.
Réduction de dimensionnalité
La réduction de dimensionnalité correspond au nombre de colonnes dans un tableau. D'autres termes pour les colonnes dans ce contexte sontcaractéristiquesouattributs. À mesure que le nombre de fonctionnalités d’un ensemble de données augmente, il devient plus difficile d’analyser les données et d’obtenir des résultats optimaux.
Le traitement des données de grande dimension nécessite plus de temps, de puissance de calcul et d’énergie. Cela peut également conduire à des résultats de qualité inférieure. Un exemple particulièrement pernicieux est le surajustement, la tendance des modèles d’apprentissage automatique à trop apprendre des détails des données d’entraînement au détriment de modèles plus larges qui se généralisent bien aux nouvelles données.
Les algorithmes de réduction de dimensionnalité créent des ensembles de données simplifiés en condensant les données d'origine en versions plus petites et plus gérables qui conservent les informations les plus importantes. Ils fonctionnent en fusionnant les caractéristiques corrélées et en notant les écarts par rapport à la tendance générale, réduisant ainsi efficacement le nombre de colonnes sans perdre les détails clés.
Par exemple, si vous disposiez d'un ensemble de données sur les hôtels et leurs équipements, le modèle pourrait constater que de nombreuses caractéristiques sont corrélées au nombre d'étoiles, de sorte qu'il pourrait compresser des attributs tels que le spa, le service en chambre et la réception 24 heures sur 24 dans une seule colonne.
En règle générale, les ingénieurs réduisent la dimensionnalité en tant qu'étape de pré-traitement afin d'améliorer les performances et les résultats d'autres processus, y compris, mais sans s'y limiter, l'apprentissage des règles de clustering et d'association.
Applications de l'apprentissage non supervisé
Voici quelques exemples :
- Analyse du panier de consommation.Les détaillants font abondamment usage des règles d’association. Par exemple, si vous avez mis des hot-dogs dans votre panier d'épicerie, il peut vous suggérer d'acheter du ketchup et des petits pains à hot-dog, car d'autres acheteurs ont constaté une forte augmentation de ces combinaisons. Les mêmes données peuvent également les amener à mettre du ketchup et des hot-dogs côte à côte dans le supermarché.
- Moteurs de recommandation. Ceux-ci examinent vos données personnelles (données démographiques et comportements) et les comparent à celles des autres pour deviner ce que vous aimeriez acheter ou regarder ensuite. Ils peuvent utiliser trois types d'apprentissage non supervisé : le clustering pour déterminer quels modèles d'autres clients pourraient prédire les vôtres, les règles d'association pour trouver des corrélations entre certaines activités ou achats, et la réduction de dimensionnalité pour faciliter le traitement d'ensembles de données complexes.
- Segmentation client. Alors que les spécialistes du marketing divisent leurs audiences en catégories nommées depuis des décennies, le regroupement non supervisé peut identifier des groupes qui n'étaient peut-être pas dans l'esprit d'aucun humain. Cette approche permet une analyse basée sur le comportement et peut aider les équipes à cibler les messages et les promotions de nouvelles manières.
- Détection d'anomalies.Parce qu'il est très efficace pour comprendre les schémas, l'apprentissage non supervisé est souvent utilisé pour alerter lorsque des choses sont anormales. Les utilisations incluent le signalement des achats frauduleux par carte de crédit, des données corrompues dans un tableau et des opportunités d'arbitrage sur les marchés financiers.
- Reconnaissance vocale.La parole est compliquée à analyser pour les ordinateurs, car ils doivent faire face au bruit de fond, aux accents, aux dialectes et aux voix. L'apprentissage non supervisé aide les moteurs de reconnaissance vocale à déterminer quels sons sont en corrélation avec quels phonèmes (unités vocales) et quels phonèmes sont généralement entendus ensemble, en plus de filtrer le bruit de fond et d'autres améliorations.
Avantages de l'apprentissage non supervisé
- Faible implication humaine.Une fois qu’un système d’apprentissage non supervisé s’est avéré fiable, son fonctionnement ne demande que peu d’efforts, au-delà de s’assurer que les entrées et les sorties sont correctement acheminées.
- Fonctionne sur des données brutes. Il n'est pas nécessaire de fournir des étiquettes, c'est-à-dire de spécifier quelle sortie doit résulter d'une entrée donnée. Cette capacité à gérer les données au fur et à mesure qu’elles arrivent est extrêmement précieuse lorsqu’il s’agit d’énormes quantités de données intactes.
- Découverte de modèles cachés. Sans objectif ni programme autre que la recherche de modèles, l'apprentissage non supervisé peut vous orienter vers des « inconnues connues » : des conclusions basées sur des données que vous n'aviez pas prises en compte auparavant mais qui ont du sens une fois présentées. Cette approche est particulièrement utile pour rechercher des aiguilles dans des meules de foin, par exemple pour analyser l'ADN afin de déterminer la cause de la mort cellulaire.
- Exploration des données. En réduisant la dimensionnalité et en trouvant des modèles et des clusters, l'apprentissage non supervisé donne aux analystes une longueur d'avance pour donner du sens à de nouveaux ensembles de données.
- Formation progressive. De nombreux modèles non supervisés peuvent apprendre au fur et à mesure : à mesure que davantage de données arrivent, ils peuvent évaluer les dernières entrées par rapport à ce qu'ils ont déjà découvert. Cela prend beaucoup moins de temps et d’efforts informatiques.
Inconvénients de l’apprentissage non supervisé
- Vous avez besoin de beaucoup de données.L’apprentissage non supervisé est sujet à de grosses erreurs s’il est formé sur des exemples limités. Il peut détecter des modèles dans les données qui ne tiennent pas dans le monde réel (surapprentissage), changer radicalement face à de nouvelles données (instabilité) ou ne pas disposer de suffisamment d'informations pour déterminer quoi que ce soit de significatif (découverte de modèles limitée).
- Faible interprétabilité. Il peut être difficile de comprendre pourquoi un algorithme, tel que la logique de clustering, est parvenu à une conclusion particulière.
- Faux positifs. Un modèle non supervisé pourrait en lire trop dans des points de données anormaux mais sans importance, sans étiquettes, pour lui apprendre ce qui mérite attention.
- Difficile d’évaluer systématiquement.Puisqu’il n’existe pas de « bonne » réponse à laquelle comparer, il n’existe aucun moyen simple de mesurer l’exactitude ou l’utilité du résultat. Le problème peut être quelque peu atténué en exécutant différents algorithmes sur les mêmes données, mais en fin de compte, la mesure de la qualité sera largement subjective.