Régression dans l'apprentissage automatique : qu'est-ce que c'est et comment ça marche
Publié: 2024-11-13La régression dans l'apprentissage automatique (ML) est un concept fondamental utilisé pour prédire des valeurs continues en fonction des caractéristiques d'entrée. Qu'il s'agisse d'estimer les prix des logements ou de prévoir les ventes, les modèles de régression établissent des relations entre les variables. Dans cet article, nous détaillerons les différents types de modèles de régression, les algorithmes qui les sous-tendent et les moments où chaque méthode est la mieux appliquée. Vous découvrirez également le fonctionnement de la régression, ses cas d'utilisation pratiques, ainsi que les avantages et les défis associés à l'utilisation de la régression dans l'apprentissage automatique.
Table des matières
- Qu’est-ce que la régression ?
- Types de modèles de régression
- Algorithmes utilisés pour la régression
- Exemples de régression
- Avantages de la régression
- Les défis de la régression
Qu’est-ce que la régression dans l’apprentissage automatique ?
La régression est un type d'apprentissage supervisé utilisé pour prédire des valeurs continues basées sur des données d'entrée. Il estime les relations entre les variables pour prédire et expliquer diverses choses, telles que les prix de l'immobilier, les tendances boursières ou les conditions météorologiques. Les modèles de régression mappent les entités d'entrée à une variable cible continue, permettant des prédictions numériques précises.
Par exemple, en utilisant les données météorologiques de la semaine dernière, un modèle de régression peut prévoir les précipitations du lendemain. Les valeurs qu'il prédit sont continues, ce qui signifie qu'elles peuvent se situer n'importe où sur une échelle numérique, comme la température mesurée avec des décimales ou le chiffre d'affaires projeté pour les mois à venir.
Régression vs classification : quelle est la différence ?
Alors que la régression prédit des résultats continus, la classification se concentre sur la prédiction de catégories ou de classes discrètes. Par exemple, un modèle de régression peut prédire la quantité exacte de pluie demain, tandis qu'un modèle de classification peut prédire s'il pleuvra (oui ou non). La principale différence est que la régression traite des valeurs numériques, tandis que la classification attribue les données à des catégories prédéfinies.
Dans certains cas, il est possible d'adapter le résultat d'un modèle de régression à une tâche de classification et vice versa, mais les deux approches conviennent généralement à différents types de problèmes.
Régression : algorithme, modèle ou analyse ?
La régression est parfois appelée analyse de régression, un terme statistique large utilisé pour décrire la recherche de relations continues entre les observations et les résultats. Un algorithme de régression est un outil mathématique spécifique conçu pour identifier ces relations. Lorsqu'un algorithme est utilisé pour entraîner un modèle d'apprentissage automatique, le résultat est appelémodèle de régression.
Ces trois termes (analyse de régression,algorithme de régressionetmodèle de régression) sont souvent utilisés de manière interchangeable, mais ils représentent chacun un aspect différent du processus de régression.
Types de régression dans l'apprentissage automatique
Les modèles de régression se présentent sous de nombreuses formes, chacune conçue pour gérer différentes relations entre les données d'entrée et les résultats prévus. Bien que la régression linéaire soit la plus fréquemment utilisée et relativement facile à comprendre, d'autres modèles, comme la régression polynomiale, logistique et bayésienne, sont mieux adaptés à des tâches plus complexes ou spécialisées. Vous trouverez ci-dessous quelques-uns des principaux types de modèles de régression et les moments où ils sont généralement utilisés.
Régression simple et multiple (linéaire)
La régression linéaire, une technique de régression populaire, est connue pour sa facilité d'interprétation, sa formation rapide et ses performances fiables dans diverses applications. Il estime la relation entre les variables explicatives et cibles à l’aide de lignes droites. La régression linéaire simple implique une variable explicative, tandis que la régression linéaire multiple en implique deux ou plus. Généralement, lorsque quelqu’un parle d’analyse de régression, il parle de régression linéaire.
Régression polynomiale
Si les lignes droites ne parviennent pas à expliquer de manière satisfaisante la relation entre les variables observées et les résultats attendus, un modèle de régression polynomiale pourrait être une meilleure option. Ce modèle recherche des relations continues et complexes et peut identifier les modèles mieux décrits à l'aide de courbes ou d'une combinaison de courbes et de lignes droites.
Régression logistique
Lorsque la relation entre les observations et les valeurs prédites n'est pas continue (ou discrète), la régression logistique est l'outil le plus courant pour ce travail. Dans ce contexte, discret signifie des situations dans lesquelles les fractions ou les nombres réels ne sont pas aussi pertinents (par exemple, si l'on prédit le nombre de clients qui entreront dans un café, la régression logistique donnera une réponse de 4 ou 5 au lieu de quelque chose de plus difficile à interpréter, comme 4,35).
La forme la plus connue de régression logistique estla régression binaire, qui prédit les réponses à des questions binaires (c'est-à-dire oui/non) ; généralement, la régression logistique est binaire. Des variantes plus complexes, telles que la régression multinomiale, prédisent les réponses aux questions proposant plus de deux choix. Les modèles logistiques reposent essentiellement sur la sélection d’une fonction parmi plusieurs pour convertir les entrées continues en entrées discrètes.
Régression bayésienne
Les techniques de régression linéaire et autres nécessitent des données de formation substantielles pour faire des prédictions précises. En revanche, la régression bayésienne est un algorithme statistique avancé qui peut faire des prédictions fiables avec moins de données, à condition que certaines propriétés statistiques des données soient connues ou puissent être estimées. Par exemple, prédire les ventes de nouveaux produits pendant la période des fêtes peut s'avérer difficile pour une régression linéaire en raison du manque de données sur les ventes du nouveau produit. Une régression bayésienne peut prédire les données de ventes avec une plus grande précision en supposant que les ventes du nouveau produit suivent la même distribution statistique que les ventes d'autres produits similaires. En règle générale, les régressions bayésiennes supposent que les données suivent une distribution statistique gaussienne, ce qui conduit à l'utilisation interchangeable des termesrégressionbayésienne et gaussienne.
Régression à effets mixtes
La régression suppose qu'il existe une relation non aléatoire entre les données observées et les données prédites. Parfois, cette relation est difficile à définir en raison d’interdépendances complexes dans les données observées ou de comportements aléatoires occasionnels. Les modèles à effets mixtes sont des modèles de régression qui incluent des mécanismes permettant de gérer des données aléatoires et d'autres comportements difficiles à modéliser. Ces modèles sont également appelés de manière interchangeable modèles mixtes, à effets mixtes ou à erreurs mixtes.
Autres algorithmes de régression
La régression est très bien étudiée. Il existe de nombreux autres algorithmes de régression plus complexes ou spécialisés, notamment ceux qui utilisent des techniques binomiales, multinomiales et avancées à effets mixtes, ainsi que ceux qui combinent plusieurs algorithmes. Plusieurs algorithmes combinés peuvent être organisés dans un ordre séquentiel, par exemple en plusieurs couches séquentielles, ou exécutés en parallèle, puis agrégés d'une manière ou d'une autre. Un système qui exécute plusieurs modèles en parallèle est souvent appelé forêt.
Algorithmes utilisés pour l'analyse de régression
De nombreux types d'algorithmes de régression sont utilisés dans l'apprentissage automatique pour générer des modèles de régression. Certains algorithmes sont conçus pour créer des types spécifiques de modèles (auquel cas l’algorithme et le modèle partagent souvent le même nom). D'autres se concentrent sur l'amélioration de certains aspects des modèles existants, tels que l'amélioration de leur précision ou de leur efficacité. Nous aborderons ci-dessous certains des algorithmes les plus couramment utilisés. Avant de faire cela, il est important de comprendre comment ils sont évalués : généralement, cela repose sur deux propriétés clés, la variance et le biais.
- La variancemesure dans quelle mesure les prédictions d'un modèle fluctuent lorsqu'elles sont entraînées sur différents ensembles de données. Un modèle avec une variance élevée peut s'adapter très étroitement aux données d'entraînement, mais fonctionner mal sur de nouvelles données invisibles, un phénomène connu sous le nom de surajustement. Idéalement, les algorithmes de régression devraient produire des modèles avec une faible variance, ce qui signifie qu'ils se généralisent bien aux nouvelles données et ne sont pas trop sensibles aux changements dans l'ensemble d'apprentissage.
- Le biaisfait référence à l'erreur introduite en approchant un problème du monde réel, qui peut être trop complexe, avec un modèle simplifié. Un biais élevé peut entraîner un sous-ajustement, dans lequel le modèle ne parvient pas à capturer des modèles importants dans les données, conduisant à des prédictions inexactes. Idéalement, le biais devrait être faible, indiquant que le modèle capture efficacement les relations dans les données sans trop simplifier. Dans certains cas, les biais peuvent être atténués en améliorant les données d'entraînement ou en ajustant les paramètres de l'algorithme de régression.
Régression simple et multiple (linéaire)
La régression linéaire simple analyse la relation entre une variable explicative unique et un résultat prédit, ce qui en fait la forme de régression la plus simple. La régression linéaire multiple est plus compliquée et trouve des relations entre deux ou plusieurs variables et un résultat. Ils trouvent tous deux des relations qui ont une structure linéaire, basées sur des équations linéaires qui correspondent généralement à ce modèle :
y =β + β1x + ε
Ici,yest un résultat à prédire,xest une variable à partir de laquelle le prédire,εest une erreur à tenter de minimiser, etβetβ1 sont des valeurs calculées par la régression.
La régression linéaire utilise un processus d'apprentissage supervisé pour établir des associations entre les variables explicatives et les résultats prédits. Le processus d'apprentissage examine les données d'entraînement à plusieurs reprises, améliorant ainsi les paramètres des équations linéaires sous-jacentes à chaque itération sur les données. Les méthodes les plus courantes pour évaluer les performances des paramètres consistent à calculer les valeurs d'erreur moyennes pour toutes les données disponibles utilisées dans les tests ou la formation. Des exemples de méthodes de calcul d'erreur incluentl'erreur quadratique moyenne(la moyenne des carrés des distances entre les prédictions et les résultats réels),l'erreur absolue moyenneet des méthodes plus complexes telles que lasomme résiduelle des carrés(les erreurs totales plutôt que la moyenne).
Régression polynomiale
La régression polynomiale traite des problèmes plus complexes que la régression linéaire et nécessite la résolution de systèmes d'équations linéaires, généralement avec des opérations matricielles avancées. Il peut trouver des relations dans les données qui se courbent, et pas seulement celles qui peuvent être représentées par des lignes droites. Lorsqu'il est appliqué correctement, il réduira la variance des problèmes dans lesquels la régression linéaire échoue. Il est également plus difficile à comprendre, à mettre en œuvre et à optimiser car il dépend de concepts et d’opérations mathématiques avancés.
Une régression polynomiale tentera de résoudre les équations qui relientyet plusieursxavec des équations de forme polynomiale qui suivent ce modèle :
y =β + β1x + β2x2+ … + ε
L'algorithme de régression polynomiale recherchera à la fois les valeursβidéales à utiliser et la forme du polynôme (combien d'exposants dexpourraient être nécessaires pour définir la relation entreyet chaquex?).
Régression au lasso
La régression lasso (qui signifie opérateur de retrait et de sélection le moins absolu), également connue sous le nom de régression de norme lasso,L1etL1, est une technique utilisée pour réduire le surajustement et améliorer la précision du modèle. Il fonctionne en appliquant une pénalité aux valeurs absolues des coefficients du modèle, réduisant ainsi ou réduisant efficacement certains coefficients à zéro. Cela conduit à des modèles plus simples où les fonctionnalités non pertinentes sont exclues. L'algorithme du lasso permet d'éviter le surajustement en contrôlant la complexité du modèle, ce qui rend le modèle plus interprétable sans sacrifier trop de précision.
Le lasso est particulièrement utile lorsque les variables explicatives sont corrélées. Par exemple, dans les prévisions météorologiques, la température et l’humidité peuvent être corrélées, conduisant à un surapprentissage. Lasso réduit l'effet de ces corrélations, créant ainsi un modèle plus robuste.
Régression de crête
La régression Ridge (également connue sous le nom de normeL2, normeL2ou régularisation de Tikhonov) est une autre technique permettant d'éviter le surajustement, en particulier lorsque la multicolinéarité (corrélation entre les variables explicatives) est présente. Contrairement au lasso, qui peut réduire les coefficients à zéro, la régression Ridge ajoute une pénalité proportionnelle au carré des coefficients du modèle. L'objectif est d'apporter de petits ajustements aux coefficients sans supprimer complètement les variables.
Exemples de cas d'utilisation de régression
Les modèles de régression sont largement utilisés dans divers secteurs pour effectuer des prédictions basées sur des données historiques. En identifiant des modèles et des relations entre les variables, ces modèles peuvent fournir des informations précieuses pour la prise de décision. Vous trouverez ci-dessous trois exemples bien connus de domaines dans lesquels la régression est appliquée.
Analyse et prévision météorologiques
L'analyse de régression peut prédire les conditions météorologiques, telles que la température et les précipitations attendues pour chaque jour de la semaine prochaine. Souvent, plusieurs algorithmes de régression différents sont formés sur des données météorologiques historiques, notamment l'humidité, la vitesse du vent, la pression atmosphérique et la couverture nuageuse. Les mesures horaires ou quotidiennes de ces variables servent de fonctionnalités dont le modèle peut tirer des leçons, et l'algorithme est chargé de prédire les changements de température au fil du temps. Lorsque plusieurs algorithmes de régression (un ensemble) sont utilisés en parallèle pour prédire les conditions météorologiques, leurs prévisions sont généralement combinées via une forme de moyenne, telle que la moyenne pondérée.
Prévision des ventes et des revenus
Dans un contexte commercial, les modèles de régression sont fréquemment utilisés pour prévoir les revenus et d'autres indicateurs de performance clés. Un modèle de régression multiple peut prendre en compte des variables qui influencent le volume des ventes, telles que les mesures des campagnes marketing, les commentaires des clients et les tendances macroéconomiques. Le modèle est ensuite chargé de prédire les ventes et les revenus pour une période future spécifiée. À mesure que de nouvelles données deviennent disponibles, le modèle peut être recyclé ou mis à jour pour affiner ses prédictions sur la base des dernières observations.
Prédire les résultats des soins de santé
Les modèles de régression ont de nombreuses applications pour prédire les résultats en matière de santé. Par exemple, les modèles bayésiens pourraient être utilisés pour estimer les ratios de taux d’incidence en s’appuyant sur les données historiques des patients. Ces modèles aident à répondre à des questions telles que « Que se passera-t-il probablement si nous ajustons le dosage d'un médicament ? » La régression linéaire peut être utilisée pour identifier les facteurs de risque, tels que la prévision des changements dans l'état de santé d'un patient en fonction des ajustements de son mode de vie. La régression logistique, couramment utilisée pour le diagnostic, calcule le rapport de cotes de la présence d'une maladie en fonction des antécédents médicaux du patient et d'autres variables pertinentes.
Avantages de la régression
Les algorithmes et modèles de régression, en particulier la régression linéaire, sont des composants fondamentaux de nombreux systèmes d'apprentissage automatique. Ils sont largement utilisés en raison des avantages suivants :
- Ils peuvent être rapides.Les techniques de régression peuvent établir rapidement des relations entre plusieurs variables (caractéristiques) et une valeur cible, ce qui les rend utiles pour l'analyse exploratoire des données et accélère la formation de modèles d'apprentissage automatique.
- Ils sont polyvalents. De nombreux modèles de régression, tels que la régression linéaire, polynomiale et logistique, sont bien étudiés et peuvent être adaptés pour résoudre un large éventail de problèmes du monde réel, de la prédiction aux tâches de classification.
- Ils peuvent être faciles à mettre en œuvre. Les modèles de régression linéaire, par exemple, peuvent être mis en œuvre sans nécessiter de techniques mathématiques ou d'ingénierie complexes, ce qui les rend accessibles aux data scientists et aux ingénieurs de différents niveaux de compétence.
- Ils sont faciles à comprendre. Les modèles de régression, en particulier la régression linéaire, offrent des résultats interprétables dans lesquels les relations entre les variables et leur impact sur le résultat prévu sont souvent claires. Cela les rend utiles pour identifier les tendances et les modèles dans les données qui peuvent éclairer une analyse plus approfondie. Dans certains cas, les modèles de régression peuvent sacrifier l’interprétabilité pour une plus grande précision, selon le cas d’utilisation.
Les défis de la régression
Si les modèles de régression offrent de nombreux avantages, ils comportent également leurs propres défis. Souvent, ces défis se traduiront par une performance réduite ou une généralisabilité, en particulier lorsque vous travaillez avec des problèmes complexes ou des données limitées. Vous trouverez ci-dessous quelques-uns des problèmes les plus courants rencontrés dans l’analyse de régression.
- Surajustement :les modèles ont souvent du mal à équilibrer les biais et la variance. Si un modèle est trop complexe, il peut très bien s'adapter aux données historiques (réduisant la variance) mais devenir biaisé lorsqu'il est exposé à de nouvelles données. Cela est souvent dû au fait que le modèle mémorise les données d'entraînement au lieu d'apprendre une abstraction généralisée.
- Sous-ajustement :un modèle trop simple pour le problème posé peut souffrir d’un biais élevé. Il affichera des taux d'erreur élevés à la fois sur les données d'entraînement et sur les données invisibles, indiquant qu'il n'a pas appris les modèles sous-jacents. Des ajustements excessifs pour corriger des biais élevés peuvent conduire à un sous-ajustement, dans lequel le modèle ne parvient pas à capturer la complexité des données.
- Données de formation complexes :les modèles de régression supposent généralement que les observations utilisées pour la formation sont indépendantes. Si les données contiennent des relations complexes ou un caractère aléatoire inhérent, le modèle peut avoir du mal à établir des prédictions précises et fiables.
- Données incomplètes ou manquantes :les algorithmes de régression supervisée nécessitent de grandes quantités de données pour apprendre des modèles et prendre en compte les cas extrêmes. Lorsqu'il traite des données manquantes ou incomplètes, le modèle peut ne pas fonctionner correctement, en particulier lors de l'apprentissage de relations complexes nécessitant une couverture de données étendue.
- Sélection des variables prédictives :les modèles de régression s'appuient sur les humains pour sélectionner les bonnes variables prédictives (caractéristiques). Si trop de variables non pertinentes sont incluses, les performances du modèle peuvent se dégrader. À l’inverse, si trop peu de variables ou si les mauvaises variables sont choisies, le modèle peut ne pas réussir à résoudre le problème avec précision ou à faire des prédictions fiables.