Qu’est-ce que la régression logistique dans l’apprentissage automatique ?
Publié: 2024-10-04La régression logistique est une méthode fondamentale en analyse statistique et en apprentissage automatique (ML). Ce guide complet expliquera les bases de la régression logistique et discutera des différents types, des applications réelles ainsi que des avantages et des inconvénients de l'utilisation de cette technique puissante.
Table des matières
- Qu’est-ce que la régression logistique ?
- Types de régression logistique
- Régression logistique ou linéaire
- Comment fonctionne la régression logistique
- Applications
- Avantages
- Inconvénients
Qu’est-ce que la régression logistique ?
La régression logistique, également connue sous le nom de régression logit ou modèle logit, est un type d'algorithme d'apprentissage supervisé utilisé pour les tâches de classification, notamment pour prédire la probabilité d'un résultat binaire (c'est-à-dire deux classes possibles). Elle s’appuie sur les méthodes statistiques du même nom, qui estiment la probabilité qu’un événement spécifique se produise. Par exemple, la régression logistique peut être utilisée pour prédire la probabilité qu'un e-mail soit du spam ou qu'un client effectue un achat ou quitte un site Web.
Le modèle évalue les propriétés pertinentes de l'événement (appelées « variables prédictives » ou « caractéristiques »). Par exemple, si l'événement est « un e-mail est arrivé », les propriétés pertinentes peuvent inclure l'adresse IP source, l'adresse e-mail de l'expéditeur ou une évaluation de lisibilité du contenu. Il modélise la relation entre ces prédicteurs et la probabilité du résultat à l'aide de la fonction logistique, qui a la forme suivante :
f (x) = 1 / ( 1 + e -x )
Cette fonction génère une valeur comprise entre 0 et 1, représentant la probabilité estimée de l'événement (elle pourrait indiquer : « Cet e-mail a 80 % de chances d'être du spam »).
La régression logistique est largement utilisée en ML, en particulier pour les tâches de classification binaire. La fonction sigmoïde (un type de fonction logistique) est souvent utilisée pour convertir le résultat de tout modèle de classification binaire en probabilité. Bien que la régression logistique soit simple, elle constitue une technique fondamentale pour des modèles plus complexes, tels que les réseaux de neurones, dans lesquels des fonctions logistiques similaires sont utilisées pour modéliser les probabilités. Le termemodèle logitfait référence aux modèles qui utilisent cette fonction logit pour mapper les caractéristiques d'entrée aux probabilités prédites.
Types de régression logistique
Il existe trois principaux types de régression logistique : binaire, multinomiale et ordinale.
Régression logistique binaire
Également connue sous le nom de régression binaire, il s’agit de la forme standard et la plus courante de régression logistique. Lorsque le termerégression logistiqueest utilisé sans qualificatif, il fait généralement référence à ce type. Le nom « binaire » vient du fait qu’il considère exactement deux résultats ; cela peut être considéré comme une réponse à des questions par oui ou par non. La régression binaire peut traiter des questions plus complexes si elles sont recadrées sous forme de chaînes de questions oui ou non, ou binaires.
Exemple :Imaginez calculer les chances de trois options mutuellement exclusives : si un client va se désabonner (c'est-à-dire cesser d'utiliser le produit), s'inscrire à une version gratuite d'un service ou s'inscrire à la version premium payante. La régression binaire en chaîne pourrait résoudre ce problème en répondant à la chaîne de questions suivante :
- Le client va-t-il s'absenter (oui ou non) ?
- Dans la négative, le client s'inscrira-t-il au service gratuit (oui ou non) ?
- Dans la négative, le client souscrira-t-il au service premium payant (oui ou non) ?
Régression logistique multinomiale
Également connue sous le nom de régression multinomiale, cette forme de régression logistique est une extension de la régression binaire qui peut répondre à des questions comportant plus de deux résultats potentiels. Cela évite d’avoir à enchaîner les questions pour résoudre des problèmes plus complexes. La régression multinomiale suppose que les probabilités calculées n'ont aucune interdépendance ni aucun ordre et que l'ensemble des options considérées couvre tous les résultats possibles.
Exemple :La régression multinomiale fonctionne bien pour prédire la couleur qu'un client est susceptible de vouloir pour une voiture qu'il achète à partir d'une liste de couleurs disponibles. Cependant, cela ne fonctionne pas bien pour calculer les probabilités lorsque l'ordre est important, comme l'évaluation des couleurs vert, jaune et rouge comme balises de gravité pour un problème de support client, où le problème commence toujours par le vert et peut être transformé en jaune, puis rouge (le jaune suivant toujours le vert et le rouge suivant toujours le jaune).
Régression logistique ordinale
Également connue sous le nom de modèle de régression à probabilités proportionnelles, cette forme spécialisée de régression logistique est conçue pour les valeurs ordinales, c'est-à-dire les situations où l'ordre relatif entre les résultats est important. La régression logistique ordinale est utilisée lorsque les résultats ont un ordre naturel mais que les distances entre les catégories ne sont pas connues.
Exemple :il peut être utilisé pour calculer les chances qu'un client de l'hôtel soit susceptible de classer son séjour sur une échelle en cinq parties : très mauvais, mauvais, neutre, bon et très bon. L'ordre relatif est important : mauvais est toujours pire que neutre, et il est important de noter dans quelle direction les évaluations évolueront sur l'échelle. Lorsque l'ordre est important, la régression ordinale peut quantifier les relations entre les valeurs dont les probabilités sont calculées (par exemple, elle peut détecter que les valeurs mauvaises ont tendance à apparaître deux fois moins souvent que les valeurs neutres).
Régression logistique vs régression linéaire
Bien que différentes, la régression logistique et la régression linéaire apparaissent souvent dans des contextes similaires, car elles font partie d’un ensemble d’outils mathématiques plus vaste et connexe. La régression logistique calcule généralement les probabilités pour des résultats discrets, tandis que la régression linéaire calcule les valeurs attendues pour des résultats continus.
Par exemple, si l’on essayait de prédire la température la plus probable pour une journée future, un modèle de régression linéaire serait un bon outil pour ce travail. Les modèles de régression logistique, en revanche, tentent de calculer ou de prédire les chances de deux ou plusieurs options parmi une liste fixe de choix. Au lieu de prédire une température spécifique, un modèle de régression logistique pourrait donner la probabilité qu'un jour particulier se situe dans des plages de températures chaudes, confortables ou froides.
Puisqu'ils sont conçus pour répondre à des cas d'utilisation distincts, les deux modèles font des hypothèses différentes sur les propriétés statistiques des valeurs qu'ils prédisent et sont implémentés avec des outils statistiques différents. La régression logistique suppose généralement une distribution statistique qui s'applique à des valeurs discrètes, telle qu'une distribution de Bernoulli, tandis que la régression linéaire peut utiliser une distribution gaussienne. Pour fonctionner efficacement, la régression logistique nécessite souvent des ensembles de données plus volumineux, tandis que la régression linéaire est généralement plus sensible aux valeurs aberrantes influentes. De plus, la régression logistique émet des hypothèses sur la structure des probabilités qu'elle calcule, tandis que la régression linéaire émet des hypothèses sur la manière dont les erreurs sont réparties dans l'ensemble de données d'entraînement.
Les différences entre ces modèles les amènent à mieux fonctionner pour leurs cas d'utilisation idéaux spécifiques. La régression logistique sera plus précise pour prédire les valeurs catégorielles, et la régression linéaire sera plus précise pour prédire les valeurs continues. Cependant, les deux techniques sont souvent confondues, car leurs résultats peuvent être réutilisés avec des calculs mathématiques simples. Le résultat d’un modèle de régression logistique peut être appliqué, après transformation, aux mêmes types de problèmes que le résultat d’un modèle linéaire, ce qui permet d’économiser sur le coût de formation de deux modèles distincts. Mais cela ne fonctionnera pas aussi bien ; la même chose est vraie à l'envers.
Comment fonctionne la régression logistique ?
En tant que sorte d’algorithme d’apprentissage supervisé, la régression logistique dépend de l’apprentissage à partir d’ensembles de données bien annotés. Les ensembles de données contiennent généralement des listes de représentations de fonctionnalités correspondant à la sortie attendue du modèle pour chacune.
Pour mieux comprendre la régression logistique, il est essentiel de comprendre d'abord la terminologie clé suivante :
- Variables prédictives :propriétés ou caractéristiques prises en compte par le modèle logistique lors du calcul des probabilités de résultats. Par exemple, les variables prédictives permettant d'estimer la probabilité qu'un client achète un produit pourraient inclure des données démographiques et l'historique de navigation.
- Représentation des fonctionnalités :une instance spécifique de variables prédictives. Par exemple, si les variables prédictives sont « code postal », « état » et « tranche de revenu », une représentation caractéristique pourrait être « 90210 », « Californie » et « 75 000+/an ».
- Fonction de lien :fonction mathématique au cœur d'un modèle de régression qui relie les variables prédictives aux probabilités d'un résultat particulier. La fonction suivra le modèle :
θ = b(µ)
où θest la probabilité de prédire par catégorie,best une fonction spécifique (généralement une fonction en formedeS, appelée sigmoïde) etμreprésente la valeur prédite (à partir d'une plage continue de valeurs).
- Fonction logistique :fonction de lien spécifique utilisée dans la régression logistique, définie comme
σ ( X ) =1 / ( 1 +e-x)
Il normalise la sortie avec une probabilité comprise entre 0 et 1, convertissant les changements proportionnels et basés sur la multiplication des variables prédictives en changements de cotes cohérents et additifs.
- Fonction logit :l'inverse de la fonction logistique, convertissant les valeurs de probabilité en log-cotes, ce qui aide à expliquer la relation entre les variables prédictives et les probabilités d'un résultat. Cela aide à expliquer comment les variables prédictives sont liées aux probabilités d’un résultat. Il est défini comme :
logit p =σ ( p ) -1= ln ( p / ( 1 – p ) )
Pour une cote pdonnée, il effectue l'inverse de la fonction logistique.
- Perte de log :également connue sous le nom de perte d'entropie croisée ou perte logistique, elle mesure la différence entre les probabilités prédites et les résultats réels dans les modèles de classification. Pour la classification binaire, on parle souvent d’« entropie croisée binaire ».
Au cœur d’un processus de régression logistique se trouve la décision quant à la fonction de lien à utiliser. Pour une régression logistique binaire, ce sera toujours la fonction logistique. Des régressions plus complexes utiliseront d’autres types de fonctions sigmoïdes ; l'une des fonctions sigmoïdes les plus populaires est connue sous le nom de softmax et est très fréquemment utilisée dans les modèles ML et pour les cas d'utilisation de régression multinomiale.
Pendant la formation, le système dépendra également d'une fonction de perte, qui calcule les performances de la régression ou son ajustement. L'objectif des systèmes peut être considéré comme réduisant la distance entre un résultat ou une probabilité prévu et ce qui se passe dans le monde réel (cette distance est parfois appelée « la surprise »). Pour la régression logistique, la fonction de perte est une variante de la très populaire fonction de perte log.
Une variété d'algorithmes d'entraînement ML standard peuvent être utilisés pour entraîner le modèle de régression logistique, notamment la descente de gradient, l'estimation du maximum de vraisemblance et la descente de gradient stochastique.
Applications de la régression logistique en ML
Les modèles ML de régression logistique sont généralement utilisés pour les tâches de classification ou pour prédire les classes à partir d'informations partielles. Les cas d'utilisation couvrent de nombreux domaines, notamment la finance, la santé, l'épidémiologie et le marketing. Deux des applications les plus connues concernent la détection du spam par courrier électronique et le diagnostic médical.
Détection du spam par courrier électronique
La régression logistique peut être un outil efficace pour classer les communications, par exemple pour identifier les e-mails comme spam ou non, bien que des méthodes plus avancées soient souvent utilisées dans des cas complexes. L'adresse de l'expéditeur, la destination, le contenu du texte du message, l'adresse IP source, etc. (toutes les propriétés d'un e-mail) peuvent être marquées comme variables prédictives et prises en compte dans la probabilité qu'un e-mail donné soit du spam. Les outils de filtrage du spam par courrier électronique entraînent et mettent à jour rapidement les modèles logistiques binaires sur les nouveaux messages électroniques, et détectent et réagissent rapidement aux nouvelles stratégies de spam.
Des versions plus avancées des filtres anti-spam prétraitent les e-mails pour les rendre plus faciles à identifier comme spam. Par exemple, un script pourrait ajouter un pourcentage d'e-mails marqués comme spam pour l'adresse IP de l'expéditeur dans un e-mail, et la régression peut prendre en compte cette information.
Diagnostic médical
Les modèles de régression logistique sont couramment utilisés pour faciliter le diagnostic de maladies telles que le diabète et le cancer du sein. Ils apprennent et s’appuient sur les analyses effectuées par les médecins et les chercheurs en médecine.
Pour un diagnostic riche en images, tel que la détection du cancer, les chercheurs et les professionnels en médecine créent des ensembles de données à partir de divers tests, images et analyses. Ces données sont ensuite traitées et transformées en listes d'évaluations textuelles. Une image peut être analysée pour des détails tels que la densité des pixels, le nombre et le rayon moyen de divers groupes de pixels, etc. Ces mesures sont ensuite incluses dans une liste de variables prédictives qui incluent les résultats d'autres tests et évaluations. Les systèmes de régression logistique en tirent des leçons et prédisent si un patient est susceptible de recevoir un diagnostic de cancer.
En plus de prédire un diagnostic médical avec une grande précision, les systèmes de régression logistique peuvent également indiquer quels résultats de tests sont les plus pertinents pour leurs évaluations. Ces informations peuvent aider à prioriser les tests pour un nouveau patient, accélérant ainsi le processus de diagnostic.
Avantages de la régression logistique en ML
La régression logistique est souvent privilégiée en raison de sa simplicité et de son interprétabilité, en particulier dans les cas où les résultats doivent être produits relativement rapidement et où la compréhension des données est importante.
Des résultats rapides et pratiques
D'un point de vue pratique, la régression logistique est simple à mettre en œuvre et facile à interpréter. Il fonctionne de manière fiable et fournit des informations précieuses même lorsque les données ne correspondent pas parfaitement aux hypothèses ou aux attentes. Les modèles mathématiques sous-jacents sont efficaces et relativement simples à optimiser, ce qui fait de la régression logistique un choix robuste et pratique pour de nombreuses applications.
Informations utiles sur les propriétés des données
Théoriquement, la régression logistique excelle dans les tâches de classification binaire et est généralement très rapide pour classer de nouvelles données. Cela peut aider à identifier les variables associées au résultat d’intérêt, donnant ainsi un aperçu des domaines sur lesquels une analyse plus approfondie des données devrait se concentrer. La régression logistique offre souvent une grande précision dans des cas d'utilisation simples ; même lorsque la précision diminue pour certains ensembles de données, elle fournit toujours des informations significatives sur l'importance relative des variables et la direction de leur impact (positif ou négatif).
Inconvénients de la régression logistique en ML
La régression logistique fait des hypothèses sur les données qu'elle analyse, aidant ainsi les algorithmes sous-jacents à être plus rapides et plus faciles à comprendre, au prix d'une limitation de leur utilité. Ils ne peuvent pas être utilisés pour modéliser des résultats continus ou des relations non linéaires, peuvent échouer si la relation avec le modèle est trop complexe et seront surajustés s'ils analysent trop de données.
Limité à des résultats discrets
La régression logistique ne peut être utilisée que pour prédire des résultats discrets. Si le problème nécessite des prédictions continues, des techniques telles que la régression linéaire sont plus adaptées.
Supposons des relations linéaires
Le modèle suppose une relation linéaire entre les variables prédictives et les probabilités estimées, ce qui est rarement le cas dans les données réelles. Cela nécessite souvent un prétraitement et des ajustements supplémentaires pour améliorer la précision. De plus, la régression logistique suppose que les décisions de classification peuvent être prises à l'aide de fonctions linéaires simples, qui peuvent ne pas refléter la complexité des scénarios du monde réel. Par conséquent, la régression logistique est souvent une approximation qui peut nécessiter une optimisation et des mises à jour régulières pour rester pertinente.
Peut ne pas réussir à modéliser des relations complexes
Si un ensemble de variables prédictives n'a pas de relation linéaire avec les probabilités calculées, ou si les variables prédictives ne sont pas suffisamment indépendantes les unes des autres, la régression logistique peut ne pas fonctionner complètement ou ne détecter qu'un sous-ensemble de relations linéaires. lorsque le système possède un mélange de propriétés linéaires et d’autres propriétés plus complexes.
Surajuster de grands ensembles de données
Pour les ensembles de données plus volumineux et plus complexes, la régression logistique est sujette au surajustement, dans lequel le modèle s'aligne trop étroitement sur les données spécifiques sur lesquelles il a été formé, capturant le bruit et les détails mineurs plutôt que les modèles généraux. Cela peut entraîner de mauvaises performances sur les nouvelles données invisibles. Des techniques telles que la régularisation peuvent aider à atténuer le surajustement, mais une attention particulière est nécessaire lors de l'application de la régression logistique à des données complexes.