¿Qué es la regresión logística en el aprendizaje automático?
Publicado: 2024-10-04La regresión logística es un método fundamental en el análisis estadístico y el aprendizaje automático (ML). Esta guía completa explicará los conceptos básicos de la regresión logística y analizará varios tipos, aplicaciones del mundo real y las ventajas y desventajas de utilizar esta poderosa técnica.
Tabla de contenido
- ¿Qué es la regresión logística?
- Tipos de regresión logística
- Regresión logística versus lineal
- Cómo funciona la regresión logística
- Aplicaciones
- Ventajas
- Desventajas
¿Qué es la regresión logística?
La regresión logística, también conocida como regresión logit o modelo logit, es un tipo de algoritmo de aprendizaje supervisado que se utiliza para tareas de clasificación, especialmente para predecir la probabilidad de un resultado binario (es decir, dos clases posibles). Se basa en los métodos estadísticos del mismo nombre, que estiman la probabilidad de que ocurra un evento específico. Por ejemplo, la regresión logística se puede utilizar para predecir la probabilidad de que un correo electrónico sea spam o de que un cliente realice una compra o abandone un sitio web.
El modelo evalúa propiedades relevantes del evento (llamadas “variables predictoras” o “características”). Por ejemplo, si el evento es "llegó un correo electrónico", las propiedades relevantes pueden incluir la dirección IP de origen, la dirección de correo electrónico del remitente o una clasificación de legibilidad del contenido. Modela la relación entre estos predictores y la probabilidad del resultado utilizando la función logística, que tiene la siguiente forma:
f (x) = 1 / ( 1 + mi -x )
Esta función genera un valor entre 0 y 1, que representa la probabilidad estimada del evento (podría decir: "Tiene un 80% de probabilidad de que este correo electrónico sea spam").
La regresión logística se usa ampliamente en ML, particularmente para tareas de clasificación binaria. La función sigmoidea (un tipo de función logística) se utiliza a menudo para convertir la salida de cualquier modelo de clasificación binaria en una probabilidad. Aunque la regresión logística es simple, sirve como técnica fundamental para modelos más complejos, como las redes neuronales, donde se utilizan funciones logísticas similares para modelar probabilidades. El términomodelo logitse refiere a modelos que utilizan esta función logit para asignar características de entrada a probabilidades predichas.
Tipos de regresión logística
Hay tres tipos principales de regresión logística: binaria, multinomial y ordinal.
Regresión logística binaria
También conocida como regresión binaria, esta es la forma estándar y más común de regresión logística. Cuando el términoregresión logísticase utiliza sin calificativos, suele referirse a este tipo. El nombre “binario” proviene del hecho de que considera exactamente dos resultados; Se puede considerar que responde a preguntas de sí o no. La regresión binaria puede manejar preguntas más complicadas si se replantean como cadenas de preguntas de sí o no, o binarias.
Ejemplo:imagine calcular las probabilidades de tres opciones mutuamente excluyentes: si un cliente abandonará (es decir, dejará de usar el producto), se registrará en una versión gratuita de un servicio o se registrará en la versión premium paga. La regresión binaria encadenada podría resolver este problema respondiendo la siguiente cadena de preguntas:
- ¿El cliente abandonará (sí o no)?
- En caso negativo, ¿el cliente se dará de alta en el servicio gratuito (sí o no)?
- En caso contrario, ¿el cliente se dará de alta en el servicio premium de pago (sí o no)?
Regresión logística multinomial
También conocida como regresión multinomial, esta forma de regresión logística es una extensión de la regresión binaria que puede responder preguntas con más de dos resultados potenciales. Evita la necesidad de encadenar preguntas para resolver problemas más complejos. La regresión multinomial supone que las probabilidades que se calculan no tienen interdependencias ni orden y que el conjunto de opciones consideradas cubre todos los resultados posibles.
Ejemplo:la regresión multinomial funciona bien al predecir qué color probablemente querrá un cliente para un automóvil que está comprando de una lista de colores disponibles. Sin embargo, no funciona bien para calcular probabilidades cuando el orden importa, como evaluar los colores verde, amarillo y rojo como etiquetas de gravedad para un problema de atención al cliente, donde el problema siempre comienza en verde y puede escalarse a amarillo y luego rojo (con el amarillo siempre siguiendo al verde y el rojo siempre siguiendo al amarillo).
Regresión logística ordinal
Esta forma especializada de regresión logística, también conocida como modelo de probabilidades proporcionales para regresión, está diseñada para valores ordinales, situaciones en las que el orden relativo entre los resultados es importante. La regresión logística ordinal se utiliza cuando los resultados tienen un orden natural pero no se conocen las distancias entre las categorías.
Ejemplo:podría usarse para calcular las probabilidades de que un huésped de un hotel califique su estadía en una escala de cinco partes: muy mala, mala, neutral, buena y muy buena. El orden relativo es importante: lo malo siempre es peor que lo neutral, y es importante observar en qué dirección se moverán las revisiones en la escala. Cuando el orden importa, la regresión ordinal puede cuantificar las relaciones entre los valores cuyas probabilidades se calculan (por ejemplo, podría detectar que lo malo tiende a aparecer la mitad de veces que lo neutral).
Regresión logística versus regresión lineal
Aunque son diferentes, la regresión logística y la regresión lineal a menudo aparecen en contextos similares, ya que son parte de un conjunto de herramientas matemáticas más amplio y relacionado. La regresión logística generalmente calcula probabilidades de resultados discretos, mientras que la regresión lineal calcula valores esperados para resultados continuos.
Por ejemplo, si uno intentara predecir la temperatura más probable para un día en el futuro, un modelo de regresión lineal sería una buena herramienta para el trabajo. Los modelos de regresión logística, por el contrario, intentan calcular o predecir las probabilidades de dos o más opciones a partir de una lista fija de opciones. En lugar de predecir una temperatura específica, un modelo de regresión logística podría dar las probabilidades de que un día en particular caiga en rangos de temperatura cálidos, confortables o fríos.
Dado que están diseñados para abordar casos de uso separados, los dos modelos hacen suposiciones diferentes sobre las propiedades estadísticas de los valores que predicen y se implementan con diferentes herramientas estadísticas. La regresión logística normalmente supone una distribución estadística que se aplica a valores discretos, como una distribución de Bernoulli, mientras que la regresión lineal puede utilizar una distribución gaussiana. La regresión logística a menudo requiere conjuntos de datos más grandes para funcionar de manera efectiva, mientras que la regresión lineal suele ser más sensible a valores atípicos influyentes. Además, la regresión logística hace suposiciones sobre la estructura de las probabilidades que calcula, mientras que la regresión lineal hace suposiciones sobre cómo se distribuyen los errores en el conjunto de datos de entrenamiento.
Las diferencias entre estos modelos hacen que funcionen mejor para sus casos de uso ideales específicos. La regresión logística será más precisa para predecir valores categóricos y la regresión lineal será más precisa para predecir valores continuos. Sin embargo, las dos técnicas a menudo se confunden entre sí, ya que sus resultados pueden reutilizarse con cálculos matemáticos sencillos. El resultado de un modelo de regresión logística se puede aplicar, después de una transformación, a los mismos tipos de problemas que el resultado de un modelo lineal, ahorrando el costo de entrenar dos modelos separados. Pero no funcionará tan bien; Lo mismo ocurre a la inversa.
¿Cómo funciona la regresión logística?
Como una especie de algoritmo de aprendizaje supervisado, la regresión logística depende del aprendizaje a partir de conjuntos de datos bien anotados. Los conjuntos de datos generalmente contienen listas de representaciones de características que coinciden con el resultado esperado del modelo para cada una.
Para obtener una comprensión más clara de la regresión logística, es esencial comprender primero la siguiente terminología clave:
- Variables predictoras:propiedades o características consideradas por el modelo logístico al calcular las probabilidades de resultados. Por ejemplo, las variables predictivas para estimar la probabilidad de que un cliente compre un producto podrían incluir datos demográficos e historial de navegación.
- Representación de características:una instancia específica de variables predictoras. Por ejemplo, si las variables predictoras son "código postal", "estado" y "grupo de ingresos", una representación de característica podría ser "90210", "California" y "75K+/año".
- Función de enlace:la función matemática central de un modelo de regresión que conecta las variables predictivas con las probabilidades de un resultado particular. La función seguirá el patrón:
θ = b(μ)
donde θson las probabilidades de predicción por categoría,bes una función específica (generalmente una función en forma deS, llamada sigmoide) yμrepresenta el valor predicho (de un rango continuo de valores).
- Función logística:la función de enlace específica utilizada en la regresión logística, definida como
σ ( x ) =1 / ( 1 +mi-x)
Normaliza la salida a una probabilidad entre 0 y 1, convirtiendo cambios proporcionales basados en la multiplicación en variables predictivas en cambios consistentes y aditivos en las probabilidades.
- Función logit:la inversa de la función logística, que convierte los valores de probabilidad en log-odds, lo que ayuda a explicar cómo las variables predictivas se relacionan con las probabilidades de un resultado. Ayuda a explicar cómo las variables predictivas se relacionan con las probabilidades de un resultado. Se define como:
logit p =σ ( p ) -1= ln ( p / ( 1 – p ) )
Para una cuota dada p, realiza la inversa de la función logística.
- Pérdida logarítmica:también conocida como pérdida de entropía cruzada o pérdida logística, mide la diferencia entre las probabilidades predichas y los resultados reales en los modelos de clasificación. Para la clasificación binaria, a menudo se la denomina "entropía cruzada binaria".
En el centro de un proceso de regresión logística está la decisión de qué función de enlace utilizar. Para una regresión logística binaria, esa siempre será la función logística. Las regresiones más complejas utilizarán otros tipos de funciones sigmoideas; Una de las funciones sigmoideas más populares se conoce como softmax y se usa con mucha frecuencia en modelos de aprendizaje automático y para casos de uso de regresión multinomial.
Durante el entrenamiento, el sistema también dependerá de una función de pérdida, que calcula qué tan bien se está desempeñando la regresión o su ajuste. Se puede pensar que el objetivo de los sistemas es reducir la distancia entre un resultado o probabilidades pronosticadas y lo que sucede en el mundo real (a veces esta distancia se llama “la sorpresa”). Para la regresión logística, la función de pérdida es una variación de la muy popular función de pérdida logarítmica.
Se puede utilizar una variedad de algoritmos de entrenamiento de ML estándar para entrenar el modelo de regresión logística, incluido el descenso de gradiente, la estimación de máxima verosimilitud y el descenso de gradiente estocástico.
Aplicaciones de la regresión logística en ML
Los modelos de ML de regresión logística se utilizan normalmente para tareas de clasificación o para predecir clases a partir de información parcial. Los casos de uso abarcan muchos dominios, incluidos los financieros, sanitarios, epidemiológicos y de marketing. Dos de las aplicaciones más conocidas son las de detección de spam en correos electrónicos y diagnóstico médico.
Detección de spam de correo electrónico
La regresión logística puede ser una herramienta eficaz para clasificar la comunicación, como identificar correos electrónicos como spam o no, aunque a menudo se utilizan métodos más avanzados en casos complejos. La dirección del remitente, el destino, el contenido del texto del mensaje, la dirección IP de origen, etc. (todas las propiedades de un correo electrónico) pueden marcarse como variables predictivas y tenerse en cuenta en las probabilidades de que un correo electrónico determinado sea spam. Las herramientas de filtrado de spam de correo electrónico entrenan y actualizan rápidamente modelos logísticos binarios en nuevos mensajes de correo electrónico y detectan y reaccionan rápidamente a nuevas estrategias de spam.
Las versiones más avanzadas de filtros de spam preprocesan los correos electrónicos para que sea más fácil identificarlos como spam. Por ejemplo, una secuencia de comandos podría agregar un porcentaje de correos electrónicos marcados como spam para la dirección IP del remitente en un correo electrónico, y la regresión puede tener en cuenta esa información.
Diagnóstico médico
Los modelos de regresión logística se utilizan comúnmente para ayudar a diagnosticar afecciones médicas como la diabetes y el cáncer de mama. Aprenden y se basan en análisis realizados por médicos e investigadores médicos.
Para un diagnóstico con muchas imágenes, como la detección de cáncer, los investigadores y profesionales médicos crean conjuntos de datos a partir de diversas pruebas, imágenes y exploraciones. Luego, estos datos se procesan y transforman en listas de evaluaciones textuales. Se puede analizar una imagen en busca de detalles como la densidad de píxeles, el número y el radio medio de varios grupos de píxeles, etc. Luego, estas mediciones se incluyen en una lista de variables predictivas que incluyen los resultados de otras pruebas y evaluaciones. Los sistemas de regresión logística aprenden de ellos y predicen si es probable que a un paciente se le diagnostique cáncer.
Además de predecir el diagnóstico médico con gran precisión, los sistemas de regresión logística también pueden indicar qué resultados de las pruebas son más relevantes para sus evaluaciones. Esta información puede ayudar a priorizar las pruebas para un nuevo paciente, acelerando el proceso de diagnóstico.
Ventajas de la regresión logística en ML
A menudo se prefiere la regresión logística por su simplicidad e interpretabilidad, particularmente en los casos en los que los resultados deben producirse con relativa rapidez y donde el conocimiento de los datos es importante.
Resultados rápidos y prácticos
Desde un punto de vista práctico, la regresión logística es sencilla de implementar y fácil de interpretar. Funciona de manera confiable y proporciona información valiosa incluso cuando los datos no se alinean perfectamente con las suposiciones o expectativas. Los modelos matemáticos subyacentes son eficientes y relativamente sencillos de optimizar, lo que hace que la regresión logística sea una opción sólida y práctica para muchas aplicaciones.
Información útil sobre las propiedades de los datos
En teoría, la regresión logística sobresale en tareas de clasificación binaria y, en general, es muy rápida a la hora de clasificar datos nuevos. Puede ayudar a identificar qué variables están asociadas con el resultado de interés, proporcionando información sobre dónde debería centrarse el análisis de datos adicionales. La regresión logística suele ofrecer una alta precisión en casos de uso sencillos; Incluso cuando la precisión disminuye para ciertos conjuntos de datos, todavía proporciona información significativa sobre la importancia relativa de las variables y la dirección de su impacto (positivo o negativo).
Desventajas de la regresión logística en ML
La regresión logística hace suposiciones sobre los datos que analiza, lo que ayuda a que los algoritmos subyacentes sean más rápidos y fáciles de entender a costa de limitar su utilidad. No se pueden utilizar para modelar resultados continuos o relaciones no lineales, pueden fallar si la relación con el modelo es demasiado compleja y se sobreajustarán si analizan demasiados datos.
Limitado a resultados discretos
La regresión logística sólo se puede utilizar para predecir resultados discretos. Si el problema requiere predicciones continuas, técnicas como la regresión lineal son más adecuadas.
Suponer relaciones lineales
El modelo supone una relación lineal entre las variables predictivas y las probabilidades estimadas, lo que rara vez ocurre en los datos del mundo real. Esto a menudo requiere ajustes previos y ajustes adicionales para mejorar la precisión. Además, la regresión logística supone que las decisiones de clasificación se pueden tomar utilizando funciones lineales simples, que pueden no reflejar las complejidades de los escenarios del mundo real. Como resultado, la regresión logística suele ser una aproximación que puede requerir optimización y actualizaciones periódicas para seguir siendo relevante.
Puede no lograr modelar relaciones complejas
Si un conjunto de variables predictivas no tiene una relación lineal con las probabilidades calculadas, o si las variables predictoras no son lo suficientemente independientes entre sí, la regresión logística puede no funcionar del todo o puede detectar solo un subconjunto de relaciones lineales. cuando el sistema tiene una combinación de propiedades lineales y otras más complejas.
Sobreajustar grandes conjuntos de datos
Para conjuntos de datos más grandes y complejos, la regresión logística es propensa al sobreajuste, donde el modelo se alinea demasiado con los datos específicos con los que fue entrenado, capturando ruido y detalles menores en lugar de patrones generales. Esto puede provocar un rendimiento deficiente en datos nuevos e invisibles. Técnicas como la regularización pueden ayudar a mitigar el sobreajuste, pero se necesita una consideración cuidadosa al aplicar la regresión logística a datos complejos.