Regresión en el aprendizaje automático: qué es y cómo funciona
Publicado: 2024-11-13La regresión en el aprendizaje automático (ML) es un concepto fundamental que se utiliza para predecir valores continuos en función de las características de entrada. Ya sea para estimar los precios de la vivienda o pronosticar las ventas, los modelos de regresión establecen relaciones entre variables. En este artículo, analizaremos los diferentes tipos de modelos de regresión, los algoritmos detrás de ellos y cuándo se aplica mejor cada método. También descubrirá cómo funciona la regresión, sus casos de uso práctico y las ventajas y desafíos asociados con el uso de la regresión en el aprendizaje automático.
Tabla de contenido
- ¿Qué es la regresión?
- Tipos de modelos de regresión
- Algoritmos utilizados para la regresión.
- Ejemplos de regresión
- Beneficios de la regresión
- Desafíos de la regresión
¿Qué es la regresión en el aprendizaje automático?
La regresión es un tipo de aprendizaje supervisado que se utiliza para predecir valores continuos basados en datos de entrada. Estima las relaciones entre variables para predecir y explicar varias cosas, como los precios de la vivienda, las tendencias del mercado de valores o las condiciones climáticas. Los modelos de regresión asignan características de entrada a una variable objetivo continua, lo que permite predicciones numéricas precisas.
Por ejemplo, utilizando datos meteorológicos de la semana pasada, un modelo de regresión puede pronosticar las precipitaciones de mañana. Los valores que predice son continuos, lo que significa que pueden caer en cualquier lugar de una escala numérica, como la temperatura medida con decimales o los ingresos por ventas proyectados para los próximos meses.
Regresión versus clasificación: ¿Cuál es la diferencia?
Mientras que la regresión predice resultados continuos, la clasificación se centra en predecir categorías o clases discretas. Por ejemplo, un modelo de regresión podría predecir la cantidad exacta de lluvia mañana, mientras que un modelo de clasificación podría predecir si lloverá (sí o no). La diferencia clave es que la regresión se ocupa de valores numéricos, mientras que la clasificación asigna datos a categorías predefinidas.
En algunos casos, es posible adaptar el resultado de un modelo de regresión a una tarea de clasificación y viceversa, pero los dos enfoques generalmente son adecuados para diferentes tipos de problemas.
Regresión: ¿algoritmo, modelo o análisis?
A veces se hace referencia a la regresión como análisis de regresión, un término estadístico amplio utilizado para describir la búsqueda de relaciones continuas entre observaciones y resultados. Un algoritmo de regresión es una herramienta matemática específica diseñada para identificar estas relaciones. Cuando se utiliza un algoritmo para entrenar un modelo de aprendizaje automático, el resultado se denominamodelo de regresión.
Estos tres términos (análisis de regresión,algoritmo de regresiónymodelo de regresión) a menudo se usan indistintamente, pero cada uno representa un aspecto diferente del proceso de regresión.
Tipos de regresión en el aprendizaje automático
Los modelos de regresión vienen en muchas formas, cada una diseñada para manejar diferentes relaciones entre los datos de entrada y los resultados previstos. Si bien la regresión lineal es la más utilizada y relativamente fácil de entender, otros modelos, como la regresión polinómica, logística y bayesiana, son más adecuados para tareas más complejas o especializadas. A continuación se detallan algunos de los principales tipos de modelos de regresión y cuándo se utilizan habitualmente.
Regresión simple y múltiple (lineal)
La regresión lineal, una técnica de regresión popular, es conocida por su facilidad de interpretación, entrenamiento rápido y rendimiento confiable en diversas aplicaciones. Estima la relación entre las variables explicativas y objetivo utilizando líneas rectas. La regresión lineal simple implica una variable explicativa, mientras que la regresión lineal múltiple implica dos o más. Generalmente, cuando alguien habla de análisis de regresión, se refiere a regresión lineal.
Regresión polinómica
Si las líneas rectas no explican satisfactoriamente la relación entre las variables observadas y los resultados esperados, un modelo de regresión polinómica podría ser una mejor opción. Este modelo busca relaciones continuas y complejas y puede identificar patrones que se describen mejor utilizando curvas o una combinación de curvas y líneas rectas.
Regresión logística
Cuando la relación entre las observaciones y los valores predichos no es continua (o discreta), la regresión logística es la herramienta más común para el trabajo. Discreto en este contexto significa situaciones en las que las fracciones o los números reales no son tan relevantes (por ejemplo, si se predice cuántos clientes entrarán a una cafetería, la regresión logística responderá 4 o 5 en lugar de algo más difícil de interpretar, como 4,35).
La forma más conocida de regresión logística esla regresión binaria, que predice las respuestas a preguntas binarias (es decir, sí/no); Normalmente, la regresión logística es binaria. Variaciones más complejas, como la regresión multinomial, predicen respuestas a preguntas que ofrecen más de dos opciones. Los modelos logísticos, en esencia, se basan en la selección de una de varias funciones para convertir entradas continuas en discretas.
regresión bayesiana
Las técnicas de regresión lineal y otras técnicas requieren datos de entrenamiento sustanciales para realizar predicciones precisas. Por el contrario, la regresión bayesiana es un algoritmo estadístico avanzado que puede realizar predicciones confiables con menos datos, siempre que algunas de las propiedades estadísticas de los datos sean conocidas o puedan estimarse. Por ejemplo, predecir las ventas de nuevos productos durante la temporada navideña puede resultar complicado para la regresión lineal debido a la falta de datos de ventas del nuevo producto. Una regresión bayesiana puede predecir los datos de ventas con mayor precisión suponiendo que las ventas del nuevo producto siguen la misma distribución estadística que las ventas de otros productos similares. Normalmente, las regresiones bayesianas suponen que los datos siguen una distribución estadística gaussiana, lo que lleva al uso intercambiable de los términos regresiónbayesianaygaussiana.
Regresión de efectos mixtos
La regresión supone que existe una relación no aleatoria entre los datos observados y los datos predichos. A veces, esta relación es difícil de definir debido a interdependencias complejas en los datos observados o a comportamientos aleatorios ocasionales. Los modelos de efectos mixtos son modelos de regresión que incluyen mecanismos para manejar datos aleatorios y otros comportamientos que son difíciles de modelar. Estos modelos también se denominan indistintamente modelos mixtos, de efectos mixtos o de errores mixtos.
Otros algoritmos de regresión
La regresión está muy bien estudiada. Existen muchos otros algoritmos de regresión más complejos o especializados, incluidos aquellos que utilizan técnicas binomiales, multinomiales y avanzadas de efectos mixtos, así como aquellos que combinan múltiples algoritmos. Se pueden organizar múltiples algoritmos combinados en orden secuencial, como en múltiples capas secuenciales, o ejecutarse en paralelo y luego agregarse de alguna manera. Un sistema que ejecuta varios modelos en paralelo a menudo se denomina bosque.
Algoritmos utilizados para el análisis de regresión.
En el aprendizaje automático se utilizan muchos tipos de algoritmos de regresión para generar modelos de regresión. Algunos algoritmos están diseñados para construir tipos específicos de modelos (en cuyo caso el algoritmo y el modelo suelen compartir el mismo nombre). Otros se centran en mejorar aspectos de los modelos existentes, como mejorar su precisión o eficiencia. A continuación, cubriremos algunos de los algoritmos más utilizados. Sin embargo, antes de hacer eso, es importante comprender cómo se evalúan: generalmente, se basa en dos propiedades clave: varianza y sesgo.
- La varianzamide cuánto fluctúan las predicciones de un modelo cuando se entrena en diferentes conjuntos de datos. Un modelo con una varianza alta puede ajustarse muy estrechamente a los datos de entrenamiento, pero funcionar mal con datos nuevos e invisibles, un fenómeno conocido como sobreajuste. Idealmente, los algoritmos de regresión deberían producir modelos con baja varianza, lo que significa que se generalizan bien a datos nuevos y no son demasiado sensibles a los cambios en el conjunto de entrenamiento.
- El sesgose refiere al error que se introduce al aproximar un problema del mundo real, que puede ser demasiado complejo, con un modelo simplificado. Un alto sesgo puede causar un desajuste, donde el modelo no logra capturar patrones importantes en los datos, lo que lleva a predicciones inexactas. Idealmente, el sesgo debería ser bajo, lo que indica que el modelo captura efectivamente las relaciones en los datos sin simplificar demasiado. En algunos casos, el sesgo se puede mitigar mejorando los datos de entrenamiento o ajustando los parámetros del algoritmo de regresión.
Regresión simple y múltiple (lineal)
La regresión lineal simple analiza la relación entre una única variable explicativa y un resultado previsto, lo que la convierte en la forma más sencilla de regresión. La regresión lineal múltiple es más complicada y encuentra relaciones entre dos o más variables y un resultado. Ambos encuentran relaciones que tienen una estructura lineal, basadas en ecuaciones lineales que generalmente se ajustan a este patrón:
y =β + β1x + ε
Aquíyes un resultado para predecir,xes una variable a partir de la cual predecirlo,εes un error que se intenta minimizar yβyβ1 son valores que la regresión está calculando.
La regresión lineal utiliza un proceso de aprendizaje supervisado para crear asociaciones entre variables explicativas y resultados previstos. El proceso de aprendizaje examina los datos de entrenamiento repetidamente, mejorando los parámetros de las ecuaciones lineales subyacentes con cada iteración sobre los datos. Los métodos más comunes para evaluar el rendimiento de los parámetros implican calcular los valores de error promedio para todos los datos disponibles utilizados en las pruebas o el entrenamiento. Ejemplos de métodos de cálculo de errores incluyenel error cuadrático medio(el promedio de las distancias al cuadrado entre las predicciones y los resultados reales),el error absoluto medioy métodos más complejos como lasuma residual de cuadrados(los errores totales en lugar del promedio).
Regresión polinómica
La regresión polinomial maneja problemas más complejos que la regresión lineal y requiere resolver sistemas de ecuaciones lineales, generalmente con operaciones matriciales avanzadas. Puede encontrar relaciones en los datos que se curvan, no sólo aquellas que pueden representarse mediante líneas rectas. Cuando se aplica correctamente, reducirá la varianza en problemas en los que falla la regresión lineal. También es más difícil de entender, implementar y optimizar, ya que depende de operaciones y conceptos matemáticos avanzados.
Una regresión polinómica intentará resolver ecuaciones que relacionanyy múltiplesxcon ecuaciones en forma polinomial que siguen este patrón:
y =β + β1x + β2x2+ … + ε
El algoritmo de regresión polinómica buscará los valoresβideales a utilizar y la forma del polinomio (¿cuántos exponentes dexpodrían ser necesarios para definir la relación entreyy cadax?).
regresión de lazo
La regresión de lazo (que significa operador de selección y contracción mínima absoluta), también conocida como regresión de norma de lazo,L1yL1, es una técnica utilizada para reducir el sobreajuste y mejorar la precisión del modelo. Funciona aplicando una penalización a los valores absolutos de los coeficientes del modelo, reduciendo efectivamente algunos coeficientes a cero. Esto conduce a modelos más simples en los que se excluyen las características irrelevantes. El algoritmo de lazo ayuda a evitar el sobreajuste al controlar la complejidad del modelo, lo que hace que el modelo sea más interpretable sin sacrificar demasiada precisión.
Lasso es especialmente útil cuando se correlacionan variables explicativas. Por ejemplo, en la predicción del tiempo, la temperatura y la humedad pueden estar correlacionadas, lo que lleva a un sobreajuste. Lasso reduce el efecto de tales correlaciones, creando un modelo más sólido.
Regresión de cresta
La regresión de crestas (también conocida como normaL2, normaL2o regularización de Tikhonov) es otra técnica para evitar el sobreajuste, especialmente cuando está presente la multicolinealidad (correlación entre variables explicativas). A diferencia del lazo, que puede reducir los coeficientes a cero, la regresión Ridge agrega una penalización proporcional al cuadrado de los coeficientes del modelo. El objetivo es realizar pequeños ajustes a los coeficientes sin eliminar completamente las variables.
Ejemplos de casos de uso de regresión
Los modelos de regresión se utilizan ampliamente en diversas industrias para hacer predicciones basadas en datos históricos. Al identificar patrones y relaciones entre variables, estos modelos pueden proporcionar información valiosa para la toma de decisiones. A continuación se muestran tres ejemplos bien conocidos de áreas donde se aplica la regresión.
Análisis y predicción del tiempo.
El análisis de regresión puede predecir patrones climáticos, como la temperatura y las precipitaciones esperadas para cada día de la próxima semana. A menudo, se entrenan varios algoritmos de regresión diferentes con datos meteorológicos históricos, incluida la humedad, la velocidad del viento, la presión atmosférica y la nubosidad. Las mediciones horarias o diarias de estas variables sirven como características de las que puede aprender el modelo, y el algoritmo tiene la tarea de predecir los cambios de temperatura a lo largo del tiempo. Cuando se utilizan múltiples algoritmos de regresión (un conjunto) en paralelo para predecir patrones climáticos, sus predicciones generalmente se combinan mediante una forma de promedio, como el promedio ponderado.
Pronosticar ventas e ingresos
En un contexto empresarial, los modelos de regresión se utilizan con frecuencia para pronosticar ingresos y otras métricas clave de desempeño. Un modelo de regresión múltiple podría incluir variables que influyen en el volumen de ventas, como métricas de campañas de marketing, comentarios de los clientes y tendencias macroeconómicas. Luego, el modelo tiene la tarea de predecir las ventas y los ingresos para un período futuro específico. A medida que haya nuevos datos disponibles, el modelo podrá volver a entrenarse o actualizarse para refinar sus predicciones en función de las últimas observaciones.
Predecir los resultados de la atención sanitaria
Los modelos de regresión tienen numerosas aplicaciones para predecir resultados de salud. Por ejemplo, los modelos bayesianos podrían usarse para estimar los índices de tasas de incidencia aprendiendo de los datos históricos de los pacientes. Estos modelos ayudan a responder preguntas como "¿Qué es probable que suceda si ajustamos la dosis de un medicamento?" Se puede emplear la regresión lineal para identificar factores de riesgo, como predecir cambios en la salud de un paciente en función de ajustes en el estilo de vida. La regresión logística, comúnmente utilizada para el diagnóstico, calcula el odds ratio de la presencia de una enfermedad en función del historial médico del paciente y otras variables relevantes.
Beneficios de la regresión
Los algoritmos y modelos de regresión, en particular la regresión lineal, son componentes fundamentales de muchos sistemas de aprendizaje automático. Son ampliamente utilizados debido a los siguientes beneficios:
- Pueden ser rápidos.Las técnicas de regresión pueden establecer rápidamente relaciones entre múltiples variables (características) y un valor objetivo, lo que las hace útiles para el análisis exploratorio de datos y acelera el entrenamiento de modelos de aprendizaje automático.
- Son versátiles. Muchos modelos de regresión, como la regresión lineal, polinómica y logística, están bien estudiados y pueden adaptarse para resolver una amplia gama de problemas del mundo real, desde tareas de predicción hasta tareas de clasificación.
- Pueden ser fáciles de implementar. Los modelos de regresión lineal, por ejemplo, se pueden implementar sin requerir técnicas matemáticas o de ingeniería complejas, lo que los hace accesibles a científicos e ingenieros de datos con diversos niveles de habilidad.
- Son fáciles de entender. Los modelos de regresión, en particular la regresión lineal, ofrecen resultados interpretables donde las relaciones entre las variables y su impacto en el resultado previsto suelen ser claras. Esto los hace útiles para identificar tendencias y patrones en los datos que pueden informar análisis más profundos. En algunos casos, los modelos de regresión pueden sacrificar la interpretabilidad a cambio de una mayor precisión, según el caso de uso.
Desafíos en la regresión
Si bien los modelos de regresión ofrecen muchos beneficios, también conllevan sus propios desafíos. A menudo, estos desafíos se reflejarán en un rendimiento reducido o en la capacidad de generalización, particularmente cuando se trabaja con problemas complejos o datos limitados. A continuación se detallan algunos de los problemas más comunes que se enfrentan en el análisis de regresión.
- Sobreajuste:los modelos a menudo tienen dificultades para equilibrar el sesgo y la variación. Si un modelo es demasiado complejo, puede ajustarse muy bien a los datos históricos (reduciendo la varianza) pero volverse sesgado cuando se expone a nuevos datos. A menudo, esto se debe a que el modelo memoriza los datos de entrenamiento en lugar de aprender una abstracción generalizada.
- Desajuste:un modelo que es demasiado simple para el problema en cuestión puede sufrir un alto sesgo. Mostrará altas tasas de error tanto en los datos de entrenamiento como en los datos invisibles, lo que indica que no ha aprendido los patrones subyacentes. Los ajustes excesivos para corregir un alto sesgo pueden provocar un desajuste, donde el modelo no logra capturar las complejidades de los datos.
- Datos de entrenamiento complejos:los modelos de regresión normalmente suponen que las observaciones utilizadas para el entrenamiento son independientes. Si los datos contienen relaciones complejas o aleatoriedad inherente, el modelo puede tener dificultades para generar predicciones precisas y confiables.
- Datos incompletos o faltantes:los algoritmos de regresión supervisados requieren grandes cantidades de datos para aprender patrones y tener en cuenta los casos extremos. Cuando se trata de datos faltantes o incompletos, es posible que el modelo no funcione bien, especialmente cuando se aprenden relaciones complejas que requieren una amplia cobertura de datos.
- Selección de variables predictoras:los modelos de regresión dependen de que los humanos seleccionen las variables predictivas (características) correctas. Si se incluyen demasiadas variables irrelevantes, el rendimiento del modelo puede degradarse. Por el contrario, si se eligen muy pocas o incorrectas variables, es posible que el modelo no resuelva el problema con precisión ni haga predicciones confiables.