Creación de modelos de IA robustos con embolsado: técnicas, beneficios y aplicaciones
Publicado: 2025-01-09Bagging es una técnica de aprendizaje automático (ML) conjunto que mejora la coherencia de los modelos predictivos. Esta guía describe cómo funciona el embolsado, analiza sus ventajas, desafíos y aplicaciones, y lo compara con técnicas relacionadas como el impulso.
Tabla de contenido
- ¿Qué es el embolsado?
- Varianza versus sesgo
- Embolsado versus refuerzo
- Cómo funciona el embolsado
- Tipos de algoritmo de embolsado
- Aplicaciones del embolsado
- Ventajas del embolsado
- Desafíos y limitaciones del embolsado
¿Qué es el embolsado?
El embolsado (o, más formalmente, elagregado debootstrap) es una técnica de aprendizaje conjunto que mejora la precisión de la salida mediante el uso de múltiples modelos de ML similares. En esencia, el aprendizaje en conjunto combina varios modelos para lograr un mejor rendimiento que cualquier modelo individual.
El enfoque implica dividir los datos de entrenamiento en subconjuntos aleatorios y entrenar un modelo diferente en cada uno. Para nuevos insumos, las predicciones de todos los modelos se agregan para producir un resultado final. Al utilizar subconjuntos aleatorios, la técnica reduce las discrepancias entre los modelos, lo que da como resultado predicciones más consistentes.
El embolsado es particularmente eficaz para mejorar la coherencia al minimizar la variación del sistema ML.
Varianza versus sesgo
Reducir el sesgo y la variación son objetivos fundamentales de cualquier modelo o sistema de ML.
El sesgo describe los errores que comete un sistema de ML debido a sus suposiciones sobre los datos que ve. Por lo general, se determina calculando qué tan incorrecto es el modelo en promedio. La varianza mide la consistencia del modelo. Se estima comprobando qué tan diferentes son las salidas del modelo para entradas similares.
Alto sesgo
Como ejemplo, consideremos el problema de predecir el precio de venta de una casa a partir de sus características (como los metros cuadrados y el número de dormitorios). Un modelo simple puede hacer muchas suposiciones simplificadoras y solo considerar los metros cuadrados, lo que provoca que tenga un alto sesgo. Constantemente se equivocará, incluso en los datos de entrenamiento, porque la realidad es más complicada que sus suposiciones. Por lo tanto, simplemente no puede captar los predictores de precios reales (como la ubicación, la calidad de la escuela y el número de dormitorios).
Alta varianza
Un modelo más complejo puede captartodaslas tendencias de los datos de entrenamiento y tener una gran variación. Por ejemplo, este modelo puede encontrar una pequeña correlación entre el número de casa (esencialmente la parte numérica de una dirección postal) y el precio en los datos de entrenamiento y utilizarla, aunque no sea un predictor real. Le irá bien con los datos de entrenamiento, pero mal con los datos del mundo real.
La compensación del sesgo de varianza
Un modelo ideal tendría un sesgo y una varianza bajos, generando los resultados correctos de manera consistente a través de entradas similares. Un alto sesgo generalmente resulta de que el modelo es demasiado simple para capturar los patrones en los datos de entrenamiento: subajuste. La alta varianza generalmente se debe a que el modelo captura patrones espurios en los datos de entrenamiento: sobreajuste.
Aumentar la sofisticación de un modelo puede permitirle capturar más patrones, lo que lleva a un menor sesgo. Sin embargo, este modelo más sofisticado tenderá a sobreajustar los datos de entrenamiento, lo que generará una mayor varianza, y viceversa. En la práctica, es difícil lograr un equilibrio entre sesgo y varianza.
El embolsado se centra en reducir la variación. Cada modelo del conjunto puede tener una gran variación porque se sobreajusta a su conjunto de datos. Pero como cada modelo obtiene un conjunto de datos aleatorio, descubrirán diferentes patrones falsos. En el ejemplo del precio de la vivienda, un modelo podría sobrevaluar las casas con números pares, otro podría subvaluarlas y la mayoría podría ignorar por completo los números de las casas.
Estos patrones arbitrarios tienden a promediarse cuando promediamos sus predicciones, dejándonos con las verdaderas relaciones subyacentes. De este modo, el conjunto logra una menor variación y un sobreajuste reducido en comparación con cualquier modelo individual.
Embolsado versus refuerzo
Es posible que escuche hablar de embolsado en el mismo contexto que de impulso. Estas son las técnicas de aprendizaje en conjunto más comunes y sustentan muchos modelos de aprendizaje automático populares. El impulso es una técnica en la que los modelos se entrenan sobre los errores de modelos anteriores. Luego, este grupo de modelos se utiliza para responder a cualquier entrada. Analicemos más a fondo las diferencias entre las dos técnicas.
Harpillera | Impulsando | |
Entrenamiento modelo | Los modelos se entrenan en paralelo en diferentes subconjuntos de datos. | Los modelos se entrenan secuencialmente, y cada modelo se centra en los errores del modelo anterior. |
Enfoque de reducción de errores | Reduce la variación | Reduce el sesgo |
Algoritmos comunes | Bosque aleatorio, árboles de decisión en bolsas | AdaBoost, aumento de gradiente, XGBoost |
Riesgo de sobreajuste | Menor riesgo de sobreajuste debido al muestreo aleatorio | Mayor riesgo de sobreajuste |
Complejidad computacional | Más bajo | Más alto |
Ambas técnicas son comunes, aunque el refuerzo es más popular. El impulso puede reducir tanto el sesgocomola varianza, mientras que el embolsado generalmente solo afecta la varianza.
Cómo funciona el embolsado
Consideremos cómo funciona realmente el embolsado. La esencia es dividir los datos de entrenamiento al azar, entrenar modelos en paralelo con los datos divididos y usar todos los modelos para responder a las entradas. Abordaremos cada uno de ellos por turno.
División de datos
Supongamos que tenemos un conjunto de datos de entrenamiento connpuntos de datos y queremos crear un conjunto empaquetado demmodelos. Luego, necesitamos crearmconjuntos de datos (uno para cada modelo), cada uno connpuntos. Si hay más o menos denpuntos en cada conjunto de datos, algunos modelos estarán sobreentrenados o insuficientemente entrenados.
Para crear un nuevo conjunto de datos aleatorio, elegimos aleatoriamentenpuntos del conjunto de datos de entrenamiento original. Es importante destacar que devolvemos los puntos al conjunto de datos original después de cada selección. Como resultado, el nuevo conjunto de datos aleatorios tendrá más de una copia de algunos de los puntos de datos originales y no tendrá copias de otros. En promedio, este conjunto de datos estará compuesto por un 63 % de puntos de datos únicos y un 37 % de puntos de datos duplicados.
Luego repetimos este proceso para crear todos losmconjuntos de datos. La variación en la representación de los puntos de datos ayuda a crear diversidad entre los modelos de conjunto, lo cual es una clave para reducir la variación general.
Entrenamiento modelo
Con nuestrosmconjuntos de datos aleatorios, simplemente entrenamosmmodelos, un modelo para cada conjunto de datos. Deberíamos utilizar el mismo tipo de modelo en todo momento para garantizar sesgos similares. Podemos entrenar los modelos en paralelo, lo que permite una iteración mucho más rápida.
Modelos agregados
Ahora que tenemosmmodelos entrenados, podemos usarlos como un conjunto para responder a cualquier entrada. Cada punto de datos de entrada se alimenta en paralelo a cada uno de los modelos, y cada modelo responde con su salida. Luego agregamos los resultados de los modelos para llegar a una respuesta final. Si se trata de un problema de clasificación, tomamos la moda de las salidas (la salida más común). Si se trata de un problema de regresión, tomamos el promedio de los resultados.

La clave para reducir la varianza aquí es que cada modelo es mejor en algunos tipos de entradas y peor en otros debido a diferencias en los datos de entrenamiento. Sin embargo, en general, los errores de cualquier modelo deberían ser cancelados por los otros modelos, lo que lleva a una menor variación.
Tipos de algoritmos de embolsado
El ensacado como algoritmo se puede aplicar a cualquier tipo de modelo. En la práctica, existen dos modelos en bolsas que son muy comunes: bosques aleatorios y árboles de decisión en bolsas. Exploremos brevemente ambos.
Bosques aleatorios
Un bosque aleatorio es un conjunto de árboles de decisión, cada uno de ellos entrenado en conjuntos de datos aleatorios. Un árbol de decisión es un modelo que hace predicciones respondiendo sí o no preguntas sobre los datos de entrada hasta que encuentra una etiqueta adecuada.
En un bosque aleatorio, cada árbol de decisión tiene los mismos hiperparámetros (configuraciones preestablecidas como la profundidad máxima del árbol o las muestras mínimas por división), pero utiliza características diferentes (elegidas al azar) del conjunto de datos de entrenamiento. Sin aleatorización de características, cada árbol de decisión puede converger hacia respuestas similares a pesar de las diferencias en los datos de entrenamiento. Los bosques aleatorios son una opción extremadamente popular para ML y, a menudo, son un buen punto de partida para resolver tareas de ML.
Árboles de decisión en bolsas
Los árboles de decisión en bolsas son muy similares a los bosques aleatorios, excepto que cada árbol utiliza las mismas características del conjunto de datos de entrenamiento. Esto reduce la diversidad de productos de los árboles, lo que tiene ventajas y desventajas. En el lado positivo, los árboles son más estables y probablemente darán respuestas similares; esto se puede utilizar para determinar qué características son importantes. La desventaja es que la variación no se reducirá tanto. Por este motivo, los bosques aleatorios se utilizan mucho más que los árboles de decisión en bolsas.
Aplicaciones del embolsado
El embolsado se puede utilizar en cualquier problema de ML donde la variación sea mayor de lo deseado. Siempre que exista un modelo ML, se puede embolsar. Para hacer esto más concreto, revisaremos algunos ejemplos.
Clasificación y regresión.
La clasificación y la regresión son dos de los problemas centrales del aprendizaje automático. Es posible que un usuario desee etiquetar el tema de una imagen como un gato o un perro: clasificación. O un usuario puede querer predecir el precio de venta de una casa a partir de sus características: regresión. El embolsado puede ayudar a reducir la variación para ambos, como vimos.
En la clasificación se utiliza la moda de los modelos de conjunto. En la regresión se utiliza el promedio.
Selección de funciones
La selección de funciones consiste en encontrar las funciones más importantes en un conjunto de datos: aquellas que mejor predicen el resultado correcto. Al eliminar datos de características irrelevantes, un desarrollador de modelos puede reducir la posibilidad de sobreajuste.
Conocer las características más importantes también puede hacer que los modelos sean más interpretables. Además, los desarrolladores de modelos pueden utilizar este conocimiento para reducir la cantidad de funciones en los datos de entrenamiento, lo que lleva a un entrenamiento más rápido. Los árboles de decisión en bolsas funcionan bien para descubrir características importantes. Las características que tienen mayor peso dentro de ellos probablemente serán las más importantes.
Ensacado en el comercio electrónico
El embolsado en el comercio electrónico es particularmente valioso para predecir la pérdida de clientes. Los modelos de aprendizaje automático entrenados con datos de abandono a menudo tienen una gran variación debido a patrones de comportamiento de clientes complejos y ruidosos; pueden sobreajustar su conjunto de datos de entrenamiento. También podrían inferir relaciones espurias, como asumir que el número de vocales en el nombre de un cliente afecta su probabilidad de abandono.
El conjunto de datos de entrenamiento puede contener solo unos pocos ejemplos que provoquen este sobreajuste. Al utilizar modelos en bolsas, el conjunto puede identificar mejor los indicadores de deserción genuinos e ignorar las correlaciones espurias, lo que lleva a predicciones de deserción más confiables.
Ventajas del embolsado
El embolsado reduce la variación del modelo y el sobreajuste y puede ayudar con los problemas de datos. También es una de las técnicas de embolsado más paralelizables y eficientes.
Varianza reducida
La variación del modelo indica que un modelo no está aprendiendo los patrones verdaderos y significativos de los datos. En cambio, está detectando correlaciones aleatorias que no significan mucho y son un síntoma de datos de entrenamiento imperfectos.
El embolsado reduce la variación de los modelos; el conjunto en su conjunto se centra en las relaciones significativas entre entrada y salida.
Generalizar bien a nuevos datos.
Dado que es más probable que los modelos empaquetados detecten relaciones significativas, pueden generalizarse a datos nuevos o invisibles. Una buena generalización es el objetivo final del aprendizaje automático, por lo que el embolsado suele ser una técnica útil para muchos modelos.
En casi todos los problemas de ML, el conjunto de datos de entrenamiento no es completamente representativo de los datos reales, por lo que una buena generalización es clave. En otros casos, la verdadera distribución de los datos puede cambiar con el tiempo, por lo que es necesario un modelo adaptable. El embolsado ayuda en ambos casos.
Altamente paralelizable
A diferencia del impulso, la creación de modelos en bolsas es altamente paralelizable. Cada modelo se puede entrenar de forma independiente y simultánea, lo que permite una experimentación rápida y un ajuste de hiperparámetros más sencillo (siempre, por supuesto, que tenga suficientes recursos informáticos para entrenar en paralelo).
Además, como cada modelo es independiente de los demás, se puede intercambiar dentro o fuera. Por ejemplo, un modelo débil se puede volver a entrenar en un subconjunto aleatorio diferente para mejorar su rendimiento sin tocar los otros modelos.
Desafíos y limitaciones del embolsado
Desafortunadamente, agregar más modelos agrega más complejidad. Los desafíos de la complejidad adicional significan que los modelos empaquetados requieren muchos más recursos informáticos, son más difíciles de interpretar y comprender y requieren más ajustes de hiperparámetros.
Se necesitan más recursos computacionales
Más modelos requieren más recursos para ejecutarlos y, a menudo, los conjuntos en bolsas tienen más de 50 modelos. Esto puede funcionar bien para modelos más pequeños, pero con los más grandes puede volverse intratable.
Los tiempos de respuesta del conjunto también pueden verse afectados a medida que crece. Los recursos también tienen un costo de oportunidad: es posible que se utilicen mejor para entrenar un modelo mejor y más grande.
Más difícil de interpretar
Los modelos de ML, en su conjunto, son difíciles de interpretar. Los árboles de decisión individuales son un poco más fáciles ya que muestran en qué característica basan sus decisiones. Pero cuando agrupas un montón de ellos, como en un bosque aleatorio, las respuestas contradictorias de cada árbol pueden resultar confusas.
Tomar la moda o el promedio de las predicciones no explica por sí solo por qué esa es la predicción correcta. La sabiduría de la multitud, aunque a menudo tiene razón, es difícil de entender.
Más ajuste de hiperparámetros
Con más modelos, los efectos de los hiperparámetros se magnifican. Un pequeño error en los hiperparámetros ahora puede afectar a decenas o cientos de modelos. Ajustar el mismo conjunto de hiperparámetros requiere más tiempo, lo que puede suponer una carga aún mayor para los recursos limitados.