Aprendizaje semisupervisado: qué es y cómo funciona

Publicado: 2024-07-18

En el ámbito del aprendizaje automático, el aprendizaje semisupervisado surge como un enfoque híbrido inteligente, que cierra la brecha entre los métodos supervisados y no supervisados al aprovechar datos etiquetados y no etiquetados para entrenar modelos más sólidos y eficientes.

Tabla de contenido

¿Qué es el aprendizaje semisupervisado?
Aprendizaje semisupervisado versus supervisado y no supervisado
Cómo funciona el aprendizaje semisupervisado
Tipos de aprendizaje semisupervisado
Aplicaciones del aprendizaje semisupervisado
Ventajas del aprendizaje semisupervisado
Desventajas del aprendizaje semisupervisado

¿Qué es el aprendizaje semisupervisado?

El aprendizaje semisupervisado es un tipo de aprendizaje automático (ML) que utiliza una combinación de datos etiquetados y no etiquetados para entrenar modelos. Semisupervisado significa que el modelo recibe orientación de una pequeña cantidad de datos etiquetados, donde las entradas se emparejan explícitamente con las salidas correctas, además de un conjunto más grande de datos no etiquetados, que normalmente es más abundante. Por lo general, estos modelos encuentran información inicial en una pequeña cantidad de datos etiquetados y luego refinan aún más su comprensión y precisión utilizando un conjunto más grande de datos sin etiquetar.

El aprendizaje automático es un subconjunto de la inteligencia artificial (IA) que utiliza datos y métodos estadísticos para construir modelos que imitan el razonamiento humano en lugar de depender de instrucciones codificadas. Aprovechando elementos de enfoques supervisados y no supervisados, el semisupervisado es una forma distinta y poderosa de mejorar la calidad de la predicción sin una inversión onerosa en etiquetado humano.

Trabaja de forma más inteligente con Grammarly

El compañero de redacción de IA para cualquiera que tenga trabajo que hacer

Aprendizaje semisupervisado versus supervisado y no supervisado

Mientras que el aprendizaje supervisado se basa únicamente en datos etiquetados y el aprendizaje no supervisado funciona con datos completamente sin etiquetar, el aprendizaje semisupervisado combina los dos.

Aprendizaje supervisado

El aprendizaje supervisado utiliza datos etiquetados para entrenar modelos para tareas específicas. Los dos tipos principales son:

Clasificación:Determina a qué clase o grupo pertenece un elemento. Puede ser una elección binaria, una elección entre múltiples opciones o membresía en múltiples grupos.

Regresión: predice resultados basándose en una línea de mejor ajuste a partir de datos existentes. Normalmente se utiliza para realizar pronósticos, como predecir el clima o el desempeño financiero.

Aprendizaje no supervisado

El aprendizaje no supervisado identifica patrones y estructuras en datos sin etiquetar mediante tres técnicas principales:

Agrupación:define grupos de puntos que tienen valores similares. Estos pueden ser exclusivos (cada punto de datos en exactamente un grupo), superpuestos (grados de membresía en uno o más grupos) o jerárquicos (múltiples capas de grupos).
Asociación:encuentra qué artículos tienen más probabilidades de coexistir, como productos que se compran juntos con frecuencia.
Reducción de dimensionalidad:simplifica los conjuntos de datos condensando los datos en menos variables, lo que reduce el tiempo de procesamiento y mejora la capacidad del modelo para generalizar.

Aprendizaje semisupervisado

El aprendizaje semisupervisado aprovecha los datos etiquetados y no etiquetados para mejorar el rendimiento del modelo. Este enfoque es particularmente útil cuando etiquetar datos es costoso o requiere mucho tiempo.

Este tipo de aprendizaje automático es ideal cuando tienes una pequeña cantidad de datos etiquetados y una gran cantidad de datos sin etiquetar. Al identificar qué puntos sin etiquetar coinciden estrechamente con los etiquetados, un modelo semisupervisado puede crear límites de clasificación o modelos de regresión más matizados, lo que conduce a una mayor precisión y rendimiento.

Cómo funciona el aprendizaje semisupervisado

El proceso de aprendizaje semisupervisado implica varios pasos, combinando elementos de métodos de aprendizaje tanto supervisados como no supervisados:

1 Recopilación y etiquetado de datos:recopile un conjunto de datos que incluya una pequeña porción de datos etiquetados y una porción mayor de datos sin etiquetar. Ambos conjuntos de datos deben tener las mismas características, también conocidas como columnas o atributos.

2 Preprocesamiento y extracción de características:limpie y preprocese los datos para darle al modelo la mejor base posible para el aprendizaje: realice comprobaciones puntuales para garantizar la calidad, eliminar duplicados y eliminar características innecesarias. Considere la posibilidad de crear nuevas características que transformen características importantes en rangos significativos que reflejen la variación en los datos (por ejemplo, convertir fechas de nacimiento en edades) en un proceso conocido como extracción.

3 Aprendizaje supervisado inicial:entrene el modelo utilizando los datos etiquetados. Esta fase inicial ayuda al modelo a comprender la relación entre entradas y salidas.

4 Aprendizaje no supervisado:aplique técnicas de aprendizaje no supervisado a los datos sin etiquetar para identificar patrones, grupos o estructuras.

5 Refinamiento del modelo:combine los conocimientos de los datos etiquetados y no etiquetados para refinar el modelo. Este paso a menudo implica capacitación y ajustes iterativos para mejorar la precisión.

6 Evaluación y ajuste:evalúe el rendimiento del modelo utilizando métricas de aprendizaje supervisado estándar, como exactitud, precisión, recuperación y puntuación F1. Ajuste el modelo ajustando instrucciones explícitas (conocidas como hiperparámetros) y reevaluando hasta lograr un rendimiento óptimo.

7Implementación y monitoreo:implemente el modelo para uso en el mundo real, supervise continuamente su rendimiento y actualícelo con nuevos datos según sea necesario.

Tipos de aprendizaje semisupervisado

El aprendizaje semisupervisado se puede implementar utilizando varias técnicas, cada una de las cuales aprovecha datos etiquetados y no etiquetados para mejorar el proceso de aprendizaje. Estos son los tipos principales, junto con los subtipos y conceptos clave:

Autoformación

La autoformación, también conocida como autoaprendizaje o autoetiquetado, es el enfoque más sencillo. En esta técnica, un modelo entrenado inicialmente con datos etiquetados predice etiquetas para los datos no etiquetados y registra su grado de confianza. El modelo se reentrena iterativamente aplicando sus predicciones más confiables como datos etiquetados adicionales; estas etiquetas generadas se conocen comopseudoetiquetas. Este proceso continúa hasta que el rendimiento del modelo se estabiliza o mejora lo suficiente.

Entrenamiento inicial:el modelo se entrena en un pequeño conjunto de datos etiquetados.
Predicción de etiquetas:el modelo entrenado predice etiquetas para los datos sin etiquetar.
Umbral de confianza:solo se seleccionan predicciones por encima de un determinado nivel de confianza.
Reentrenamiento:los datos pseudoetiquetados seleccionados se agregan al conjunto de entrenamiento y el modelo se vuelve a entrenar.

Este método es simple pero poderoso, especialmente cuando el modelo puede hacer predicciones precisas desde el principio. Sin embargo, si las predicciones iniciales son incorrectas, puede ser propenso a reforzar sus propios errores. Utilice la agrupación en clústeres para ayudar a validar que las pseudoetiquetas sean coherentes con las agrupaciones naturales dentro de los datos.

Co-entrenamiento

El coentrenamiento, generalmente utilizado para problemas de clasificación, implica entrenar dos o más modelos en diferentes vistas o subconjuntos de datos. Las predicciones más confiables de cada modelo sobre los datos sin etiquetar aumentan el conjunto de entrenamiento del otro modelo. Esta técnica aprovecha la diversidad de múltiples modelos para mejorar el aprendizaje.

Enfoque de dos vistas:el conjunto de datos se divide en dos vistas distintas, es decir, subconjuntos de los datos originales, cada uno de los cuales contiene características diferentes. Cada una de las dos nuevas vistas tiene la misma etiqueta, pero lo ideal es que las dos sean condicionalmente independientes, lo que significa que conocer los valores de una tabla no le brindará ninguna información sobre la otra.
Entrenamiento de modelos:se entrenan dos modelos por separado en cada vista utilizando los datos etiquetados.
Etiquetado mutuo:cada modelo predice etiquetas para los datos no etiquetados y las mejores predicciones (ya sean todas aquellas que superan un cierto umbral de confianza o simplemente un número fijo en la parte superior de la lista) se utilizan para volver a entrenar el otro modelo.

La capacitación conjunta es particularmente útil cuando los datos se prestan a múltiples vistas que brindan información complementaria, como imágenes médicas y datos clínicos emparejados para el mismo paciente. En este ejemplo, un modelo predeciría la incidencia de la enfermedad basándose en la imagen, mientras que el otro predeciría basándose en datos del historial médico.

Este enfoque ayuda a reducir el riesgo de reforzar predicciones incorrectas, ya que los dos modelos pueden corregirse entre sí.

Modelos generativos

Los modelos generativos aprenden la probabilidad de que determinados pares de entradas y salidas coexistan, lo que se conoce como distribución de probabilidad conjunta. Este enfoque les permite generar nuevos datos que se parecen a los que ya se han visto. Estos modelos utilizan datos etiquetados y sin etiquetar para capturar la distribución de datos subyacente y mejorar el proceso de aprendizaje. Como se puede adivinar por el nombre, esta es la base de la IA generativa que puede crear texto, imágenes, etc.

Redes generativas adversarias (GAN):las GAN constan de dos modelos: un generador y un discriminador. El generador crea puntos de datos sintéticos, mientras que el discriminador intenta distinguir entre estos puntos de datos sintéticos y los datos reales. A medida que se entrenan, el generador mejora su capacidad para crear datos realistas y el discriminador mejora en la identificación de datos falsos. Este proceso de confrontación continúa, y cada modelo se esfuerza por superar al otro. Las GAN se pueden aplicar al aprendizaje semisupervisado de dos maneras:
- Discriminador modificado:en lugar de simplemente clasificar los datos como "falsos" o "reales", el discriminador está entrenado para clasificar los datos en varias clases más una clase falsa. Esto permite al discriminador clasificar y discriminar.
- Uso de datos sin etiquetar:el discriminador juzga si una entrada coincide con los datos etiquetados que ha visto o si es un punto de datos falso del generador. Este desafío adicional obliga al discriminador a reconocer los datos no etiquetados por su parecido con los datos etiquetados, lo que le ayuda a aprender las características que los hacen similares.
Codificadores automáticos variacionales (VAE):los VAE descubren cómo codificar datos en una representación abstracta más simple que puede decodificar en una representación lo más cercana posible a los datos originales. Al utilizar datos etiquetados y no etiquetados, VAE crea una abstracción única que captura las características esenciales de todo el conjunto de datos y, por lo tanto, mejora su rendimiento con datos nuevos.

Los modelos generativos son herramientas poderosas para el aprendizaje semisupervisado, particularmente con datos abundantes pero complejos sin etiquetar, como en la traducción de idiomas o el reconocimiento de imágenes. Por supuesto, necesita algunas etiquetas para que las GAN o VAE sepan a qué apuntar.

Métodos basados en gráficos

Los métodos basados en gráficos representan puntos de datos como nodos en un gráfico, con diferentes enfoques para comprender y extraer información útil sobre las relaciones entre ellos. Algunos de los muchos métodos basados en gráficos aplicados al aprendizaje semisupervisado incluyen:

Propagación de etiquetas:un enfoque relativamente sencillo en el que los valores numéricos conocidos como bordes indican similitudes entre nodos cercanos. En la primera ejecución del modelo, los puntos sin etiquetar con los bordes más fuertes de un punto etiquetado toman prestada la etiqueta de ese punto. A medida que se etiquetan más puntos, el proceso se repite hasta que se etiqueten todos los puntos.
Redes neuronales gráficas (GNN): utiliza técnicas para entrenar redes neuronales, como atención y convolución, para aplicar lo aprendido de puntos de datos etiquetados a los no etiquetados, particularmente en situaciones altamente complejas como redes sociales y análisis de genes.
Codificadores automáticos de gráficos: similares a los VAE, crean una única representación abstracta que captura datos etiquetados y sin etiquetar. Este enfoque se utiliza a menudo para encontrar enlaces faltantes, que son conexiones potenciales que no se reflejan en el gráfico.

Los métodos basados en gráficos son particularmente eficaces para datos complejos que forman redes de forma natural o tienen relaciones intrínsecas, como redes sociales, redes biológicas y sistemas de recomendación.

Aplicaciones del aprendizaje semisupervisado

Algunas de las muchas aplicaciones del aprendizaje semisupervisado incluyen:

Clasificación de texto:cuando tienes un conjunto muy grande de datos disponibles, como millones de reseñas de productos o miles de millones de correos electrónicos, solo necesitas etiquetar una fracción de ellos. Un enfoque semisupervisado utilizará los datos restantes para refinar el modelo.
Análisis de imágenes médicas:el tiempo de los expertos médicos es caro y no siempre son precisos. Complementar su análisis de imágenes como resonancias magnéticas o rayos X con muchas imágenes sin etiquetar puede conducir a un modelo que iguale o incluso supere su precisión.
Reconocimiento de voz:transcribir el habla manualmente es un proceso tedioso y agotador, especialmente si intentas capturar una amplia variedad de dialectos y acentos. La combinación de datos de voz etiquetados con grandes cantidades de audio sin etiquetar mejorará la capacidad de un modelo para discernir con precisión lo que se dice.
Detección de fraude:primero, entrene un modelo en un pequeño conjunto de transacciones etiquetadas, identificando fraudes conocidos y casos legítimos. Luego agregue un conjunto más grande de transacciones sin etiquetar para exponer el modelo a patrones y anomalías sospechosas, mejorando su capacidad para identificar actividades fraudulentas nuevas o en evolución en los sistemas financieros.
Segmentación de clientes:el aprendizaje semisupervisado puede mejorar la precisión al utilizar un pequeño conjunto de datos etiquetados para definir segmentos iniciales basados en ciertos patrones y datos demográficos, y luego agregar un conjunto más grande de datos sin etiquetar para refinar y expandir estas categorías.

Ventajas del aprendizaje semisupervisado

Rentable:el aprendizaje semisupervisado reduce la necesidad de una gran cantidad de datos etiquetados, lo que reduce los costos y el esfuerzo de etiquetado, así como la influencia del error y el sesgo humanos.
Predicciones mejoradas:la combinación de datos etiquetados y no etiquetados a menudo da como resultado una mejor calidad de predicción en comparación con el aprendizaje puramente supervisado, ya que proporciona más datos de los que aprender el modelo.
Escalabilidad:el aprendizaje semisupervisado es una buena opción para aplicaciones del mundo real en las que el etiquetado exhaustivo no es práctico, como miles de millones de transacciones potencialmente fraudulentas, porque maneja grandes conjuntos de datos con un mínimo de datos etiquetados.
Flexibilidad:la combinación de las fortalezas del aprendizaje supervisado y no supervisado hace que este enfoque se adapte a muchas tareas y dominios.

Desventajas del aprendizaje semisupervisado

Complejidad:la integración de datos etiquetados y no etiquetados a menudo requiere técnicas de preprocesamiento sofisticadas, como normalizar rangos de datos, imputar valores faltantes y reducir la dimensionalidad.
Dependencia de suposiciones:los métodos semisupervisados a menudo se basan en suposiciones sobre la distribución de los datos, como puntos de datos en el mismo grupo que merecen la misma etiqueta, lo que puede no siempre ser cierto.
Potencial de ruido:los datos sin etiquetar pueden introducir ruido e imprecisiones si no se manejan adecuadamente con técnicas como la detección de valores atípicos y la validación con datos etiquetados.
Más difícil de evaluar:sin muchos datos etiquetados, no obtendrá mucha información útil de los enfoques estándar de evaluación del aprendizaje supervisado.