Aprendizaje autosupervisado: qué es y cómo funciona
Publicado: 2024-07-18El aprendizaje autosupervisado, una técnica de vanguardia en inteligencia artificial, permite a las máquinas descubrir patrones y estructuras intrínsecos dentro de los datos, imitando la capacidad humana de aprender a partir del contexto y la experiencia en lugar de mediante instrucción explícita.
Tabla de contenido
- ¿Qué es el aprendizaje autosupervisado?
- Autosupervisado en comparación con otros tipos de aprendizaje automático
- Cómo funciona el aprendizaje autosupervisado
- Tipos de aprendizaje autosupervisado
- Aplicaciones del aprendizaje autosupervisado
- Ventajas del aprendizaje autodirigido
- Desventajas del aprendizaje autosupervisado
¿Qué es el aprendizaje autosupervisado?
El aprendizaje autosupervisado es un tipo de aprendizaje automático (ML) que entrena modelos para crear sus propias etiquetas (es decir, entradas y salidas explícitamente emparejadas) utilizando datos sin procesar y sin etiquetar. A diferencia del aprendizaje supervisado, que requiere una cantidad significativa de datos etiquetados, el aprendizaje autosupervisado genera pseudoetiquetas (etiquetas artificiales) a partir de los propios datos. Esta técnica le da al modelo la orientación hacia objetivos y la mensurabilidad de un enfoque de aprendizaje supervisado, además de la capacidad del aprendizaje no supervisado para sacar conclusiones útiles a partir de cantidades masivas de datos sin etiquetar.
El aprendizaje automático es un subconjunto de la inteligencia artificial (IA) que utiliza datos y métodos estadísticos para construir modelos que imitan el razonamiento humano en lugar de depender de instrucciones codificadas. El aprendizaje autosupervisado aprovecha las grandes cantidades de datos sin etiquetar disponibles, lo que lo convierte en un enfoque poderoso para mejorar el rendimiento del modelo con una mínima intervención manual. De hecho, los principales modelos de imágenes y texto de IA generativa actuales se entrenan en gran medida mediante aprendizaje autosupervisado.
Autosupervisado en comparación con otros tipos de aprendizaje automático
El aprendizaje autosupervisado combina elementos del aprendizaje supervisado y no supervisado, pero se diferencia del aprendizaje semisupervisado:
- Aprendizaje supervisado: utiliza datos etiquetados para entrenar modelos para tareas específicas como clasificación y regresión. Las etiquetas proporcionan una guía explícita, lo que permite que el modelo haga predicciones precisas. Las aplicaciones comunes incluyen detección de spam, clasificación de imágenes y pronóstico del tiempo.
- Aprendizaje no supervisado: funciona con datos sin etiquetar para encontrar patrones y agrupaciones. Identifica clústeres y asociaciones y reduce la complejidad de los datos para facilitar el procesamiento. Los ejemplos incluyen segmentación de clientes, sistemas de recomendación y detección de anomalías.
- Aprendizaje semisupervisado:utiliza una cantidad modesta de datos etiquetados para proporcionar orientación inicial y luego aprovecha una o más colecciones más grandes de datos no etiquetados para refinar y mejorar el modelo. Este enfoque es particularmente útil cuando se tienen algunos datos etiquetados, pero sería demasiado difícil o costoso generar suficientes para un aprendizaje completamente supervisado.
- Aprendizaje autosupervisado:utiliza datos sin procesar para generar sus propias etiquetas, lo que permite que el modelo aprenda de los datos sin ningún dato etiquetado inicial. Este enfoque es especialmente valioso cuando los datos etiquetados no están disponibles en absoluto o son solo una pequeña fracción de los datos disponibles, como ocurre con el procesamiento del lenguaje natural (NLP) o el reconocimiento de imágenes.
Cómo funciona el aprendizaje autosupervisado
La autosupervisión significa que los datos por sí mismos proporcionan las respuestas correctas. El proceso de aprendizaje autosupervisado implica varios pasos, combinando aspectos de métodos tanto supervisados como no supervisados:
Recopilación de datos:recopile una gran cantidad de datos sin procesar y sin etiquetar. Estos datos forman la base para crear pseudoetiquetas y entrenar el modelo. Muchos conjuntos de datos están disponibles gratuitamente.
- Preprocesamiento:preparar los datos para garantizar la calidad. Este paso incluye eliminar duplicados, manejar valores faltantes y normalizar rangos de datos.
- Creación de tareas:cree acertijos para que el modelo los resuelva, conocidos como tareas de pretexto. Estos se crean eliminando o mezclando partes de los datos, como eliminando palabras, eliminando píxeles de imágenes o mezclando fotogramas de vídeo. Todo lo que existía antes de esta corrupción intencional se conoce como pseudoetiqueta: una “respuesta correcta” creada a partir de los datos mismos y no de un etiquetado humano.
- Entrenamiento:entrene el modelo en las tareas de pretexto utilizando las pseudoetiquetas generadas. Esto significa que el modelo intenta generar la respuesta correcta, compara su respuesta con la pseudoetiqueta, la ajusta y vuelve a intentar generar la respuesta correcta. Esta fase ayuda al modelo a comprender las relaciones dentro de los datos y, finalmente, crea una comprensión compleja de la relación entre entradas y salidas.
- Ajuste fino:cambie el modelo para aprender de un conjunto de datos etiquetados más pequeño para mejorar su rendimiento en tareas específicas. Este paso garantiza que el modelo aproveche las representaciones aprendidas durante la fase de capacitación inicial. El ajuste fino no es estrictamente necesario, pero normalmente conduce a mejores resultados.
- Evaluación:evalúe el rendimiento del modelo en datos que aún no ha visto. Utilizando métricas estándar relevantes para la tarea, como la puntuación F1, esta evaluación garantiza que el modelo se generalice bien a nuevos datos.
- Implementación y monitoreo:implemente el modelo entrenado en aplicaciones del mundo real y monitoree continuamente su desempeño. Actualice el modelo con nuevos datos según sea necesario para mantener su precisión y relevancia.
Tipos de aprendizaje autosupervisado
El aprendizaje autosupervisado abarca varios tipos, cada uno con múltiples técnicas y enfoques. Aquí, exploraremos varios tipos, destacando sus métodos de capacitación únicos y brindando uno o dos ejemplos representativos de cada uno.
Para imágenes
- Aprendizaje autopredictivo:el aprendizaje autopredictivo implica técnicas como la codificación automática, donde un modelo aprende a comprimir información en una forma más simple y luego recrear los datos originales a partir de ella. En el procesamiento de imágenes, esto a menudo significa corromper selectivamente partes de una imagen (por ejemplo, enmascarando secciones) y entrenar el modelo para reconstruir el original. Esto ayuda al modelo a reconocer mejor objetos en diferentes posiciones, tamaños e incluso cuando están parcialmente ocultos.
- Aprendizaje contrastivo:en el aprendizaje contrastivo, el modelo aprende a distinguir entre imágenes similares y diferentes comparándolas en pares o grupos. Por ejemplo, el método SimCLR utiliza aumentos de imágenes (como recortar, distorsionar y voltear) para crear pares de entrenamiento. Los pares positivos se forman aplicando diferentes cambios a una misma imagen, mientras que los pares negativos provienen de imágenes diferentes. Luego, el modelo aprende qué características son comunes en pares similares y diferentes en pares diferentes.
- Métodos basados en agrupaciones:los métodos basados en agrupaciones agrupan puntos de datos similares y utilizan estos grupos como pseudoetiquetas para el entrenamiento. Por ejemplo, DeepCluster agrupa imágenes según características similares y utiliza estos grupos para entrenar el modelo. El proceso alterna entre agrupación y entrenamiento hasta que el modelo funciona bien. SwAV (intercambio de asignaciones entre vistas) mejora esto mediante el uso de múltiples versiones de la misma imagen para ayudar al modelo a aprender características esenciales que permanecen constantes, como bordes, texturas y posiciones de objetos.
Para texto
- Aprendizaje autopredictivo:este es el mecanismo de entrenamiento central de los modelos de lenguaje grandes (LLM), que entienden el texto como una serie de tokens. Por lo general, representan una palabra, pero a veces son parte de una palabra o un grupo de palabras.
- Modelos de lenguaje enmascarado (MLM):se muestran oraciones a las que les faltan algunos tokens y se les asigna la tarea de predecir las palabras que faltan. Al aprender a completar estos espacios en blanco, los MLM desarrollan una representación exhaustiva de la estructura y el contexto del lenguaje, y pueden considerar el contexto de una entrada completa al hacer predicciones. Los resultados útiles, como el análisis de sentimientos o el reconocimiento de entidades nombradas, se desarrollan mediante ajustes. Un buen ejemplo es BERT, que utiliza Google para comprender la intención de las consultas de búsqueda.
- Modelos de lenguaje causal (CLM):los modelos generativos como ChatGPT, Claude y Gemini aprenden a recrear el texto que han visto prediciendo una palabra a la vez, basándose en los tokens anteriores. Una vez entrenados, tratan el texto de entrada como contexto para sus predicciones y continúan haciendo predicciones con cada nuevo token que generan. Esta predicción secuencial es la razón por la que su salida parece escribirse sola en lugar de aparecer toda a la vez.
- Aprendizaje contrastivo:este enfoque compara pares de muestras de texto, enfatizando las diferencias y similitudes entre ellos. SimCSE crea dos versiones ligeramente diferentes de la misma oración mediante la aplicación de exclusión, que ignora aleatoriamente partes de la representación de la oración en capas ocultas durante el entrenamiento (vea más sobre capas ocultas en nuestra publicación sobre aprendizaje profundo). El modelo aprende a reconocer estas versiones como similares. Esta técnica mejora la capacidad del modelo para comprender y comparar oraciones, lo que la hace útil para aplicaciones como encontrar oraciones similares o recuperar información relevante para consultas de búsqueda.
- Predicción de la siguiente oración (NSP):como sugiere el nombre, NSP implica predecir si una oración determinada es la oración posterior de otra en un documento, lo que ayuda a los modelos a comprender las relaciones entre oraciones y el flujo lógico del texto. Se usa comúnmente junto con un MLM para mejorar su comprensión de cuerpos de texto más grandes. Por ejemplo, en BERT NSP, el modelo predice si dos oraciones aparecen consecutivamente en el texto original.
Aplicaciones del aprendizaje autosupervisado
El aprendizaje autosupervisado tiene una amplia gama de aplicaciones en varios dominios:
- Procesamiento del lenguaje natural:modelos como BERT y GPT-3 utilizan el aprendizaje autosupervisado para comprender y generar el lenguaje humano en aplicaciones como chatbots, traducción y resumen de texto.
- Visión por computadora:el aprendizaje autosupervisado mejora el análisis de imágenes y videos al generar pseudoetiquetas a partir de datos visuales sin procesar. Los usos incluyen detección de objetos (como en la cámara de un timbre), reconocimiento facial y creación automática de clips a partir de videos más largos.
- Reconocimiento de voz:los modelos autosupervisados mejoran los sistemas de reconocimiento de voz al aprender de grandes cantidades de datos de audio sin etiquetar. Este enfoque reduce la necesidad de transcripción manual y mejora la precisión en diferentes acentos y dialectos.
- Atención médica:el aprendizaje autosupervisado ayuda a mejorar el análisis de imágenes médicas, el descubrimiento de fármacos y el seguimiento de pacientes al aprovechar grandes conjuntos de datos con ejemplos mínimos etiquetados. Mejora la precisión de las recomendaciones de detección y tratamiento de enfermedades sin requerir un etiquetado humano experto, extenso y costoso.
- Robótica:los robots utilizan el aprendizaje autosupervisado para comprender su entorno y mejorar sus procesos de toma de decisiones. Los usos incluyen navegación autónoma, manipulación de objetos e interacción entre humanos y robots.
Ventajas del aprendizaje autodirigido
- Rentable:reduce la necesidad de una gran cantidad de datos etiquetados, lo que reduce los costos de anotación y el esfuerzo humano.
- Escalabilidad:puede manejar grandes conjuntos de datos, lo que lo hace adecuado para aplicaciones del mundo real donde los datos etiquetados son limitados pero los datos no etiquetados abundan.
- Generalización:cuando se entrena con suficientes datos sin procesar, el modelo puede aprender lo suficiente para realizar nuevas tareas incluso si no se entrenó con datos directamente relevantes. Por ejemplo, un modelo de PNL basado en un idioma podría usarse para aumentar el aprendizaje de otro basado en otro idioma.
- Flexibilidad:Adaptable a una amplia variedad de tareas y dominios, con muchos subtipos disponibles para adaptarse a necesidades particulares.
Desventajas del aprendizaje autosupervisado
- Complejidad:crear tareas de pretexto efectivas y generar pseudoetiquetas requiere un diseño y una experimentación cuidadosos.
- Sensibilidad al ruido:las pseudoetiquetas generadas a partir de datos sin procesar pueden ser irrelevantes para el objetivo, lo que podría afectar el rendimiento al darle al modelo demasiada información innecesaria para procesar.
- Recursos computacionales:entrenar modelos autosupervisados, especialmente con grandes conjuntos de datos, exige una gran potencia computacional y tiempo.