Explicación del aprendizaje de disparo cero: el futuro del aprendizaje automático sin etiquetas
Publicado: 2025-01-13El aprendizaje de disparo cero (ZSL) está revolucionando el aprendizaje automático (ML) al permitir que los modelos clasifiquen o predigan resultados para conceptos que nunca antes habían encontrado, lo que marca un alejamiento de los enfoques tradicionales que requieren una gran cantidad de datos etiquetados. Esta guía explora cómo funciona ZSL, sus aplicaciones, cómo se compara con el aprendizaje de pocas oportunidades (FSL) y sus desafíos y potencial futuro.
Tabla de contenido
- ¿Qué es el aprendizaje de tiro cero?
- Cómo funciona el aprendizaje de tiro cero
- Aprendizaje de cero oportunidades versus aprendizaje de pocas oportunidades y aprendizaje de una sola vez
- Aprendizaje de disparo cero frente a indicaciones de disparo cero
- Aplicaciones del aprendizaje de tiro cero
- Beneficios del aprendizaje de tiro cero
- Desafíos del aprendizaje de tiro cero
¿Qué es el aprendizaje de disparo cero (ZSL)?
ZSL permite que los modelos de aprendizaje automático hagan predicciones sobre categorías invisibles sin requerir ejemplos de entrenamiento específicos para esas categorías. A diferencia de los modelos tradicionales de aprendizaje supervisado, que dependen en gran medida de conjuntos de datos etiquetados donde cada categoría debe representarse explícitamente, ZSL aprovecha información auxiliar, como incrustaciones semánticas o atributos, para generalizar el conocimiento.
Por ejemplo, un modelo de aprendizaje supervisado entrenado para clasificar animales necesitaría ejemplos etiquetados de "perro", "gato" y "cebra" para reconocerlos, mientras que un modelo ZSL entrenado con imágenes de animales podría identificar una cebra basándose en atributos descriptivos como " rayado” y “parecido a un caballo”, incluso sin exposición a ejemplos anteriores. Esto hace que ZSL sea particularmente útil para tareas que involucran conjuntos de datos grandes y sin etiquetar o situaciones donde la recopilación de datos etiquetados no es práctica. Sus aplicaciones abarcan visión por computadora, procesamiento del lenguaje natural (PNL), robótica y más.
Cómo funciona el aprendizaje de tiro cero
Los modelos ZSL primero se entrenan previamente en un gran conjunto de datos etiquetados para crear una base de conocimientos. El modelo extrae información auxiliar de los datos etiquetados, incluidas características como el color, la forma y el sentimiento.
Luego utiliza esas características para mapear relaciones semánticas entre categorías (o clases) de datos vistas y no vistas. Este proceso, llamado transferencia de conocimiento, permite que un modelo ZSL comprenda, por ejemplo, que un pato y un ganso están relacionados porque ambos tienen pico, plumas y patas palmeadas.
Las técnicas más comunes son ZSL basado en atributos, ZSL basado en incrustación semántica y ZSL generalizado. A continuación, examinamos cada uno.
Aprendizaje de tiro cero basado en atributos
Los modelos ZSL basados en atributos se utilizan con mayor frecuencia para tareas de visión por computadora. Trabajan entrenándose en conjuntos de datos de imágenes etiquetados por humanos. Las etiquetas constan de atributos que la persona que las etiqueta considera útiles. Para cada imagen, la persona aplica una descripción textual de sus características, como color, forma u otras características.
Por ejemplo, en la clasificación de imágenes, atributos como "gris", "cuatro patas" y "perro" pueden describir diferentes categorías. Mediante entrenamiento, el modelo aprende a asociar estos atributos con categorías específicas.
Cuando le muestra al modelo un ejemplo de algo nuevo, como un tipo de animal que no ha visto antes, puede determinar si está viendo una clase similar pero no igual a las clases vistas en el entrenamiento.
Cuando el modelo encuentra una categoría invisible (por ejemplo, un lobo), puede inferir la clase analizando atributos compartidos con categorías aprendidas, incluso si la etiqueta "lobo" no fuera explícitamente parte del entrenamiento. Estos atributos interpretables por humanos mejoran la explicabilidad y permiten que el modelo se generalice a nuevas clases.
Aprendizaje de tiro cero basado en incrustación semántica
Este enfoque es similar al ZSL basado en atributos, pero en lugar de que los humanos creen etiquetas de atributos para el entrenamiento, el modelo genera lo que se conoce como incrustaciones semánticas de los datos de entrenamiento. Estas incrustaciones semánticas se codifican como vectores (formas matemáticas de representar objetos del mundo real) y luego se mapean en un espacio de incrustación.
El espacio de incrustación permite que el modelo organice su conocimiento contextual agrupando información relacionada más estrechamente. Por ejemplo, las categorías "perro" y "lobo" estarán más cerca entre sí en un espacio de incrustación que las categorías "perro" y "pájaro", debido a características semánticas compartidas. Esto es similar a cómo los modelos de lenguajes grandes (LLM) utilizan incrustaciones semánticas para agrupar sinónimos debido a sus significados similares.
Cuando al modelo se le asignan categorías invisibles (otra forma de decir "datos nuevos que el modelo no ha encontrado antes"), proyecta vectores de esas nuevas clases en el mismo espacio de incrustación y mide la distancia entre ellos y los vectores de las clases que ya conoce. acerca de. Esto le da al modelo contexto para los ejemplos invisibles y le permite inferir relaciones semánticas entre clases conocidas y desconocidas.
Aprendizaje generalizado de tiro cero
La mayoría de las técnicas de aprendizaje de tiro cero entrenan el modelo con un tipo de datos y luego lo aplican a un problema diferente pero relacionado. Ésa es la idea de los “tiros cero”: el modelo no queda expuesto a ningún ejemplo de las nuevas clases antes de encontrarlos en la naturaleza.
Sin embargo, las aplicaciones del mundo real no siempre son tan blancas o negras. El conjunto de datos que desea que clasifique su modelo ZSL puede contener elementos de clases conocidas junto con clases nuevas.
El problema es que los modelos ZSL tradicionales a veces pueden mostrar un fuerte sesgo por etiquetar erróneamente nuevas clases como cosas que ya conocen si se mezclan cosas nuevas y familiares. Por lo tanto, es útil tener un modelo ZSL que pueda generalizarse a un conjunto de datos que podría contener clases que ya se hayan visto en el entrenamiento.
En ZSL generalizado, el modelo da un paso adicional para reducir el sesgo hacia categorías conocidas. Antes de realizar la clasificación, primero decide si el objeto en cuestión pertenece a una clase conocida o desconocida.
Aprendizaje de cero oportunidades versus aprendizaje de pocas oportunidades y aprendizaje de una sola vez
Al igual que ZSL, el aprendizaje de pocas tomas (FSL) y el aprendizaje de una sola vez (OSL) permiten que los modelos de aprendizaje profundo realicen nuevas tareas con datos nuevos mínimos o nulos. Los tres enfoques se basan en mapear las relaciones entre características de ejemplos conocidos para inferir patrones en ejemplos desconocidos. Su objetivo principal es crear modelos que sean efectivos en escenarios del mundo real donde los datos son escasos o donde no hay tiempo para entrenar un nuevo modelo para una tarea específica.
La diferencia clave radica en cómo manejan los datos nuevos:
- FSLimplica proporcionar al modelo una pequeña cantidad de ejemplos etiquetados para la nueva clase que necesita identificar.
- OSLes un caso más específico, donde al modelo se le muestra solo un ejemplo etiquetado de la nueva clase.
Tanto FSL como OSL requieren un paso de formación adicional en comparación con ZSL, lo que aumenta el tiempo necesario para aprender nuevas tareas. Sin embargo, esta capacitación adicional los equipa para manejar tareas que se desvían significativamente del conocimiento previamente entrenado del modelo, lo que los hace más adaptables en la práctica.
Si bien a menudo se considera que ZSL es "flexible" porque no requiere ejemplos etiquetados para nuevas tareas, esta flexibilidad es en gran medida teórica. En aplicaciones del mundo real, los métodos ZSL pueden tener problemas con:
- Tareas que involucran una combinación de ejemplos vistos y no vistos (p. ej., escenarios ZSL generalizados)
- Tareas que son sustancialmente diferentes de los datos de entrenamiento del modelo.
Los modelos ZSL también son sensibles a factores como cómo se dividen los conjuntos de datos durante el entrenamiento previo y la evaluación, lo que puede afectar el rendimiento. Por otro lado, FSL y OSL ofrecen más flexibilidad práctica para la adaptación de tareas al incorporar nuevos ejemplos en el proceso de aprendizaje, lo que les permite desempeñarse mejor en diversos escenarios.
Aprendizaje de disparo cero frente a indicaciones de disparo cero
ZSL es un tipo de arquitectura modelo diseñada para diversas tareas de aprendizaje profundo. Por el contrario, la indicación de tiro cero se refiere a pedirle a un LLM como ChatGPT o Claude que genere un resultado sin proporcionar ejemplos específicos en la indicación para guiar su respuesta. En ambos casos, el modelo realiza una tarea sin ejemplos explícitos de lo que implica la tarea.
En las indicaciones de disparo cero, no proporciona al modelo ningún ejemplo relacionado con la tarea. En cambio, usted confía en el conocimiento previamente capacitado del LLM para inferir y ejecutar la tarea.
Por ejemplo, puede ingresar el texto de una reseña de un restaurante y pedirle al LLM que la clasifique como positiva, neutral o negativa, sin darle ninguna reseña de muestra para usar como referencia. El LLM aprovecharía su capacitación previa para determinar la etiqueta adecuada para la revisión.
Si bien el aprendizaje de tiro cero y las indicaciones de tiro cero comparten el concepto de realizar tareas sin ejemplos, existe una distinción clave:
- El aprendizaje de disparo ceroes un tipo de arquitectura de modelo creada para este tipo de tareas.
- La indicación de disparo ceroes una técnica específica para interactuar con LLM, no una arquitectura modelo.
Aplicaciones del aprendizaje de tiro cero
Debido a su enfoque en ayudar a que los modelos de aprendizaje profundo se adapten a nuevas tareas, ZSL tiene aplicaciones en muchas áreas del aprendizaje automático, incluida la visión por computadora, la PNL y la robótica. ZSL se puede utilizar en atención médica, análisis de sentimientos, servicio al cliente, traducción de documentos y ciberseguridad, por ejemplo:
- Análisis de sentimiento:cuando aparecen noticias de última hora, un modelo de PNL de disparo cero puede realizar un análisis de sentimiento en los comentarios públicos para proporcionar una visión casi en tiempo real de las reacciones del público.
- Procesamiento de documentos multilingüe:los modelos zero-shot de PNL entrenados para extraer información de documentos tributarios en inglés pueden realizar las mismas extracciones en documentos tributarios en español sin capacitación adicional.
- Diagnóstico médico:se han utilizado modelos ZSL para identificar radiografías de pacientes con COVID-19 sin ningún ejemplo visual. Las identificaciones se basan en descripciones textuales, realizadas por médicos que trabajan en el campo, de cómo se ven las radiografías positivas.
- Chatbots con más matices:los modelos de PNL de ZSL pueden comprender jergas y modismos que no han encontrado antes durante los chats con personas, lo que les permite responder de manera más significativa a preguntas para las que no estaban específicamente capacitados.
- Detección de anomalías:ZSL se puede utilizar en ciberseguridad para detectar patrones inusuales en la actividad de la red o etiquetar nuevos tipos de ataques de piratería a medida que surgen nuevas amenazas.
Beneficios del aprendizaje de tiro cero
Los enfoques tradicionales de aprendizaje supervisado suelen ser poco prácticos para muchas aplicaciones del mundo real, dados los grandes conjuntos de datos, el tiempo de capacitación, el dinero y los recursos computacionales que requieren. ZSL puede mitigar algunos de esos desafíos. Los beneficios incluyen reducir los costos asociados con la capacitación de un nuevo modelo y hacer frente a situaciones en las que los datos son escasos o aún no están disponibles:
Desarrollo rentable
Adquirir y seleccionar los grandes conjuntos de datos etiquetados que requiere el aprendizaje supervisado es costoso y requiere mucho tiempo. Entrenar un modelo en un conjunto de datos etiquetados de alta calidad puede costar decenas de miles de dólares, además del costo de los servidores, el espacio de computación en la nube y los ingenieros.
ZSL se muestra prometedor a la hora de reducir el coste de los proyectos de aprendizaje automático al permitir a las instituciones reutilizar modelos para nuevas tareas sin formación adicional. También permite a entidades o individuos más pequeños reutilizar modelos creados por otros.
Resolver problemas con datos escasos
La flexibilidad de ZSL lo convierte en una buena herramienta para situaciones en las que hay pocos datos disponibles o en las que aún están surgiendo datos. Por ejemplo, es útil para diagnosticar nuevas enfermedades cuando la información aún no está muy extendida, o para situaciones de desastre en las que la información evoluciona rápidamente. ZSL también es útil para la detección de anomalías cuando los datos son demasiado sustanciales para que los procesen los analistas humanos.
Desafíos del aprendizaje de tiro cero
ZSL depende en gran medida de tener datos de entrenamiento de alta calidad durante su fase previa al entrenamiento para comprender las relaciones semánticas entre categorías lo suficientemente bien como para generalizarlas a otras nuevas. Sin datos de alta calidad, ZSL puede producir resultados poco fiables que a veces son difíciles de evaluar.
Los problemas comunes que enfrentan los modelos ZSL incluyen problemas para adaptarse a tareas que son diferentes a las tareas en las que ya se ha entrenado y problemas con los datos de entrenamiento que hacen que dependan demasiado de ciertas etiquetas al predecir clases invisibles.
Adaptación del dominio
Los modelos ZSL funcionan mejor cuando se les pide que manejen datos nuevos de un dominio que no sea dramáticamente diferente de aquel en el que fueron entrenados. Por ejemplo, si un modelo ha sido entrenado con fotografías, tendrá dificultades para clasificar videos.
Los modelos ZSL se basan en mapear información auxiliar de datos desconocidos a datos conocidos, por lo que si las fuentes de datos son demasiado diferentes, el modelo no tiene forma de generalizar su conocimiento a la nueva tarea.
El problema de la centralidad
El problema de concentración en ZSL ocurre cuando un modelo comienza a usar solo unas pocas etiquetas al hacer predicciones para categorías invisibles. Ocurre cuando muchos puntos en el espacio de características incrustadas se agrupan, formando "centros" que desvían el modelo hacia etiquetas particulares.
Esto puede suceder debido al ruido en los datos de entrenamiento, a demasiados ejemplos de algunos tipos de datos y pocos de otros, o porque las incorporaciones semánticas del modelo no son lo suficientemente distintas.