Transferir el aprendizaje: el atajo para un desarrollo más inteligente y más rápido de IA

Publicado: 2025-02-04

La reutilización y la adaptación de los modelos AI previamente capacitados es cambiar la forma en que se abordan las tareas de aprendizaje automático (ML). El aprendizaje de transferencia es un método eficiente y rentable para adaptar sistemas de IA grandes y complejos a nuevos dominios y problemas. En esta guía, exploraremos los aspectos clave del aprendizaje de transferencia: cómo funciona, sus diversos tipos y aplicaciones, y sus ventajas y desafíos.

Tabla de contenido

  • ¿Qué es el aprendizaje de la transferencia?
  • ¿Cómo funciona la transferencia de aprendizaje?
  • Transferir aprendizaje frente a ajuste
  • Tipos de aprendizaje de transferencia
  • Beneficios del aprendizaje de transferencia
  • Desafíos del aprendizaje de transferencia
  • Aplicaciones de aprendizaje de transferencia

¿Qué es el aprendizaje de la transferencia?

El aprendizaje de transferencia es una poderosa técnica de aprendizaje automático que aprovecha un modelo previamente capacitado para una tarea diferente pero relacionada. Utiliza el conocimiento general capturado en un modelo existente como base para aprender a resolver problemas en dominios más específicos y relacionados.

Transfer Learning ofrece varias ventajas: acelera el desarrollo y la implementación de aplicaciones de inteligencia artificial (IA) personalizadas, reduce los costos de recursos y, a menudo, ofrece un mejor rendimiento que construir un modelo desde cero. Como resultado, el aprendizaje de transferencia es particularmente valioso para las organizaciones que tienen como objetivo desarrollar soluciones de IA especializadas sin las grandes cantidades de datos o potencia computacional que se requiere típicamente para entrenar un modelo desde cero.

Trabaja más inteligente con gramática
El compañero de escritura de IA para cualquier persona con trabajo a hacer

Ejemplo de aprendizaje de transferencia

Considere el ejemplo de un fabricante que desea crear un sistema de IA para detectar defectos del producto. Una opción es contratar profesionales de ML especializados, recopilar y seleccionar millones de imágenes de productos relevantes, y dejar de lado el tiempo y los recursos computacionales necesarios para capacitar a un modelo desde cero. Transfer Learning presenta una opción mucho mejor: el fabricante puede comenzar con un modelo que ya ha completado una capacitación costosa y que requiere mucho tiempo en un conjunto de datos de imágenes grande y estandarizado, como ImageNet. El fabricante puede luego usar el aprendizaje de transferencia de manera rápida y eficiente para adaptar el modelo para detectar defectos en imágenes de productos específicas.

¿Cómo funciona la transferencia de aprendizaje?

Transfer Learning adapta el conocimiento general de un modelo previamente capacitado a una tarea nueva y relacionada. El proceso generalmente involucra tres pasos clave:

  • Seleccionar un modelo previamente capacitado apropiado
  • Actualizar la arquitectura del modelo
  • Capacitar al modelo en nuevos datos

1. Seleccione un modelo previamente capacitado

El primer paso es elegir un modelo que ya ha sido entrenado en un conjunto de datos en un dominio relacionado con la tarea de destino. El modelo previamente capacitado debería haber aprendido características generales y de alto nivel relevantes para la nueva aplicación.

  • Ejemplo en atención médica:una organización de atención médica podría comenzar con un modelo previamente entrenado en el conjunto de datos Chestx-Ray14 de NIH (National Institutos de Salud), que contiene una gran colección de imágenes médicas etiquetadas. El modelo habría aprendido características generales, como cómo se estructuran las imágenes de rayos X y cómo las propiedades biológicas se correlacionan con los componentes de imágenes. Este modelo puede servir como base para desarrollar herramientas de diagnóstico para afecciones específicas ubicadas en el área del pecho y visible en imágenes de rayos X, como neumonía o cáncer de pulmón.
  • Ejemplo en finanzas:una empresa financiera podría usar Finbert, un modelo previamente entrenado en documentos financieros, llamadas de ganancias y presentaciones regulatorias. El modelo habría aprendido características generales, como la estructura del lenguaje financiero y los términos específicos que indican el sentimiento del mercado y el desempeño comercial. El modelo de Finbert podría servir como base para una funcionalidad más especializada, como marcar automáticamente con respecto a las declaraciones en los informes de ganancias.

Seleccionar el modelo previamente capacitado correcto implica garantizar que su entrenamiento original se alinee bien con la aplicación prevista, ya que esto aumenta la probabilidad de una adaptación exitosa.

2. Modificación de la arquitectura del modelo

Una vez que se selecciona un modelo previamente capacitado adecuado, su arquitectura está adaptada para adaptarse a la nueva tarea. Este paso generalmente incluye:

  • Reemplazo de las capas de salida:las capas finales del modelo previamente capacitado, diseñadas para la tarea original, se eliminan y se reemplazan con nuevas capas específicas de la tarea (por ejemplo, capas totalmente conectadas para la clasificación).
  • Retención de características generales:las capas internas, que capturan patrones generalizables como bordes en imágenes o relaciones lingüísticas en el texto, a menudo se conservan. Estas características pueden transferirse de manera efectiva a tareas relacionadas.

El alcance de la modificación arquitectónica depende del caso de uso específico y el grado de similitud entre las tareas de origen y objetivo.

3. Entrenamiento del modelo en nuevos datos

En el paso final, el modelo modificado está entrenado en un conjunto de datos adaptado a la nueva tarea. Este paso se puede abordar de dos maneras principales, dependiendo del tamaño del conjunto de datos y la similitud entre las tareas:

  • Extracción de características:
    • Solo las capas recién agregadas están entrenadas, mientras que las capas originales permanecen sin cambios.
    • Este método es ideal cuando la nueva tarea está estrechamente relacionada con la tarea original o cuando el conjunto de datos de destino es pequeño.
  • Sintonia FINA:
    • Todo el modelo está reentrenado pero con un conjunto de datos más pequeño y una tasa de aprendizaje para evitar perder las valiosas características aprendidas durante la fase de pre-entrenamiento.
    • Este enfoque es más adecuado para conjuntos de datos grandes o cuando la nueva tarea difiere significativamente de la tarea original.

Independientemente del enfoque, el objetivo es exponer el modelo a suficientes datos relevantes, lo que le permite aprender y generalizar para la nueva aplicación de manera efectiva.

Transferir aprendizaje frente a ajuste

El aprendizaje de transferencia a menudo se confunde con el ajuste. Si bien los conceptos están estrechamente relacionados, existen diferencias notables. Lo más importante es que el aprendizaje de transferencia es el proceso general de adaptar un modelo previamente capacitado para un nuevo propósito y puede o no implicar ajuste fino. Por otro lado, el ajuste fino es una de varias técnicas utilizadas para volver a entrenar algunos o todos los parámetros del modelo como parte del proceso general de aprendizaje de transferencia. El ajuste fino no es solo un subconjunto de aprendizaje de transferencia; Tiene aplicaciones en otros contextos en ML fuera del aprendizaje de transferencia, como mejorar el rendimiento del modelo en subgrupos específicos de datos o adaptar un modelo para cambiar las distribuciones de datos.

Además, el aprendizaje de transferencia generalmente requiere hacer cambios reales en la arquitectura del modelo, como eliminar y reemplazar las capas existentes o reestructurar las conexiones entre las capas. En contraste, el ajuste fino generalmente implica ajustes de parámetros pequeños y precisos sin cambios significativos en la arquitectura.

Piense en transferir el aprendizaje como renovar un edificio diseñado para un propósito para que pueda usarse para otro, como convertir un garaje en un apartamento. Esto probablemente implicaría actualizaciones estructurales como instalar ventanas y aislamiento o incluso agregar nuevas habitaciones y conexiones de servicios públicos. El ajuste fino, por otro lado, es más como usar el garaje como un espacio de trabajo adicional sin hacer cambios importantes en la estructura. Por ejemplo, las luces pueden reemplazarse y se pueden agregar nuevos estantes, pero la estructura general y la arquitectura del garaje permanecen sin cambios.

Tipos de aprendizaje de transferencia

El aprendizaje de transferencia puede tomar varias formas, cada una adecuada para escenarios específicos. El tipo apropiado depende de factores como la disponibilidad de datos etiquetados en el dominio objetivo, la similitud entre las tareas de origen y el objetivo y los requisitos comerciales específicos. Los principales tipos de aprendizaje de transferencia son el aprendizaje de transferencia inductiva,el aprendizaje de transferencia transductivayel aprendizaje de transferencia sin supervisión. Además, los enfoques modernos comoel aprendizaje de pocos disparosyel aprendizaje de cero disparosa menudo aprovechan las técnicas de aprendizaje de transferencia.

Aprendizaje de transferencia inductiva

El aprendizaje de transferencia inductiva es el tipo más común de aprendizaje de transferencia y se usa cuando las tareas de destino y fuente están estrechamente relacionadas y muy diferentes.

Ejemplo:una organización de atención médica podría usar el aprendizaje de transferencia para adaptar un modelo capacitado para clasificar las imágenes de resonancia magnética general para detectar condiciones cerebrales específicas.

En este escenario, las capacidades generales de reconocimiento visual del modelo de origen se transfieren bien a la tarea de destino, pero se requieren datos etiquetados en el dominio de destino. El aprendizaje de transferencia es particularmente efectivo para tareas donde hay nuevas etiquetas disponibles, pero la tarea en sí misma es distinta de (y generalmente una versión más especializada de) la fuente.

Aprendizaje de transferencia transductiva

En el aprendizaje de transferencia transductiva, las tareas de origen y objetivo son las mismas, pero el dominio del problema es diferente.

Ejemplo:un filtro de spam capacitado en correos electrónicos en inglés se puede adaptar para clasificar los correos electrónicos franceses. En este escenario, el reconocimiento de patrones de texto del modelo de origen y la comprensión de la estructura de correo electrónico se transfieren bien a la tarea de destino, incluso si el vocabulario y los patrones de lenguaje difieren. La tarea (clasificación de correo electrónico) permanece sin cambios, pero los datos (idioma) difieren. Este enfoque es útil cuando el dominio de origen tiene abundantes datos etiquetados y el dominio de destino tiene poco o ninguno.

Aprendizaje de transferencia no supervisada

El aprendizaje de transferencia no supervisado se usa cuando los datos etiquetados no están disponibles en el dominio de destino. En general, este tipo de aprendizaje de transferencia se utiliza para entrenar modelos para realizar tareas no supervisadas como la agrupación o la reducción de la dimensionalidad.

Ejemplo:una organización de TI podría usar el aprendizaje de transferencia no supervisado para ayudar a un sistema de detección de amenazas con IA a identificar nuevos tipos de amenazas sin ejemplos etiquetados.

En este caso, el modelo puede transferir su comprensión general de los patrones normales versus las amenazas potenciales a los nuevos tipos de amenazas previamente desconocidas.

Aprendizaje de pocos disparos

Aprendizaje de pocos disparos (FSL) es una técnica ML que utiliza el aprendizaje de transferencia para ayudar a un modelo a aprender de datos muy limitados. En FSL, los modelos aprenden a realizar nuevas tareas o clasificaciones utilizando solo unos pocos ejemplos.

Ejemplo:un modelo de reconocimiento facial puede identificar a un nuevo individuo basado en solo una o dos fotos.

Aprendizaje de disparo cero

El aprendizaje cero-shot (ZSL) es una técnica ML que ayuda a un modelo a aprender nuevas clases que no se ven en la capacitación. ZSL a menudo utiliza conceptos de aprendizaje de transferencia, pero se basa en relaciones semánticas e información auxiliar para generalizar el conocimiento aprendido a las nuevas categorías.

Ejemplo:un modelo podría aprender a reconocer una tilapia basada en su comprensión de otros tipos de peces y su conocimiento de que la tilapia es un tipo de pez a pesar de nunca haber visto una tilapia durante el entrenamiento.

Beneficios del aprendizaje de transferencia

Transfer Learning proporciona varias ventajas para las organizaciones que buscan desarrollar soluciones de IA personalizadas. Estos incluyen el desarrollo reducido y los requisitos de recursos, un buen rendimiento con datos limitados y una mejor robustez del modelo.

Requisitos reducidos de desarrollo y recursos

El aprendizaje de transferencia es una excelente manera de acortar simultáneamente el ciclo de desarrollo y reducir los requisitos de recursos para las aplicaciones de IA. Construir un modelo desde cero implica recopilar, limpiar y etiquetar datos, y eso es antes de que el entrenamiento pueda comenzar. Con el aprendizaje de transferencia, el desarrollo y el despliegue se convierten en una cuestión de semanas o incluso días en lugar de meses. Entrenar un modelo desde cero a menudo requiere un tiempo y potencia computacionales significativos, mientras que el aprendizaje de transferencia no. Esto significa que las organizaciones pueden traer sus soluciones de IA al mercado más rápido y con menos gastos generales.

Buen rendimiento con datos limitados

Transfer Learning permite que los modelos funcionen bien, incluso con conjuntos de datos de capacitación limitados. Esto es extremadamente útil para organizaciones en campos especializados, como la fabricación o la atención médica, donde los datos etiquetados son difíciles de encontrar o costosos de adquirir. Por ejemplo, una organización de atención médica podría tener solo unos pocos cientos de ejemplos etiquetados de afecciones médicas específicas, pero puede usar el aprendizaje de transferencia para construir un sistema de detección de rendimiento independientemente.

Robustez y confiabilidad del modelo mejorado

Si bien puede parecer poco intuitivo, los modelos entrenados a través del aprendizaje de transferencia a menudo se generalizan mejor que los modelos entrenados desde cero en datos limitados. Esto se debe a que los conjuntos de datos a gran escala utilizados para la capacitación previa proporcionan diversos patrones y características que son generalizables a dominios y tareas más específicos. Además, comenzar con un modelo que ya se ha probado reduce el riesgo de falla del modelo y aumenta la confiabilidad. Esta disminución de la reducción del riesgo es importante en industrias reguladas como la atención médica y las finanzas.

Desafíos del aprendizaje de transferencia

A pesar de sus muchos beneficios, el aprendizaje de transferencia también tiene varios desafíos y limitaciones. Las organizaciones deben comprender estos desafíos para que puedan diseñar la estrategia de implementación correcta y tener expectativas realistas. Estos desafíos incluyen transferencia negativa, desajuste de dominio y selección de modelos.

Transferencia negativa

En la transferencia negativa, el conocimiento del dominio de origen impide el aprendizaje de la tarea objetivo y conduce al modelo previamente capacitado que funciona peor que uno entrenado desde cero. Este es uno de los desafíos más comunes con el aprendizaje de la transferencia y generalmente ocurre cuando los dominios objetivo y fuente son demasiado diferentes. Por ejemplo, un modelo de visión por computadora entrenado para clasificar las razas de perros en las imágenes probablemente funcionará mal si se adapta al análisis de imágenes médicas, ya que las características aprendidas son irrelevantes para la nueva tarea. Las características que ayudan a distinguir las razas de perros, como la textura de piel, la longitud de la cola y la forma del oído, no tienen una aplicación significativa al tratar de clasificar los escaneos médicos. Las organizaciones deben comparar cuidadosamente los dominios de origen y objetivo para evitar la transferencia negativa.

Desajuste de dominio

El desajuste del dominio ocurre cuando las diferencias entre los datos disponibles para los dominios de origen y objetivo reducen el rendimiento del modelo. Estas diferencias pueden incluir variaciones en la calidad o distribución de datos. A diferencia de la transferencia negativa, un modelo que sufre de desajuste de dominio aún podría funcionar mejor que uno entrenado desde cero. Por ejemplo, un modelo entrenado en un conjunto de datos grande y variado de imágenes CAT no funcionará bien en la identificación de perros. Sin embargo, el modelo seguirá mejor en general que un modelo entrenado en un pequeño conjunto de imágenes de perros.

Selección y modificación del modelo

Seleccionar el modelo previamente capacitado apropiado y descubrir cómo modificarlo puede ser complejo y lento. Las organizaciones deben considerar todo tipo de factores, incluida la alineación entre los dominios de origen y objetivo, la infraestructura disponible y los recursos de personal, el tamaño y la calidad del conjunto de datos de capacitación y la arquitectura de modelos. Además, los modelos previamente capacitados a menudo se construyen con suposiciones y dependencias en mente que pueden no ser evidentes de inmediato. Seleccionar el modelo apropiado y hacer las modificaciones correctas requiere experiencia, tiempo para la experimentación e infraestructura a la que no todas las organizaciones pueden tener acceso.

Aplicaciones de aprendizaje de transferencia

El aprendizaje de transferencia es una forma más fácil y más confiable de crear sistemas de IA para tareas o dominios específicos que construir un nuevo modelo. Posteriormente, la técnica ha encontrado una adopción generalizada y tiene numerosas aplicaciones, que incluyen visión por computadora, procesamiento del lenguaje natural (PNL) y reconocimiento y generación de voz.

Visión por computadora

El aprendizaje de transferencia ha tenido mucho éxito en la visión por computadora. Las organizaciones pueden crear aplicaciones de visión personalizadas relativamente fácilmente mediante el uso de modelos de visión previamente capacitados que han aprendido características generalizables de millones de imágenes. Por ejemplo, una empresa de seguridad puede adaptar un modelo de visión por computadora previamente capacitada para detectar un comportamiento sospechoso en los alimentos de vigilancia o identificar objetos de interés específicos, todo sin cantidades masivas de datos de capacitación o desarrollo de modelos especializados.

Procesamiento del lenguaje natural (PNL)

Una aplicación importante del aprendizaje de transferencia es capacitar un modelo para manejar tareas específicas de PNL. Por ejemplo, una firma legal podría seleccionar un modelo PNL previamente capacitado como base para una herramienta de análisis de documentos y luego enseñarle al modelo a manejar dominios legales específicos utilizando el aprendizaje de transferencia.

Reconocimiento y generación de voz

El aprendizaje de transferencia también se utiliza para capacitar modelos para aplicaciones de habla especializadas. Por ejemplo, un centro de llamadas podría adaptar un modelo de habla generalizado para comprender la terminología específica de la industria y crear un sistema de servicio al cliente automatizado más personalizado. Otro ejemplo sería utilizar el aprendizaje de transferencia para adaptar un modelo de comando de voz capacitado para tareas de idioma general para manejar dialectos e idiomas específicos.