Apprentissage du transfert: le raccourci vers le développement de l'IA plus intelligent et plus rapide

Publié: 2025-02-04

La réutilisation et l'adaptation des modèles d'IA pré-formés modifient la façon dont les tâches d'apprentissage automatique (ML) sont abordées. L'apprentissage du transfert est une méthode efficace et rentable pour adapter les systèmes d'IA grands et complexes à de nouveaux domaines et problèmes. Dans ce guide, nous explorerons les aspects clés de l'apprentissage du transfert: comment il fonctionne, ses différents types et applications et ses avantages et défis.

Table des matières

  • Qu'est-ce que l'apprentissage du transfert?
  • Comment fonctionne l'apprentissage du transfert?
  • Transfert d'apprentissage vs réglage fin
  • Types d'apprentissage du transfert
  • Avantages de l'apprentissage du transfert
  • Défis de l'apprentissage du transfert
  • Applications de l'apprentissage du transfert

Qu'est-ce que l'apprentissage du transfert?

L'apprentissage du transfert est une technique puissante d'apprentissage automatique qui exploite un modèle pré-formé pour une tâche différente mais connexe. Il utilise les connaissances générales capturées dans un modèle existant comme base pour apprendre à résoudre des problèmes dans des domaines plus spécifiques et connexes.

Le transfert d'apprentissage offre plusieurs avantages: il accélère le développement et le déploiement d'applications personnalisées de l'intelligence artificielle (IA), réduit les coûts des ressources et offre souvent de meilleures performances que la construction d'un modèle à partir de zéro. En conséquence, l'apprentissage du transfert est particulièrement utile pour les organisations visant à développer des solutions d'IA spécialisées sans les grandes quantités de données ou de puissance de calcul généralement nécessaires pour former un modèle à partir de zéro.

Travailler plus intelligent avec grammaire
Le partenaire d'écriture de l'IA pour quiconque avec le travail à faire

Exemple d'apprentissage du transfert

Considérez l'exemple d'un fabricant qui souhaite créer un système d'IA pour détecter les défauts des produits. Une option consiste à embaucher des praticiens de ML spécialisés, à collecter et à organiser des millions d'images de produits pertinentes et à réserver le temps et les ressources de calcul nécessaires pour former un modèle à partir de zéro. Le transfert d'apprentissage présente une bien meilleure option: le fabricant peut à la place commencer par un modèle qui a déjà terminé une formation coûteuse et chronophage sur un ensemble de données d'image standardisé, comme ImageNet. Le fabricant peut ensuite utiliser rapidement et efficacement l'apprentissage du transfert pour adapter le modèle pour détecter les défauts dans des images de produits spécifiques.

Comment fonctionne l'apprentissage du transfert?

Le transfert d'apprentissage adapte les connaissances générales d'un modèle pré-formé à une nouvelle tâche connexe. Le processus implique généralement trois étapes clés:

  • Sélection d'un modèle pré-formé approprié
  • Mise à jour de l'architecture du modèle
  • Formation du modèle sur les nouvelles données

1. Sélectionnez un modèle pré-formé

La première étape consiste à choisir un modèle qui a déjà été formé sur un ensemble de données dans un domaine lié à la tâche cible. Le modèle pré-formé devrait avoir appris les fonctionnalités générales et de haut niveau pertinentes pour la nouvelle application.

  • Exemple dans les soins de santé:une organisation de soins de santé peut commencer par un modèle pré-formé sur l'ensemble de données NIH (National Institutes of Health) Chestx-Ray14, qui contient une vaste collection d'images médicales étiquetées. Le modèle aurait appris des caractéristiques générales telles que la façon dont les images aux rayons X sont structurées et la façon dont les propriétés biologiques sont en corrélation avec les composants de l'image. Ce modèle peut servir de base au développement d'outils de diagnostic pour des conditions spécifiques situées dans la zone poitrine et visibles sur des images aux rayons X, comme la pneumonie ou le cancer du poumon.
  • Exemple en finance:une entreprise financière peut utiliser Finbert, un modèle pré-formé sur les documents financiers, les appels de bénéfices et les dépôts réglementaires. Le modèle aurait appris des caractéristiques générales telles que la structure du langage financier et des termes spécifiques indiquant le sentiment du marché et les performances commerciales. Le modèle de Finbert pourrait servir de base à des fonctionnalités plus spécialisées, telles que le signalation automatique des déclarations dans les rapports de revenus.

La sélection du bon modèle pré-formé consiste à s'assurer que sa formation d'origine s'aligne bien avec l'application prévue, car cela augmente la probabilité d'adaptation réussie.

2. Modification de l'architecture du modèle

Une fois qu'un modèle pré-formé approprié est sélectionné, son architecture est adaptée pour s'adapter à la nouvelle tâche. Cette étape comprend généralement:

  • Remplacement des couches de sortie:Les couches finales du modèle pré-formées, conçues pour la tâche d'origine, sont supprimées et remplacées par de nouvelles couches spécifiques à la tâche (par exemple, couches entièrement connectées pour la classification).
  • Rétention des caractéristiques générales:les couches intérieures, qui capturent des modèles généralisables comme les bords dans les images ou les relations linguistiques dans le texte, sont souvent préservées. Ces fonctionnalités peuvent être transférées efficacement vers des tâches connexes.

L'étendue de la modification architecturale dépend du cas d'utilisation spécifique et du degré de similitude entre les tâches source et cible.

3. Formation du modèle sur les nouvelles données

Dans la dernière étape, le modèle modifié est formé sur un ensemble de données adapté à la nouvelle tâche. Cette étape peut être approchée de deux manières principales, en fonction de la taille de l'ensemble de données et de la similitude entre les tâches:

  • Extraction de caractéristiques:
    • Seules les couches nouvellement ajoutées sont formées, tandis que les couches d'origine restent inchangées.
    • Cette méthode est idéale lorsque la nouvelle tâche est étroitement liée à la tâche d'origine ou lorsque l'ensemble de données cible est petit.
  • Réglage fin:
    • L'ensemble du modèle est recyclé mais avec un ensemble de données plus petit et un taux d'apprentissage pour éviter de perdre les précieuses caractéristiques apprises pendant la phase de pré-formation.
    • Cette approche est mieux adaptée aux grands ensembles de données ou lorsque la nouvelle tâche diffère considérablement de la tâche d'origine.

Quelle que soit l'approche, l'objectif est d'exposer le modèle à des données pertinentes suffisantes, en lui permettant d'apprendre et de généraliser efficacement la nouvelle application.

Transfert d'apprentissage vs réglage fin

L'apprentissage du transfert est souvent confondu avec le réglage fin. Bien que les concepts soient étroitement liés, il existe des différences notables. Plus important encore, l'apprentissage du transfert est le processus global d'adaptation d'un modèle pré-formé à un nouvel objectif et peut ou non impliquer un réglage fin. D'un autre côté, le réglage fin est l'une des nombreuses techniques utilisées pour recycler certains ou tous les paramètres du modèle dans le cadre du processus d'apprentissage global de transfert. Le réglage fin n'est pas seulement un sous-ensemble d'apprentissage par transfert; Il a des applications dans d'autres contextes en ML en dehors de l'apprentissage du transfert, tels que l'amélioration des performances du modèle sur des sous-groupes spécifiques de données ou l'adaptation d'un modèle pour déplacer des distributions de données.

De plus, l'apprentissage du transfert nécessite généralement d'apporter des modifications réelles à l'architecture du modèle, telles que la suppression et le remplacement des couches existantes ou la restructuration des connexions entre les couches. En revanche, le réglage fin implique généralement de petits ajustements de paramètres précis sans modifications significatives de l'architecture.

Considérez l'apprentissage du transfert comme une rénovation d'un bâtiment conçu dans un seul but afin qu'il puisse être utilisé pour un autre, comme convertir un garage en appartement. Cela impliquerait probablement des mises à jour structurelles telles que l'installation de fenêtres et d'isolation ou même d'ajouter de nouvelles chambres et connexions utilitaires. Le réglage fin, en revanche, ressemble plus à utiliser le garage comme espace de travail supplémentaire sans apporter de modifications majeures à la structure. Par exemple, les lumières peuvent être remplacées et de nouvelles étagères peuvent être ajoutées, mais la structure globale et l'architecture du garage restent inchangées.

Types d'apprentissage du transfert

L'apprentissage du transfert peut prendre plusieurs formes, chacune adaptée à des scénarios spécifiques. Le type approprié dépend de facteurs tels que la disponibilité des données étiquetées dans le domaine cible, la similitude entre les tâches source et cible et les exigences commerciales spécifiques. Les principaux types d'apprentissage du transfert sont l'apprentissage des transfert inductifs,l'apprentissage transductif du transfertetl'apprentissage des transfert non surveillés. De plus, les approches modernes telles quel'apprentissage à quelques coupsetl'apprentissage zérotirent souvent parti des techniques d'apprentissage du transfert.

Apprentissage du transfert inductif

L'apprentissage du transfert inductif est le type d'apprentissage le plus courant et est utilisé lorsque les tâches cibles et source sont étroitement liées et très différentes.

Exemple:Une organisation de soins de santé peut utiliser l'apprentissage du transfert pour adapter un modèle formé pour classer les images d'IRM générales pour détecter des conditions cérébrales spécifiques.

Dans ce scénario, les capacités générales de reconnaissance visuelle du modèle source se transfèrent bien à la tâche cible, mais les données étiquetées dans le domaine cible sont nécessaires. L'apprentissage du transfert est particulièrement efficace pour les tâches où de nouvelles étiquettes sont disponibles, mais la tâche elle-même est distincte (et généralement une version plus spécialisée de) la source.

Apprentissage transductif du transfert

Dans l'apprentissage transductif du transfert, les tâches source et cible sont les mêmes, mais le domaine du problème est différent.

Exemple:Un filtre de spam formé aux e-mails en anglais peut être adapté pour classer les e-mails français. Dans ce scénario, la reconnaissance du modèle de texte du modèle source et la compréhension de la structure des e-mails se transfèrent bien à la tâche cible, même si les modèles de vocabulaire et de langage diffèrent. La tâche (classification par e-mail) reste inchangée, mais les données (langue) diffèrent. Cette approche est utile lorsque le domaine source a des données étiquetées abondantes et que le domaine cible a peu ou aucun.

Apprentissage du transfert non surveillé

L'apprentissage de transfert non supervisé est utilisé lorsque les données étiquetées ne sont pas disponibles dans le domaine cible. Généralement, ce type d'apprentissage du transfert est utilisé pour former des modèles pour effectuer des tâches non supervisées comme le clustering ou la réduction de la dimensionnalité.

Exemple:Une organisation informatique peut utiliser l'apprentissage du transfert non supervisé pour aider un système de détection de menaces alimenté en IA à identifier de nouveaux types de menaces sans exemples étiquetés.

Dans ce cas, le modèle peut transférer sa compréhension générale des modèles normaux par rapport aux menaces potentielles pour de nouveaux types de menaces, auparavant inconnus.

Apprentissage à quelques coups

L'apprentissage à quelques coups (FSL) est une technique ML qui utilise l'apprentissage du transfert pour aider un modèle à apprendre des données très limitées. Dans FSL, les modèles apprennent à effectuer de nouvelles tâches ou classifications à l'aide de quelques exemples.

Exemple:un modèle de reconnaissance faciale peut identifier une nouvelle personne basée sur une ou deux photos.

Apprentissage zéro-shot

L'apprentissage zéro-shot (ZSL) est une technique ML qui aide un modèle à apprendre de nouvelles classes qui ne sont pas vues dans la formation. ZSL utilise souvent des concepts d'apprentissage du transfert, mais repose sur les relations sémantiques et les informations auxiliaires pour généraliser les connaissances apprises aux nouvelles catégories.

Exemple:Un modèle peut apprendre à reconnaître un tilapia basé sur sa compréhension d'autres types de poissons et ses connaissances selon lesquelles le tilapia est un type de poisson bien qu'il n'ait jamais vu de tilapia pendant l'entraînement.

Avantages de l'apprentissage du transfert

L'apprentissage par transfert offre plusieurs avantages pour les organisations qui cherchent à développer des solutions d'IA sur mesure. Ceux-ci incluent une réduction des exigences de développement et des ressources, de bonnes performances avec des données limitées et une amélioration de la robustesse du modèle.

Réduction des exigences de développement et de ressources

L'apprentissage du transfert est un excellent moyen de raccourcir simultanément le cycle de développement et de réduire les exigences des ressources pour les applications d'IA. La construction d'un modèle à partir de zéro implique la collecte, le nettoyage et l'étiquetage des données - et c'est avant que l'entraînement puisse même commencer. Avec l'apprentissage du transfert, le développement et le déploiement deviennent une question de semaines ou même de jours au lieu de mois. La formation d'un modèle à partir de zéro nécessite souvent un temps de calcul et une puissance importants, contrairement à l'apprentissage du transfert. Cela signifie que les organisations peuvent apporter leurs solutions d'IA sur le marché plus rapidement et avec moins de frais généraux.

Bonnes performances avec des données limitées

Le transfert d'apprentissage permet aux modèles de bien performer, même avec des ensembles de données de formation limités. Ceci est extrêmement utile pour les organisations dans des domaines spécialisés, comme la fabrication ou les soins de santé, où les données étiquetées sont difficiles à trouver ou coûteuses à se procurer. Par exemple, une organisation de soins de santé pourrait n'avoir que quelques centaines d'exemples étiquetés de conditions médicales spécifiques, mais peut utiliser l'apprentissage du transfert pour construire un système de détection de performant malgré tout.

Amélioration de la robustesse et de la fiabilité du modèle

Bien que cela puisse sembler inutile, les modèles formés par l'apprentissage par transfert généralisent souvent mieux que les modèles formés à partir de zéro sur des données limitées. En effet, les ensembles de données à grande échelle utilisés pour la pré-formation fournissent divers modèles et fonctionnalités qui sont généralisables aux domaines et tâches plus spécifiques. De plus, commencer par un modèle qui a déjà été testé réduit le risque d'échec du modèle et augmente la fiabilité. Cette diminution de la réduction des risques est importante dans les industries réglementées comme les soins de santé et la finance.

Défis de l'apprentissage du transfert

Malgré ses nombreux avantages, le transfert d'apprentissage présente également plusieurs défis et limitations. Les organisations doivent comprendre ces défis afin qu'ils puissent concevoir la bonne stratégie de mise en œuvre et avoir des attentes réalistes. Ces défis incluent le transfert négatif, l'inadéquation du domaine et la sélection du modèle.

Transfert négatif

Dans le transfert négatif, les connaissances du domaine source entravent l'apprentissage de la tâche cible et conduit au modèle pré-formé à performer moins que celui formé à partir de zéro. Il s'agit de l'un des défis les plus courants avec l'apprentissage du transfert et se produit généralement lorsque les domaines cibles et source sont trop différents. Par exemple, un modèle de vision par ordinateur formé pour classer les races de chiens sur les images fonctionnera probablement mal si elle est adaptée à l'analyse des images médicales, car les caractéristiques apprises ne sont pas pertinentes pour la nouvelle tâche. Les caractéristiques qui aident à distinguer les races de chiens, comme la texture en fourrure, la longueur de la queue et la forme de l'oreille, n'ont aucune application significative lorsqu'ils essaient de classer les analyses médicales. Les organisations doivent comparer soigneusement les domaines source et cible pour éviter un transfert négatif.

Décalage du domaine

L'inadéquation du domaine se produit lorsque les différences entre les données disponibles pour les domaines source et cible réduisent les performances du modèle. Ces différences peuvent inclure des variations de la qualité ou de la distribution des données. Contrairement au transfert négatif, un modèle souffrant de décalage du domaine pourrait encore fonctionner mieux que celui formé à partir de zéro. Par exemple, un modèle formé sur un grand ensemble de données varié d'images CAT ne fera pas bien d'identifier les chiens. Cependant, le modèle fera toujours mieux en général qu'un modèle formé sur un petit ensemble d'images de chien.

Sélection et modification du modèle

La sélection du modèle pré-formé approprié et la détermination de la façon de le modifier peuvent être complexes et longs. Les organisations doivent prendre en compte toutes sortes de facteurs, notamment l'alignement entre les domaines source et cible, l'infrastructure disponible et les ressources du personnel, la taille et la qualité de l'ensemble de données de formation et l'architecture du modèle. De plus, les modèles pré-formés sont souvent construits avec des hypothèses et des dépendances à l'esprit qui peuvent ne pas être immédiatement apparentes. La sélection du modèle approprié et la réalisation des bonnes modifications nécessitent une expertise, du temps pour l'expérimentation et des infrastructures auxquelles toutes les organisations n'ont pas accès.

Applications de l'apprentissage du transfert

L'apprentissage du transfert est un moyen plus facile et plus fiable de créer des systèmes d'IA pour des tâches ou des domaines spécifiques que la création d'un nouveau modèle. Par la suite, la technique a trouvé une adoption généralisée et a de nombreuses applications, notamment la vision par ordinateur, le traitement du langage naturel (PNL) et la reconnaissance et la génération de la parole.

Vision par ordinateur

L'apprentissage du transfert a connu beaucoup de succès dans la vision par ordinateur. Les organisations peuvent créer des applications de vision personnalisées relativement facilement en utilisant des modèles de vision pré-formés qui ont appris des fonctionnalités généralisables de millions d'images. Par exemple, une entreprise de sécurité peut adapter un modèle de vision informatique pré-formé pour détecter les comportements suspects dans les flux de surveillance ou identifier des objets d'intérêt spécifiques, le tout sans quantités massives de données de formation ou développement de modèles spécialisés.

Traitement du langage naturel (PNL)

Une application majeure de l'apprentissage du transfert consiste à former un modèle pour gérer des tâches NLP spécifiques. Par exemple, un cabinet juridique pourrait sélectionner un modèle de PNL pré-formé comme base d'un outil d'analyse de documents, puis enseigner au modèle à gérer des domaines juridiques spécifiques en utilisant l'apprentissage par transfert.

Reconnaissance et génération de la parole

L'apprentissage du transfert est également utilisé pour former des modèles pour des applications vocales spécialisées. Par exemple, un centre d'appels pourrait adapter un modèle de parole généralisé pour comprendre la terminologie spécifique à l'industrie et créer un système de service client automatisé plus personnalisé. Un autre exemple serait d'utiliser le transfert d'apprentissage pour adapter un modèle de commande vocale formé pour que les tâches de langue générale gèrent des dialectes et des langues spécifiques.