Modèles d'IA génératifs, expliqués

Publié: 2024-04-15

Lorsque vous pensez aux modèles d’IA génératifs, vous pensez probablement aux grands modèles linguistiques (LLM) qui ont fait sensation ces dernières années. Cependant, l’IA générative elle-même remonte à plusieurs décennies, et les LLM ne sont que la dernière évolution. Et parallèlement aux LLM, de nombreux types différents de modèles d’IA générative sont utilisés pour différents outils et cas d’utilisation d’IA générative, tels que les modèles de diffusion utilisés pour la génération d’images.

Dans cet article, nous expliquerons ce que sont les modèles d'IA générative, comment ils sont développés et approfondirons certains des modèles d'IA générative les plus courants aujourd'hui, suffisamment pour vous donner une compréhension conceptuelle de ces modèles qui impressionnera votre amis et collègues, sans avoir besoin de suivre un cours universitaire en apprentissage automatique (ML).

Qu’est-ce qu’un modèle d’IA générative ?

Les modèles d'IA générative sont un sous-ensemble de systèmes d'intelligence artificielle spécialisés dans la création de nouveaux contenus originaux qui reflètent les caractéristiques de leurs données d'entraînement. En apprenant des modèles et des relations dans les données, ces modèles peuvent générer des résultats tels que du texte, des images, des sons ou des vidéos qui ressemblent au style, au ton et aux nuances de leur matériau source. Cette capacité place l’IA générative au cœur de l’innovation, permettant des applications créatives et dynamiques dans divers domaines en interprétant et en transformant les données d’entrée en créations inédites.

Travaillez plus intelligemment avec Grammarly
Le partenaire d'écriture IA pour tous ceux qui ont du travail à faire

Comment fonctionnent les modèles d'IA génératifs

Les modèles d'IA générative fonctionnent en exploitant une forme sophistiquée d'algorithme de ML connue sous le nom de réseau neuronal. Un réseau neuronal comprend plusieurs couches de nœuds interconnectés, chacun représenté par un extrait de code informatique. Ces nœuds effectuent des tâches individuelles mineures mais contribuent collectivement à la prise de décisions complexes, reflétant la fonctionnalité des neurones du cerveau humain.

Pour illustrer, considérons un réseau de neurones chargé de faire la distinction entre les images de tartes et de gâteaux. Le réseau analyse l'image à un niveau granulaire, la divisant en pixels. À un niveau très basique, il y aura différents nœuds dans le réseau dédiés à la compréhension des différents pixels et groupes de pixels. Peut-être que certains examineront s'il y a des couches dans le dessert, tandis que d'autres détermineront s'il y a du glaçage ou une croûte. Les nœuds stockent chacun des informations sur les caractéristiques de l'apparence de la tarte par rapport au gâteau, et chaque fois qu'une nouvelle image entre en jeu, elle est traitée par chaque nœud pour produire une prédiction finale.

Dans le contexte de l’IA générative, ce principe s’étend au-delà de la simple reconnaissance jusqu’à la création de contenus nouveaux et originaux. Au lieu de simplement identifier des caractéristiques, les modèles génératifs utilisent des réseaux de neurones pour comprendre les modèles et les structures sous-jacents des données sur lesquelles ils sont formés. Ce processus implique des interactions et des ajustements complexes au sein du réseau neuronal, guidés par des algorithmes conçus pour optimiser la créativité et la précision du résultat généré.

Comment sont développés les modèles d’IA générative ?

Le développement de modèles d’IA génératifs implique une série d’étapes complexes et interdépendantes, généralement réalisées par des équipes de chercheurs et d’ingénieurs. Ces modèles, tels que GPT (generative pre-trainer transformer) d'OpenAI et d'autres architectures similaires, sont conçus pour générer un nouveau contenu qui imite la distribution des données sur lesquelles ils ont été formés.

Voici une description étape par étape de ce processus :

1 Collecte de données

Les data scientists et les ingénieurs déterminent d'abord les objectifs et les exigences de leur projet, ce qui les guide dans la collecte d'un ensemble de données large et approprié. Ils utilisent souvent des ensembles de données publics, qui offrent de grandes quantités de textes ou d'images pour répondre à leurs besoins. Par exemple, la formation de ChatGPT (GPT-3.5) impliquait le traitement de 570 Go de données, soit l'équivalent de 300 milliards de mots provenant de sources Internet publiques, y compris la quasi-totalité du contenu de Wikipédia.

2 Sélection du modèle

Choisir la bonne architecture de modèle est une étape critique dans le développement de systèmes d’IA génératifs. La décision est guidée par la nature de la tâche à accomplir, le type de données disponibles, la qualité souhaitée du résultat et les contraintes informatiques. Les architectures spécifiques, notamment les VAE, les GAN et les modèles basés sur des transformateurs et de diffusion, seront abordées plus en détail plus loin dans cet article. À ce stade, il est important de comprendre que les nouveaux modèles partent souvent d’un cadre architectural préexistant. Cette approche s'appuie sur des structures éprouvées comme base, permettant des améliorations et des innovations adaptées aux exigences uniques du projet en cours.

3 Formation du modèle

Le modèle choisi est formé à l'aide de l'ensemble de données collecté dès la première étape. La formation de modèles d'IA génératifs nécessite souvent une grande quantité de puissance de calcul, en utilisant du matériel spécial comme des GPU (unités de traitement graphique) et des TPU (unités de traitement tensoriel). Bien que l'approche de formation varie en fonction de l'architecture du modèle, tous les modèles passent par un processus appelé réglage des hyperparamètres. C'est là que les data scientists ajustent certains paramètres de performances pour obtenir les meilleurs résultats.

4 Évaluation et mise au point

Enfin, les performances du modèle sont évaluées ou testées dans le monde réel. L'évaluation des modèles d'IA générative est différente de l'évaluation des modèles de ML traditionnels, car l'IA générative crée un résultat entièrement nouveau et la qualité de ce résultat a tendance à être subjective. Les mesures diffèrent en fonction de ce que le modèle crée, et les techniques d'évaluation de l'IA générative incluent généralement l'utilisation d'évaluateurs humains et peuvent utiliser la stratégie consistant à faire évaluer les modèles d'IA générative les uns les autres. Les enseignements tirés de l’étape d’évaluation sont généralement réutilisés pour affiner le modèle, voire le recycler. Une fois les performances du modèle validées, il est prêt pour la production.

Types de modèles d'IA génératifs

En nous appuyant sur nos connaissances fondamentales des modèles d'IA génératifs et des réseaux de neurones qui les alimentent, nous sommes maintenant prêts à nous plonger dans des types spécifiques d'architectures de modèles qui ont émergé depuis le début des années 2010. Nous explorerons les forces et les faiblesses uniques de chaque modèle, ainsi que leurs applications pratiques.

Voici un bref aperçu des modèles dont nous discuterons :

  • Les auto-encodeurs variationnels (VAE)sont capables d'apprendre des distributions de données complexes et sont souvent utilisés pour des tâches telles que la génération et l'édition d'images.
  • Les réseaux contradictoires génératifs (GAN)sont connus pour leur capacité à créer des images très réalistes et sont devenus populaires dans diverses applications créatives.
  • Les modèles de diffusionconstituent une classe plus récente de modèles qui génèrent des échantillons de haute qualité grâce à un processus d'ajout puis de suppression progressif du bruit.
  • Les modèles linguistiquesexcellent dans la compréhension et la génération du langage humain, ce qui les rend utiles pour des applications telles que les chatbots et la complétion de texte.
  • Les modèles basés sur des transformateursont été initialement conçus pour les tâches de traitement du langage naturel (NLP), mais ont été adaptés pour être utilisés dans des modèles génératifs en raison de leur puissante capacité à gérer des données séquentielles.

Examinons plus en détail chacune de ces architectures pour comprendre comment elles fonctionnent et où elles peuvent être au mieux appliquées.

Auto-encodeurs variationnels (VAE)

Les auto-encodeurs variationnels ont été inventés par Max Welling et Diederik P. Kingma en 2013. Ils reposent sur le fait qu'un réseau neuronal peut coder les concepts de haut niveau que le modèle apprend au cours de l'étape de formation. Ceci est parfois appelé « compression » ou « projection » des données brutes.

Si un modèle regarde l'image d'un gâteau, par exemple, il peut la transformer en un encodage contenant toutes les caractéristiques de l'image : paillettes, couleur de glaçage, couches spongieuses, etc. Cet encodage ressemble à un ensemble de nombres qui ont du sens pour le modèle mais pas aux humains. Elle peut être décodée par un autre réseau neuronal pour tenter de recréer l’image originale, même si elle comportera quelques lacunes car l’encodage est une compression. Ce type de modèle, dans lequel les pièces d'encodeur et de décodeur fonctionnent ensemble, est appelé auto-encodeur.

Les auto-encodeurs variationnels donnent une tournure à l'idée de l'auto-encodeur pour générer de nouvelles sorties. Lors de la génération de ses encodages, un VAE utilise des probabilités au lieu de nombres discrets. Après tout, la crème fouettée compte-t-elle comme glaçage ? Parfois oui ; parfois non.

Il s’avère que si vous entraînez un réseau neuronal à créer ces codages probabilistes et entraînez un autre réseau neuronal à les décoder, vous pouvez obtenir des résultats assez intéressants. Le décodeur peut échantillonner des points dans « l’espace » de codage variationnel et créer des sorties entièrement nouvelles qui sembleront toujours réalistes car elles ont préservé les relations probabilistes des données d’entraînement.

Avantages et inconvénients

Les auto-encodeurs variationnels utilisent un apprentissage non supervisé, ce qui signifie que le modèle apprend seul à partir de données brutes sans nécessiter que les humains étiquetent différentes caractéristiques ou résultats. De tels modèles réussissent particulièrement à créer un contenu légèrement différent de l’original. En raison de la façon dont ils fonctionnent avec les encodages, ils peuvent également recevoir des instructions spécifiques basées sur les caractéristiques des données d'entraînement : "Montrez-moi un dessert qui représente le juste milieu entre le gâteau et la tarte." Cela dit, les VAE optimisent en fonction des résultats probables, il est donc peu probable qu’ils excellent dans la création de contenu très original ou révolutionnaire.

Une plainte courante concernant les VAE est qu'ils peuvent produire des images bruitées (c'est-à-dire floues) en raison du fait que le codage et le décodage impliquent une compression, ce qui introduit une perte d'informations.

Cas d'utilisation

Les encodeurs automatiques variationnels fonctionnent avec toutes sortes de données, bien qu'ils soient principalement utilisés pour générer des images, du son et du texte. Une application intéressante est la détection des anomalies : dans un ensemble de données, les VAE peuvent trouver les points de données qui s'écartent le plus de la norme, car ces points auront l'erreur de reconstruction la plus élevée, ce qui signifie qu'ils seront les plus éloignés des probabilités codées par le VAE.

Réseaux contradictoires génératifs (GAN)

Les réseaux antagonistes génératifs ont été développés par Ian Goodfellow en 2014. Alors que les réseaux de neurones étaient capables de générer des images auparavant, les résultats avaient tendance à être flous et peu convaincants. La question centrale (et la perspicacité) derrière les GAN est la suivante : que se passe-t-il si vous opposez deux réseaux de neurones ? L’un, appelé générateur, apprend à générer du nouveau contenu, tandis qu’un autre, appelé discriminateur, est formé à faire la différence entre le contenu réel et le faux.

Le générateur crée des images candidates et les montre au discriminateur. Sur la base des commentaires, le générateur met à jour ses prédictions en conséquence, devenant de mieux en mieux capable de « tromper » le discriminateur. Une fois qu'il peut tromper le discriminateur 50 % du temps (aussi bon qu'un tirage au sort entre le vrai et le faux), la boucle d'entraînement au feedback s'arrête. La partie génératrice du GAN est alors prête pour l’évaluation et la production.

Depuis 2014, des centaines de variantes de GAN ont été développées pour différents cas d'utilisation et pour équilibrer les avantages et les inconvénients inhérents aux GAN.

Avantages et inconvénients

Les réseaux antagonistes génératifs, ainsi que les VAE, ont initialement suscité beaucoup de buzz autour du potentiel de l’IA générative. Ils utilisent l’apprentissage non supervisé, de sorte que le modèle s’améliore tout seul sans que les chercheurs aient besoin de lui dire si ses résultats sont bons ou mauvais. Les réseaux adverses génératifs parviennent également à apprendre très rapidement ; Par rapport à d'autres solutions existantes lors de leur lancement initial, elles pouvaient obtenir de bons résultats avec beaucoup moins de données d'entraînement : des centaines d'images contre des milliers.

Cependant, les GAN ont généralement du mal à créer du contenu qui ne ressemble pas à leurs données de formation : ce sont des imitateurs et non des créateurs. Et parfois, ils peuvent « surajuster » leurs données d’entraînement, comme lorsque les GAN ont créé des images de photos de chats contenant des lettres parce qu’on leur a montré beaucoup de mèmes de chats.

Former un GAN est un défi. Deux réseaux doivent être jonglés lors de la formation. Des problèmes peuvent également survenir lorsque le discriminateur est trop bon, ce qui conduit à des cycles de formation sans fin, ou si le discriminateur n'est pas assez bon, ce qui conduit à de mauvais résultats. Ils peuvent également souffrir de ce que l'on appelle l'effondrement des modes, dans lequel ils ne parviennent pas à produire des résultats diversifiés parce que le générateur apprend quelques façons de tromper le discriminateur et se concentre sur ces stratégies à l'exclusion des autres.

Cas d'utilisation

Les réseaux antagonistes génératifs sont principalement utilisés pour générer un contenu très similaire à l’original. Par exemple, ils peuvent produire des visages humains convaincants ou des photos réalistes d’intérieurs ou de paysages à utiliser dans la photographie ou dans les jeux vidéo. Ils peuvent également créer des images qui ont été modifiées d’une manière ou d’une autre, par exemple en passant d’une image en couleur au noir et blanc ou en vieillissant un visage dans une image. Cela dit, tous les GAN ne produisent pas d’images. Par exemple, certains GAN ont été utilisés pour produire une sortie de synthèse vocale.

Modèles de diffusion

Des modèles de diffusion sont également apparus au milieu des années 2010, offrant des avancées qui ont permis d’obtenir de meilleures performances au début des années 2020. Ils alimentent des outils de génération d'images tels que DALL-E, Stable Diffusion et Midjourney.

Les modèles de diffusion fonctionnent en introduisant du bruit gaussien dans une image, en la déformant en une série d'étapes, puis en entraînant un modèle pour inverser ces étapes et transformer l'image « bruyante » en une image claire. (« Bruit gaussien » signifie simplement que le bruit est ajouté de manière aléatoire à l'aide d'une courbe de probabilités en cloche.)

Vous pouvez considérer l’image bruitée comme étant un peu comme l’encodage VAE, et en effet les VAE et les modèles de diffusion sont liés. Les images de données d'entraînement, par exemple d'une tarte au citron vert, aboutiront à des versions bruyantes assez similaires. Mais même la même image bruyante ne sera pas « débruitée » de la même manière à chaque fois, car le modèle fait des suppositions éclairées tout au long du processus.

Vous avez peut-être déjà compris où entre en jeu la partie générative. Si vous donnez au modèle une représentation de l'image dans l'espace bruyant, il sera capable de débruiter l'image et de produire une image entièrement nouvelle et claire. C'est un peu comme la façon dont le décodeur échantillonne l'encodage. Mais il y a une différence importante : il n’y a eu aucune compression en cours de route. Il n’y a donc pas de réelle perte de données et l’image résultante sera de meilleure qualité.

Les outils d'IA générative qui passent d'une invite de texte à une image le font à l'aide d'un modèle distinct qui comprend comment quelque chose comme un « gâteau d'anniversaire sur le thème de la licorne » peut correspondre à différentes caractéristiques de l'image. La version bruitée de ces caractéristiques est ensuite inversée pour révéler une image claire.

Avantages et inconvénients

Les modèles de diffusion ne compressent pas les données d'entraînement, ils parviennent donc à créer des images très réalistes et de haute qualité. Cependant, leur formation nécessite beaucoup plus de ressources et de temps que les autres modèles. Cela dit, la formation elle-même est plus simple car elle ne se heurte pas à l’effondrement du mode GAN et aux autres inconvénients du réseau adverse. Ils ne souffrent pas non plus de la perte de données (et des résultats de moindre qualité qui en résultent) dont disposent les VAE.

Cas d'utilisation

Les modèles de diffusion sont principalement utilisés pour la génération d’images, de sons et de vidéos. Il n’y a aucune raison inhérente pour laquelle ils ne pourraient pas également être utilisés pour générer du texte, mais jusqu’à présent, les modèles basés sur des transformateurs ont été plus efficaces pour le langage naturel.

Modèles de langage

Les modèles de langage font référence à toute technique de ML qui génère un modèle probabiliste de langage naturel. Le type de modèle de langage le plus connu aujourd'hui est le LLM, qui est formé sur d'énormes quantités de données brutes et utilise une architecture basée sur un transformateur pour générer du texte. (Plus d'informations sur les transformateurs dans la section suivante.)

Avant les modèles basés sur des transformateurs, la plupart des modèles de langage de pointe utilisaient des réseaux de neurones récurrents (RNN). Les RNN introduisent de petites boucles dans les interconnexions entre les nœuds de sorte qu'en plus d'apprendre des signaux actuels, comme dans un réseau neuronal à action directe (FNN) traditionnel, les nœuds peuvent également apprendre du passé récent. Ceci est important pour traiter ou générer du langage naturel, comme un flux de texte ou une saisie vocale. Contrairement aux images, le langage est hautement contextuel : la manière dont nous l’interprétons dépend de ce qui l’a précédé.

Avantages et inconvénients

Étant donné que les « modèles linguistiques » font référence à un groupe très large de modèles, il est difficile de généraliser sur leurs avantages et leurs inconvénients. Les défis de la modélisation linguistique incluent le fait que la langue est de très grande dimension : il existe un grand nombre de mots différents dans une langue donnée, et certaines combinaisons peuvent ne jamais apparaître dans les données d'entraînement.

De plus, le langage dépend grandement du contexte de ce qui précède dans la séquence, ce qui oblige le réseau à gérer ou à représenter ce contexte d'une manière ou d'une autre. La capacité à répondre à ce besoin a conduit les RNN dotés de mémoires à long et à court terme, puis de transformateurs, capables de traiter une phrase entière dans son ensemble, à émerger comme l'architecture de pointe pour les modèles de langage.

Cas d'utilisation

Les modèles linguistiques peuvent être utilisés pour la traduction, le résumé, la correction d’erreurs grammaticales, la reconnaissance vocale et bien d’autres tâches. Ils sont utilisés pour générer de nouveaux contenus textuels créatifs avec de nombreuses applications et se révèlent capables de raisonnement avancé, comme l’analyse de données et la résolution d’énigmes logiques. Il est intéressant de noter que des recherches ont montré qu'une capacité émergente des LLM est la conscience spatiale et la capacité de créer des dessins de base, même s'ils sont entièrement formés sur le texte.

Modèles basés sur un transformateur

Les transformateurs, inventés par des chercheurs de Google et de l'Université de Toronto en 2017, ont révolutionné le domaine de l'apprentissage profond. Les LLM comme ChatGPT sont des modèles basés sur des transformateurs, et les résultats de recherche Google sont également alimentés par des transformateurs.

Un modèle basé sur un transformateur utilise ses données d'entraînement pour découvrir les relations entre les différents mots. Par exemple, il pourrait apprendre quele gâteauetla tartesont conceptuellement similaires, alors quele gâteauetla capene sont pas directement liés. Il pourrait également apprendre queslicepeut être lié àcakeetpie, surtout si ces mots apparaissent à proximité.

Lors de l'analyse du texte, le modèle utilise cette compréhension de base pour construire ce qui ressemble à une feuille de calcul massive. Il peut rechercher deux mots quelconques dans le texte et obtenir une réponse sur leur lien probable.

En exploitant ces indices contextuels, un modèle de transformateur interprète habilement le langage et prévoit les continuités potentielles dans une conversation. Par exemple, si quelqu’un mentionne un gâteau dans un segment puis passe à la discussion de son anniversaire dans le segment suivant, le modèle anticipe la mention éventuelle de bougies ou d’une fête, sur la base des liens linguistiques établis.

Avantages et inconvénients

Lorsqu'il s'agit d'analyser et de générer du langage, les transformateurs présentent quelques avantages par rapport aux RNNS, leurs prédécesseurs. Ils peuvent traiter le texte en parallèle sur le réseau plutôt que de traiter chaque mot de manière séquentielle. Cela les rend plus rapides et plus efficaces pour s’entraîner sur de très grands ensembles de données. Ils peuvent également établir des liens entre les mots, quelle que soit leur distance, ce qui leur permet de tirer davantage parti du contexte du texte.

Cependant, les transformateurs ont besoin de beaucoup de données pour fonctionner correctement, et avec des ensembles de données plus petits, les architectures de réseaux neuronaux plus traditionnelles peuvent mieux fonctionner.

Cas d'utilisation

Les transformateurs ont de nombreuses applications d’IA générative. Alors que les modèles basés sur des transformateurs sont généralement utilisés pour générer du texte ou de la parole, les chercheurs étudient leur utilisation pour la génération d'images, car ils nécessitent moins de calculs que les modèles de diffusion.

Le plus connu est que les LLM sont des modèles basés sur des transformateurs. Les modèles de langage utilisent uniquement la partie décodeur de l’architecture. L’invite est introduite dans le modèle sous forme d’encodage – cet ensemble de valeurs numériques, de probabilités et de données d’attention que nous avons mentionnées plus tôt. Le modèle décode l'entrée à l'aide du mécanisme d'auto-attention et en examinant en parallèle tous les mots de l'invite. L'objectif du modèle est de générer une prédiction pour le mot suivant de la phrase.

Les transformateurs ont de nombreuses applications en dehors de la génération de texte dans le traitement du langage naturel. En fait, ils ont été conçus à l’origine pour traduire ou transformer un texte d’une langue à une autre. Grammarly a contribué à la recherche sur l'utilisation de transformateurs pour corriger les erreurs de grammaire.

Travaillez plus intelligemment avec Grammarly
Le partenaire d'écriture IA pour tous ceux qui ont du travail à faire

Conclusion

Les modèles d’IA générative ont parcouru un long chemin au cours de la dernière décennie. Nous espérons que vous comprenez désormais un peu plus l'évolution de ces modèles, leur fonctionnement et la manière dont ils peuvent être appliqués à différents cas d'utilisation. Cependant, cet article n’a fait qu’effleurer la surface et a laissé de côté de nombreux détails importants dans le but de fournir une vue d’ensemble au lecteur moyen. Nous vous encourageons à continuer à vous renseigner sur les mathématiques et les sciences derrière ces modèles en étudiant les documents de recherche sur lesquels ils sont basés et en en apprenant davantage sur leur fonctionnement d'un point de vue probabiliste et statistique.