DALL-E 101 : qu'est-ce que c'est et comment ça marche

Publié: 2024-04-18

DALL-E est l’une des plateformes innovantes d’IA générative qui brouille les frontières entre la créativité générée par l’homme et celle générée par ordinateur. Voici un aperçu de DALL-E, comment l'utiliser et ce que vous devez savoir pour qu'il fonctionne pour vous.

Table des matières

  • Qu’est-ce que DALL-E ?
  • Qui a créé DALL-E ?
  • Évolution du DALL-E
  • Comment fonctionne DALL-E
  • Le DALL-E est-il gratuit ?
  • Comment utiliser DALL-E
  • Cas d'utilisation et applications
  • Avantages du DALL-E
  • Lacunes du DALL-E
  • Conclusion

Qu’est-ce que DALL-E ?

DALL-E est une plateforme d'IA générative qui transforme les invites textuelles en images. DALL-E peut traiter le langage naturel, vous n'avez donc pas besoin de capacités particulières de codage ou d'édition d'images pour l'utiliser. Vous pouvez saisir des invites qui décrivent le sujet, le style, le cadrage et d'autres caractéristiques de l'image souhaitée, et DALL-E produira une représentation visuelle qui correspond à votre description. Il peut également éditer des images existantes.

Le nom DALL-E a été inspiré par une combinaison des noms de deux personnages bien connus : l'artiste surréaliste espagnol Salvador Dali et WALL-E, le robot du film Pixar du même nom de 2008.

Travaillez plus intelligemment avec Grammarly
Le partenaire d'écriture IA pour tous ceux qui ont du travail à faire

Qui a créé DALL-E ?

OpenAI, la même société derrière ChatGPT, a créé DALL-E. OpenAI est une société de recherche en IA fondée en 2015.

Open AI a publié DALL-E en janvier 2021. Il a publié DALL-E 2 en septembre 2022 et DALL-E 3 en octobre 2023.

Comment DALL-E a-t-il évolué ?

OpenAI a annoncé son premier outil de génération d'images en 2020, et DALL-E a évolué à partir de là. La première incursion d'OpenAI dans la génération d'images s'appelait Image GPT. Image GPT a fourni la première preuve que le modèle GPT pouvait créer des images.

Puis vint DALL-E. La première itération de DALL-E était basée sur une version de GPT-3, le grand modèle de langage (LLM) publié par OpenAI en 2020, adaptée pour la génération d'images.

DALL-E crée des images crédibles et accomplit plusieurs tâches, dont certaines :

  • Modifier plusieurs caractéristiques d'un objet, comme la couleur et la texture d'une sphère
  • Comprendre le cadrage, comme les gros plans et les grands angles
  • Créer des images du même objet sous plusieurs angles
  • Comprendre les informations géographiques et les périodes de l'histoire

Qu’est-ce que DALL-E 2 ?

La version suivante, DALL-E 2, génère des images avec une résolution quatre fois supérieure à celle des images générées par DALL-E. Il gère plus efficacement la composition et le placement des objets, rendant les éléments tels que les ombres et l’éclairage plus réalistes. DALL-E 2 a également introduit deux nouvelles fonctionnalités permettant de modifier des images existantes : l'inpainting et l'outpainting.

  • L'inpainting consiste à effacer une partie d'une image et à utiliser l'IA pour remplir l'espace vide avec autre chose. Par exemple, vous pouvez supprimer un bâtiment de l’arrière-plan d’une photo et le remplacer par un arbre.
  • L'outpainting consiste à élargir les bordures d'une image avec l'IA. Par exemple, si vous avez une image en gros plan de votre chien dans un parc et que vous souhaitez l'agrandir pour montrer l'horizon de la ville au loin, DALL-E 2 le fait avec des peintures.

Qu’est-ce que DALL-E 3 ?

DALL-E 3 constitue une amélioration significative par rapport à son prédécesseur à plusieurs égards. Pour commencer, il est préférable d'interpréter les invites. Les versions précédentes ignoraient les mots et les descriptions. Vous deviez devenir bon en ingénierie rapide pour obtenir l’image souhaitée. DALL-E 3 comprend mieux les nuances et le contexte et peut suivre des invites plus complexes. Ses réponses sont plus précises et ses images plus cohérentes. En fin de compte, sa production correspond mieux à ce que veulent les gens.

DALL-E 3 comprend également des mesures de sécurité plus sophistiquées. Par exemple, cela empêche les images explicites, agressives ou discriminatoires. Pour empêcher les gens de créer des images qui portent atteinte aux droits d'auteur et à la propriété intellectuelle, DALL-E 3 ne génère pas d'images qui ressemblent à des personnalités publiques vivantes ou qui imitent le style d'artistes et de marques populaires. DALL-E 3 permet également aux créateurs de refuser que leurs images soient utilisées pour la formation des futurs modèles.

Inclusion avec les outils d'IA existants

DALL-E 3 est inclus nativement avec ChatGPT et Microsoft Image Creator de Designer (anciennement Bing Image Generator).

Cela signifie que si vous disposez d'un abonnement ChatGPT premium, vous pouvez générer des images dans le cadre de votre conversation avec le chatbot. Avec cette fonctionnalité, vous n’avez pas seulement besoin d’écrire des invites simples. Vous pouvez poser des questions ou donner des instructions, et ChatGPT peut les transmettre à DALL-E pour générer une image.

Par exemple, vous pourriez dire : « Je viens d'emménager en Arizona et tout le monde n'arrête pas de parler de quelque chose qu'on appelle un haboob. A quoi cela ressemble-t-il?" ChatGPT peut traiter votre question et générer une invite pour DALL-E. DALL-E créera ensuite des images d'un haboob, une tempête de poussière qui se produit dans des zones sèches comme l'Arizona.

ChatGPT développera également vos invites pour fournir plus de détails à DALL-E. Si vous écrivez une invite indiquant « Créez une image de deux chats assis sur une chaise, dans un style photographique vintage », ChatGPT peut affiner votre invite comme suit : « Créez une photographie vintage en noir et blanc de deux chats assis sur une chaise. fauteuil vert. Un chat est tigré et l’autre est entièrement gris. Les deux chats sont assis côte à côte.

Comment fonctionne DALL-E

À un niveau basique, DALL-E utilise l'apprentissage en profondeur pour comprendre les relations entre les images et le texte, permettant au modèle de générer de nouvelles images pour une invite de texte. Les modèles d’IA générative spécifiques derrière DALL-E évoluent constamment.

DALL-E1

DALL-E 1 (également appelé DALL-E) utilise une version de GPT-3, le LLM d'OpenAI, qui a été entraînée pour générer des images à partir de descriptions textuelles. Ce modèle est basé sur une architecture de transformateur. Tout comme ChatGPT génère du texte en prédisant chaque mot un par un, la version originale de DALL-E génère des images en prédisant chaque pixel.

DALL-E 1 génère de nombreuses sorties candidates pour une seule invite. Un deuxième système d’IA, appelé CLIP (Contrastive Language-Image Pretraining), est utilisé pour sélectionner le meilleur. CLIP, tout comme DALL-E 1, est formé sur un grand ensemble de données d'images et de légendes. Cependant, l’objectif de CLIP est de comprendre à quel point une image donnée et une légende de texte sont liées.

DALL-E2

DALL-E 2 génère des images à l'aide d'un modèle de diffusion plutôt que d'un LLM pour améliorer la qualité et la précision de l'image.

Cette approche entraîne un modèle à prendre des images bruitées, où les pixels ont été déformés de manière aléatoire, et à supprimer progressivement le bruit pour révéler une image claire. Ensuite, vous pouvez attribuer à un modèle un ensemble de pixels plus du bruit (qui représente certaines caractéristiques sous-jacentes de l'image, telles que « un chat avec un haut-de-forme ») et le modèle construira une nouvelle image à partir de zéro.

DALL-E 2 utilise CLIP pour comprendre le texte de l'invite d'un utilisateur et le mapper aux caractéristiques de l'image. Ces informations sont transmises au modèle de diffusion, lui permettant de générer une sortie qui correspond à l'invite de l'utilisateur.

DALL-E 3

On sait peu de choses sur les différences architecturales entre DALL-E 2 et DALL-E 3. En effet, OpenAI n'a pas partagé publiquement ces informations. Cependant, DALL-E 3 utilise presque certainement un modèle de diffusion, car celui-ci est largement reconnu comme la technique de pointe en matière de génération d'images.

Il y a des spéculations selon lesquelles DALL-E 3 utilise des techniques de diffusion plus avancées et pourrait utiliser un LLM (plutôt qu'un modèle plus petit comme CLIP) pour comprendre les relations entre les images et le texte.

L'utilisation de DALL-E est-elle gratuite ?

DALL-E est disponible avec un abonnement ChatGPT payant, proposé en plusieurs niveaux pour les particuliers et les entreprises.

Vous pouvez accéder gratuitement à DALL-E avec Microsoft Image Creator de Designer (anciennement Bing Image Generator). Image Creator est également disponible via Copilot, qui est le chatbot de Microsoft.

Conseils d'utilisation de DALL-E

Voici quelques conseils pour obtenir les meilleurs résultats avec DALL-E :

Soyez descriptif

Plus votre invite est précise, meilleur sera le résultat de DALL-E.

  • Fournir une description claire du sujet principal ; par exemple, « un canapé bleu en microfibre » au lieu de simplement « un canapé ».
  • Expliquez le cadre, par exemple « sur une plage tropicale », « dans une maison des années 1970 » ou « à l'intérieur du gymnase d'une école primaire ».
  • Détaillez toute action, comme « le soleil se couche », « un chien fait la sieste » ou « un cerf-volant vole ».
  • Décrivez le format de l'image, tel que « photoréaliste », « peinture » ou « croquis au crayon ».
  • Dites à DALL-E quel style vous souhaitez ; par exemple, « noir et blanc », « abstrait » ou « art déco ».
  • Incluez l'angle de la caméra et la distance focale, comme « vue aérienne », « gros plan » ou « grand angle ».
  • Fournissez des détails d'éclairage, tels que des « ombres profondes », un « flash » ou un « rétroéclairage ».
  • Décrivez l'ambiance ; par exemple, « romantique », « graveleux » ou « rêveur ».

Soyez expérimental

Il n'existe pas de manuel ni de moyen idéal d'utiliser DALL-E. La meilleure façon d’obtenir les résultats souhaités est d’adopter une approche expérimentale de son utilisation.

  • Apportez des modifications mineures à vos invites pour voir si vous obtenez de meilleurs résultats. Essayez d'utiliser des variantes des mêmes mots pour voir si cela modifie vos résultats.
  • Trouvez le bon équilibre de détails. Si vos invites sont trop détaillées, DALL-E risque de ne pas savoir lesquelles sont les plus importantes. Jouez avec la complexité de vos invites pour trouver votre point idéal.
  • Préparez-vous aux erreurs et aux échecs. DALL-E peut dérailler. Considérez chaque réponse échouée comme une opportunité d’apprentissage. Découvrir ce qui ne fonctionne pas est tout aussi important que découvrir ce qui fonctionne.

Cas d'utilisation et applications DALL-E

Les gens utilisent DALL-E pour de nombreuses applications dans des environnements professionnels et personnels.

Marketing et communication d'entreprise

  • Création d'images pour les blogs, les publications sur les réseaux sociaux et les sites Web
  • Concevoir des publicités, telles que des dépliants et des affiches
  • Conception de logos et d'éléments de marque
  • Créer des photos d'archives uniques en leur genre
  • Concevoir des emballages de produits

Conceptualisation

  • Concevoir des produits physiques
  • Rendu de modèles architecturaux
  • Idée d'autres projets créatifs, tels que l'animation, les storyboards et le design d'intérieur
  • Tester des idées créatives dans différents styles

Contenu éducatif

  • Créer des aides visuelles comme des infographies et des diagrammes
  • Représenter des événements historiques
  • Visualiser des processus scientifiques que vous ne pouvez pas voir à l'œil nu, comme les réactions chimiques
  • Créer des images adaptées aux besoins, aux intérêts ou au style d'apprentissage spécifiques d'un élève

Art et désign

  • Création d'œuvres d'art personnalisées pour votre décoration de maison ou de fête
  • Concevoir des pochettes de livres, d'albums ou de films
  • Créer des œuvres d'art à vendre sur des produits tels que des T-shirts, des marque-pages et des imprimés
  • Créer des images de référence à utiliser comme source d'inspiration pour d'autres médiums artistiques, comme le design de mode
  • Concevoir des éléments, tels que des textures d'arrière-plan, à intégrer dans d'autres formes d'œuvres d'art

Modification d'images existantes

  • Ajouter plus de sujets à une image
  • Ajuster l'arrière-plan
  • Changer le rapport hauteur/largeur
  • Mettre en valeur certains objets
  • Supprimer un objet et le remplacer par autre chose

Avantages de l'utilisation de DALL-E

DALL-E offre de nombreux avantages, notamment la possibilité de choisir parmi plusieurs réponses, d'utiliser la plateforme avec d'autres outils d'IA et de supprimer les obstacles à l'art et au design.

Génère plusieurs images par invite

DALL-E génère quatre images par invite, vous pouvez donc choisir celle qui correspond le mieux à vos préférences. Il modifie légèrement l'invite pour chaque image et la développe pour ajouter plus de détails.

Par exemple, si vous saisissez une invite générique telle que « Une image de style bande dessinée d'une ruelle sombre », DALL-E reformulera votre invite et ajoutera des détails tels que le style des bâtiments de la scène, le cadrage de l'image ou les couleurs prédominantes. Vous pouvez voir les variations d'invite de DALL-E en cliquant sur chaque image.

S'intègre à ChatGPT et Microsoft Copilot

Vous pouvez accéder à DALL-E via des chatbots que vous utilisez peut-être déjà. Il est pratique de générer du texte et des images dans un seul outil. De plus, comme il s’agit de chatbots, les images que vous générez peuvent faire partie d’une conversation plus longue.

Par exemple, supposons que vous utilisiez ChatGPT pour créer un agenda pour une baby shower. Dans ce cas, vous pouvez également utiliser DALL-E pour réaliser les images des invitations. Comme tout cela fait partie d’une seule conversation, ChatGPT peut intégrer certains détails de votre agenda dans l’invitation.

Rend le design plus accessible

Les logiciels de conception et le matériel photographique peuvent être coûteux et difficiles à apprendre. DALL-E rend la génération d'images plus accessible à la personne moyenne.

  • Un propriétaire de petite entreprise peut créer des éléments de marque personnalisés, tels que des photos et des images de produits, qui auraient été auparavant hors de portée.
  • Les amateurs dans des domaines tels que le travail du bois et la sculpture peuvent rédiger des visualisations de leurs concepts sans investir dans des logiciels coûteux.
  • Les personnes et les organisations issues de groupes sous-représentés ou ayant des passe-temps spécialisés peuvent créer des images qui correspondent à leurs intérêts.

Lacunes du DALL-E

Malgré ses capacités, DALL-E présente certaines limites.

Imprévisibilité

Puisque DALL-E génère chaque image à partir de zéro, cela peut être imprévisible. Supposons que vous ayez des exigences spécifiques en matière de placement d'objets ou de normes de marque. Dans ce cas, DALL-E peut ne pas toujours intégrer ces normes dans ses résultats.

De plus, un léger ajustement de votre invite peut entraîner un résultat sensiblement différent. Cela est particulièrement difficile lorsqu'il s'agit de modifier une image que DALL-E a déjà créée.

Les préjugés

Toute IA générative traite des préjugés, et DALL-E n’est pas différent. DALL-E est susceptible de générer des réponses qui reflètent des préjugés concernant la race, le sexe, la classe sociale et même certaines langues ou certains pays. DALL-E a été formé principalement sur des données provenant des États-Unis, il reflète donc souvent la culture, les valeurs et les préjugés américains.

L’utilisation de certains adjectifs peut conduire à des résultats stéréotypés. Par exemple, si l'invite contient des mots commeémotionnelousensible, le résultat peut être associé à une femme. Dans le même temps, des mots commedurouintellectuelpeuvent conduire à des résultats mettant en avant les hommes.

Coût

DALL-E a un coût, sauf si vous utilisez Microsoft Image Creator, ce qui peut être gênant selon vos préférences.

Si vous préférez utiliser ChatGPT plutôt que les plateformes d'IA de Microsoft, vous devrez payer pour accéder à DALL-E.

Quelle est la prochaine étape pour la génération d’images DALL-E et AI ?

Vous pouvez utiliser DALL-E pour alimenter un brainstorming créatif, rationaliser les processus de conception ou simplement vous amuser. C'est l'une des nombreuses plates-formes d'IA générative qui vous permet de créer de nouvelles façons. Parce qu'il est intégré aux plates-formes d'IA existantes telles que ChatGPT et Microsoft Image Creator, vous pouvez créer des images et générer du texte dans un seul outil.

Lorsque vous utilisez DALL-E, il est important de garder à l’esprit que toute IA générative a tendance à produire des réponses biaisées. Connaître les limites de DALL-E vous permet de trouver les meilleures façons de l'utiliser et d'obtenir les images souhaitées.

De nouvelles capacités, fonctionnalités et concurrents émergent constamment. Quiconque souhaite utiliser l’IA générative, que ce soit à des fins professionnelles, personnelles ou éducatives, doit garder un œil sur les derniers développements. Nous continuerons à couvrir les changements importants dans l'IA générative, alors suivez le blog Grammarly pour rester au courant.