DALL-E 101: O que é e como funciona

Publicados: 2024-04-18

DALL-E é uma das plataformas inovadoras de IA generativa que confunde os limites entre a criatividade gerada por humanos e a gerada por computador. Aqui está uma visão geral do DALL-E, como usá-lo e o que você deve saber para que funcione para você.

Índice

O que é DALL-E?
Quem criou o DALL-E?
Evolução do DALL-E
Como funciona o DALL-E
O DALL-E é gratuito?
Como usar o DALL-E
Casos de uso e aplicativos
Benefícios do DALL-E
Deficiências do DALL-E
Conclusão

O que é DALL-E?

DALL-E é uma plataforma generativa de IA que transforma prompts de texto em imagens. O DALL-E pode processar linguagem natural, portanto você não precisa de nenhuma codificação especial ou habilidade de edição de imagem para usá-lo. Você pode inserir prompts que descrevem o assunto, estilo, enquadramento e outras características da imagem desejada, e o DALL-E produzirá uma representação visual que corresponda à sua descrição. Também pode editar imagens existentes.

O nome DALL-E foi inspirado na combinação dos nomes de duas figuras conhecidas: o artista surrealista espanhol Salvador Dali e WALL-E, o robô do filme de mesmo nome da Pixar de 2008.

Trabalhe de maneira mais inteligente com Grammarly

O parceiro de redação de IA para qualquer pessoa com trabalho a fazer

Quem criou o DALL-E?

OpenAI, a mesma empresa por trás do ChatGPT, criou o DALL-E. OpenAI é uma empresa de pesquisa de IA fundada em 2015.

A Open AI lançou o DALL-E em janeiro de 2021. Lançou o DALL-E 2 em setembro de 2022 e o DALL-E 3 em outubro de 2023.

Como o DALL-E evoluiu?

OpenAI anunciou sua primeira ferramenta de geração de imagens em 2020, e o DALL-E evoluiu a partir daí. A primeira incursão da OpenAI na geração de imagens foi chamada de Image GPT. Image GPT forneceu a primeira prova de que o modelo GPT poderia criar imagens.

Então veio DALL-E. A primeira iteração do DALL-E foi baseada em uma versão do GPT-3 – o modelo de linguagem grande (LLM) que a OpenAI lançou em 2020 – adaptada para geração de imagens.

DALL-E cria imagens verossímeis e realiza diversas tarefas, algumas das quais incluem:

Modificar diversas características de um objeto, como a cor e a textura de uma esfera
Compreender o enquadramento, como close-ups e ângulos amplos
Criação de imagens do mesmo objeto de vários ângulos
Compreender informações geográficas e períodos da história

O que é DALL-E 2?

A próxima versão, DALL-E 2, gera imagens com resolução quatro vezes maior que as imagens geradas pelo DALL-E. Ele lida com a composição e o posicionamento de objetos de maneira mais eficaz, fazendo com que elementos como sombras e iluminação pareçam mais realistas. O DALL-E 2 também introduziu dois novos recursos para modificar imagens existentes: pintura interna e pintura externa.

Inpainting é quando você apaga uma parte de uma imagem e usa IA para preencher o espaço vazio com outra coisa. Por exemplo, você pode remover um edifício do fundo de uma foto e substituí-lo por uma árvore.
Outpainting é quando você expande as bordas de uma imagem com IA. Por exemplo, se você tiver uma imagem em close do seu cachorro em um parque e quiser expandi-la para mostrar o horizonte da cidade à distância, o DALL-E 2 faz isso com outpainting.

O que é DALL-E 3?

O DALL-E 3 é uma melhoria significativa em relação ao seu antecessor em vários aspectos. Para começar, é melhor interpretar instruções. As versões anteriores pulariam palavras e descrições. Você tinha que se tornar bom em engenharia imediata para obter a imagem desejada. O DALL-E 3 entende melhor as nuances e o contexto e pode seguir instruções mais complexas. Suas respostas são mais precisas e suas imagens são mais coerentes. Em última análise, seu resultado se alinha melhor com o que as pessoas desejam.

O DALL-E 3 também inclui medidas de segurança mais sofisticadas. Por exemplo, evita imagens explícitas, agressivas ou discriminatórias. Para evitar que as pessoas criem imagens que violem direitos autorais e propriedade intelectual, o DALL-E 3 não gera imagens que se assemelhem a figuras públicas vivas ou que imitem o estilo de artistas e marcas populares. O DALL-E 3 também permite que os criadores optem por não ter suas imagens usadas para treinar modelos futuros.

Inclusão com ferramentas de IA existentes

O DALL-E 3 está incluído nativamente no ChatGPT e no Microsoft Image Creator do Designer (anteriormente Bing Image Generator).

Isso significa que se você tiver uma assinatura premium do ChatGPT, poderá gerar imagens como parte de sua conversa com o chatbot. Com esse recurso, você não precisa apenas escrever prompts simples. Você pode fazer perguntas ou dar orientações, e o ChatGPT pode entregá-las ao DALL-E para gerar uma imagem.

Por exemplo, você pode dizer: “Acabei de me mudar para o Arizona e todo mundo fica falando sobre algo chamado haboob. Como é isso? ChatGPT pode processar sua pergunta e gerar um prompt para DALL-E. O DALL-E criará então imagens de um haboob, que é uma tempestade de areia que ocorre em áreas secas como o Arizona.

ChatGPT também irá elaborar suas solicitações para fornecer mais detalhes ao DALL-E. Se você escrever um prompt que diz “Crie uma imagem de dois gatos sentados em uma cadeira, em um estilo fotográfico vintage”, o ChatGPT pode refinar seu prompt para isto: “Crie uma fotografia vintage em preto e branco de dois gatos sentados em um poltrona verde. Um gato é malhado e o outro é totalmente cinza. Os dois gatos estão sentados lado a lado.”

Como funciona o DALL-E

Em um nível básico, o DALL-E usa aprendizado profundo para compreender as relações entre imagens e texto, permitindo que o modelo produza novas imagens para um prompt de texto. Os modelos específicos de IA generativa por trás do DALL-E estão em constante evolução.

DALL-E 1

DALL-E 1 (também chamado de DALL-E) usa uma versão do GPT-3, LLM da OpenAI, que foi treinada para gerar imagens a partir de descrições de texto. Este modelo é baseado em uma arquitetura de transformador. Assim como o ChatGPT gera texto prevendo cada palavra uma por uma, a versão original do DALL-E gera imagens prevendo cada pixel.

DALL-E 1 gera muitas saídas candidatas para um único prompt. Um segundo sistema de IA, denominado CLIP (Contrastive Language-Image Pretraining), é usado para selecionar o melhor. O CLIP, assim como o DALL-E 1, é treinado em um grande conjunto de dados de imagens e legendas. No entanto, o objetivo do CLIP é entender o quão próximas uma determinada imagem e legenda de texto estão relacionadas.

DALL-E 2

O DALL-E 2 gera imagens usando um modelo de difusão em vez de um LLM para melhorar a qualidade e precisão da imagem.

Essa abordagem treina um modelo para capturar imagens com ruído, onde os pixels foram distorcidos de forma aleatória, e remover gradativamente o ruído para revelar uma imagem nítida. Em seguida, você pode fornecer ao modelo um conjunto de pixels mais ruído – que representa alguns recursos subjacentes da imagem, como “um gato de cartola” – e o modelo construirá uma nova imagem do zero.

DALL-E 2 usa CLIP para entender o texto no prompt do usuário e mapeá-lo para recursos de imagem. Essas informações são passadas para o modelo de difusão, permitindo gerar uma saída que atenda ao prompt do usuário.

DALL-E 3

Pouco se sabe sobre as diferenças arquitetônicas entre DALL-E 2 e DALL-E 3. Isso ocorre porque a OpenAI não compartilhou essas informações publicamente. No entanto, o DALL-E 3 quase certamente utiliza um modelo de difusão, visto que este é amplamente aceito como a técnica de última geração para geração de imagens.

Especula-se que o DALL-E 3 use técnicas de difusão mais avançadas e possa estar usando um LLM (em vez de um modelo menor como o CLIP) para entender as relações entre imagens e texto.

O uso do DALL-E é gratuito?

DALL-E está disponível com uma assinatura paga do ChatGPT, que é oferecida em vários níveis para indivíduos e empresas.

Você pode acessar o DALL-E gratuitamente com o Microsoft Image Creator do Designer (anteriormente Bing Image Generator). O Image Creator também está disponível através do Copilot, que é o chatbot da Microsoft.

Dicas para usar DALL-E

Aqui estão algumas dicas para obter os melhores resultados com DALL-E:

Seja descritivo

Quanto mais preciso for o seu prompt, melhor será o resultado do DALL-E.

Forneça uma descrição clara do assunto principal; por exemplo, “um sofá de microfibra azul” em vez de apenas “um sofá”.
Explique o cenário, como “numa praia tropical”, “numa casa dos anos 1970” ou “dentro do ginásio de uma escola primária”.
Detalhe qualquer ação, como “o sol está se pondo”, “um cachorro está cochilando” ou “uma pipa está voando”.
Descreva o formato da imagem, como “fotorrealista”, “pintura” ou “esboço a lápis”.
Diga ao DALL-E qual estilo você deseja; por exemplo, “preto e branco”, “abstrato” ou “art déco”.
Inclua o ângulo da câmera e a distância focal, como “vista aérea”, “close-up” ou “grande angular”.
Forneça detalhes de iluminação, como “sombras profundas”, “flash” ou “retroiluminação”.
Descreva o clima; por exemplo, “romântico”, “corajoso” ou “sonhador”.

Seja experimental

Não existe um livro didático ou uma maneira perfeita de usar o DALL-E. A melhor maneira de obter os resultados desejados é adotar uma abordagem experimental para usá-lo.

Faça pequenos ajustes em seus prompts para ver se obtém melhores resultados. Tente usar variações das mesmas palavras para ver se isso altera seus resultados.
Encontre o equilíbrio certo de detalhes. Se suas instruções forem muito detalhadas, o DALL-E pode não saber quais são as mais importantes. Brinque com a complexidade de seus prompts para encontrar o ponto ideal.
Prepare-se para erros e falhas. DALL-E pode sair do caminho. Considere cada resposta falhada como uma oportunidade de aprendizado. Descobrir o que não funciona é tão importante quanto descobrir o que funciona.

Casos de uso e aplicações DALL-E

As pessoas usam o DALL-E para muitas aplicações em ambientes comerciais e pessoais.

Marketing e comunicação empresarial

Criação de imagens para blogs, postagens em mídias sociais e sites
Criação de anúncios, como folhetos e pôsteres
Criação de logotipos e elementos de marca
Criando fotos de banco de imagens únicas
Projetando embalagens de produtos

Conceitualização

Projetando produtos físicos
Renderizando modelos arquitetônicos
Idealização de outros projetos criativos, como animação, storyboards e design de interiores
Testando ideias criativas em diferentes estilos

Conteúdo educacional

Criação de recursos visuais como infográficos e diagramas
Retratando eventos históricos
Visualização de processos científicos que você não pode ver a olho nu, como reações químicas
Criação de imagens adaptadas às necessidades, interesses ou estilo de aprendizagem específicos de cada aluno

Arte e Design

Criação de arte personalizada para decoração de sua casa ou festa
Criação de capas de livros, álbuns ou filmes
Criação de arte para vender produtos como camisetas, marcadores e estampas
Criação de imagens de referência para usar como inspiração em outras mídias artísticas, como design de moda
Projetar elementos, como texturas de fundo, para incorporar em outras formas de arte

Modificando imagens existentes

Adicionando mais assuntos a uma imagem
Ajustando o fundo
Alterando a proporção
Enfatizando certos objetos
Remover um objeto e substituí-lo por outro

Benefícios de usar DALL-E

O DALL-E oferece inúmeras vantagens, incluindo a capacidade de escolher entre múltiplas respostas, usar a plataforma junto com outras ferramentas de IA e remover barreiras à arte e ao design.

Gera múltiplas imagens por prompt

O DALL-E gera quatro imagens por prompt, para que você escolha a que melhor se adapta às suas preferências. Ele modifica ligeiramente o prompt para cada imagem e o expande para adicionar mais detalhes.

Por exemplo, se você inserir uma solicitação genérica como “Uma imagem de um beco escuro no estilo de história em quadrinhos”, o DALL-E reformulará sua solicitação e adicionará detalhes como o estilo dos edifícios na cena, o enquadramento da imagem ou as cores predominantes. Você pode ver as variações imediatas do DALL-E clicando em cada imagem.

Integra-se com ChatGPT e Microsoft Copilot

Você pode acessar o DALL-E através de chatbots que você já usa. É conveniente gerar texto e imagens dentro de uma única ferramenta. Além disso, como se trata de chatbots, as imagens que você gera podem fazer parte de uma conversa mais longa.

Por exemplo, suponha que você esteja usando o ChatGPT para criar uma agenda para um chá de bebê. Nesse caso, você também pode usar o DALL-E para fazer as imagens dos convites. Como tudo faz parte de uma conversa, o ChatGPT pode incorporar alguns detalhes da sua agenda ao convite.

Torna o design mais acessível

Software de design e equipamentos fotográficos podem ser caros e difíceis de aprender. DALL-E torna a geração de imagens mais acessível para o cidadão comum.

O proprietário de uma pequena empresa pode criar ativos de marca personalizados, como fotos e imagens de produtos que antes estariam fora de alcance.
Hobbyists em áreas como marcenaria e escultura podem elaborar visualizações de seus conceitos sem investir em software caro.
Pessoas e organizações de grupos sub-representados ou com hobbies de nicho podem criar imagens que atendam aos seus interesses.

Deficiências do DALL-E

Apesar de suas capacidades, o DALL-E possui algumas limitações.

Imprevisibilidade

Como o DALL-E gera todas as imagens do zero, isso pode ser imprevisível. Suponha que você tenha requisitos específicos para posicionamento de objetos ou padrões de marca. Nesse caso, o DALL-E nem sempre poderá incorporar esses padrões nos seus resultados.

Além disso, ajustar ligeiramente o seu prompt pode resultar em uma saída significativamente diferente. Isto é especialmente desafiador ao alterar uma imagem que o DALL-E já criou.

Vieses

Toda IA generativa lida com preconceitos, e o DALL-E não é diferente. O DALL-E está sujeito a gerar respostas que refletem preconceitos sobre raça, gênero, classe e até mesmo determinados idiomas ou países. O DALL-E foi treinado principalmente com dados dos EUA, por isso muitas vezes reflete a cultura, os valores e os preconceitos americanos.

O uso de certos adjetivos pode levar a resultados estereotipados. Por exemplo, se o prompt contiver palavras comoemocionalousensível, a saída pode estar associada a uma mulher. Ao mesmo tempo, palavras comoduroouintelectualpodem levar a resultados que caracterizam os homens.

Custo

O DALL-E tem um custo, a menos que você use o Microsoft Image Creator, o que pode ser inconveniente, dependendo de suas preferências.

Se preferir usar o ChatGPT em vez das plataformas de IA da Microsoft, você terá que pagar para acessar o DALL-E.

O que vem por aí para geração de imagens DALL-E e IA?

Você pode usar o DALL-E para estimular o brainstorming criativo, agilizar processos de design ou simplesmente se divertir. É uma das muitas plataformas generativas de IA que permite criar de novas maneiras. Por estar integrado com plataformas de IA existentes, como ChatGPT e Microsoft Image Creator, você pode criar imagens e gerar texto em uma única ferramenta.

Ao usar o DALL-E, é importante estar ciente de que toda IA generativa é propensa a produzir respostas tendenciosas. Conhecer as limitações do DALL-E permite encontrar as melhores formas de utilizá-lo e obter as imagens desejadas.

Novas capacidades, recursos e concorrentes estão surgindo constantemente. Qualquer pessoa que queira usar IA generativa – seja para fins comerciais, pessoais ou educacionais – deve ficar de olho nos desenvolvimentos mais recentes. Continuaremos cobrindo as mudanças significativas na IA generativa, então acompanhe o blog do Grammarly para ficar por dentro.