DALL-E 101: co to jest i jak działa

Opublikowany: 2024-04-18

DALL-E to jedna z innowacyjnych platform generatywnej sztucznej inteligencji, zacierająca granice między kreatywnością generowaną przez ludzi i komputer. Oto przegląd DALL-E, jak go używać i co powinieneś wiedzieć, aby działał dla Ciebie.

Spis treści

Co to jest DALL-E?
Kto stworzył DALL-E?
Ewolucja DALL-E
Jak działa DALL-E
Czy DALL-E jest bezpłatny?
Jak korzystać z DALL-E
Przypadki użycia i zastosowania
Zalety DALL-E
Wady DALL-E
Wniosek

Co to jest DALL-E?

DALL-E to generatywna platforma AI, która zamienia podpowiedzi tekstowe na obrazy. DALL-E może przetwarzać język naturalny, więc nie potrzebujesz żadnych specjalnych umiejętności kodowania ani edycji obrazu, aby z niego korzystać. Możesz wprowadzić podpowiedzi opisujące temat, styl, kadrowanie i inne cechy pożądanego obrazu, a DALL-E utworzy wizualną reprezentację pasującą do Twojego opisu. Może także edytować istniejące obrazy.

Nazwa DALL-E została zainspirowana połączeniem imion dwóch znanych postaci: hiszpańskiego artysty surrealisty Salvadora Dali i WALL-E, robota z filmu Pixar z 2008 roku o tym samym tytule.

Pracuj mądrzej dzięki Grammarly

Partner w pisaniu AI dla każdego, kto ma pracę do wykonania

Kto stworzył DALL-E?

OpenAI, ta sama firma, która stoi za ChatGPT, stworzyła DALL-E. OpenAI to firma badawcza AI założona w 2015 roku.

Open AI wypuściło DALL-E w styczniu 2021 r. Wydało DALL-E 2 we wrześniu 2022 r. i DALL-E 3 w październiku 2023 r.

Jak ewoluował DALL-E?

OpenAI ogłosiło swoje pierwsze narzędzie do generowania obrazów w 2020 r., a DALL-E ewoluowało od tego. Pierwsze podejście OpenAI do generowania obrazów nosiło nazwę Image GPT. Obraz GPT dostarczył pierwszego dowodu na to, że model GPT może tworzyć obrazy.

Potem przyszedł DALL-E. Pierwsza iteracja DALL-E została oparta na wersji GPT-3 — modelu dużego języka (LLM), wydanego przez OpenAI w 2020 r. — przystosowanej do generowania obrazów.

DALL-E tworzy wiarygodne obrazy i realizuje kilka zadań, z których niektóre obejmują:

Modyfikowanie kilku cech obiektu, takich jak kolor i tekstura kuli
Zrozumienie kadrowania, np. zbliżeń i szerokich kątów
Tworzenie obrazów tego samego obiektu z różnych perspektyw
Zrozumienie informacji geograficznych i okresów w historii

Co to jest DALL-E 2?

Kolejna wersja, DALL-E 2, generuje obrazy z czterokrotnie wyższą rozdzielczością niż obrazy generowane przez DALL-E. Bardziej efektywnie radzi sobie z kompozycją i rozmieszczeniem obiektów, dzięki czemu elementy takie jak cienie i oświetlenie wydają się bardziej realistyczne. DALL-E 2 wprowadził także dwie nowe funkcje modyfikacji istniejących obrazów: inpainting i outpainting.

Inpainting polega na wymazaniu części obrazu i użyciu sztucznej inteligencji do wypełnienia pustej przestrzeni czymś innym. Możesz na przykład usunąć budynek z tła zdjęcia i zastąpić go drzewem.
Outpainting polega na poszerzaniu granic obrazu za pomocą sztucznej inteligencji. Na przykład, jeśli masz zbliżenie swojego psa w parku i chcesz je powiększyć, aby pokazać panoramę miasta w oddali, DALL-E 2 zrobi to za pomocą malowania zewnętrznego.

Co to jest DALL-E 3?

DALL-E 3 stanowi znaczną poprawę w stosunku do swojego poprzednika pod kilkoma względami. Na początek lepiej jest interpretować podpowiedzi. Poprzednie wersje pomijały słowa i opisy. Aby uzyskać pożądany obraz, trzeba było być dobrym w szybkiej inżynierii. DALL-E 3 lepiej rozumie niuanse i kontekst i potrafi postępować zgodnie z bardziej złożonymi podpowiedziami. Jego odpowiedzi są dokładniejsze, a obrazy bardziej spójne. Ostatecznie jego wyniki lepiej odpowiadają oczekiwaniom ludzi.

DALL-E 3 zawiera również bardziej wyrafinowane zabezpieczenia. Na przykład zapobiega wyświetlaniu obrazów wulgarnych, agresywnych lub dyskryminujących. Aby uniemożliwić ludziom tworzenie obrazów naruszających prawa autorskie i własność intelektualną, DALL-E 3 nie generuje obrazów przypominających żywe osoby publiczne ani naśladujących styl popularnych artystów i marek. DALL-E 3 pozwala także twórcom zrezygnować z wykorzystywania ich zdjęć do szkolenia przyszłych modelek.

Włączenie do istniejących narzędzi AI

DALL-E 3 jest natywnie dołączony do ChatGPT i Microsoft Image Creator firmy Designer (dawniej Bing Image Generator).

Oznacza to, że jeśli posiadasz subskrypcję premium ChatGPT, możesz generować obrazy w ramach rozmowy z chatbotem. Dzięki tej możliwości nie musisz po prostu pisać prostych podpowiedzi. Możesz zadawać pytania lub udzielać wskazówek, a ChatGPT może przekazać je DALL-E w celu wygenerowania obrazu.

Możesz na przykład powiedzieć: „Właśnie przeprowadziłem się do Arizony i wszyscy ciągle mówią o czymś, co nazywa się haboobem. Jak to wygląda?" ChatGPT może przetworzyć Twoje pytanie i wygenerować monit dla DALL-E. Następnie DALL-E utworzy obrazy haboobu, czyli burzy piaskowej występującej na suchych obszarach, takich jak Arizona.

ChatGPT opracuje również Twoje monity, aby podać DALL-E więcej szczegółów. Jeśli napiszesz zachętę o treści „Utwórz obraz dwóch kotów siedzących na krześle, w fotograficznym stylu vintage”, ChatGPT może doprecyzować Twoją zachętę do następującej treści: „Utwórz czarno-białą fotografię vintage dwóch kotów siedzących na krześle zielony fotel wypoczynkowy. Jeden kot jest pręgowany, a drugi jest cały szary. Obydwa koty siedzą obok siebie.”

Jak działa DALL-E

Na poziomie podstawowym DALL-E wykorzystuje głębokie uczenie się, aby zrozumieć relacje między obrazami i tekstem, umożliwiając modelowi generowanie nowych obrazów w odpowiedzi na pytanie tekstowe. Konkretne modele generatywnej sztucznej inteligencji stojące za DALL-E stale ewoluują.

DALL-E 1

DALL-E 1 (zwany także DALL-E) wykorzystuje wersję GPT-3, LLM OpenAI, która została przeszkolona do generowania obrazów z opisów tekstowych. Model ten oparty jest na architekturze transformatorowej. Tak jak ChatGPT generuje tekst, przewidując każde słowo jedno po drugim, oryginalna wersja DALL-E generuje obrazy, przewidując każdy piksel.

DALL-E 1 generuje wiele potencjalnych wyników dla pojedynczego monitu. Do wyboru najlepszego systemu wykorzystywany jest drugi system sztucznej inteligencji, zwany CLIP (Contrastive Language-Image Pretraining). CLIP, podobnie jak DALL-E 1, jest szkolony na dużym zestawie danych obrazu i podpisów. Celem CLIP jest jednak zrozumienie, jak blisko powiązane są dane zdjęcie i podpis tekstowy.

DALL-E 2

DALL-E 2 generuje obrazy przy użyciu modelu dyfuzyjnego, a nie LLM, co zapewnia lepszą jakość i dokładność obrazu.

Podejście to uczy model wykonywania zaszumionych obrazów, w których piksele zostały zniekształcone w sposób losowy, i stopniowego usuwania szumów w celu uzyskania wyraźnego obrazu. Następnie możesz nadać modelowi zestaw pikseli i szumu — który reprezentuje pewne podstawowe cechy obrazu, takie jak „kot w cylindrze” — a model skonstruuje nowy obraz od podstaw.

DALL-E 2 wykorzystuje CLIP do zrozumienia tekstu zachęty użytkownika i odwzorowania go na funkcje obrazu. Informacje te są przekazywane do modelu dyfuzyjnego, umożliwiając mu wygenerowanie danych wyjściowych odpowiadających wskazówkom użytkownika.

DALL-E 3

Niewiele wiadomo na temat różnic architektonicznych pomiędzy DALL-E 2 i DALL-E 3. Dzieje się tak dlatego, że OpenAI nie udostępniło tych informacji publicznie. Jednak DALL-E 3 prawie na pewno wykorzystuje model dyfuzyjny, ponieważ jest on powszechnie akceptowany jako najnowocześniejsza technika generowania obrazu.

Istnieją spekulacje, że DALL-E 3 wykorzystuje bardziej zaawansowane techniki dyfuzji i może wykorzystywać LLM (zamiast mniejszego modelu, takiego jak CLIP), aby zrozumieć relacje między obrazami i tekstem.

Czy korzystanie z DALL-E jest bezpłatne?

DALL-E jest dostępny z płatną subskrypcją ChatGPT, która jest oferowana na kilku poziomach dla osób fizycznych i firm.

Dostęp do DALL-E można uzyskać bezpłatnie za pomocą programu Microsoft Image Creator firmy Designer (dawniej Bing Image Generator). Kreator obrazów jest również dostępny za pośrednictwem Copilot, czyli chatbota firmy Microsoft.

Wskazówki dotyczące korzystania z DALL-E

Oto kilka wskazówek, jak uzyskać najlepsze rezultaty dzięki DALL-E:

Bądź opisowy

Im bardziej precyzyjny będzie Twój monit, tym lepszy będzie sygnał wyjściowy DALL-E.

Podaj jasny opis głównego tematu; na przykład „niebieska kanapa z mikrofibry” zamiast po prostu „kanapa”.
Wyjaśnij scenerię, np. „na tropikalnej plaży”, „w domu z lat 70. XX wieku” lub „w sali gimnastycznej szkoły podstawowej”.
Opisz szczegółowo każdą czynność, np. „zachodzi słońce”, „pies drzemie” lub „puszcza latawiec”.
Opisz format obrazu, na przykład „fotorealistyczny”, „malarstwo” lub „szkic ołówkiem”.
Powiedz DALL-E, jaki styl chcesz; na przykład „czarno-biały”, „abstrakcyjny” lub „art deco”.
Podaj kąt kamery i odległość ogniskowej, np. „widok z lotu ptaka”, „zbliżenie” lub „szerokokątny”.
Podaj szczegóły oświetlenia, takie jak „głębokie cienie”, „błysk” lub „podświetlenie”.
Opisz nastrój; na przykład „romantyczny”, „szorstki” lub „marzony”.

Bądź eksperymentalny

Nie ma podręcznika ani idealnego sposobu korzystania z DALL-E. Najlepszym sposobem na uzyskanie pożądanych rezultatów jest zastosowanie eksperymentalnego podejścia do korzystania z niego.

Wprowadź drobne zmiany w monitach, aby sprawdzić, czy uzyskasz lepsze wyniki. Spróbuj użyć odmian tych samych słów, aby sprawdzić, czy zmienia to wyniki.
Znajdź właściwą równowagę szczegółów. Jeżeli podpowiedzi są zbyt szczegółowe, DALL-E może nie wiedzieć, które z nich są najważniejsze. Poeksperymentuj ze złożonością podpowiedzi, aby znaleźć najlepszy punkt.
Przygotuj się na błędy i niepowodzenia. DALL-E może zboczyć z toru. Każdą nieudaną odpowiedź potraktuj jako okazję do nauki. Dowiedzenie się, co nie działa, jest tak samo ważne, jak sprawdzenie, co działa.

Przypadki użycia i zastosowania DALL-E

Ludzie używają DALL-E do wielu zastosowań w biznesie i życiu osobistym.

Marketing i komunikacja biznesowa

Tworzenie obrazów na blogi, posty w mediach społecznościowych i strony internetowe
Projektowanie reklam, takich jak ulotki i plakaty
Projektowanie logo i elementów marki
Tworzenie jedynych w swoim rodzaju zdjęć stockowych
Projektowanie opakowań produktów

Konceptualizacja

Projektowanie produktów fizycznych
Renderowanie modeli architektonicznych
Pomysłowanie na inne kreatywne projekty, takie jak animacje, scenorysy i projekty wnętrz
Testowanie kreatywnych pomysłów w różnych stylach

Treści edukacyjne

Tworzenie pomocy wizualnych, takich jak infografiki i diagramy
Przedstawianie wydarzeń historycznych
Wizualizacja procesów naukowych, których nie widać gołym okiem, takich jak reakcje chemiczne
Tworzenie obrazów dostosowanych do konkretnych potrzeb, zainteresowań lub stylu uczenia się konkretnego ucznia

Sztuka i projektowanie

Tworzenie niestandardowych grafik do wystroju domu lub imprezy
Projektowanie okładek do książek, albumów lub filmów
Tworzenie dzieł sztuki do sprzedaży na produktach takich jak T-shirty, zakładki i nadruki
Tworzenie obrazów referencyjnych, które można wykorzystać jako inspirację dla innych mediów artystycznych, takich jak projektowanie mody
Projektowanie elementów, takich jak tekstury tła, w celu włączenia ich do innych form grafiki

Modyfikowanie istniejących obrazów

Dodawanie większej liczby obiektów do obrazu
Dostosowanie tła
Zmiana proporcji
Podkreślanie pewnych obiektów
Usunięcie obiektu i zastąpienie go czymś innym

Korzyści ze stosowania DALL-E

DALL-E oferuje wiele korzyści, w tym możliwość wyboru spośród wielu odpowiedzi, korzystania z platformy wraz z innymi narzędziami sztucznej inteligencji oraz usuwania barier w sztuce i projektowaniu.

Generuje wiele obrazów na monit

DALL-E generuje cztery obrazy na monit, dzięki czemu możesz wybrać ten, który najlepiej odpowiada Twoim preferencjom. Modyfikuje nieznacznie monit dla każdego obrazu i rozszerza go, aby dodać więcej szczegółów.

Na przykład, jeśli wprowadzisz ogólny monit, taki jak „Obraz ciemnej uliczki w stylu komiksu”, DALL-E przeformułuje monit i doda szczegóły, takie jak styl budynków w scenie, kadrowanie obrazu lub dominujące kolory. Klikając każdy obraz, możesz zobaczyć podpowiedzi DALL-E.

Integruje się z ChatGPT i Microsoft Copilot

Dostęp do DALL-E można uzyskać za pośrednictwem chatbotów, z których być może już korzystasz. Wygodne jest generowanie tekstu i obrazów w jednym narzędziu. Ponadto, ponieważ są to chatboty, generowane przez Ciebie obrazy mogą być częścią dłuższej rozmowy.

Załóżmy na przykład, że używasz ChatGPT do tworzenia planu na baby shower. W takim przypadku możesz także użyć DALL-E do wykonania obrazów do zaproszeń. Ponieważ jest to część jednej rozmowy, ChatGPT może uwzględnić w zaproszeniu niektóre szczegóły Twojego planu zajęć.

Sprawia, że projektowanie jest bardziej dostępne

Oprogramowanie do projektowania i sprzęt fotograficzny mogą być drogie i trudne do nauczenia. DALL-E sprawia, że generowanie obrazu jest bardziej dostępne dla przeciętnego człowieka.

Właściciel małej firmy może tworzyć niestandardowe zasoby marki, takie jak zdjęcia i obrazy produktów, które wcześniej były poza zasięgiem.
Hobbyści zajmujący się takimi dziedzinami jak obróbka drewna i rzeźbienie mogą tworzyć wizualizacje swoich koncepcji bez inwestowania w kosztowne oprogramowanie.
Osoby i organizacje z grup niedostatecznie reprezentowanych lub posiadające niszowe zainteresowania mogą tworzyć obrazy odpowiadające ich zainteresowaniom.

Wady DALL-E

Pomimo swoich możliwości DALL-E ma pewne ograniczenia.

Nieprzewidywalność

Ponieważ DALL-E generuje każdy obraz od podstaw, może on być nieprzewidywalny. Załóżmy, że masz określone wymagania dotyczące rozmieszczenia obiektów lub standardów marki. W takim przypadku DALL-E nie zawsze uwzględnia te standardy w swoich wynikach.

Ponadto niewielka modyfikacja monitu może skutkować znacząco odmiennymi wynikami. Jest to szczególnie trudne w przypadku zmiany obrazu, który już stworzył DALL-E.

Uprzedzenia

Cała generatywna sztuczna inteligencja radzi sobie z uprzedzeniami i DALL-E nie jest wyjątkiem. DALL-E może generować odpowiedzi odzwierciedlające uprzedzenia dotyczące rasy, płci, klasy, a nawet niektórych języków lub krajów. DALL-E był szkolony głównie na danych z USA, dlatego często odzwierciedla amerykańską kulturę, wartości i uprzedzenia.

Używanie niektórych przymiotników może prowadzić do stereotypowych wyników. Na przykład, jeśli podpowiedź zawiera słowa takie jakemocjonalnylubwrażliwy, wynik może być skojarzony z kobietą. Jednocześnie słowa takie jak„twardy”lub „intelektualista”mogą prowadzić do wyników obejmujących mężczyzn.

Koszt

DALL-E jest płatny, chyba że korzystasz z programu Microsoft Image Creator, co może być niewygodne, w zależności od Twoich preferencji.

Jeśli wolisz korzystać z ChatGPT zamiast platform AI Microsoftu, będziesz musiał zapłacić za dostęp do DALL-E.

Co dalej z generowaniem obrazu DALL-E i AI?

Możesz używać DALL-E do kreatywnej burzy mózgów, usprawniania procesów projektowych lub po prostu do zabawy. To jedna z wielu platform generatywnej sztucznej inteligencji, która pozwala tworzyć na nowe sposoby. Ponieważ jest zintegrowany z istniejącymi platformami AI, takimi jak ChatGPT i Microsoft Image Creator, możesz tworzyć obrazy i generować tekst w ramach jednego narzędzia.

Korzystając z DALL-E, należy pamiętać, że cała generatywna sztuczna inteligencja jest podatna na generowanie stronniczych odpowiedzi. Znajomość ograniczeń DALL-E pozwala znaleźć najlepsze sposoby jego wykorzystania i uzyskać żądane obrazy.

Stale pojawiają się nowe możliwości, funkcje i konkurencja. Każdy, kto chce korzystać z generatywnej sztucznej inteligencji – czy to do celów biznesowych, osobistych czy edukacyjnych – powinien śledzić najnowsze osiągnięcia. Będziemy na bieżąco omawiać znaczące zmiany w generatywnej sztucznej inteligencji, więc śledź blog Grammarly, aby być na bieżąco.