DALL-E 101: co to jest i jak działa
Opublikowany: 2024-04-18DALL-E to jedna z innowacyjnych platform generatywnej sztucznej inteligencji, zacierająca granice między kreatywnością generowaną przez ludzi i komputer. Oto przegląd DALL-E, jak go używać i co powinieneś wiedzieć, aby działał dla Ciebie.
Spis treści
- Co to jest DALL-E?
- Kto stworzył DALL-E?
- Ewolucja DALL-E
- Jak działa DALL-E
- Czy DALL-E jest bezpłatny?
- Jak korzystać z DALL-E
- Przypadki użycia i zastosowania
- Zalety DALL-E
- Wady DALL-E
- Wniosek
Co to jest DALL-E?
DALL-E to generatywna platforma AI, która zamienia podpowiedzi tekstowe na obrazy. DALL-E może przetwarzać język naturalny, więc nie potrzebujesz żadnych specjalnych umiejętności kodowania ani edycji obrazu, aby z niego korzystać. Możesz wprowadzić podpowiedzi opisujące temat, styl, kadrowanie i inne cechy pożądanego obrazu, a DALL-E utworzy wizualną reprezentację pasującą do Twojego opisu. Może także edytować istniejące obrazy.
Nazwa DALL-E została zainspirowana połączeniem imion dwóch znanych postaci: hiszpańskiego artysty surrealisty Salvadora Dali i WALL-E, robota z filmu Pixar z 2008 roku o tym samym tytule.
Kto stworzył DALL-E?
OpenAI, ta sama firma, która stoi za ChatGPT, stworzyła DALL-E. OpenAI to firma badawcza AI założona w 2015 roku.
Open AI wypuściło DALL-E w styczniu 2021 r. Wydało DALL-E 2 we wrześniu 2022 r. i DALL-E 3 w październiku 2023 r.
Jak ewoluował DALL-E?
OpenAI ogłosiło swoje pierwsze narzędzie do generowania obrazów w 2020 r., a DALL-E ewoluowało od tego. Pierwsze podejście OpenAI do generowania obrazów nosiło nazwę Image GPT. Obraz GPT dostarczył pierwszego dowodu na to, że model GPT może tworzyć obrazy.
Potem przyszedł DALL-E. Pierwsza iteracja DALL-E została oparta na wersji GPT-3 — modelu dużego języka (LLM), wydanego przez OpenAI w 2020 r. — przystosowanej do generowania obrazów.
DALL-E tworzy wiarygodne obrazy i realizuje kilka zadań, z których niektóre obejmują:
- Modyfikowanie kilku cech obiektu, takich jak kolor i tekstura kuli
- Zrozumienie kadrowania, np. zbliżeń i szerokich kątów
- Tworzenie obrazów tego samego obiektu z różnych perspektyw
- Zrozumienie informacji geograficznych i okresów w historii
Co to jest DALL-E 2?
Kolejna wersja, DALL-E 2, generuje obrazy z czterokrotnie wyższą rozdzielczością niż obrazy generowane przez DALL-E. Bardziej efektywnie radzi sobie z kompozycją i rozmieszczeniem obiektów, dzięki czemu elementy takie jak cienie i oświetlenie wydają się bardziej realistyczne. DALL-E 2 wprowadził także dwie nowe funkcje modyfikacji istniejących obrazów: inpainting i outpainting.
- Inpainting polega na wymazaniu części obrazu i użyciu sztucznej inteligencji do wypełnienia pustej przestrzeni czymś innym. Możesz na przykład usunąć budynek z tła zdjęcia i zastąpić go drzewem.
- Outpainting polega na poszerzaniu granic obrazu za pomocą sztucznej inteligencji. Na przykład, jeśli masz zbliżenie swojego psa w parku i chcesz je powiększyć, aby pokazać panoramę miasta w oddali, DALL-E 2 zrobi to za pomocą malowania zewnętrznego.
Co to jest DALL-E 3?
DALL-E 3 stanowi znaczną poprawę w stosunku do swojego poprzednika pod kilkoma względami. Na początek lepiej jest interpretować podpowiedzi. Poprzednie wersje pomijały słowa i opisy. Aby uzyskać pożądany obraz, trzeba było być dobrym w szybkiej inżynierii. DALL-E 3 lepiej rozumie niuanse i kontekst i potrafi postępować zgodnie z bardziej złożonymi podpowiedziami. Jego odpowiedzi są dokładniejsze, a obrazy bardziej spójne. Ostatecznie jego wyniki lepiej odpowiadają oczekiwaniom ludzi.
DALL-E 3 zawiera również bardziej wyrafinowane zabezpieczenia. Na przykład zapobiega wyświetlaniu obrazów wulgarnych, agresywnych lub dyskryminujących. Aby uniemożliwić ludziom tworzenie obrazów naruszających prawa autorskie i własność intelektualną, DALL-E 3 nie generuje obrazów przypominających żywe osoby publiczne ani naśladujących styl popularnych artystów i marek. DALL-E 3 pozwala także twórcom zrezygnować z wykorzystywania ich zdjęć do szkolenia przyszłych modelek.
Włączenie do istniejących narzędzi AI
DALL-E 3 jest natywnie dołączony do ChatGPT i Microsoft Image Creator firmy Designer (dawniej Bing Image Generator).
Oznacza to, że jeśli posiadasz subskrypcję premium ChatGPT, możesz generować obrazy w ramach rozmowy z chatbotem. Dzięki tej możliwości nie musisz po prostu pisać prostych podpowiedzi. Możesz zadawać pytania lub udzielać wskazówek, a ChatGPT może przekazać je DALL-E w celu wygenerowania obrazu.
Możesz na przykład powiedzieć: „Właśnie przeprowadziłem się do Arizony i wszyscy ciągle mówią o czymś, co nazywa się haboobem. Jak to wygląda?" ChatGPT może przetworzyć Twoje pytanie i wygenerować monit dla DALL-E. Następnie DALL-E utworzy obrazy haboobu, czyli burzy piaskowej występującej na suchych obszarach, takich jak Arizona.
ChatGPT opracuje również Twoje monity, aby podać DALL-E więcej szczegółów. Jeśli napiszesz zachętę o treści „Utwórz obraz dwóch kotów siedzących na krześle, w fotograficznym stylu vintage”, ChatGPT może doprecyzować Twoją zachętę do następującej treści: „Utwórz czarno-białą fotografię vintage dwóch kotów siedzących na krześle zielony fotel wypoczynkowy. Jeden kot jest pręgowany, a drugi jest cały szary. Obydwa koty siedzą obok siebie.”
Jak działa DALL-E
Na poziomie podstawowym DALL-E wykorzystuje głębokie uczenie się, aby zrozumieć relacje między obrazami i tekstem, umożliwiając modelowi generowanie nowych obrazów w odpowiedzi na pytanie tekstowe. Konkretne modele generatywnej sztucznej inteligencji stojące za DALL-E stale ewoluują.
DALL-E 1
DALL-E 1 (zwany także DALL-E) wykorzystuje wersję GPT-3, LLM OpenAI, która została przeszkolona do generowania obrazów z opisów tekstowych. Model ten oparty jest na architekturze transformatorowej. Tak jak ChatGPT generuje tekst, przewidując każde słowo jedno po drugim, oryginalna wersja DALL-E generuje obrazy, przewidując każdy piksel.
DALL-E 1 generuje wiele potencjalnych wyników dla pojedynczego monitu. Do wyboru najlepszego systemu wykorzystywany jest drugi system sztucznej inteligencji, zwany CLIP (Contrastive Language-Image Pretraining). CLIP, podobnie jak DALL-E 1, jest szkolony na dużym zestawie danych obrazu i podpisów. Celem CLIP jest jednak zrozumienie, jak blisko powiązane są dane zdjęcie i podpis tekstowy.
DALL-E 2
DALL-E 2 generuje obrazy przy użyciu modelu dyfuzyjnego, a nie LLM, co zapewnia lepszą jakość i dokładność obrazu.
Podejście to uczy model wykonywania zaszumionych obrazów, w których piksele zostały zniekształcone w sposób losowy, i stopniowego usuwania szumów w celu uzyskania wyraźnego obrazu. Następnie możesz nadać modelowi zestaw pikseli i szumu — który reprezentuje pewne podstawowe cechy obrazu, takie jak „kot w cylindrze” — a model skonstruuje nowy obraz od podstaw.
DALL-E 2 wykorzystuje CLIP do zrozumienia tekstu zachęty użytkownika i odwzorowania go na funkcje obrazu. Informacje te są przekazywane do modelu dyfuzyjnego, umożliwiając mu wygenerowanie danych wyjściowych odpowiadających wskazówkom użytkownika.
DALL-E 3
Niewiele wiadomo na temat różnic architektonicznych pomiędzy DALL-E 2 i DALL-E 3. Dzieje się tak dlatego, że OpenAI nie udostępniło tych informacji publicznie. Jednak DALL-E 3 prawie na pewno wykorzystuje model dyfuzyjny, ponieważ jest on powszechnie akceptowany jako najnowocześniejsza technika generowania obrazu.
Istnieją spekulacje, że DALL-E 3 wykorzystuje bardziej zaawansowane techniki dyfuzji i może wykorzystywać LLM (zamiast mniejszego modelu, takiego jak CLIP), aby zrozumieć relacje między obrazami i tekstem.
Czy korzystanie z DALL-E jest bezpłatne?
DALL-E jest dostępny z płatną subskrypcją ChatGPT, która jest oferowana na kilku poziomach dla osób fizycznych i firm.
Dostęp do DALL-E można uzyskać bezpłatnie za pomocą programu Microsoft Image Creator firmy Designer (dawniej Bing Image Generator). Kreator obrazów jest również dostępny za pośrednictwem Copilot, czyli chatbota firmy Microsoft.
Wskazówki dotyczące korzystania z DALL-E
Oto kilka wskazówek, jak uzyskać najlepsze rezultaty dzięki DALL-E:
Bądź opisowy
Im bardziej precyzyjny będzie Twój monit, tym lepszy będzie sygnał wyjściowy DALL-E.
- Podaj jasny opis głównego tematu; na przykład „niebieska kanapa z mikrofibry” zamiast po prostu „kanapa”.
- Wyjaśnij scenerię, np. „na tropikalnej plaży”, „w domu z lat 70. XX wieku” lub „w sali gimnastycznej szkoły podstawowej”.
- Opisz szczegółowo każdą czynność, np. „zachodzi słońce”, „pies drzemie” lub „puszcza latawiec”.
- Opisz format obrazu, na przykład „fotorealistyczny”, „malarstwo” lub „szkic ołówkiem”.
- Powiedz DALL-E, jaki styl chcesz; na przykład „czarno-biały”, „abstrakcyjny” lub „art deco”.
- Podaj kąt kamery i odległość ogniskowej, np. „widok z lotu ptaka”, „zbliżenie” lub „szerokokątny”.
- Podaj szczegóły oświetlenia, takie jak „głębokie cienie”, „błysk” lub „podświetlenie”.
- Opisz nastrój; na przykład „romantyczny”, „szorstki” lub „marzony”.
Bądź eksperymentalny
Nie ma podręcznika ani idealnego sposobu korzystania z DALL-E. Najlepszym sposobem na uzyskanie pożądanych rezultatów jest zastosowanie eksperymentalnego podejścia do korzystania z niego.
- Wprowadź drobne zmiany w monitach, aby sprawdzić, czy uzyskasz lepsze wyniki. Spróbuj użyć odmian tych samych słów, aby sprawdzić, czy zmienia to wyniki.
- Znajdź właściwą równowagę szczegółów. Jeżeli podpowiedzi są zbyt szczegółowe, DALL-E może nie wiedzieć, które z nich są najważniejsze. Poeksperymentuj ze złożonością podpowiedzi, aby znaleźć najlepszy punkt.
- Przygotuj się na błędy i niepowodzenia. DALL-E może zboczyć z toru. Każdą nieudaną odpowiedź potraktuj jako okazję do nauki. Dowiedzenie się, co nie działa, jest tak samo ważne, jak sprawdzenie, co działa.
Przypadki użycia i zastosowania DALL-E
Ludzie używają DALL-E do wielu zastosowań w biznesie i życiu osobistym.
Marketing i komunikacja biznesowa
- Tworzenie obrazów na blogi, posty w mediach społecznościowych i strony internetowe
- Projektowanie reklam, takich jak ulotki i plakaty
- Projektowanie logo i elementów marki
- Tworzenie jedynych w swoim rodzaju zdjęć stockowych
- Projektowanie opakowań produktów
Konceptualizacja
- Projektowanie produktów fizycznych
- Renderowanie modeli architektonicznych
- Pomysłowanie na inne kreatywne projekty, takie jak animacje, scenorysy i projekty wnętrz
- Testowanie kreatywnych pomysłów w różnych stylach
Treści edukacyjne
- Tworzenie pomocy wizualnych, takich jak infografiki i diagramy
- Przedstawianie wydarzeń historycznych
- Wizualizacja procesów naukowych, których nie widać gołym okiem, takich jak reakcje chemiczne
- Tworzenie obrazów dostosowanych do konkretnych potrzeb, zainteresowań lub stylu uczenia się konkretnego ucznia
Sztuka i projektowanie
- Tworzenie niestandardowych grafik do wystroju domu lub imprezy
- Projektowanie okładek do książek, albumów lub filmów
- Tworzenie dzieł sztuki do sprzedaży na produktach takich jak T-shirty, zakładki i nadruki
- Tworzenie obrazów referencyjnych, które można wykorzystać jako inspirację dla innych mediów artystycznych, takich jak projektowanie mody
- Projektowanie elementów, takich jak tekstury tła, w celu włączenia ich do innych form grafiki
Modyfikowanie istniejących obrazów
- Dodawanie większej liczby obiektów do obrazu
- Dostosowanie tła
- Zmiana proporcji
- Podkreślanie pewnych obiektów
- Usunięcie obiektu i zastąpienie go czymś innym
Korzyści ze stosowania DALL-E
DALL-E oferuje wiele korzyści, w tym możliwość wyboru spośród wielu odpowiedzi, korzystania z platformy wraz z innymi narzędziami sztucznej inteligencji oraz usuwania barier w sztuce i projektowaniu.
Generuje wiele obrazów na monit
DALL-E generuje cztery obrazy na monit, dzięki czemu możesz wybrać ten, który najlepiej odpowiada Twoim preferencjom. Modyfikuje nieznacznie monit dla każdego obrazu i rozszerza go, aby dodać więcej szczegółów.
Na przykład, jeśli wprowadzisz ogólny monit, taki jak „Obraz ciemnej uliczki w stylu komiksu”, DALL-E przeformułuje monit i doda szczegóły, takie jak styl budynków w scenie, kadrowanie obrazu lub dominujące kolory. Klikając każdy obraz, możesz zobaczyć podpowiedzi DALL-E.
Integruje się z ChatGPT i Microsoft Copilot
Dostęp do DALL-E można uzyskać za pośrednictwem chatbotów, z których być może już korzystasz. Wygodne jest generowanie tekstu i obrazów w jednym narzędziu. Ponadto, ponieważ są to chatboty, generowane przez Ciebie obrazy mogą być częścią dłuższej rozmowy.
Załóżmy na przykład, że używasz ChatGPT do tworzenia planu na baby shower. W takim przypadku możesz także użyć DALL-E do wykonania obrazów do zaproszeń. Ponieważ jest to część jednej rozmowy, ChatGPT może uwzględnić w zaproszeniu niektóre szczegóły Twojego planu zajęć.
Sprawia, że projektowanie jest bardziej dostępne
Oprogramowanie do projektowania i sprzęt fotograficzny mogą być drogie i trudne do nauczenia. DALL-E sprawia, że generowanie obrazu jest bardziej dostępne dla przeciętnego człowieka.
- Właściciel małej firmy może tworzyć niestandardowe zasoby marki, takie jak zdjęcia i obrazy produktów, które wcześniej były poza zasięgiem.
- Hobbyści zajmujący się takimi dziedzinami jak obróbka drewna i rzeźbienie mogą tworzyć wizualizacje swoich koncepcji bez inwestowania w kosztowne oprogramowanie.
- Osoby i organizacje z grup niedostatecznie reprezentowanych lub posiadające niszowe zainteresowania mogą tworzyć obrazy odpowiadające ich zainteresowaniom.
Wady DALL-E
Pomimo swoich możliwości DALL-E ma pewne ograniczenia.
Nieprzewidywalność
Ponieważ DALL-E generuje każdy obraz od podstaw, może on być nieprzewidywalny. Załóżmy, że masz określone wymagania dotyczące rozmieszczenia obiektów lub standardów marki. W takim przypadku DALL-E nie zawsze uwzględnia te standardy w swoich wynikach.
Ponadto niewielka modyfikacja monitu może skutkować znacząco odmiennymi wynikami. Jest to szczególnie trudne w przypadku zmiany obrazu, który już stworzył DALL-E.
Uprzedzenia
Cała generatywna sztuczna inteligencja radzi sobie z uprzedzeniami i DALL-E nie jest wyjątkiem. DALL-E może generować odpowiedzi odzwierciedlające uprzedzenia dotyczące rasy, płci, klasy, a nawet niektórych języków lub krajów. DALL-E był szkolony głównie na danych z USA, dlatego często odzwierciedla amerykańską kulturę, wartości i uprzedzenia.
Używanie niektórych przymiotników może prowadzić do stereotypowych wyników. Na przykład, jeśli podpowiedź zawiera słowa takie jakemocjonalnylubwrażliwy, wynik może być skojarzony z kobietą. Jednocześnie słowa takie jak„twardy”lub „intelektualista”mogą prowadzić do wyników obejmujących mężczyzn.
Koszt
DALL-E jest płatny, chyba że korzystasz z programu Microsoft Image Creator, co może być niewygodne, w zależności od Twoich preferencji.
Jeśli wolisz korzystać z ChatGPT zamiast platform AI Microsoftu, będziesz musiał zapłacić za dostęp do DALL-E.
Co dalej z generowaniem obrazu DALL-E i AI?
Możesz używać DALL-E do kreatywnej burzy mózgów, usprawniania procesów projektowych lub po prostu do zabawy. To jedna z wielu platform generatywnej sztucznej inteligencji, która pozwala tworzyć na nowe sposoby. Ponieważ jest zintegrowany z istniejącymi platformami AI, takimi jak ChatGPT i Microsoft Image Creator, możesz tworzyć obrazy i generować tekst w ramach jednego narzędzia.
Korzystając z DALL-E, należy pamiętać, że cała generatywna sztuczna inteligencja jest podatna na generowanie stronniczych odpowiedzi. Znajomość ograniczeń DALL-E pozwala znaleźć najlepsze sposoby jego wykorzystania i uzyskać żądane obrazy.
Stale pojawiają się nowe możliwości, funkcje i konkurencja. Każdy, kto chce korzystać z generatywnej sztucznej inteligencji – czy to do celów biznesowych, osobistych czy edukacyjnych – powinien śledzić najnowsze osiągnięcia. Będziemy na bieżąco omawiać znaczące zmiany w generatywnej sztucznej inteligencji, więc śledź blog Grammarly, aby być na bieżąco.