DALL-E 101: Apa Itu dan Cara Kerjanya

Diterbitkan: 2024-04-18

DALL-E adalah salah satu platform AI generatif inovatif yang mengaburkan batas antara kreativitas yang dihasilkan manusia dan komputer. Berikut ikhtisar DALL-E, cara menggunakannya, dan apa yang harus Anda ketahui agar DALL-E berfungsi untuk Anda.

Daftar isi

  • Apa itu DALL-E?
  • Siapa yang menciptakan DALL-E?
  • Evolusi DALL-E
  • Bagaimana DALL-E bekerja
  • Apakah DALL-E gratis?
  • Cara menggunakan DALL-E
  • Kasus penggunaan dan aplikasi
  • Manfaat DALL-E
  • Kekurangan DALL-E
  • Kesimpulan

Apa itu DALL-E?

DALL-E adalah platform AI generatif yang mengubah perintah teks menjadi gambar. DALL-E dapat memproses bahasa alami, jadi Anda tidak memerlukan kemampuan pengkodean atau pengeditan gambar khusus untuk menggunakannya. Anda dapat memasukkan petunjuk yang mendeskripsikan subjek, gaya, pembingkaian, dan karakteristik gambar lainnya yang Anda inginkan, dan DALL-E akan menghasilkan representasi visual yang sesuai dengan deskripsi Anda. Itu juga dapat mengedit gambar yang ada.

Nama DALL-E terinspirasi dari gabungan nama dua tokoh terkenal: seniman surealis Spanyol Salvador Dali dan WALL-E, robot dalam film Pixar tahun 2008 berjudul sama.

Bekerja lebih cerdas dengan Grammarly
Mitra penulisan AI bagi siapa saja yang memiliki pekerjaan yang harus diselesaikan

Siapa yang menciptakan DALL-E?

OpenAI, perusahaan yang sama di belakang ChatGPT, menciptakan DALL-E. OpenAI adalah perusahaan riset AI yang didirikan pada tahun 2015.

Open AI merilis DALL-E pada Januari 2021. Open AI merilis DALL-E 2 pada September 2022 dan DALL-E 3 pada Oktober 2023.

Bagaimana DALL-E berevolusi?

OpenAI mengumumkan alat pembuatan gambar pertamanya pada tahun 2020, dan DALL-E telah berevolusi dari sana. Upaya pertama OpenAI dalam pembuatan gambar disebut Image GPT. Gambar GPT memberikan bukti pertama bahwa model GPT dapat membuat gambar.

Lalu datanglah DALL-E. Iterasi pertama DALL-E didasarkan pada versi GPT-3—model bahasa besar (LLM) yang dirilis OpenAI pada tahun 2020—diadaptasi untuk pembuatan gambar.

DALL-E menciptakan gambar yang dapat dipercaya dan menyelesaikan beberapa tugas, beberapa di antaranya meliputi:

  • Memodifikasi beberapa karakteristik suatu objek, seperti warna dan tekstur bola
  • Memahami pembingkaian, seperti close-up dan sudut lebar
  • Membuat gambar objek yang sama dari berbagai sudut
  • Memahami informasi geografis dan periode dalam sejarah

Apa itu DALL-E 2?

Versi berikutnya, DALL-E 2, menghasilkan gambar dengan resolusi empat kali lebih tinggi dibandingkan gambar yang dihasilkan oleh DALL-E. Ini menangani komposisi dan penempatan objek dengan lebih efektif, membuat elemen seperti bayangan dan pencahayaan tampak lebih realistis. DALL-E 2 juga memperkenalkan dua fitur baru untuk memodifikasi gambar yang sudah ada: inpainting dan outpainting.

  • Inpainting adalah saat Anda menghapus sebagian gambar dan menggunakan AI untuk mengisi ruang kosong dengan sesuatu yang lain. Misalnya, Anda dapat menghapus bangunan dari latar belakang foto dan menggantinya dengan pohon.
  • Outpainting adalah saat Anda memperluas batas gambar dengan AI. Misalnya, jika Anda memiliki gambar close-up anjing Anda di taman dan ingin memperluasnya untuk memperlihatkan cakrawala kota di kejauhan, DALL-E 2 melakukannya dengan outpainting.

Apa itu DALL-E 3?

DALL-E 3 merupakan peningkatan signifikan dibandingkan pendahulunya dalam beberapa hal. Sebagai permulaan, lebih baik dalam menafsirkan petunjuknya. Versi sebelumnya akan melewatkan kata dan deskripsi. Anda harus mahir dalam rekayasa cepat untuk mendapatkan gambar yang Anda inginkan. DALL-E 3 memahami nuansa dan konteks dengan lebih baik dan dapat mengikuti petunjuk yang lebih kompleks. Tanggapannya lebih akurat, dan gambarannya lebih koheren. Pada akhirnya, keluarannya lebih sesuai dengan keinginan masyarakat.

DALL-E 3 juga mencakup langkah-langkah keamanan yang lebih canggih. Misalnya, mencegah adanya gambaran eksplisit, agresif, atau diskriminatif. Untuk mencegah orang membuat gambar yang melanggar hak cipta dan melanggar kekayaan intelektual, DALL-E 3 tidak menghasilkan gambar yang menyerupai tokoh masyarakat yang masih hidup atau meniru gaya artis dan merek populer. DALL-E 3 juga memungkinkan pembuat konten untuk tidak menggunakan gambar mereka untuk melatih model masa depan.

Penyertaan dengan alat AI yang ada

DALL-E 3 disertakan secara asli dengan ChatGPT dan Microsoft Image Creator dari Designer (sebelumnya Bing Image Generator).

Artinya, jika Anda memiliki langganan ChatGPT premium, Anda dapat menghasilkan gambar sebagai bagian dari percakapan Anda dengan chatbot. Dengan kemampuan ini, Anda tidak hanya perlu menulis perintah secara langsung. Anda dapat mengajukan pertanyaan atau memberikan arahan, dan ChatGPT dapat menyerahkannya ke DALL-E untuk menghasilkan gambar.

Misalnya, Anda dapat mengatakan, “Saya baru saja pindah ke Arizona, dan semua orang terus membicarakan sesuatu yang disebut haboob. Seperti apa bentuknya?” ChatGPT dapat memproses pertanyaan Anda dan menghasilkan prompt untuk DALL-E. DALL-E kemudian akan membuat gambar haboob, yaitu badai debu yang terjadi di daerah kering seperti Arizona.

ChatGPT juga akan menguraikan perintah Anda untuk memberikan DALL-E lebih detail. Jika Anda menulis perintah yang mengatakan “Buat gambar dua kucing duduk di kursi, dengan gaya fotografi vintage,” ChatGPT mungkin menyempurnakan perintah Anda menjadi ini: “Buat foto vintage hitam-putih dari dua kucing yang duduk di atas kursi. kursi sofa hijau. Satu kucing adalah seekor kucing, dan yang lainnya berwarna abu-abu. Kedua kucing itu duduk berdampingan.”

Bagaimana DALL-E bekerja

Pada tingkat dasar, DALL-E menggunakan pembelajaran mendalam untuk memahami hubungan antara gambar dan teks, memungkinkan model mengeluarkan gambar baru untuk perintah teks. Model AI generatif spesifik di balik DALL-E terus berkembang.

DALL-E 1

DALL-E 1 (juga disebut DALL-E) menggunakan versi GPT-3, LLM OpenAI, yang dilatih untuk menghasilkan gambar dari deskripsi teks. Model ini didasarkan pada arsitektur transformator. Sama seperti ChatGPT menghasilkan teks dengan memprediksi setiap kata satu per satu, versi asli DALL-E menghasilkan gambar dengan memprediksi setiap piksel.

DALL-E 1 menghasilkan banyak kandidat keluaran untuk satu prompt. Sistem AI kedua, yang disebut CLIP (Contrastive Language-Image Pretraining), digunakan untuk memilih yang terbaik. CLIP, seperti DALL-E 1, dilatih pada kumpulan data gambar dan teks berukuran besar. Namun, tujuan CLIP adalah untuk memahami seberapa erat keterkaitan antara gambar dan keterangan teks.

DALL-E 2

DALL-E 2 menghasilkan gambar menggunakan model difusi daripada LLM untuk meningkatkan kualitas dan akurasi gambar.

Pendekatan ini melatih model untuk mengambil gambar dengan noise, yang pikselnya telah terdistorsi secara acak, dan secara bertahap menghilangkan noise tersebut untuk menampilkan gambar yang jelas. Kemudian Anda dapat memberi model sekumpulan piksel ditambah noise—yang mewakili beberapa fitur gambar yang mendasarinya, seperti “kucing bertopi tinggi”—dan model akan membuat gambar baru dari awal.

DALL-E 2 menggunakan CLIP untuk memahami teks dalam perintah pengguna dan memetakannya ke fitur gambar. Informasi ini diteruskan ke model difusi, memungkinkannya menghasilkan keluaran yang sesuai dengan permintaan pengguna.

DALL-E 3

Sedikit yang diketahui tentang perbedaan arsitektur antara DALL-E 2 dan DALL-E 3. Hal ini karena OpenAI belum membagikan informasi ini secara publik. Namun, DALL-E 3 hampir pasti menggunakan model difusi, karena model ini diterima secara luas sebagai teknik canggih untuk menghasilkan gambar.

Ada spekulasi bahwa DALL-E 3 menggunakan teknik difusi yang lebih maju dan mungkin menggunakan LLM (daripada model yang lebih kecil seperti CLIP) untuk memahami hubungan antara gambar dan teks.

Apakah DALL-E gratis untuk digunakan?

DALL-E tersedia dengan langganan ChatGPT berbayar, yang ditawarkan dalam beberapa tingkatan untuk individu dan bisnis.

Anda dapat mengakses DALL-E secara gratis dengan Microsoft Image Creator dari Designer (sebelumnya Bing Image Generator). Image Creator juga tersedia melalui Copilot, yang merupakan chatbot Microsoft.

Tip untuk menggunakan DALL-E

Berikut beberapa tip untuk mendapatkan hasil terbaik dengan DALL-E:

Bersikaplah deskriptif

Semakin tepat perintah Anda, semakin baik keluaran DALL-E.

  • Memberikan gambaran yang jelas tentang pokok bahasan; misalnya, “sofa mikrofiber biru” dan bukan sekadar “sofa”.
  • Jelaskan suasananya, seperti “di pantai tropis”, “di rumah tahun 1970-an”, atau “di dalam gedung olahraga sekolah dasar”.
  • Rincikan tindakan apa pun, seperti “matahari terbenam”, “anjing sedang tidur siang”, atau “layang-layang sedang terbang”.
  • Jelaskan format gambar, seperti “fotorealistik”, “lukisan”, atau “sketsa pensil”.
  • Beri tahu DALL-E gaya mana yang Anda inginkan; misalnya, “hitam putih”, “abstrak”, atau “art deco”.
  • Sertakan sudut kamera dan jarak fokus, seperti “pandangan udara”, “close-up”, atau “sudut lebar”.
  • Berikan detail pencahayaan, seperti “bayangan gelap”, “flash”, atau “cahaya latar”.
  • Jelaskan suasana hati; misalnya, “romantis”, “berpasir”, atau “melamun”.

Bersikaplah eksperimental

Tidak ada buku teks atau cara sempurna untuk menggunakan DALL-E. Cara terbaik untuk mendapatkan hasil yang Anda inginkan adalah dengan melakukan pendekatan eksperimental dalam menggunakannya.

  • Lakukan sedikit perubahan pada perintah Anda untuk melihat apakah Anda mendapatkan hasil yang lebih baik. Coba gunakan variasi kata yang sama untuk melihat apakah itu mengubah hasil Anda.
  • Temukan keseimbangan detail yang tepat. Jika perintah Anda terlalu detail, DALL-E mungkin tidak tahu mana yang paling penting. Bermain-main dengan kerumitan petunjuk Anda untuk menemukan sweet spot Anda.
  • Bersiaplah untuk kesalahan dan kegagalan. DALL-E bisa keluar jalur. Anggaplah setiap respons yang gagal sebagai kesempatan belajar. Mencari tahu apa yang tidak berhasil sama pentingnya dengan mencari tahu apa yang berhasil.

Kasus penggunaan dan aplikasi DALL-E

Orang-orang menggunakan DALL-E untuk banyak aplikasi dalam pengaturan bisnis dan pribadi.

Komunikasi pemasaran dan bisnis

  • Membuat gambar untuk blog, postingan media sosial, dan situs web
  • Merancang iklan, seperti brosur dan poster
  • Merancang logo dan elemen merek
  • Membuat stok foto yang unik
  • Merancang kemasan produk

Konseptualisasi

  • Merancang produk fisik
  • Rendering model arsitektur
  • Ide proyek kreatif lainnya, seperti animasi, storyboard, dan desain interior
  • Menguji ide-ide kreatif dalam gaya yang berbeda

Konten pendidikan

  • Membuat alat bantu visual seperti infografis dan diagram
  • Menggambarkan peristiwa sejarah
  • Memvisualisasikan proses ilmiah yang tidak dapat dilihat dengan mata telanjang, misalnya reaksi kimia
  • Membuat gambar yang disesuaikan dengan kebutuhan, minat, atau gaya belajar spesifik setiap siswa

Seni dan Desain

  • Membuat karya seni khusus untuk dekorasi rumah atau pesta Anda
  • Merancang seni sampul untuk buku, album, atau film
  • Menciptakan karya seni untuk dijual pada produk seperti T-shirt, pembatas buku, dan cetakan
  • Membuat gambar referensi untuk digunakan sebagai inspirasi media seni lainnya, seperti desain fesyen
  • Mendesain elemen, seperti tekstur latar belakang, untuk dimasukkan ke dalam bentuk karya seni lainnya

Memodifikasi gambar yang ada

  • Menambahkan lebih banyak subjek ke gambar
  • Menyesuaikan latar belakang
  • Mengubah rasio aspek
  • Penekanan pada objek tertentu
  • Menghapus suatu benda dan menggantinya dengan benda lain

Manfaat menggunakan DALL-E

DALL-E menawarkan banyak keuntungan, termasuk kemampuan untuk memilih dari berbagai respons, menggunakan platform bersama alat AI lainnya, dan menghilangkan hambatan terhadap seni dan desain.

Menghasilkan banyak gambar per prompt

DALL-E menghasilkan empat gambar per prompt, sehingga Anda dapat memilih salah satu yang paling sesuai dengan preferensi Anda. Ini sedikit mengubah prompt untuk setiap gambar dan memperluasnya untuk menambahkan lebih banyak detail.

Misalnya, jika Anda memasukkan perintah umum seperti "Gambar gang gelap bergaya buku komik", DALL-E akan mengubah kata-kata perintah Anda dan menambahkan detail seperti gaya bangunan dalam adegan, pembingkaian gambar, atau warna-warna yang dominan. Anda dapat melihat variasi cepat DALL-E dengan mengklik setiap gambar.

Terintegrasi dengan ChatGPT dan Microsoft Copilot

Anda dapat mengakses DALL-E melalui chatbots yang mungkin sudah Anda gunakan. Sangat mudah untuk menghasilkan teks dan gambar semuanya dalam satu alat. Selain itu, karena ini adalah chatbot, gambar yang Anda hasilkan dapat menjadi bagian dari percakapan yang lebih panjang.

Misalnya, Anda menggunakan ChatGPT untuk membuat agenda baby shower. Dalam hal ini, Anda juga dapat menggunakan DALL-E untuk membuat gambar undangan. Karena semuanya merupakan bagian dari satu percakapan, ChatGPT dapat memasukkan beberapa detail agenda Anda ke dalam undangan.

Membuat desain lebih mudah diakses

Perangkat lunak desain dan peralatan fotografi bisa jadi mahal dan menantang untuk dipelajari. DALL-E membuat pembuatan gambar lebih mudah diakses oleh kebanyakan orang.

  • Pemilik usaha kecil dapat membuat aset merek khusus, seperti foto dan gambar produk yang sebelumnya tidak dapat dijangkau.
  • Penghobi di bidang seperti pertukangan kayu dan seni pahat dapat menyusun visualisasi konsep mereka tanpa berinvestasi pada perangkat lunak yang mahal.
  • Orang dan organisasi dari kelompok yang kurang terwakili atau memiliki hobi khusus dapat menciptakan citra yang sesuai dengan kepentingan mereka.

Kekurangan DALL-E

Terlepas dari kemampuannya, DALL-E memiliki beberapa keterbatasan.

Ketidakpastian

Karena DALL-E menghasilkan setiap gambar dari awal, hal ini tidak dapat diprediksi. Misalkan Anda memiliki persyaratan khusus untuk penempatan objek atau standar merek. Dalam hal ini, DALL-E mungkin tidak selalu memasukkan standar-standar tersebut dalam hasil-hasilnya.

Selain itu, sedikit menyesuaikan perintah Anda dapat menghasilkan keluaran yang sangat berbeda. Hal ini sangat menantang ketika mengubah gambar yang telah dibuat DALL-E.

Bias

Semua AI generatif berurusan dengan bias, begitu pula DALL-E. DALL-E dapat menimbulkan tanggapan yang mencerminkan bias mengenai ras, gender, kelas, dan bahkan bahasa atau negara tertentu. DALL-E dilatih terutama berdasarkan data dari AS, sehingga sering kali mencerminkan budaya, nilai, dan bias Amerika.

Penggunaan kata sifat tertentu dapat menimbulkan hasil stereotip. Misalnya, jika prompt berisi kata-kata sepertiemosionalatausensitif, keluarannya mungkin terkait dengan seorang wanita. Pada saat yang sama, kata-kata sepertikerasatauintelektualdapat memberikan hasil yang menonjolkan laki-laki.

Biaya

DALL-E dikenakan biaya kecuali Anda menggunakan Microsoft Image Creator, yang mungkin merepotkan, tergantung pada preferensi Anda.

Jika Anda lebih suka menggunakan ChatGPT daripada platform AI Microsoft, Anda harus membayar untuk mengakses DALL-E.

Apa yang selanjutnya untuk pembuatan gambar DALL-E dan AI?

Anda dapat menggunakan DALL-E untuk mendorong brainstorming kreatif, menyederhanakan proses desain, atau sekadar bersenang-senang. Ini adalah salah satu dari banyak platform AI generatif yang memungkinkan Anda berkreasi dengan cara baru. Karena terintegrasi dengan platform AI yang ada seperti ChatGPT dan Microsoft Image Creator, Anda dapat membuat gambar dan menghasilkan teks, semuanya dalam satu alat.

Saat menggunakan DALL-E, penting untuk diingat bahwa semua AI generatif cenderung menghasilkan respons yang bias. Mengetahui keterbatasan DALL-E memungkinkan Anda menemukan cara terbaik untuk menggunakannya dan mendapatkan gambar yang Anda inginkan.

Kemampuan, fitur, dan pesaing baru terus bermunculan. Siapa pun yang ingin menggunakan AI generatif—baik untuk tujuan bisnis, pribadi, atau pendidikan—harus memantau perkembangan terkini. Kami akan terus meliput perubahan signifikan dalam AI generatif, jadi ikuti terus blog Grammarly untuk terus mengikuti perkembangannya.