Model AI Generatif, Dijelaskan
Diterbitkan: 2024-04-15Ketika Anda memikirkan model AI generatif, Anda mungkin berpikir tentang model bahasa besar (LLM) yang telah membuat heboh dalam beberapa tahun terakhir. Namun, AI generatif sendiri sudah ada sejak beberapa dekade yang lalu, dan LLM hanyalah evolusi terbaru. Dan selain LLM, berbagai jenis model AI generatif digunakan untuk berbagai alat dan kasus penggunaan AI generatif, seperti model difusi yang digunakan untuk menghasilkan gambar.
Dalam artikel ini, kami akan menjelaskan apa itu model AI generatif, bagaimana model tersebut dikembangkan, dan memberikan penjelasan lebih dalam tentang beberapa model AI generatif yang paling umum saat ini—cukup untuk memberi Anda pemahaman konseptual tentang model-model ini yang akan mengesankan Anda. teman dan kolega, tanpa Anda perlu mengambil kursus kuliah tentang pembelajaran mesin (ML).
Apa yang dimaksud dengan model AI generatif?
Model AI generatif adalah bagian dari sistem kecerdasan buatan yang berspesialisasi dalam pembuatan konten baru dan orisinal yang mencerminkan karakteristik data pelatihannya. Melalui pembelajaran dari pola dan hubungan data, model ini dapat menghasilkan keluaran seperti teks, gambar, suara, atau video yang menyerupai gaya, nada, dan nuansa materi sumbernya. Kemampuan ini menempatkan AI generatif sebagai inti inovasi, memungkinkan penerapan kreatif dan dinamis di berbagai bidang dengan menafsirkan dan mengubah data masukan menjadi kreasi baru.
Cara kerja model AI generatif
Model AI generatif berfungsi dengan memanfaatkan bentuk algoritma ML canggih yang dikenal sebagai jaringan saraf. Jaringan saraf terdiri dari beberapa lapisan node yang saling berhubungan, masing-masing diwakili oleh cuplikan kode komputer. Node-node ini melakukan tugas-tugas kecil dan individual namun secara kolektif berkontribusi dalam pengambilan keputusan yang kompleks, mencerminkan fungsi neuron di otak manusia.
Sebagai ilustrasi, pertimbangkan jaringan saraf yang bertugas membedakan gambar pai dan kue. Jaringan menganalisis gambar pada tingkat granular, memecahnya menjadi piksel. Pada tingkat paling dasar, akan ada node berbeda di jaringan yang didedikasikan untuk memahami piksel dan kelompok piksel berbeda. Mungkin beberapa orang akan melihat apakah ada lapisan dalam makanan penutup, sementara yang lain akan menentukan apakah ada lapisan beku atau kerak. Masing-masing node menyimpan informasi tentang fitur pie vs. cake, dan setiap kali gambar baru muncul, gambar tersebut diproses melalui setiap node untuk menghasilkan prediksi akhir.
Dalam konteks AI generatif, prinsip ini lebih dari sekedar pengenalan, tetapi juga penciptaan konten baru dan asli. Daripada hanya mengidentifikasi fitur, model generatif menggunakan jaringan saraf untuk memahami pola dan struktur dasar data yang dilatih. Proses ini melibatkan interaksi dan penyesuaian yang kompleks dalam jaringan saraf, dipandu oleh algoritma yang dirancang untuk mengoptimalkan kreativitas dan keakuratan keluaran yang dihasilkan.
Bagaimana model AI generatif dikembangkan?
Pengembangan model AI generatif melibatkan serangkaian langkah yang kompleks dan saling terkait, biasanya dilakukan oleh tim peneliti dan insinyur. Model-model ini, seperti GPT (transformator terlatih generatif) dari OpenAI dan arsitektur serupa lainnya, dirancang untuk menghasilkan konten baru yang meniru distribusi data tempat mereka dilatih.
Berikut rincian langkah demi langkah dari proses tersebut:
1 Pengumpulan data
Ilmuwan dan insinyur data pertama-tama menentukan tujuan dan persyaratan proyek mereka, yang memandu mereka mengumpulkan kumpulan data yang luas dan sesuai. Mereka sering kali menggunakan kumpulan data publik, yang menawarkan teks atau gambar dalam jumlah besar untuk kebutuhan mereka. Misalnya, pelatihan ChatGPT (GPT-3.5) melibatkan pemrosesan data sebesar 570 GB, setara dengan 300 miliar kata dari sumber internet publik, termasuk hampir seluruh konten Wikipedia.
2 Pemilihan model
Memilih arsitektur model yang tepat merupakan langkah penting dalam mengembangkan sistem AI generatif. Keputusan tersebut dipandu oleh sifat tugas yang ada, jenis data yang tersedia, kualitas keluaran yang diinginkan, dan batasan komputasi. Arsitektur spesifik, termasuk VAE, GAN, serta model berbasis transformator dan difusi, akan dibahas lebih detail nanti di artikel ini. Pada tahap ini, penting untuk dipahami bahwa model baru sering kali dimulai dari kerangka arsitektur yang sudah ada sebelumnya. Pendekatan ini memanfaatkan struktur yang telah terbukti sebagai landasan, memungkinkan penyempurnaan dan inovasi yang disesuaikan dengan kebutuhan unik proyek yang ada.
3 Pelatihan model
Model yang dipilih dilatih menggunakan kumpulan data yang dikumpulkan dari langkah pertama. Melatih model AI generatif seringkali memerlukan daya komputasi dalam jumlah besar, menggunakan perangkat keras khusus seperti GPU (unit pemrosesan grafis) dan TPU (unit pemrosesan tensor). Meskipun pendekatan pelatihan bervariasi berdasarkan arsitektur model, semua model melalui proses yang disebut penyetelan hyperparameter. Di sinilah data scientist menyesuaikan pengaturan performa tertentu untuk mencapai hasil terbaik.
4 Evaluasi dan penyesuaian
Terakhir, performa model dievaluasi atau diuji di dunia nyata. Mengevaluasi model AI generatif berbeda dengan mengevaluasi model ML tradisional karena AI generatif menghasilkan keluaran yang benar-benar baru, dan kualitas keluaran ini cenderung subjektif. Metriknya berbeda-beda berdasarkan model yang dibuat, dan teknik evaluasi untuk AI generatif biasanya mencakup penggunaan penilai manusia—dan mungkin menggunakan strategi agar model AI generatif saling mengevaluasi satu sama lain. Pembelajaran dari tahap evaluasi biasanya diterapkan kembali untuk menyempurnakan model atau bahkan melatihnya kembali. Setelah performa model divalidasi, model siap diproduksi.
Jenis model AI generatif
Berdasarkan pengetahuan dasar kami tentang model AI generatif dan jaringan saraf yang mendukungnya, kami kini siap mempelajari jenis arsitektur model tertentu yang telah muncul sejak awal tahun 2010-an. Kita akan mengeksplorasi kekuatan dan kelemahan unik masing-masing model, serta penerapan praktisnya.
Berikut gambaran singkat model yang akan kita bahas:
- Autoencoder variasional (VAE)mahir dalam mempelajari distribusi data yang kompleks dan sering digunakan untuk tugas-tugas seperti pembuatan dan pengeditan gambar.
- Jaringan permusuhan generatif (GAN)dikenal karena kemampuannya menciptakan gambar yang sangat realistis dan menjadi populer dalam berbagai aplikasi kreatif.
- Model difusiadalah model kelas baru yang menghasilkan sampel berkualitas tinggi melalui proses penambahan dan kemudian penghilangan noise secara bertahap.
- Model bahasaunggul dalam memahami dan menghasilkan bahasa manusia, menjadikannya berguna untuk aplikasi seperti chatbots dan penyelesaian teks.
- Model berbasis transformatorpada awalnya dirancang untuk tugas pemrosesan bahasa alami (NLP) tetapi telah diadaptasi untuk digunakan dalam model generatif karena kemampuannya yang kuat dalam menangani data sekuensial.
Mari kita selidiki lebih dalam masing-masing arsitektur ini untuk memahami cara kerjanya dan di mana penerapan terbaiknya.
Autoencoder variasional (VAE)
Autoencoder variasi ditemukan oleh Max Welling dan Diederik P. Kingma pada tahun 2013. Mereka mengandalkan fakta bahwa jaringan saraf dapat menyandikan konsep tingkat tinggi yang dipelajari model selama langkah pelatihan. Hal ini terkadang disebut sebagai “kompresi” atau “proyeksi” data mentah.
Jika seorang model melihat gambar kue, misalnya, model tersebut mungkin mengubahnya menjadi pengkodean yang berisi semua fitur gambar—taburan, warna frosting, lapisan spons, dll. Pengkodean ini terlihat seperti sekumpulan angka yang masuk akal untuk dipahami. modelnya tetapi tidak bagi manusia. Gambar tersebut dapat didekodekan oleh jaringan saraf lain untuk mencoba membuat ulang gambar aslinya—meskipun gambar tersebut akan memiliki beberapa celah karena pengkodeannya adalah kompresi. Jenis model ini, dengan bagian encoder dan decoder yang bekerja bersama, disebut autoencoder.
Autoencoder variasional mengembangkan ide autoencoder untuk menghasilkan keluaran baru. Saat membuat pengkodeannya, VAE menggunakan probabilitas, bukan angka diskrit. Lagi pula, apakah krim kocok termasuk frosting? Terkadang ya; terkadang tidak.
Ternyata jika Anda melatih jaringan saraf untuk membuat pengkodean probabilistik ini dan melatih jaringan saraf lain untuk memecahkan kodenya, Anda bisa mendapatkan beberapa hasil yang cukup menarik. Decoder dapat mengambil sampel titik-titik dalam “ruang” pengkodean variasional dan membuat keluaran yang benar-benar baru yang masih tampak realistis karena telah mempertahankan hubungan probabilistik dari data pelatihan.
Keuntungan dan kerugian
Autoencoder variasional menggunakan pembelajaran tanpa pengawasan, yang berarti model belajar sendiri dari data mentah tanpa mengharuskan manusia memberi label pada fitur atau hasil yang berbeda. Model seperti ini sangat berhasil dalam membuat konten yang sedikit menyimpang dari aslinya. Karena cara mereka bekerja dengan pengkodean, mereka juga dapat diberikan instruksi spesifik berdasarkan fitur data pelatihan: “Tunjukkan kepada saya makanan penutup yang mewakili titik tengah sempurna antara kue dan kue.” Meskipun demikian, VAE mengoptimalkan kemungkinan hasil, sehingga kemungkinan besar mereka tidak akan unggul dalam membuat konten yang sangat orisinal atau inovatif.
Salah satu keluhan umum tentang VAE adalah bahwa mereka dapat menghasilkan gambar yang berisik (yaitu buram) karena fakta bahwa pengkodean dan penguraian kode melibatkan kompresi, yang menyebabkan hilangnya informasi.
Kasus penggunaan
Autoencoder variasional bekerja dengan semua jenis data, meskipun terutama digunakan untuk menghasilkan gambar, audio, dan teks. Salah satu penerapan yang menarik adalah deteksi anomali: Dalam kumpulan data, VAE dapat menemukan titik data yang paling menyimpang dari norma, karena titik tersebut akan memiliki kesalahan rekonstruksi tertinggi—artinya titik tersebut akan menjadi yang terjauh dari probabilitas yang telah dikodekan oleh VAE.
Jaringan permusuhan generatif (GAN)
Jaringan permusuhan generatif dikembangkan oleh Ian Goodfellow pada tahun 2014. Meskipun jaringan saraf sebelumnya telah mampu menghasilkan gambar, hasilnya cenderung kabur dan tidak meyakinkan. Pertanyaan inti (dan wawasan) di balik GAN adalah: Apa yang terjadi jika Anda mengadu dua jaringan saraf satu sama lain? Yang satu disebut generator, dilatih untuk menghasilkan konten baru, sedangkan yang lain disebut diskriminator, dilatih untuk mengetahui perbedaan antara konten asli dan palsu.
Generator membuat gambar kandidat dan menunjukkannya kepada diskriminator. Berdasarkan masukan tersebut, generator memperbarui prediksinya, menjadi lebih baik dan lebih baik dalam “menipu” diskriminator. Setelah ia dapat mengelabui pembeda sebanyak 50% (sama seperti lemparan koin antara asli dan palsu), putaran pelatihan umpan balik berhenti. Bagian generator GAN kemudian siap untuk evaluasi dan produksi.
Sejak tahun 2014, ratusan variasi GAN telah dikembangkan untuk berbagai kasus penggunaan dan untuk menyeimbangkan kelebihan dan kekurangan GAN.
Keuntungan dan kerugian
Jaringan permusuhan generatif, bersama dengan VAE, pada awalnya memicu banyak desas-desus seputar potensi AI generatif. Mereka menggunakan pembelajaran tanpa pengawasan, sehingga model menjadi lebih baik dengan sendirinya tanpa peneliti perlu mengetahui apakah keluarannya baik atau buruk. Jaringan permusuhan generatif juga berhasil belajar dengan sangat cepat; dibandingkan dengan solusi lain yang ada saat pertama kali dirilis, solusi ini bisa mendapatkan hasil yang baik dengan data pelatihan yang jauh lebih sedikit—ratusan gambar dibandingkan ribuan.
Namun, GAN umumnya kesulitan membuat konten yang tidak menyerupai data pelatihannya—mereka adalah peniru identitas, bukan pembuat konten. Dan terkadang mereka bisa “overfit” pada data pelatihannya, seperti saat GAN membuat gambar foto kucing berisi huruf karena banyak diperlihatkan meme kucing.
Melatih GAN adalah sebuah tantangan. Dua jaringan harus disulap selama pelatihan. Permasalahan juga dapat muncul jika diskriminatornya terlalu baik, sehingga menyebabkan siklus pelatihan tidak pernah berakhir—atau jika diskriminatornya tidak cukup baik, sehingga menghasilkan hasil yang buruk. Mereka juga dapat mengalami apa yang disebut keruntuhan mode, yaitu kegagalan menghasilkan keluaran yang beragam karena generator mempelajari beberapa cara untuk mengelabui pelaku diskriminasi dan berfokus pada strategi tersebut dan mengesampingkan strategi lainnya.
Kasus penggunaan
Jaringan permusuhan generatif digunakan terutama untuk menghasilkan konten yang sangat mirip dengan aslinya. Misalnya, mereka dapat menghasilkan wajah manusia yang meyakinkan atau foto interior atau lanskap yang realistis untuk digunakan dalam stok fotografi atau video game. Mereka juga dapat membuat gambar yang telah diubah dengan cara tertentu, seperti mengubah gambar dari warna menjadi hitam putih atau menua wajah dalam gambar. Meskipun demikian, tidak semua GAN menghasilkan gambar. Misalnya, beberapa GAN telah digunakan untuk menghasilkan keluaran text-to-speech.
Model difusi
Model difusi juga muncul pada pertengahan tahun 2010-an, menawarkan beberapa terobosan yang memberikan kinerja lebih baik pada awal tahun 2020-an. Mereka mendukung alat penghasil gambar seperti DALL-E, Difusi Stabil, dan Midjourney.
Model difusi bekerja dengan memasukkan derau Gaussian ke suatu gambar, mendistorsinya dalam serangkaian langkah, lalu melatih model untuk membalikkan langkah-langkah tersebut dan mengubah gambar yang “berisik” menjadi gambar yang jelas. (“Gaussian noise” berarti kebisingan ditambahkan secara acak menggunakan kurva probabilitas lonceng.)
Anda dapat menganggap gambar berisik seperti pengkodean VAE, dan memang VAE dan model difusi saling terkait. Gambar data pelatihan, misalnya, kue jeruk nipis, akan menghasilkan versi berisik yang sangat mirip. Namun bahkan gambar berisik yang sama tidak akan selalu “ditolak” menjadi hal yang sama, karena model selalu membuat tebakan yang cerdas.
Anda mungkin sudah mengetahui di mana bagian generatif berperan. Jika Anda memberikan model representasi gambar di ruang yang bising, model tersebut akan dapat menghilangkan noise pada gambar dan menghasilkan gambar yang benar-benar baru dan jelas. Ini seperti bagaimana dekoder mengambil sampel dari pengkodean. Namun ada satu perbedaan penting: Tidak ada kompresi apa pun selama prosesnya. Jadi tidak ada data yang benar-benar hilang, dan gambar yang dihasilkan akan memiliki kualitas lebih tinggi.
Alat AI generatif yang beralih dari perintah teks ke gambar melakukannya dengan bantuan model terpisah yang memahami bagaimana sesuatu seperti “kue ulang tahun bertema unicorn” dapat dipetakan ke fitur gambar yang berbeda. Versi berisik dari fitur-fitur tersebut kemudian dibalik untuk menampilkan gambaran yang jelas.
Keuntungan dan kerugian
Model difusi tidak memampatkan data pelatihan, sehingga berhasil menghasilkan gambar yang sangat realistis dan berkualitas tinggi. Namun, pelatihan ini membutuhkan lebih banyak sumber daya dan waktu dibandingkan model lainnya. Meskipun demikian, pelatihannya sendiri lebih mudah karena tidak mengalami mode runtuhnya GAN dan kelemahan lain dari jaringan musuh. Mereka juga tidak mengalami kehilangan data (dan menghasilkan keluaran dengan kualitas lebih rendah) seperti yang dimiliki VAE.
Kasus penggunaan
Model difusi terutama digunakan untuk pembuatan gambar, suara, dan video. Tidak ada alasan mengapa model tersebut tidak dapat digunakan untuk menghasilkan teks juga, namun sejauh ini, model berbasis transformator lebih efektif untuk bahasa alami.
Model bahasa
Model bahasa mengacu pada teknik ML apa pun yang menghasilkan model probabilistik bahasa alami. Jenis model bahasa yang paling terkenal saat ini adalah LLM, yang dilatih pada data mentah dalam jumlah besar dan menggunakan arsitektur berbasis transformator untuk menghasilkan teks. (Lebih lanjut tentang transformator di bagian selanjutnya.)
Sebelum model berbasis transformator, sebagian besar model bahasa canggih menggunakan jaringan saraf berulang (RNN). RNN memperkenalkan loop kecil dalam interkoneksi antar node sehingga selain belajar dari sinyal yang ada, seperti pada jaringan saraf feedforward (FNN) tradisional, node juga dapat belajar dari masa lalu. Hal ini penting untuk memproses atau menghasilkan bahasa alami, seperti aliran teks atau masukan suara. Berbeda dengan gambar, bahasa sangat kontekstual—cara kita menafsirkannya bergantung pada apa yang telah terjadi sebelumnya.
Keuntungan dan kerugian
Karena “model bahasa” mengacu pada sekelompok besar model, sulit untuk menggeneralisasi kelebihan dan kekurangannya. Tantangan pemodelan bahasa mencakup fakta bahwa bahasa memiliki dimensi yang sangat tinggi—ada banyak sekali kata yang berbeda dalam bahasa tertentu, dan beberapa kombinasi mungkin tidak pernah muncul dalam data pelatihan.
Lebih jauh lagi, bahasa sangat bergantung pada konteks dari apa yang terjadi sebelumnya dalam rangkaian tersebut, sehingga memerlukan jaringan untuk menangani atau mewakili konteks tersebut dengan cara tertentu. Kapasitas untuk memenuhi kebutuhan ini telah menyebabkan RNN dengan memori jangka panjang dan pendek serta transformator, yang dapat memproses seluruh kalimat secara keseluruhan, muncul sebagai arsitektur tercanggih untuk model bahasa.
Kasus penggunaan
Model bahasa dapat digunakan untuk penerjemahan, peringkasan, koreksi kesalahan tata bahasa, pengenalan ucapan, dan banyak lagi tugas lainnya. Mereka digunakan untuk menghasilkan konten teks kreatif baru dengan banyak aplikasi dan terbukti mampu melakukan penalaran tingkat lanjut, seperti menganalisis data dan memecahkan teka-teki logika. Menariknya, penelitian menemukan bahwa kemampuan yang muncul dari LLM adalah kesadaran spasial dan kemampuan membuat gambar dasar, meskipun mereka dilatih sepenuhnya dalam bentuk teks.
Model berbasis transformator
Transformers, ditemukan oleh para peneliti di Google dan Universitas Toronto pada tahun 2017, merevolusi bidang pembelajaran mendalam. LLM seperti ChatGPT adalah model berbasis transformator, dan hasil penelusuran Google juga didukung oleh transformator.
Model berbasis transformator menggunakan data pelatihannya untuk mempelajari keterhubungan kata-kata yang berbeda. Misalnya, ia mungkin belajar bahwacakedanpiesecara konseptual serupa, sedangkancakedancapetidak berhubungan langsung. Ia mungkin juga belajar bahwairisandapat dikaitkan dengankuedanpai, terutama jika kata-kata tersebut muncul berdekatan.
Saat menganalisis teks, model menggunakan pemahaman dasar ini untuk membuat sesuatu yang menyerupai spreadsheet besar. Itu dapat mencari dua kata apa pun dalam teks dan mendapatkan jawaban tentang seberapa terkaitnya kata-kata tersebut.
Dengan memanfaatkan isyarat kontekstual ini, model transformator dengan mahir menafsirkan bahasa dan memperkirakan potensi kesinambungan dalam percakapan. Misalnya, jika seseorang menyebutkan kue di satu segmen dan kemudian beralih ke pembahasan ulang tahunnya di segmen berikutnya, model tersebut mengantisipasi penyebutan lilin atau pesta, berdasarkan hubungan linguistik yang ada.
Keuntungan dan kerugian
Dalam hal menganalisis dan menghasilkan bahasa, transformator memiliki beberapa keunggulan dibandingkan RNNS, pendahulunya. Mereka dapat memproses teks secara paralel di seluruh jaringan daripada memproses setiap kata secara berurutan. Hal ini membuat mereka lebih cepat dan efisien untuk berlatih pada kumpulan data yang sangat besar. Mereka juga dapat menghubungkan kata-kata terlepas dari seberapa jauh jaraknya, sehingga mereka dapat memanfaatkan lebih banyak konteks dari teks.
Namun, transformator memerlukan banyak data agar dapat bekerja dengan baik, dan dengan kumpulan data yang lebih kecil, arsitektur jaringan saraf yang lebih tradisional mungkin bekerja lebih baik.
Kasus penggunaan
Transformers memiliki banyak aplikasi AI generatif. Meskipun model berbasis transformator biasanya digunakan untuk menghasilkan teks atau ucapan, para peneliti sedang menjajaki penggunaannya untuk menghasilkan gambar, karena model ini kurang intensif secara komputasi dibandingkan model difusi.
Yang paling terkenal, LLM adalah model berbasis transformator. Model bahasa hanya menggunakan bagian decoder dari arsitekturnya. Perintah tersebut dimasukkan ke dalam model sebagai pengkodean—kumpulan nilai numerik, probabilitas, dan data perhatian yang telah kami sebutkan sebelumnya. Model ini menerjemahkan masukan menggunakan mekanisme perhatian diri dan dengan melihat semua kata dalam perintah secara paralel. Tujuan model ini adalah menghasilkan prediksi untuk kata berikutnya dalam kalimat.
Transformers memiliki banyak aplikasi selain menghasilkan teks dalam pemrosesan bahasa alami. Faktanya, mereka awalnya dirancang untuk menerjemahkan, atau mengubah, teks dari satu bahasa ke bahasa lain. Grammarly telah menyumbangkan penelitian terhadap penggunaan transformator untuk memperbaiki kesalahan tata bahasa.
Kesimpulan
Model AI generatif telah berkembang pesat dalam satu dekade terakhir. Kami berharap sekarang Anda memahami lebih banyak tentang evolusi model ini, cara kerjanya, dan cara penerapannya pada kasus penggunaan yang berbeda. Namun, artikel ini baru menyentuh permukaan saja, dan mengabaikan banyak detail penting dengan tujuan memberikan gambaran umum bagi pembaca rata-rata. Kami mendorong Anda untuk terus mempelajari matematika dan sains di balik model ini dengan mempelajari makalah penelitian yang menjadi dasarnya dan mempelajari lebih lanjut cara kerjanya dari perspektif probabilistik dan statistik.