Penjelasan Pembelajaran Sedikit-Jelas: Mentransformasi AI Dengan Data Minimal
Diterbitkan: 2025-01-13Pembelajaran beberapa kali (FSL) mentransformasi pembelajaran mesin (ML) dengan memungkinkan model mempelajari dan menghasilkan keluaran yang akurat hanya dari beberapa contoh, tidak seperti metode tradisional yang memerlukan kumpulan data yang sangat besar. Panduan ini mengeksplorasi cara kerja FSL, penerapannya, perbandingan dengan zero-shot learning (ZSL), serta tantangan dan potensinya.
Daftar isi
- Apa yang dimaksud dengan pembelajaran beberapa langkah?
- Pembelajaran beberapa kali vs. dorongan beberapa kali: Apa bedanya?
- Cara kerja pembelajaran beberapa langkah
- Pembelajaran sekilas vs. pembelajaran zero-shot
- Aplikasi untuk pembelajaran beberapa kali
- Manfaat pembelajaran beberapa kali
- Tantangan pembelajaran beberapa langkah
Apa itu pembelajaran beberapa langkah (FSL)?
Pembelajaran beberapa kali (FSL) mengacu pada rangkaian teknik ML yang dirancang untuk membuat model yang dapat disesuaikan dan mampu menghasilkan keluaran yang akurat setelah dilatih hanya pada beberapa contoh berlabel per kategori. Jika hanya tersedia satu contoh berlabel per kategori, hal ini disebut pembelajaran sekali pakai. Misalnya, ponsel cerdas modern memanfaatkan FSL untuk mengenali wajah pengguna hanya dengan beberapa foto—atau bahkan satu foto.
FSL sangat berharga karena memungkinkan model ML mengatasi masalah ketika data langka, seperti yang sering terjadi di dunia nyata. Model FSL juga dapat menangani tugas yang lebih luas dibandingkan model pembelajaran terawasi tradisional karena model tersebut belajar menggeneralisasi. Hal ini menghemat sumber daya karena seringkali lebih murah dan cepat untuk mengadaptasi model FSL ke tugas baru dibandingkan melatih model yang benar-benar baru dari awal. FSL sering digambarkan sebagai mengajarkan model ML untuk “berpikir” lebih seperti manusia dengan belajar mengabstraksi hanya dari beberapa contoh.
FSL sering digunakan untuk aplikasi computer vision tetapi juga digunakan dalam robotika dan pemrosesan bahasa alami (NLP). Misalnya, FSL telah digunakan untuk menerjemahkan teks-teks Sumeria kuno—tugas yang berguna mengingat terbatasnya jumlah ahli bahasa Sumeria. Model FSL penerjemah Sumeria mempelajari cara menerjemahkan hanya dari sekumpulan kecil sampel tablet paku berkualitas tinggi. Mereka kemudian secara akurat menerjemahkan sejumlah besar teks asing untuk dianalisis oleh para sarjana.
Pembelajaran beberapa kali vs. dorongan beberapa kali: Apa bedanya?
FSL dan some-shot prompting adalah konsep terkait dalam ML dan NLP, namun memiliki tujuan yang berbeda.
Pembelajaran singkat
FSL adalah teknik pelatihan model yang mengajarkan model untuk mengklasifikasikan data yang tidak terlihat. Ia bekerja dengan menyesuaikan parameter model untuk beradaptasi dengan jenis tugas klasifikasi baru, memanfaatkan pengetahuan sebelumnya. FSL terkait dengan pembelajaran yang diawasi, namun perbedaannya adalah model FSL dilatih pada kumpulan data yang jauh lebih terbatas.
Dorongan beberapa kali
Prompt beberapa kali adalah cara bekerja dengan model bahasa besar (LLM). Model ini menggunakan pembelajaran dalam konteks—jenis pembelajaran di mana model menggunakan informasi dari perintah, seperti format dan sentimen, untuk memprediksi keluaran. Tidak seperti FSL dan pembelajaran terawasi tradisional, dorongan beberapa langkah tidak melibatkan perubahan parameter LLM. Saat Anda menggunakan prompt beberapa langkah, Anda memberikan LLM beberapa contoh jenis respons yang Anda cari. Seperti FSL, dorongan beberapa langkah adalah tentang membantu model menggeneralisasi dengan memaparkannya pada beberapa contoh tugas serupa.
Cara kerja pembelajaran beberapa langkah
Pembelajaran beberapa kali melibatkan dua tahap: Pertama, model dilatih terlebih dahulu berdasarkan kumpulan data umum untuk mempelajari dunia. Kemudian mereka menjalani adaptasi tugas, di mana model belajar bagaimana melakukan generalisasi dari sampel data kecil.
Pra-pelatihan
Tahap pertama untuk sebagian besar model FSL dimulai dengan pra-pelatihan pada kumpulan data berlabel besar, seperti pembelajaran yang diawasi. Model melakukan ekstraksi fitur pada kumpulan data ini dan belajar mengklasifikasikan contoh dengan mengembangkan basis pengetahuan tentang pola dan hubungan dalam data.
Adaptasi tugas
Setelah pra-pelatihan, tahap FSL selanjutnya adalah melatih model untuk menggeneralisasi tugas klasifikasi baru. Ini disebut adaptasi tugas dan terjadi pada beberapa episode pelatihan.
Dalam setiap episode, terdapat kumpulan dukungan yang terdiri dari dua hingga lima contoh untuk dipelajari model dan kumpulan kueri dengan target tak terlihat untuk dicoba diklasifikasi oleh model. Kerangka kerja ini disebut klasifikasi N-way K-shot, di manaNmengacu pada jumlah kategori (disebut kelas), danKmengacu pada jumlah contoh berlabel (shot) dari setiap kategori.
Semua model FSL dirancang untuk mencapai adaptasi tugas. Dalam rangkaian teknik FSL, salah satu bidang penelitian yang paling penting dan menarik adalah pembelajaran meta.
Pendekatan pembelajaran meta
Pembelajaran meta melibatkan pemaparan model pada tugas-tugas yang serupa atau terkait dengan tugas klasifikasi yang awalnya dilatih untuk diselesaikan oleh model. Ia hanya mendapat beberapa contoh dari setiap tugas baru, namun dari contoh tersebut, ia belajar menggeneralisasi dengan mengembangkan kerangka meta tentang apa yang harus dilakukan ketika diberi tugas yang tidak biasa.
Secara garis besar, ada tiga macam pendekatan meta-learning:
- Pembelajaran berbasis optimasi:Ini mencakup pendekatan yang melatih model untuk meningkatkan parameternya dengan cepat. Beberapa di antaranya menggunakan proses dua tahap di mana pembelajar dilatih pada tugas tertentu dan kemudian pembelajar meta menggunakan fungsi kerugian dari tahap pembelajar untuk meningkatkan parameter model untuk tugas berikutnya.
- Pembelajaran tingkat metrik:Digunakan sebagian besar untuk tugas-tugas visi komputer, pembelajaran metrik bekerja dengan memetakan fitur-fitur yang diekstraksi dalam ruang penyematan dan menggunakan jarak antar fitur pada peta untuk menghasilkan kemungkinan bahwa dua gambar serupa.
- Pembelajaran meta model-agnostik (MAML):Di MAML, tujuan proses pelatihan adalah untuk mengurangi jumlah langkah gradien yang diperlukan untuk mengoptimalkan parameter model, apa pun tugasnya. MAML menganalisis proses pembelajaran untuk tugas-tugas, menyimpulkan pola bagaimana proses tersebut bekerja, dan mengembangkan model yang bertindak sebagai jalan pintas, mempercepat proses pembelajaran dengan setiap tugas baru yang dilihatnya.
Daftar arsitektur model yang menggunakan teknik pembelajaran meta terus bertambah seiring para peneliti menemukan cara baru untuk membantu model agar dapat beradaptasi.
Pendekatan pembelajaran non-meta
Ada juga metode FSL dan FSL yang berdekatan yang tidak menggunakan meta-learning. FSL terkadang diterapkan bersamaan dengan teknik berikut untuk menciptakan pendekatan hibrid:
- Pembelajaran transfer:Metode ini melibatkan pengambilan model terlatih dan menyempurnakan lapisan luar jaringan saraf. Pembelajaran transfer lebih berguna dalam skenario ketika tugas yang Anda ingin model lakukan dekat dengan tugas yang telah dilatihnya.
- Augmentasi data:FSL dapat diperkuat dengan augmentasi data, yang melibatkan penggunaan data terbatas Anda sebagai basis untuk membuat data sintetis menggunakan jaringan permusuhan generatif (GAN) atau autoencoder variasional untuk meningkatkan jumlah sampel untuk set pelatihan Anda.
Pembelajaran sekilas vs. pembelajaran zero-shot
Pembelajaran beberapa kali (atau pembelajaran satu kali) sering kali digunakan dalam skenario di mana terdapat data terbatas namun berkualitas tinggi untuk melatih suatu model. Namun bagaimana jika Anda tidak memiliki data berkualitas tinggi sama sekali? Dalam pembelajaran zero-shot (ZSL), Anda tidak memberikan contoh pada model Anda dan sebaliknya memintanya untuk hanya mengandalkan pengetahuan sebelumnya dan penyematan semantik yang dapat digunakan untuk menangani tugas-tugas asing.
ZSL menawarkan solusi cepat dan fleksibel untuk menangani situasi dengan data yang sangat sedikit. Namun, model ZSL mungkin mengalami kesulitan dalam peralihan domain—artinya model tersebut mungkin mengalami kesulitan jika jenis data yang dilihatnya terlalu berbeda dari basis pengetahuannya—dan mungkin sulit untuk mengevaluasi seberapa baik kinerja suatu model.
Aplikasi untuk pembelajaran beberapa kali
Aplikasi untuk FSL sangat luas dan terus berkembang, namun memiliki potensi besar untuk berguna di area dimana contoh yang tersedia relatif sedikit. Beberapa bidang penelitian terbaru untuk kasus penggunaan meliputi:
- Diagnostik medis:FSL dapat membantu klasifikasi tumor berbasis gambar ketika data berlabel tidak cukup untuk membantu model pembelajaran tradisional yang diawasi.
- Penginderaan jarak jauh:FSL dapat mempercepat tugas penginderaan jauh seperti menggunakan rekaman UAV untuk menilai dampak bencana lingkungan.
- Pembuatan prototipe mobil balap F1:Model FSL telah dilatih sebelumnya tentang dinamika fluida dan aerodinamis serta data lainnya untuk ratusan mobil dalam ribuan balapan. Mereka kemudian menggunakan FSL untuk memprediksi aerodinamis dan degradasi komponen prototipe mobil baru berdasarkan sejumlah kecil uji coba yang mahal.
- Terjemahan mesin:FSL telah membantu membangun mesin penerjemah yang lebih efisien yang menggunakan sedikit masukan dan dapat menangkap nuansa dialek dan variasi regional dengan akurasi yang belum pernah terjadi sebelumnya.
- Robotika:FSL digunakan untuk mengajari robot belajar menggenggam objek dengan menonton demonstrasi manusia.
- Analisis sentimen:Model FSL yang awalnya dilatih tentang ulasan hotel dapat digunakan untuk mengklasifikasikan ulasan restoran.
FSL juga merupakan bagian dari upaya untuk membangun kecerdasan umum buatan karena lebih meniru cara manusia mendekati pemecahan masalah.
Manfaat pembelajaran beberapa kali
Manfaat utama model FSL adalah model tersebut dapat menangani masalah ketika data tersedia terbatas, dan dapat membantu mengurangi sumber daya komputasi dan finansial yang diperlukan untuk melatih model baru.
Generalisasi dengan data terbatas
Model FSL dapat melakukan hal ini karena tidak menghafal gambar, suara, atau bahasa melalui banyak iterasi. Sebaliknya, mereka belajar menganalisis persamaan dan perbedaan dengan cepat. Meskipun model tradisional unggul dalam tugas yang sangat spesifik seperti mengidentifikasi spesies burung tertentu atau mencocokkan sidik jari, model ini gagal segera setelah Anda memintanya menyelesaikan tugas lainnya.
Menggunakan lebih sedikit sumber daya
Teknik seperti MAML adalah cara yang jauh lebih efisien untuk menggunakan sumber daya pelatihan model. Hal ini memungkinkan model berskala besar yang sangat mahal untuk diadaptasi dengan cepat dan efisien ke kasus penggunaan tertentu tanpa langkah pelatihan ulang yang mahal. Salah satu tantangan besar dalam pembelajaran mesin adalah berapa banyak data yang diperlukan untuk melatih model agar menghasilkan keluaran yang berguna, baik dalam hal kompilasi kumpulan data yang besar dan berkualitas tinggi serta berapa banyak waktu dan komputasi yang diperlukan. FSL berjanji untuk memecahkan banyak masalah dunia nyata di mana data langka atau melintasi domain.
Tantangan pembelajaran beberapa langkah
Meskipun menjanjikan, FSL memiliki tantangan yang dapat menghambat efektivitas model.
Keterlaluan
Penggunaan kumpulan data yang terbatas dapat menyebabkan overfitting, yaitu model yang terlalu selaras dengan data dalam kumpulan pelatihannya dan kesulitan untuk melakukan generalisasi. Ini adalah masalah umum di ML yang lebih sering terjadi dengan FSL dibandingkan dengan pendekatan ML lainnya. Model FSL yang overfits akan berperforma baik pada data pengujian tetapi tidak akan mengidentifikasi kategori baru jika disajikan dengan contoh dunia nyata. Untuk mencegah hal ini, penting untuk memiliki keragaman dalam sampel terbatas yang digunakan untuk pelatihan beberapa kali. Augmentasi data, yang dibahas di atas, mencoba mengurangi overfitting dengan mensintesis lebih banyak contoh untuk pelatihan.
Kualitas data
Data berkualitas tinggi baik pada tahap pra-pelatihan maupun tahap pembelajaran beberapa tahap adalah penting. Model FSL lebih mudah terhambat oleh data yang berisik dan diberi label yang buruk. Model ini juga tidak akan berfungsi dengan baik jika data memiliki terlalu banyak jenis data dan tidak ada jenis data lainnya, atau memiliki terlalu banyak fitur untuk dianalisis oleh model; dalam kasus ini, hal tersebut cenderung menjadi terlalu rumit. Peneliti terkadang dapat mengatasi masalah ini dengan menggunakan teknik regularisasi, yaitu cara memuluskan data guna membantu model mengetahui apa yang harus diperhatikan dan apa yang harus diabaikan.