Penjelasan Pembelajaran Zero-Shot: Masa Depan Pembelajaran Mesin Tanpa Label
Diterbitkan: 2025-01-13Zero-shot learning (ZSL) merevolusi pembelajaran mesin (ML) dengan memungkinkan model mengklasifikasikan atau memprediksi hasil untuk konsep yang belum pernah mereka temui sebelumnya, menandai perubahan dari pendekatan tradisional yang memerlukan data berlabel ekstensif. Panduan ini mengeksplorasi cara kerja ZSL, penerapannya, perbandingannya dengan pembelajaran beberapa tahap (FSL), serta tantangan dan potensi masa depan.
Daftar isi
- Apa itu pembelajaran zero-shot?
- Cara kerja pembelajaran zero-shot
- Pembelajaran zero-shot vs. pembelajaran beberapa-shot dan pembelajaran one-shot
- Pembelajaran zero-shot vs. dorongan zero-shot
- Penerapan pembelajaran zero-shot
- Manfaat pembelajaran zero-shot
- Tantangan pembelajaran zero-shot
Apa itu pembelajaran zero-shot (ZSL)?
ZSL memungkinkan model pembelajaran mesin membuat prediksi tentang kategori yang tidak terlihat tanpa memerlukan contoh pelatihan khusus untuk kategori tersebut. Tidak seperti model pembelajaran terawasi tradisional, yang sangat bergantung pada kumpulan data berlabel di mana setiap kategori harus diwakili secara eksplisit, ZSL memanfaatkan informasi tambahan—seperti penyematan atau atribut semantik—untuk menggeneralisasi pengetahuan.
Misalnya, model pembelajaran terawasi yang dilatih untuk mengklasifikasikan hewan memerlukan contoh berlabel “anjing”, “kucing”, dan “zebra” untuk mengenalinya, sedangkan model ZSL yang dilatih dengan gambar hewan dapat mengidentifikasi zebra berdasarkan atribut deskriptif seperti “ bergaris” dan “seperti kuda”, bahkan tanpa paparan contoh sebelumnya. Hal ini membuat ZSL sangat berguna untuk tugas-tugas yang melibatkan kumpulan data besar yang tidak berlabel atau situasi di mana pengumpulan data berlabel tidak praktis. Penerapannya mencakup visi komputer, pemrosesan bahasa alami (NLP), robotika, dan banyak lagi.
Cara kerja pembelajaran zero-shot
Model ZSL pertama kali dilatih sebelumnya pada kumpulan data berlabel besar untuk membuat basis pengetahuan. Model ini mengekstrak informasi tambahan dari data berlabel, termasuk fitur seperti warna, bentuk, dan sentimen.
Ia kemudian menggunakan fitur-fitur tersebut untuk memetakan hubungan semantik antara kategori (atau kelas) data yang terlihat dan tidak terlihat. Proses ini, yang disebut transfer pengetahuan, memungkinkan model ZSL untuk memahami, misalnya, bahwa bebek dan angsa berkerabat karena keduanya memiliki paruh, bulu, dan kaki berselaput.
Teknik yang paling umum adalah ZSL berbasis atribut, ZSL berbasis penyematan semantik, dan ZSL umum. Di bawah ini, kami memeriksa masing-masing.
Pembelajaran zero-shot berbasis atribut
Model ZSL berbasis atribut paling sering digunakan untuk tugas visi komputer. Mereka bekerja dengan melatih kumpulan data gambar yang diberi label manusia. Label terdiri dari atribut yang dianggap berguna oleh orang yang diberi label. Untuk setiap gambar, orang tersebut menerapkan deskripsi teks tentang fitur-fiturnya, seperti warna, bentuk, atau karakteristik lainnya.
Misalnya, dalam klasifikasi gambar, atribut seperti “abu-abu”, “berkaki empat”, dan “anjing” mungkin mendeskripsikan kategori yang berbeda. Melalui pelatihan, model belajar mengaitkan atribut-atribut ini dengan kategori tertentu.
Saat Anda menunjukkan contoh sesuatu yang baru kepada model—seperti jenis hewan yang belum pernah dilihatnya—model tersebut dapat mengetahui apakah model tersebut sedang melihat kelas yang serupa tetapi tidak sama dengan kelas yang terlihat dalam pelatihan.
Saat model menemukan kategori yang tidak terlihat—misalnya, serigala—model dapat menyimpulkan kelas dengan menganalisis atribut yang sama dengan kategori yang dipelajari, meskipun label “serigala” tidak secara eksplisit menjadi bagian dari pelatihan. Atribut yang dapat diinterpretasikan manusia ini meningkatkan kemampuan menjelaskan dan memungkinkan model untuk melakukan generalisasi ke kelas baru.
Pembelajaran zero-shot berbasis penyematan semantik
Pendekatan ini mirip dengan ZSL berbasis atribut, namun alih-alih manusia membuat label atribut untuk pelatihan, model tersebut menghasilkan apa yang dikenal sebagai penyematan semantik pada data pelatihan. Penyematan semantik ini dikodekan sebagai vektor—cara matematis untuk merepresentasikan objek dunia nyata—dan kemudian dipetakan dalam ruang penyematan.
Ruang penyematan memungkinkan model untuk mengatur pengetahuan kontekstualnya dengan mengelompokkan informasi terkait secara lebih berdekatan. Misalnya, kategori “anjing” dan “serigala” akan lebih dekat satu sama lain dalam ruang penyematan dibandingkan kategori “anjing” dan “burung”, karena fitur semantik yang sama. Hal ini mirip dengan bagaimana model bahasa besar (LLM) menggunakan penyematan semantik untuk mengelompokkan sinonim karena maknanya yang serupa.
Ketika model diberi kategori yang tidak terlihat (cara lain untuk mengatakan “data baru yang belum pernah ditemui model sebelumnya”), model memproyeksikan vektor dari kelas-kelas baru tersebut ke dalam ruang penyematan yang sama dan mengukur jarak antara data tersebut dan vektor untuk kelas-kelas yang sudah diketahuinya. tentang. Hal ini memberikan konteks model untuk contoh-contoh yang tidak terlihat dan memungkinkannya menyimpulkan hubungan semantik antara kelas yang diketahui dan tidak diketahui.
Pembelajaran zero-shot yang digeneralisasi
Kebanyakan teknik pembelajaran zero-shot melatih model pada satu jenis data dan kemudian menerapkannya pada masalah berbeda namun terkait. Itulah gagasan “zero shot”: model tidak terpapar pada contoh kelas baru apa pun sebelum bertemu dengan mereka di alam liar.
Namun, aplikasi di dunia nyata tidak selalu hitam dan putih. Kumpulan data yang Anda ingin klasifikasikan oleh model ZSL Anda mungkin berisi hal-hal dari kelas yang dikenal bersama dengan kelas baru.
Masalahnya adalah model ZSL tradisional terkadang menunjukkan bias yang kuat dalam memberi label yang salah pada kelas baru sebagai hal yang sudah diketahui jika Anda menggabungkan kelas baru dan familiar. Jadi, ada gunanya memiliki model ZSL yang bisa menggeneralisasi ke kumpulan data yang mungkin berisi kelas yang sudah terlihat dalam pelatihan.
Dalam ZSL yang digeneralisasi, model mengambil langkah tambahan untuk mengurangi bias terhadap kategori yang diketahui. Sebelum melakukan klasifikasi, terlebih dahulu diputuskan apakah objek yang dimaksud termasuk dalam kelas yang diketahui atau tidak.
Pembelajaran zero-shot vs. pembelajaran beberapa-shot dan pembelajaran one-shot
Seperti ZSL, pembelajaran beberapa tahap (FSL) dan pembelajaran satu tahap (OSL) memungkinkan model pembelajaran mendalam untuk melakukan tugas baru dengan sedikit atau tanpa data baru. Ketiga pendekatan tersebut mengandalkan pemetaan hubungan antara fitur dari contoh yang diketahui untuk menyimpulkan pola dalam contoh yang tidak diketahui. Tujuan utama mereka adalah menciptakan model yang efektif dalam skenario dunia nyata ketika data langka atau ketika tidak ada waktu untuk melatih model baru untuk tugas tertentu.
Perbedaan utamanya terletak pada cara mereka menangani data baru:
- FSLmelibatkan penyediaan model dengan sejumlah kecil contoh berlabel untuk kelas baru yang perlu diidentifikasi.
- OSLadalah kasus yang lebih spesifik, dimana model ditampilkan hanya satu contoh berlabel dari kelas baru.
FSL dan OSL memerlukan langkah pelatihan tambahan dibandingkan dengan ZSL, sehingga meningkatkan waktu yang dibutuhkan untuk mempelajari tugas-tugas baru. Namun, pelatihan tambahan ini membekali mereka untuk menangani tugas-tugas yang sangat menyimpang dari pengetahuan model yang telah dilatih sebelumnya, sehingga membuat mereka lebih mudah beradaptasi dalam praktik.
Meskipun ZSL sering dianggap “fleksibel” karena tidak memerlukan contoh berlabel untuk tugas baru, fleksibilitas ini sebagian besar bersifat teoretis. Dalam aplikasi dunia nyata, metode ZSL dapat kesulitan dengan:
- Tugas yang melibatkan campuran contoh yang terlihat dan tidak terlihat (misalnya, skenario ZSL yang digeneralisasi)
- Tugas yang secara substansial berbeda dari data pelatihan model
Model ZSL juga sensitif terhadap faktor-faktor seperti bagaimana kumpulan data dipecah selama pra-pelatihan dan evaluasi, yang dapat memengaruhi performa. Di sisi lain, FSL dan OSL menawarkan fleksibilitas yang lebih praktis untuk adaptasi tugas dengan memasukkan contoh-contoh baru ke dalam proses pembelajaran, sehingga memungkinkan mereka bekerja lebih baik dalam beragam skenario.
Pembelajaran zero-shot vs. dorongan zero-shot
ZSL adalah jenis arsitektur model yang dirancang untuk berbagai tugas pembelajaran mendalam. Sebaliknya, zero-shot prompt mengacu pada meminta LLM seperti ChatGPT atau Claude untuk menghasilkan keluaran tanpa memberikan contoh spesifik dalam prompt untuk memandu responsnya. Dalam kedua kasus tersebut, model melakukan tugas tanpa contoh eksplisit tentang apa yang terlibat dalam tugas tersebut.
Dalam perintah zero-shot, Anda tidak memberikan contoh apa pun yang terkait dengan tugas tersebut kepada model. Sebaliknya, Anda mengandalkan pengetahuan terlatih LLM untuk menyimpulkan dan melaksanakan tugas.
Misalnya, Anda dapat memasukkan teks ulasan restoran dan meminta LLM untuk mengklasifikasikannya sebagai positif, netral, atau negatif—tanpa memberikan contoh ulasan apa pun untuk digunakan sebagai referensi. LLM akan memanfaatkan pra-pelatihannya untuk menentukan label yang sesuai untuk peninjauan.
Meskipun pembelajaran zero-shot dan zero-shot prompting memiliki konsep yang sama dalam melakukan tugas tanpa contoh, terdapat perbedaan utama:
- Pembelajaran zero-shotadalah jenis arsitektur model yang dibangun untuk tugas-tugas tersebut.
- Prompt zero-shotadalah teknik khusus untuk berinteraksi dengan LLM, bukan arsitektur model.
Penerapan pembelajaran zero-shot
Karena fokusnya dalam membantu model pembelajaran mendalam beradaptasi dengan tugas-tugas baru, ZSL memiliki aplikasi di banyak bidang ML, termasuk computer vision, NLP, dan robotika. ZSL dapat digunakan dalam layanan kesehatan, analisis sentimen, layanan pelanggan, terjemahan dokumen, dan keamanan siber, misalnya:
- Analisis sentimen:Ketika berita terkini muncul, model NLP zero-shot dapat melakukan analisis sentimen pada komentar publik untuk memberikan gambaran reaksi publik hampir secara real-time.
- Pemrosesan dokumen multibahasa:Model zero-shot NLP yang dilatih untuk mengekstrak informasi dari dokumen pajak dalam bahasa Inggris dapat melakukan ekstraksi yang sama pada dokumen pajak dalam bahasa Spanyol tanpa pelatihan tambahan.
- Diagnostik medis:Model ZSL telah digunakan untuk mengidentifikasi sinar-X pasien COVID-19 tanpa contoh visual apa pun. Identifikasi tersebut didasarkan pada deskripsi tekstual, yang dibuat oleh dokter yang bekerja di lapangan, tentang seperti apa hasil rontgen positif.
- Chatbot yang lebih bernuansa:Model ZSL NLP dapat memahami bahasa gaul dan idiom yang belum pernah mereka temui sebelumnya saat mengobrol dengan orang lain, sehingga memungkinkan mereka merespons pertanyaan yang belum dilatih secara khusus untuk mereka tangani dengan lebih bermakna.
- Deteksi anomali:ZSL dapat digunakan dalam keamanan siber untuk mendeteksi pola yang tidak biasa dalam aktivitas jaringan atau memberi label pada jenis serangan peretasan baru saat ancaman baru muncul.
Manfaat pembelajaran zero-shot
Pendekatan pembelajaran terawasi tradisional seringkali tidak praktis untuk banyak aplikasi di dunia nyata, mengingat besarnya kumpulan data, waktu pelatihan, uang, dan sumber daya komputasi yang diperlukan. ZSL dapat mengurangi beberapa tantangan tersebut. Manfaatnya mencakup pengurangan biaya yang terkait dengan pelatihan model baru dan mengatasi situasi ketika data langka atau belum tersedia:
Pembangunan yang hemat biaya
Memperoleh dan melakukan kurasi kumpulan data berlabel besar yang diperlukan oleh pembelajaran yang diawasi adalah hal yang mahal dan memakan waktu. Melatih model pada kumpulan data berlabel berkualitas tinggi dapat menghabiskan biaya puluhan ribu dolar, selain biaya server, ruang komputasi awan, dan teknisi.
ZSL menjanjikan dalam menurunkan biaya proyek ML dengan memungkinkan institusi menggunakan kembali model untuk tugas-tugas baru tanpa pelatihan tambahan. Hal ini juga memungkinkan entitas atau individu yang lebih kecil untuk menggunakan kembali model yang dibuat oleh orang lain.
Memecahkan masalah dengan data yang langka
Fleksibilitas ZSL menjadikannya alat yang baik untuk situasi ketika sedikit data tersedia, atau ketika data masih muncul. Misalnya, berguna untuk mendiagnosis penyakit baru ketika informasi belum tersebar luas, atau untuk situasi bencana dimana informasi berkembang pesat. ZSL juga berguna untuk mendeteksi anomali ketika data terlalu besar untuk diproses oleh analis manusia.
Tantangan pembelajaran zero-shot
ZSL sangat bergantung pada data pelatihan berkualitas tinggi selama fase pra-pelatihan untuk memahami hubungan semantik antar kategori dengan cukup baik untuk digeneralisasikan ke kategori baru. Tanpa data berkualitas tinggi, ZSL dapat memberikan hasil yang tidak dapat diandalkan dan terkadang sulit untuk dievaluasi.
Masalah umum yang dihadapi model ZSL mencakup kesulitan beradaptasi dengan tugas-tugas yang berbeda dengan tugas-tugas yang telah dilatihnya dan masalah dengan data pelatihan yang menyebabkannya terlalu bergantung pada label tertentu ketika memprediksi kelas yang tidak terlihat.
Adaptasi domain
Model ZSL memiliki performa terbaik ketika diminta untuk menangani data baru dari domain yang tidak jauh berbeda dari data yang telah dilatih. Misalnya, jika seorang model telah dilatih menggunakan foto diam, model tersebut akan mengalami kesulitan dalam mengklasifikasikan video.
Model ZSL mengandalkan pemetaan informasi tambahan dari data yang tidak diketahui ke data yang diketahui, jadi jika sumber datanya terlalu berbeda, model tidak memiliki cara untuk menggeneralisasi pengetahuannya untuk tugas baru.
Masalah hubness
Masalah hubness di ZSL terjadi ketika model mulai hanya menggunakan beberapa label saat membuat prediksi untuk kategori yang tidak terlihat. Hal ini terjadi ketika banyak titik dalam ruang fitur yang tertanam berkumpul bersama, membentuk “hub” yang membuat model bias terhadap label tertentu.
Hal ini dapat terjadi karena adanya gangguan pada data pelatihan, terlalu banyak contoh dari beberapa jenis data dan tidak cukupnya jenis data lainnya, atau karena penyematan semantik model tidak cukup jelas.