Apa itu Pembelajaran Mendalam?
Diterbitkan: 2024-06-13Apa itu pembelajaran mendalam?
Pembelajaran mendalam adalah bagian dari pembelajaran mesin (ML) yang menggunakan jaringan saraf dengan banyak lapisan, yang dikenal sebagai jaringan saraf dalam (DNN). Jaringan ini terdiri dari banyak unit yang saling berhubungan yang disebut neuron atau node yang bertindak sebagai pendeteksi fitur. Setiap jaringan saraf memiliki lapisan masukan untuk menerima data, lapisan keluaran untuk menghasilkan prediksi, dan beberapa lapisan tersembunyi untuk memproses data dan mengekstrak pola yang bermakna.
Misalnya, lapisan awal mungkin mendeteksi fitur sederhana seperti tepi dan sudut dalam jaringan pengenalan gambar, sementara lapisan yang lebih dalam mungkin mengenali struktur yang lebih kompleks seperti wajah atau objek. Dalam jaringan pemrosesan bahasa, lapisan awal mungkin mengidentifikasi elemen dasar seperti huruf atau suara individual, sementara lapisan yang lebih dalam mungkin memahami tata bahasa, konteks, atau bahkan sentimen yang diungkapkan dalam kalimat.
Meskipun jaringan saraf awal hanya memiliki sedikit lapisan tersembunyi, jaringan saraf dalam memiliki banyak lapisan—terkadang lebih dari seratus. Menambahkan beberapa lapisan tersembunyi membuat jaringan lebih fleksibel dan lebih baik dalam mempelajari pola kompleks yang digeneralisasikan di luar data pelatihan. Akibatnya, sebagian besar jaringan saraf modern adalah jaringan saraf dalam.
Pembelajaran mendalam vs. pembelajaran mesin
Pembelajaran mendalam dan pembelajaran mesin sering disebutkan bersamaan tetapi memiliki perbedaan mendasar. Sederhananya, pembelajaran mendalam adalah jenis pembelajaran mesin. Model pembelajaran mesin adalah salah satu bentuk kecerdasan buatan (AI) yang mempelajari pola data untuk membuat prediksi.
Model pembelajaran mesin seperti regresi linier, hutan acak, k-tetangga terdekat, dan mesin vektor pendukung cukup mudah dan mengandalkan fitur yang ditentukan manusia. Misalnya, manusia menyediakan fitur seperti luas persegi, jumlah kamar tidur, dan karakteristik lingkungan untuk memprediksi harga rumah. Model pembelajaran mesin menyempurnakan pentingnya fitur-fitur ini untuk membuat prediksi, namun keakuratannya bergantung pada kualitas fitur yang disediakan.
Sebaliknya, model pembelajaran mendalam tidak memerlukan fitur yang telah ditentukan sebelumnya. Mereka mempelajari fitur secara mandiri selama pelatihan, dimulai dengan nilai acak dan meningkat seiring waktu. Hal ini memungkinkan mereka menemukan pola penting yang mungkin terlewatkan oleh manusia, sehingga menghasilkan prediksi yang lebih baik. Mereka juga dapat menangani lebih banyak fitur daripada model pembelajaran mesin yang lebih sederhana dan umumnya jauh lebih baik dalam menangani data mentah, seperti gambar dan teks.
Meskipun model pembelajaran mendalam sangat kuat, model yang lebih sederhana terkadang lebih baik. Pembelajaran mendalam membutuhkan kumpulan data yang besar, dan cara kerjanya mungkin sulit untuk dipahami. Model pembelajaran mesin yang lebih sederhana mungkin lebih cocok ketika Anda memiliki lebih sedikit data atau perlu menjelaskan cara model membuat prediksinya.
Seberapa mendalam pembelajaran bekerja
Pembelajaran mendalam menggunakan jaringan saraf dalam untuk memproses dan menganalisis data melalui banyak lapisan, menghasilkan prediksi yang canggih.
1 lapisan masukan
Prosesnya dimulai pada lapisan masukan, tempat neuron mendeteksi informasi dasar. Misalnya, dalam model bahasa, neuron mungkin mengenali huruf individual sepertioataut.
2 lapisan tersembunyi
Selanjutnya, lapisan tersembunyi ikut berperan. Neuron yang diaktifkan di lapisan masukan merangsang neuron di lapisan tersembunyi pertama, yang mendeteksi fitur yang lebih kompleks, seperti kombinasi huruf sepertipada. Jaringan mengidentifikasi fitur-fitur yang semakin abstrak ketika sinyal bergerak melalui lapisan tersembunyi tambahan. Bobot koneksi antar neuron menentukan kekuatan aktivasi ini.
3 Deteksi fitur abstrak
Jaringan mendeteksi lebih banyak fitur abstrak di lapisan tersembunyi yang lebih dalam. Kemampuan ini memungkinkan jaringan saraf dalam menangani tugas-tugas canggih yang memerlukan penalaran abstrak, seperti menulis teks atau mengenali objek dalam gambar.
4 Lapisan keluaran
Terakhir, jaringan menghasilkan prediksi di lapisan keluaran. Setiap neuron di lapisan ini mewakili hasil yang mungkin. Misalnya, dalam melengkapi frasa “pada suatu hari ___,” satu neuron mungkin mewakiliwaktu,mimpilain, dankasurketiga. Jaringan memperkirakan kemungkinan setiap hasil dan memilih hasil yang paling mungkin. Beberapa jaringan, khususnya model bahasa, memperkenalkan variabilitas dengan memilih jawaban yang paling mungkin sepanjang waktu, memastikan keluaran yang beragam dan alami.
Jaringan saraf dalam mempelajari pola dan fitur kompleks dengan memproses masukan melalui banyak lapisan, menjadikannya alat yang ampuh untuk tugas-tugas seperti pengenalan gambar dan pemrosesan bahasa alami (NLP).
Jenis jaringan pembelajaran mendalam
Pembelajaran mendalam mencakup berbagai jenis jaringan saraf, masing-masing dirancang untuk menangani tugas tertentu. Memahami arsitektur yang berbeda-beda ini sangat penting untuk memanfaatkan kemampuan mereka secara efektif.
Jaringan saraf umpan maju (FNN)
Jaringan saraf feedforward, atau jaringan saraf “vanilla”, memproses informasi dalam satu arah: dari masukan ke keluaran. Mereka ideal untuk tugas prediksi sederhana seperti mendeteksi penipuan kartu kredit atau memberikan persetujuan awal pinjaman. Pelatihan terjadi melalui propagasi mundur, menyesuaikan model berdasarkan kesalahan prediksi.
Jaringan saraf berulang (RNN)
Jaringan saraf berulang cocok untuk tugas yang memerlukan pembaruan dinamis, seperti terjemahan bahasa. Mereka menggunakan propagasi mundur melalui waktu (BPTT) untuk memperhitungkan urutan masukan, menjadikannya efektif untuk memahami konteks dan hubungan dalam data berurutan.
Memori jangka pendek panjang (LSTM)
Jaringan memori jangka pendek meningkatkan jaringan saraf berulang dengan secara selektif melupakan informasi yang tidak relevan sambil mempertahankan detail penting, menjadikannya praktis untuk tugas-tugas yang memerlukan retensi konteks jangka panjang. Jaringan memori jangka pendek meningkatkan kemampuan Google Terjemahan namun bisa menjadi lambat dengan kumpulan data yang besar karena pemrosesan liniernya.
Jaringan saraf konvolusional (CNN)
Jaringan saraf konvolusional unggul dalam pengenalan gambar dengan memindai gambar untuk mencari fitur visual seperti tepi dan bentuk. Mereka melestarikan informasi spasial dan dapat mengenali objek terlepas dari posisinya dalam gambar, menjadikannya yang tercanggih untuk banyak aplikasi berbasis gambar.
Jaringan permusuhan generatif (GAN)
Jaringan permusuhan generatif terdiri dari generator dan diskriminator yang bersaing. Generator membuat data palsu, dan diskriminator mencoba mengidentifikasinya sebagai data palsu. Kedua jaringan ditingkatkan melalui propagasi mundur. Jaringan permusuhan generatif sangat baik untuk menghasilkan data yang realistis dan berguna dalam pengenalan gambar.
Transformer dan perhatian
Transformers mewakili terobosan dalam pembelajaran mendalam, terutama untuk pemrosesan bahasa alami. Mereka menggunakan mekanisme perhatian untuk mempertimbangkan pentingnya berbagai elemen masukan. Berbeda dengan model sebelumnya, transformator memproses data secara paralel, sehingga memungkinkan penanganan kumpulan data besar secara efisien. Perhatian diri memungkinkan transformator untuk mempertimbangkan hubungan antara semua elemen dalam sebuah masukan, menjadikannya sangat efektif untuk tugas-tugas seperti pembuatan teks dan terjemahan.
Penerapan pembelajaran mendalam
Model pembelajaran mendalam telah diterapkan pada banyak masalah dunia nyata, termasuk masalah yang dulunya tampak mustahil dipecahkan oleh mesin.
Kendaraan otonom
Kendaraan otonom mengandalkan model pembelajaran mendalam untuk mengenali sinyal dan rambu lalu lintas, mobil di sekitar, dan pejalan kaki. Kendaraan ini menggunakan fusi sensor, menggabungkan data dari lidar, radar, dan kamera untuk menciptakan pandangan lingkungan yang komprehensif. Algoritme pembelajaran mendalam memproses data ini secara real-time untuk membuat keputusan berkendara. Misalnya, sistem Autopilot Tesla menggunakan jaringan saraf untuk menafsirkan lingkungan sekitar dan melakukan navigasi yang sesuai, sehingga meningkatkan keselamatan dan efisiensi.
Model bahasa besar (LLM) dan chatbots
Model pembelajaran mendalam merupakan inti dari chatbot yang mirip manusia seperti ChatGPT dan Gemini, serta alat penulisan kode seperti Copilot. Model bahasa besar dilatih pada data teks dalam jumlah besar, memungkinkan mereka memahami dan menghasilkan bahasa manusia yang sangat akurat. Model ini dapat terlibat dalam percakapan yang koheren, menjawab pertanyaan, menulis esai, dan bahkan membantu dalam pemrograman dengan menghasilkan cuplikan kode berdasarkan deskripsi bahasa alami. Misalnya, GPT-4 OpenAI dapat menulis kode, membuat draf email, dan memberikan penjelasan mendetail tentang berbagai topik.
Bantuan menulis
Alat tulis memanfaatkan model pembelajaran mendalam untuk membantu Anda menulis lebih baik. Alat-alat ini menganalisis seluruh kalimat dan paragraf untuk memberikan saran tata bahasa, tanda baca, gaya, dan kejelasan. Grammarly, misalnya, menggunakan teknik pemrosesan bahasa alami yang canggih untuk memahami konteks tulisan Anda dan menawarkan rekomendasi yang dipersonalisasi. Ini dapat mendeteksi nada, menyarankan sinonim, dan bahkan membantu menyusun tulisan Anda untuk meningkatkan keterbacaan dan keterlibatan.
Pembuatan gambar
Model pembelajaran mendalam seperti DALL-E baru-baru ini membuat kemajuan dalam menghasilkan gambar baru berdasarkan perintah teks atau melakukan transfer gaya untuk membuat versi baru dari gambar yang sudah ada menggunakan gaya dari gambar ketiga. Misalnya, Anda bisa membuat foto profil alaThe Starry Night(1889) karya Vincent van Gogh dengan memasukkan foto diri Anda dan referensi lukisan tersebut. Model ini menggunakan kombinasi jaringan saraf konvolusional dan jaringan permusuhan generatif untuk menghasilkan gambar yang sangat realistis dan kreatif.
Sistem rekomendasi
Bagaimana aplikasi musik membantu Anda menemukan artis baru? Model pembelajaran mendalam menggunakan riwayat mendengarkan Anda sebelumnya untuk mempelajari pola preferensi Anda dan kemudian memprediksi lagu baru yang mirip dengan lagu yang Anda sukai. Sistem rekomendasi ini menganalisis sejumlah besar data pengguna, termasuk kebiasaan mendengarkan, kueri penelusuran, dan interaksi pengguna seperti suka dan lewati. Layanan seperti Spotify dan Netflix menggunakan model ini untuk menyediakan konten yang dipersonalisasi, menjadikan pengalaman pengguna lebih menarik dan disesuaikan dengan selera individu.
Diagnosa medis
Beberapa model pemrosesan bahasa dapat menganalisis informasi dari catatan pasien—seperti hasil tes, tanggapan survei, catatan dari kunjungan dokter, dan riwayat kesehatan—dan mengungkap kemungkinan penyebab gejala pasien. Misalnya, Watson Health dari IBM menggunakan pemrosesan bahasa alami untuk mengekstrak informasi relevan dari catatan medis yang tidak terstruktur. Demikian pula, model pengenalan gambar dapat membaca laporan radiologi untuk membantu ahli radiologi mendeteksi hasil yang tidak normal. Model pembelajaran mendalam digunakan untuk mengidentifikasi pola dalam gambar medis, seperti sinar-X dan MRI, sehingga membantu deteksi dini kondisi seperti kanker dan gangguan neurologis.
Tantangan dan keterbatasan pembelajaran mendalam
Terlepas dari kekuatannya, model pembelajaran mendalam bersifat fleksibel dan memerlukan biaya yang nyata. Berikut beberapa tantangan dalam menggunakan pembelajaran mendalam:
- Persyaratan data: Model pembelajaran mendalam memerlukanbanyakdata untuk melatihnya dengan baik. Misalnya, model GPT-3 OpenAI dilatih pada lima set data, yang terkecil berisi semua artikel Wikipedia.
- Biaya komputasi: Pelatihan dan menjalankan model pembelajaran mendalam sangat intensif secara komputasi serta boros energi dan biaya.
- Bias: Model yang dilatih berdasarkan data yang bias akan mewarisi dan memasukkan bias tersebut ke dalam responsnya. Misalnya, melatih model pengenalan gambar pada 90% gambar anjing dan 10% gambar kucing tidak akan mempersiapkan model dengan baik jika 50% gambar di dunia nyata menyertakan kucing.
- Interpretabilitas: “Lapisan tersembunyi” yang membentuk sebagian besar model pembelajaran mendalam diberi nama yang tepat karena mungkin sulit untuk mengetahui apa yang dilakukan lapisan tersebut untuk membuat prediksi. Dalam beberapa kasus, hal itu mungkin baik-baik saja. Di negara lain, penting untuk mengetahui apa yang menjadi prediksi. Misalnya, memahami bagaimana suatu model memprediksi hasil pasien sebagai respons terhadap pengobatan baru diperlukan secara ilmiah dan medis.
- Gambar palsu dan misinformasi: Jaringan permusuhan generatif seperti DeepDream dapat menghasilkan gambar palsu namun meyakinkan. Jika berada di tangan yang salah, hal ini dapat digunakan untuk menyebarkan informasi yang salah. Demikian pula, chatbots seperti ChatGPT dapat “berhalusinasi” informasi yang salah dan harus selalu diperiksa faktanya.
Masa depan pembelajaran mendalam
Meskipun sulit untuk mengetahui apa yang akan terjadi di masa depan untuk pembelajaran mendalam, berikut adalah beberapa bidang pengembangan aktif:
- Model bahasa besar terus mengalami peningkatan: Organisasi seperti OpenAI terus mengembangkan kesuksesan di masa lalu, dan Anda akan melihat respons model mereka menjadi lebih baik dan akurat.
- Pembelajaran multimodal: Beberapa model pembelajaran mendalam yang mutakhir dilatih secara multimodal untuk menggeneralisasi berbagai jenis informasi; misalnya, model yang dilatih tentang teks dapat memprediksi informasi tentang ucapan atau gambar.
- Interpretabilitas: Meskipun model pembelajaran mendalam masih relatif tidak jelas, kita mungkin akan melihat lebih banyak alat di masa depan yang akan mempermudah pemahaman bagaimana model tersebut sampai pada prediksinya.
Kesimpulan
Pembelajaran mendalam adalah alat yang ampuh dengan potensi untuk mengatasi banyak masalah yang kita hadapi saat ini, baik itu mendeteksi beruang di kamera satwa liar, menemukan pengobatan baru untuk penyakit, atau menulis dengan lebih jelas.