Pengertian Backpropagation: Inti Pembelajaran Neural Network

Diterbitkan: 2025-01-15

Propagasi mundur membentuk kembali cara jaringan saraf mengoptimalkan pembelajaran dan mengurangi kesalahan. Daripada mengandalkan trial and error, algoritma ini memberikan pendekatan terstruktur untuk meningkatkan prediksi. Dalam panduan ini, kita akan mengeksplorasi aspek-aspek penting dari propagasi mundur: cara kerjanya, perannya dalam jaringan saraf, aplikasi dunia nyata, dan tantangan yang ditimbulkannya.

Daftar isi

  • Apa itu propagasi mundur?
  • Bagaimana cara kerja propagasi mundur?
  • Mengapa propagasi mundur itu penting?
  • Penerapan propagasi mundur
  • Tantangan dengan propagasi mundur

Apa itu propagasi mundur?

Propagasi mundur, kependekan dari “propagasi mundur kesalahan”, adalah proses yang membantu komputer belajar dengan memperbaiki kesalahannya. Ini adalah algoritma mendasar yang digunakan untuk melatih jaringan saraf, memungkinkan mereka meningkatkan prediksinya seiring waktu. Bayangkan propagasi mundur sebagai putaran umpan balik yang mengajarkan jaringan apa yang salah dan bagaimana menyesuaikan diri agar menjadi lebih baik di lain waktu.

Bayangkan sebuah perusahaan menerima umpan balik pelanggan. Jika pelanggan menunjukkan suatu masalah, umpan balik tersebut diteruskan kembali ke berbagai departemen, dan setiap departemen membuat perubahan yang diperlukan untuk mengatasi masalah tersebut. Propagasi mundur bekerja dengan cara yang sama. Kesalahan mengalir mundur melalui lapisan jaringan, memandu setiap lapisan untuk mengubah pengaturannya dan meningkatkan sistem secara keseluruhan.

Bekerja lebih cerdas dengan Grammarly
Mitra penulisan AI bagi siapa saja yang memiliki pekerjaan yang harus diselesaikan

Bagaimana cara kerja propagasi mundur?

Propagasi mundur membantu jaringan saraf belajar dengan mengidentifikasi bagian mana dari jaringan yang memerlukan penyesuaian untuk mengurangi kesalahan. Ini dimulai dari keluaran (tempat prediksi dibuat) dan kembali ke masukan, menyempurnakan hubungan (disebut bobot) antar lapisan. Proses ini dapat dipecah menjadi empat langkah utama:

  1. Umpan ke depan
  2. Fungsi kerugian
  3. Umpan mundur
  4. Pembaruan berat badan

Langkah 1: Umpan ke depan

Pada fase pertama, data mengalir melalui jaringan, dengan neuron di setiap lapisan memproses data dan meneruskan hasilnya ke lapisan berikutnya. Setiap neuron mirip dengan departemen khusus, seperti penjualan atau teknik, yang memproses informasi sesuai dengan fungsinya dan meneruskan hasilnya. Pada forward pass, setiap neuron:

  • Mendapat masukan dari lapisan sebelumnya di jaringan.
  • Kalikan masukan ini dengan bobotnya.
  • Menggunakan fungsi aktivasi pada input berbobot.
  • Mengirimkan hasilnya ke lapisan berikutnya.

Keluaran dari lapisan terakhir jaringan adalah prediksi, serupa dengan cara perusahaan menghasilkan produk akhir.

Langkah 2: Fungsi kerugian

Fungsi kerugian mengukur kualitas prediksi jaringan dengan membandingkannya dengan keluaran yang diinginkan, seperti mengukur bagaimana suatu produk memenuhi harapan pelanggan. Pada langkah ini, jaringan saraf:

  • Menerima prediksi dari umpan ke depan.
  • Menggunakan fungsi kerugian untuk menghitung seberapa jauh prediksi tersebut menyimpang dari keluaran yang diinginkan.

Fungsi kerugian yang berbeda digunakan untuk jenis masalah yang berbeda. Misalnya:

  • Mean squared error (MSE)biasanya digunakan untuk tugas regresi.
  • Kehilangan lintas entropidigunakan untuk tugas klasifikasi.

Fungsi kerugian mengkuantifikasi kesalahan, memberikan titik awal untuk optimasi. Dengan menentukan bagaimana perubahan kerugian terhadap setiap bobot, jaringan dapat menghitung gradien, serupa dengan cara perusahaan mengevaluasi departemen mana yang paling berkontribusi terhadap ketidakpuasan pelanggan.

Langkah 3: Umpan mundur

Backpropagation, juga dikenal sebagai backpropagation, menentukan cara menyesuaikan bobot untuk meminimalkan kesalahan. Mulai dari keluaran nanti, jaringan:

  • Menghitung seberapa besar pengaruh setiap neuron terhadap kesalahan keluaran menggunakan aturan rantai kalkulus.
  • Menyebarkan sinyal kesalahan mundur ke lapisan berikutnya.
  • Menghitung gradien untuk setiap lapisan.

Perhitungan gradien pada setiap lapisan memberi tahu jaringan tidak hanya apa yang perlu disesuaikan tetapi juga bagaimana tepatnya hal itu perlu disesuaikan. Ini seperti memiliki rencana peningkatan spesifik yang didorong oleh umpan balik pelanggan untuk suatu departemen.

Langkah 4: Pembaruan berat badan

Langkah terakhir dalam backpropagation adalah memperbarui bobot jaringan, tempat pembelajaran sebenarnya dilakukan. Mirip dengan bagaimana suatu departemen menyempurnakan strateginya berdasarkan umpan balik, jaringan menyesuaikan setiap bobot untuk mengurangi kesalahan.

Selama proses ini:

  • Penyesuaian bobot:Setiap bobot diperbarui ke arah yang berlawanan dengan gradiennya untuk meminimalkan kesalahan.
  • Besaran penyesuaian:Gradien yang lebih besar menghasilkan perubahan bobot yang lebih besar, sedangkan gradien yang lebih kecil menyebabkan penyesuaian yang lebih kecil.
  • Kecepatan pembelajaran:Kecepatan pembelajaran, sebuah hyperparameter, menentukan ukuran langkah untuk penyesuaian ini. Kecepatan pembelajaran yang tinggi dapat menyebabkan ketidakstabilan, sedangkan kecepatan pembelajaran yang rendah dapat memperlambat pembelajaran.

Untuk lebih mengoptimalkan pembaruan bobot, beberapa teknik lanjutan sering diterapkan:

  • Momentum:Menggunakan pembaruan bobot sebelumnya untuk memperlancar pembelajaran dan menghindari perubahan yang tidak menentu.
  • Kecepatan pembelajaran adaptif:Menyesuaikan kecepatan pembelajaran secara dinamis berdasarkan riwayat gradien untuk konvergensi yang lebih cepat dan stabil.
  • Regularisasi:Menghukum beban besar untuk mencegah overfitting dan meningkatkan generalisasi.

Proses pembaruan bobot ini diulangi pada setiap kumpulan data pelatihan, sehingga secara bertahap meningkatkan kinerja jaringan.

Mengapa propagasi mundur itu penting?

Sebelum propagasi mundur, melatih jaringan saraf yang kompleks merupakan hal yang sulit secara komputasi. Tidak ada metode pasti untuk menentukan seberapa banyak setiap bobot harus disesuaikan untuk meningkatkan kinerja. Sebaliknya, praktisi ML harus menebak-nebak cara menyesuaikan parameter dan berharap performa meningkat atau mengandalkan metode pengoptimalan sederhana yang tidak dapat diskalakan untuk jaringan yang besar dan kompleks.

Oleh karena itu, signifikansi backpropagation dalam AI modern tidak dapat dilebih-lebihkan, ini adalah terobosan mendasar yang membuat jaringan saraf praktis untuk dilatih. Yang terpenting, propagasi mundur menyediakan cara yang efisien untuk menghitung seberapa besar kontribusi setiap bobot terhadap kesalahan keluaran akhir. Daripada mencoba menyesuaikan jutaan parameter melalui trial and error, pelatihan berbasis backpropagation memberikan penyesuaian yang tepat dan berdasarkan data.

Propagasi mundur juga sangat skalabel dan serbaguna, memberikan praktisi ML cara yang mudah beradaptasi dan andal untuk melatih semua jenis jaringan. Algoritme ini dapat digunakan untuk melatih berbagai ukuran jaringan, dari jaringan kecil dengan hanya beberapa ratus parameter hingga jaringan dalam dengan miliaran bobot. Yang terpenting, propagasi mundur tidak bergantung pada domain masalah atau arsitektur jaringan tertentu. Algoritme inti yang sama dapat digunakan untuk melatih jaringan saraf berulang (RNN) untuk pembuatan teks atau jaringan saraf konvolusional (CNN) untuk analisis gambar.

Penerapan propagasi mundur

Memahami bagaimana backpropagation diterapkan pada berbagai skenario pelatihan sangat penting bagi perusahaan yang ingin mengembangkan solusi AI mereka sendiri. Penerapan backpropagation yang penting mencakup pelatihan model bahasa besar (LLM), jaringan yang perlu mengenali pola kompleks, dan AI generatif.

Melatih model bahasa besar (LLM)

Efisiensi propagasi mundur dalam jaringan pelatihan dengan jutaan atau miliaran parameter menjadikannya landasan dalam pelatihan LLM. Yang terpenting, propagasi mundur dapat menghitung gradien di beberapa lapisan dalam arsitektur transformator dalam, yang sering ditemukan di LLM. Selain itu, kemampuan backpropagation untuk memberikan kecepatan pembelajaran yang terkendali dapat membantu mencegah bencana lupa, yang merupakan masalah umum dalam pelatihan LLM. Istilah ini mengacu pada skenario di mana jaringan secara keseluruhan atau substansial melupakan pelatihan sebelumnya setelah pelatihan untuk tugas baru. Propagasi mundur juga dapat digunakan untuk menyempurnakan LLM terlatih untuk kasus penggunaan tertentu.

Jaringan pelatihan untuk pengenalan pola yang kompleks

Propagasi mundur secara efisien dan efektif melatih jaringan saraf dalam untuk menangani domain yang memerlukan pengenalan pola kompleks. Hal ini disebabkan oleh kemampuan algoritme untuk menentukan kontribusi kesalahan di seluruh arsitektur mendalam dengan banyak lapisan. Misalnya, propagasi mundur digunakan untuk melatih jaringan saraf untuk pemrosesan sinyal, yang melibatkan pembelajaran fitur hierarki yang kompleks. Demikian pula, dapat digunakan untuk melatih jaringan multimodal, yang memproses berbagai jenis masukan (gambar, teks, dll.) secara bersamaan.

Melatih sistem AI generatif

Model generatif, yang merupakan inti dari booming AI saat ini, sangat bergantung pada propagasi mundur. Misalnya, dalam jaringan adversarial generatif (GAN), propagasi mundur memperbarui generator dan diskriminator untuk memastikan keduanya menyatu dengan cepat dan andal. Hal ini juga penting dalam pelatihan dan menyempurnakan model difusi untuk pembuatan gambar, serta arsitektur encoder-decoder untuk berbagai tugas generatif. Aplikasi ini menyoroti peran propagasi mundur dalam memungkinkan sistem AI menghasilkan keluaran yang realistis dan berkualitas tinggi.

Tantangan dengan propagasi mundur

Meskipun backpropagation adalah algoritma pelatihan dasar untuk jaringan saraf dengan banyak keuntungan dan aplikasi, memahami tantangan penggunaan terkait sangat penting bagi bisnis yang merencanakan inisiatif AI. Tantangan-tantangan ini mencakup persyaratan kuantitas dan kualitas data pelatihan, kompleksitas teknis, dan pertimbangan integrasi.

Persyaratan data

Kualitas dan efisiensi pelatihan berbasis propagasi mundur bergantung pada kualitas dan kuantitas data. Data berlabel dalam jumlah besar sering kali diperlukan agar algoritme memiliki data yang cukup untuk menentukan kesalahan. Selain itu, data pelatihan harus spesifik untuk domain masalah dan diformat secara konsisten. Hal ini memerlukan persiapan dan pembersihan data, yang sering kali menghabiskan banyak sumber daya. Organisasi juga harus mempertimbangkan bahwa model biasanya memerlukan pelatihan ulang pada data baru untuk mempertahankan kinerja, yang berarti pengumpulan dan pembersihan data harus berkelanjutan.

Kompleksitas teknis

Pelatihan dengan propagasi mundur memerlukan penyetelan hyperparameter, yang merupakan pengaturan yang dapat disesuaikan seperti kecepatan pembelajaran, ukuran batch, dan jumlah periode yang mengontrol proses pelatihan. Hyperparameter yang tidak disetel dengan baik dapat menyebabkan pelatihan tidak stabil atau tidak efisien, sehingga keahlian dan eksperimen menjadi penting.

Selain itu, melatih jaringan dalam menggunakan propagasi mundur dapat menyebabkan masalah sepertihilangnya gradien, yaitu gradien yang terlalu kecil pada lapisan paling awal yang diperbarui dalam jaringan. Masalah ini dapat mempersulit jaringan untuk mempelajarinya karena gradien yang kecil menyebabkan pembaruan bobot yang sangat kecil, yang dapat mencegah lapisan sebelumnya mempelajari fitur-fitur yang berarti. Pertimbangan teknis mendalam seperti ini berarti bahwa propagasi mundur hanya boleh digunakan jika bisnis memiliki waktu dan keahlian yang diperlukan untuk bereksperimen dan melakukan debugging.

Pertimbangan integrasi

Dunia usaha harus hati-hati mempertimbangkan infrastruktur dan sumber daya yang ada saat menerapkan sistem pelatihan berbasis backpropagation. Propagasi mundur memerlukan perangkat keras khusus seperti unit pemrosesan grafis (GPU) untuk pelatihan yang efisien karena algoritme harus melakukan komputasi matriks paralel yang besar untuk menghitung gradien antar lapisan. Tanpa GPU, waktu pelatihan bisa memakan waktu berhari-hari hingga berminggu-minggu. Namun, infrastruktur GPU mungkin tidak realistis untuk dibeli dan disiapkan oleh beberapa organisasi, mengingat persyaratan biaya dan pemeliharaan. Selain itu, proses pelatihan berbasis backpropagation juga harus diintegrasikan dengan pipeline data yang ada, yang dapat memakan waktu dan rumit. Pelatihan ulang rutin mengenai data baru juga harus diperhitungkan dalam desain sistem secara keseluruhan.