Pembelajaran Penguatan: Apa Artinya dan Cara Kerjanya

Diterbitkan: 2024-07-17

Dalam dunia AI yang menakjubkan, pembelajaran penguatan menonjol sebagai teknik ampuh yang memungkinkan mesin mempelajari perilaku optimal melalui uji coba, seperti cara manusia dan hewan memperoleh keterampilan di dunia nyata.

Daftar isi

Apa itu pembelajaran penguatan?
RL vs. pembelajaran yang diawasi dan tidak diawasi
Cara kerja pembelajaran penguatan
Jenis pembelajaran penguatan
Penerapan pembelajaran penguatan
Keuntungan pembelajaran penguatan
Kerugian dari pembelajaran penguatan

Apa itu pembelajaran penguatan (RL)?

Pembelajaran penguatan (RL) adalah jenis pembelajaran mesin (ML) di mana agen belajar membuat keputusan dengan berinteraksi dengan lingkungannya. Dalam konteks ini, agen merupakan program yang mengambil keputusan mengenai tindakan yang akan diambil, menerima umpan balik berupa imbalan atau penalti, dan menyesuaikan perilakunya untuk memaksimalkan imbalan kumulatif.

Pembelajaran mesin adalah bagian dari kecerdasan buatan (AI) yang menggunakan data dan metode statistik untuk membangun program yang meniru pemikiran manusia daripada mengandalkan instruksi yang dikodekan secara keras. RL terinspirasi langsung oleh cara orang menggunakan trial and error untuk mengoptimalkan keputusan mereka.

Bekerja lebih cerdas dengan Grammarly

Mitra penulisan AI bagi siapa saja yang memiliki pekerjaan yang harus diselesaikan

Penguatan vs. pembelajaran yang diawasi dan tidak diawasi

Dalam pembelajaran yang diawasi, model dilatih menggunakan data berlabel, yang memberikan keluaran yang benar untuk setiap masukan. Panduan ini membantu model membuat prediksi yang akurat ketika dihadapkan dengan data baru yang belum terlihat. Pembelajaran yang diawasi berguna untuk tugas-tugas seperti deteksi spam, klasifikasi gambar, dan perkiraan cuaca.

Di sisi lain,pembelajaran tanpa pengawasanbekerja dengan data yang tidak berlabel untuk menemukan pola dan pengelompokan. Ini dapat mengelompokkan titik data yang serupa, menemukan hubungan antar item, dan mengurangi kompleksitas data untuk memudahkan pemrosesan. Contohnya termasuk segmentasi pelanggan, sistem rekomendasi, dan deteksi anomali.

Pembelajaran penguatanberbeda dari keduanya. Di RL, agen belajar dengan berinteraksi dengan lingkungannya dan menerima umpan balik positif atau negatif. Putaran umpan balik ini memungkinkan agen menyesuaikan tindakannya untuk mencapai hasil terbaik. RL sangat berguna untuk tugas-tugas yang mengharuskan agen mempelajari serangkaian keputusan, seperti dalam bermain game, robotika, dan mengemudi otonom.

Cara kerja pembelajaran penguatan

Memahami prinsip-prinsip RL sangat penting untuk memahami bagaimana agen cerdas belajar dan mengambil keputusan. Di bawah ini, kita akan mengeksplorasi konsep utama dan proses RL secara mendetail.

Konsep kunci dalam RL

RL memiliki kosakata berbeda yang tidak berlaku untuk jenis ML lainnya. Gagasan utama yang harus dipahami adalah:

1 Agen dan lingkungan:Agen adalah program komputer pengambil keputusan, sedangkan lingkungan mencakup segala sesuatu yang berinteraksi dengan agen. Ini mencakup semua kemungkinan keadaan dan tindakan, termasuk keputusan sebelumnya yang dibuat oleh agen. Interaksi antara agen dan lingkungan merupakan inti dari proses pembelajaran.

2 Keadaan dan tindakan:Keadaan mewakili situasi agen saat ini pada saat tertentu, dan tindakan adalah keputusan yang dapat dibuat oleh agen sebagai respons terhadap keadaannya. Agen bertujuan untuk memilih tindakan yang akan menghasilkan keadaan yang paling menguntungkan.

3 Reward and punishment:Setelah melakukan suatu tindakan, agen menerima umpan balik dari lingkungannya: jika positif disebut reward, jika negatif disebut punishment. Umpan balik ini membantu agen mempelajari tindakan mana yang bermanfaat dan mana yang harus dihindari, sehingga memandu keputusannya di masa depan.

4 Kebijakan:Kebijakan adalah strategi agen untuk memutuskan tindakan mana yang harus diambil di setiap negara bagian. Ini memetakan keadaan ke dalam tindakan, yang berfungsi sebagai panduan bagi agen untuk mencapai hasil terbaik berdasarkan pengalaman masa lalu.

5 Fungsi nilai:Fungsi nilai memperkirakan manfaat jangka panjang dari berada dalam keadaan tertentu atau mengambil tindakan tertentu. Hal ini membantu agen memahami potensi imbalan di masa depan, bahkan jika itu berarti menanggung imbalan negatif jangka pendek untuk memaksimalkan keuntungan jangka panjang. Fungsi nilai sangat penting untuk membuat keputusan yang mengoptimalkan imbalan kumulatif dari waktu ke waktu.

Proses RL

Meskipun tujuan dan metode pembelajarannya sangat berbeda dengan jenis ML lainnya, prosesnya serupa dalam hal menyiapkan data, memilih parameter, mengevaluasi, dan mengulangi.

Berikut gambaran singkat proses RL:

1 Definisi masalah dan penetapan tujuan.Definisikan masalahnya dengan jelas dan tentukan tujuan dan sasaran agen, termasuk struktur imbalannya. Ini akan membantu Anda memutuskan data apa yang Anda perlukan dan algoritma apa yang harus dipilih.

2 Pengumpulan dan inisialisasi data.Kumpulkan data awal, tentukan lingkungan, dan siapkan parameter yang diperlukan untuk eksperimen RL.

3 Pra-pemrosesan dan rekayasa fitur.Bersihkan data: periksa lokasi, hapus duplikat, pastikan Anda memiliki label fitur yang tepat, dan putuskan cara menangani nilai yang hilang. Dalam banyak kasus, Anda ingin membuat fitur baru untuk memperjelas aspek penting lingkungan, seperti membuat satu titik data pemosisian dari beberapa input sensor.

4 Pemilihan algoritma.Berdasarkan masalah dan lingkungan, pilih algoritma RL yang sesuai dan konfigurasikan pengaturan inti, yang dikenal sebagai hyperparameter. Misalnya, Anda harus menetapkan keseimbangan antara eksplorasi (mencoba jalur baru) versus eksploitasi (mengikuti jalur yang diketahui).

5 Pelatihan.Latih agen dengan mengizinkannya berinteraksi dengan lingkungan, mengambil tindakan, menerima imbalan, dan memperbarui kebijakannya. Sesuaikan hyperparameter dan ulangi prosesnya. Terus memantau dan menyesuaikan trade-off eksplorasi-eksploitasi untuk memastikan agen belajar secara efektif.

6 Evaluasi.Nilai kinerja agen menggunakan metrik, dan amati kinerjanya dalam skenario yang berlaku untuk memastikannya memenuhi sasaran dan sasaran yang ditentukan.

7 Penyetelan dan pengoptimalan model.Sesuaikan hyperparameter, sempurnakan algoritme, dan latih kembali agen untuk meningkatkan kinerja lebih lanjut.

8 Penerapan dan pemantauan.Setelah Anda puas dengan kinerja agen, terapkan agen terlatih di lingkungan dunia nyata. Terus pantau kinerjanya dan terapkan umpan balik untuk pembelajaran dan peningkatan berkelanjutan.

9 Pemeliharaan dan pembaruan.Meskipun pembelajaran terus-menerus sangat berguna, terkadang Anda mungkin perlu berlatih ulang dari kondisi awal untuk memanfaatkan data dan teknik baru secara maksimal. Perbarui basis pengetahuan agen secara berkala, latih kembali dengan data baru, dan pastikan agen beradaptasi dengan perubahan lingkungan atau tujuan.

Jenis pembelajaran penguatan

Pembelajaran penguatan secara garis besar dapat dikategorikan menjadi tiga jenis: bebas model, berbasis model, dan hibrida. Setiap jenis memiliki kasus penggunaan dan metode spesifiknya.

Pembelajaran penguatan tanpa model

Dengan RL tanpa model, agen belajar langsung dari interaksi dengan lingkungan. Ia tidak mencoba memahami atau memprediksi lingkungan namun hanya mencoba memaksimalkan kinerjanya dalam situasi yang disajikan. Contoh RL tanpa model adalah robot penyedot debu Roomba: seiring berjalannya waktu, ia mempelajari di mana letak hambatan dan secara bertahap lebih sedikit menabraknya sambil membersihkan lebih banyak.

Contoh:

Metode berbasis nilai.Yang paling umum adalah Q-learning, di mana nilai Q mewakili imbalan yang diharapkan di masa depan untuk mengambil tindakan tertentu dalam keadaan tertentu. Metode ini optimal untuk situasi dengan pilihan yang terpisah, yaitu pilihan yang terbatas dan pasti, seperti cara berbelok di persimpangan. Anda dapat menetapkan nilai Q secara manual, menggunakan nilai nol atau rendah untuk menghindari bias, mengacak nilai untuk mendorong eksplorasi, atau menggunakan nilai tinggi yang seragam untuk memastikan eksplorasi awal yang menyeluruh. Dengan setiap iterasi, agen memperbarui nilai-Q ini untuk mencerminkan strategi yang lebih baik. Pembelajaran berbasis nilai sangat populer karena mudah diterapkan dan bekerja dengan baik dalam ruang tindakan yang berbeda, meskipun pembelajaran ini sulit menangani terlalu banyak variabel.
Metode gradien kebijakan:Tidak seperti Q-learning, yang mencoba memperkirakan nilai tindakan di setiap negara bagian, metode gradien kebijakan berfokus langsung pada peningkatan strategi (atau kebijakan) yang digunakan agen untuk memilih tindakan. Alih-alih memperkirakan nilai, metode ini menyesuaikan kebijakan untuk memaksimalkan imbalan yang diharapkan. Metode gradien kebijakan berguna dalam situasi di mana tindakan dapat bernilai apa pun — mengikuti analogi di atas, tindakan dapat berjalan ke segala arah dalam suatu bidang — atau ketika sulit untuk menentukan nilai dari tindakan yang berbeda. Mereka dapat menangani pengambilan keputusan yang lebih kompleks dan rangkaian pilihan, tetapi biasanya memerlukan lebih banyak daya komputasi agar dapat bekerja secara efektif.

Pembelajaran penguatan berbasis model

RL berbasis model melibatkan pembuatan model lingkungan untuk merencanakan tindakan dan memprediksi keadaan di masa depan. Model-model ini menangkap interaksi antara tindakan dan perubahan keadaan dengan memperkirakan seberapa besar kemungkinan suatu tindakan mempengaruhi keadaan lingkungan dan imbalan atau hukuman yang dihasilkan. Pendekatan ini bisa lebih efisien, karena agen dapat mensimulasikan berbagai strategi secara internal sebelum bertindak. Mobil self-driving menggunakan pendekatan ini untuk memahami bagaimana merespons fitur lalu lintas dan berbagai objek. Teknik tanpa model Roomba tidak akan memadai untuk tugas rumit seperti itu.

Contoh:

Dyna-Q:Dyna-Q adalah algoritma pembelajaran penguatan hibrida yang menggabungkan Q-learning dengan perencanaan. Agen memperbarui nilai Q-nya berdasarkan interaksi nyata dengan lingkungan dan pengalaman simulasi yang dihasilkan oleh model. Dyna-Q sangat berguna ketika interaksi di dunia nyata mahal atau memakan waktu.
Pencarian Pohon Monte Carlo (MCTS):MCTS mensimulasikan banyak kemungkinan tindakan dan status di masa depan untuk membangun pohon pencarian guna mewakili keputusan yang mengikuti setiap pilihan. Agen menggunakan pohon ini untuk memutuskan tindakan terbaik dengan memperkirakan potensi imbalan dari jalur yang berbeda. MCTS unggul dalam skenario pengambilan keputusan dengan struktur yang jelas, seperti permainan papan seperti catur, dan dapat menangani perencanaan strategis yang kompleks.

Metode berbasis model cocok digunakan ketika lingkungan dapat dimodelkan secara akurat dan ketika simulasi dapat memberikan wawasan yang berharga. Metode ini memerlukan sampel yang lebih sedikit dibandingkan dengan metode tanpa model, namun sampel tersebut harus akurat, artinya mungkin memerlukan lebih banyak upaya komputasi untuk mengembangkannya.

Pembelajaran penguatan hibrida

Pembelajaran penguatan hibrida menggabungkan pendekatan untuk memanfaatkan kekuatan masing-masing. Teknik ini dapat membantu menyeimbangkan trade-off antara efisiensi sampel dan kompleksitas komputasi.

Contoh:

Pencarian kebijakan terpandu (GPS):GPS adalah teknik hibrida yang bergantian antara pembelajaran yang diawasi dan pembelajaran penguatan. Ia menggunakan pembelajaran yang diawasi untuk melatih kebijakan berdasarkan data yang dihasilkan dari pengontrol berbasis model. Kebijakan tersebut kemudian disempurnakan menggunakan pembelajaran penguatan untuk menangani bagian ruang negara yang modelnya kurang akurat. Pendekatan ini membantu dalam mentransfer pengetahuan dari perencanaan berbasis model ke pembelajaran kebijakan langsung.
Arsitektur terintegrasi:Beberapa arsitektur mengintegrasikan berbagai komponen berbasis model dan bebas model dalam satu kerangka kerja, beradaptasi dengan berbagai aspek lingkungan yang kompleks daripada memaksakan satu pendekatan pada semuanya. Misalnya, agen mungkin menggunakan pendekatan berbasis model untuk perencanaan jangka panjang dan pendekatan bebas model untuk pengambilan keputusan jangka pendek.
Model dunia:Model dunia adalah pendekatan di mana agen membangun representasi lingkungan yang ringkas dan abstrak, yang digunakan untuk mensimulasikan keadaan di masa depan. Agen menggunakan pendekatan bebas model untuk mempelajari kebijakan dalam lingkungan simulasi internal ini. Teknik ini mengurangi kebutuhan akan interaksi di dunia nyata.

Penerapan pembelajaran penguatan

RL memiliki beragam aplikasi di berbagai domain:

Bermain game:Algoritme RL telah mencapai kinerja super dalam kasus-kasus seperti catur dan video game. Contoh penting adalah AlphaGo, yang memainkan permainan papan Go dengan menggunakan gabungan jaringan saraf dalam dan Monte Carlo Tree Search. Keberhasilan ini menunjukkan kemampuan RL dalam mengembangkan strategi yang kompleks dan beradaptasi dengan lingkungan yang dinamis.
Robotika:Dalam robotika, RL membantu melatih robot untuk melakukan tugas seperti menggenggam objek dan menavigasi rintangan. Proses pembelajaran trial-and-error memungkinkan robot beradaptasi dengan ketidakpastian di dunia nyata dan meningkatkan kinerjanya seiring waktu, melampaui pendekatan berbasis aturan yang tidak fleksibel.
Layanan Kesehatan:Dengan merespons data spesifik pasien, RL dapat mengoptimalkan rencana perawatan, mengelola uji klinis, dan mempersonalisasi obat. RL juga dapat menyarankan intervensi yang memaksimalkan hasil pasien dengan terus belajar dari data pasien.
Keuangan:RL berbasis model sangat sesuai dengan parameter yang jelas dan dinamika kompleks dari berbagai bagian bidang keuangan, terutama yang berinteraksi dengan pasar yang sangat dinamis. Kegunaannya di sini mencakup manajemen portofolio, penilaian risiko, dan strategi perdagangan yang beradaptasi dengan kondisi pasar baru.
Kendaraan otonom:Mobil self-driving menggunakan model yang dilatih RL untuk merespons rintangan, kondisi jalan, dan pola lalu lintas yang dinamis. Mereka segera menerapkan model ini untuk beradaptasi dengan kondisi berkendara saat ini sekaligus memasukkan data kembali ke dalam proses pelatihan berkelanjutan yang terpusat. Umpan balik berkelanjutan dari lingkungan membantu kendaraan ini meningkatkan keselamatan dan efisiensinya seiring waktu.

Keuntungan pembelajaran penguatan

Pembelajaran adaptif:Agen RL terus belajar dan beradaptasi terhadap interaksi mereka dengan lingkungan. Belajar sambil jalan membuat RL sangat cocok untuk lingkungan yang dinamis dan tidak dapat diprediksi.
Keserbagunaan:RL bekerja untuk berbagai masalah yang melibatkan serangkaian keputusan yang memengaruhi lingkungan, mulai dari bermain game, robotika, hingga perawatan kesehatan.
Pengambilan keputusan yang optimal:RL berfokus pada memaksimalkan imbalan jangka panjang, memastikan bahwa agen RL mengembangkan strategi yang dioptimalkan untuk hasil terbaik dari waktu ke waktu, bukan sekadar keputusan berikutnya.
Otomatisasi tugas-tugas kompleks:RL dapat mengotomatiskan tugas-tugas yang sulit untuk dikodekan secara keras, seperti alokasi sumber daya dinamis, sistem kontrol kompleks seperti manajemen jaringan listrik, dan rekomendasi yang dipersonalisasi secara tepat.

Kerugian dari pembelajaran penguatan

Persyaratan data dan komputasi:RL sering kali memerlukan data dalam jumlah besar dan daya pemrosesan, yang keduanya bisa jadi cukup mahal.
Waktu pelatihan yang lama:Pelatihan agen RL bisa memakan waktu berminggu-minggu atau bahkan berbulan-bulan jika prosesnya melibatkan interaksi dengan dunia nyata dan bukan sekadar model.
Kompleksitas:Merancang dan menyesuaikan sistem RL memerlukan pertimbangan cermat terhadap struktur imbalan, representasi kebijakan, dan keseimbangan eksplorasi-eksploitasi. Keputusan-keputusan ini harus dibuat dengan penuh pertimbangan agar tidak menghabiskan terlalu banyak waktu atau sumber daya.
Keamanan dan keandalan:Untuk aplikasi penting seperti layanan kesehatan dan mengemudi otonom, perilaku yang tidak terduga dan keputusan yang kurang optimal dapat menimbulkan konsekuensi yang signifikan.
Interpretabilitas rendah:Dalam beberapa proses RL, terutama di lingkungan yang kompleks, sulit atau tidak mungkin untuk mengetahui secara pasti bagaimana agen mengambil keputusan.
Contoh inefisiensi:Banyak algoritme RL memerlukan banyak interaksi dengan lingkungan untuk mempelajari kebijakan yang efektif. Hal ini dapat membatasi kegunaannya dalam skenario di mana interaksi di dunia nyata memakan biaya atau terbatas.