Pembelajaran Mesin: Semua yang Harus Anda Ketahui
Diterbitkan: 2024-05-23Pembelajaran mesin (ML) dengan cepat menjadi salah satu teknologi terpenting di zaman kita. Ini mendasari produk seperti ChatGPT, rekomendasi Netflix, mobil tanpa pengemudi, dan filter spam email. Untuk membantu Anda memahami teknologi yang tersebar luas ini, panduan ini mencakup apa itu ML (dan apa yang bukan ML), cara kerjanya, dan dampaknya.
Daftar isi
- Apa itu pembelajaran mesin?
- Cara kerja pembelajaran mesin
- Jenis pembelajaran mesin
- Aplikasi
- Keuntungan
- Kekurangan
- Masa depan ML
- Kesimpulan
Apa itu pembelajaran mesin?
Untuk memahami pembelajaran mesin, pertama-tama kita harus memahami kecerdasan buatan (AI). Meskipun keduanya digunakan secara bergantian, namun keduanya tidak sama. Kecerdasan buatan adalah tujuan dan bidang studi. Tujuannya adalah untuk membangun sistem komputer yang mampu berpikir dan bernalar pada tingkat manusia (atau bahkan manusia super). AI juga terdiri dari banyak metode berbeda untuk mencapainya. Pembelajaran mesin adalah salah satu metode ini, menjadikannya bagian dari kecerdasan buatan.
Pembelajaran mesin berfokus secara khusus pada penggunaan data dan statistik untuk mencapai AI. Tujuannya adalah untuk menciptakan sistem cerdas yang dapat belajar dengan memberikan banyak contoh (data) dan tidak perlu diprogram secara eksplisit. Dengan data yang cukup dan algoritme pembelajaran yang baik, komputer menangkap pola dalam data dan meningkatkan kinerjanya.
Sebaliknya, pendekatan non-ML terhadap AI tidak bergantung pada data dan memiliki logika hardcode tertulis di dalamnya. Misalnya, Anda dapat membuat bot AI tic-tac-toe dengan kinerja super hanya dengan mengkodekan semua gerakan optimal (ada beberapa 255.168 kemungkinan permainan tic-tac-toe, jadi akan memakan waktu cukup lama, tapi masih memungkinkan). Namun, mustahil untuk melakukan hardcode pada bot AI catur—ada lebih banyak kemungkinan permainan catur daripada atom di alam semesta. ML akan bekerja lebih baik dalam kasus seperti itu.
Pertanyaan yang masuk akal pada saat ini adalah, bagaimana sebenarnya komputer menjadi lebih baik jika Anda memberikan contohnya?
Cara kerja pembelajaran mesin
Dalam sistem ML mana pun, Anda memerlukan tiga hal: kumpulan data, model ML, dan algoritme pelatihan. Pertama, Anda memberikan contoh dari kumpulan data. Model kemudian memprediksi keluaran yang tepat untuk contoh tersebut. Jika modelnya salah, Anda menggunakan algoritme pelatihan untuk membuat model tersebut lebih mungkin tepat untuk contoh serupa di masa mendatang. Anda mengulangi proses ini sampai Anda kehabisan data atau Anda puas dengan hasilnya. Setelah Anda menyelesaikan proses ini, Anda dapat menggunakan model Anda untuk memprediksi data di masa depan.
Contoh dasar dari proses ini adalah mengajarkan komputer untuk mengenali angka tulisan tangan seperti di bawah ini.
Sumber
Anda mengumpulkan ribuan atau ratusan ribu gambar angka. Anda memulai dengan model ML yang belum melihat contoh apa pun. Anda memasukkan gambar ke dalam model dan memintanya untuk memprediksi nomor apa yang menurutnya ada dalam gambar. Ini akan mengembalikan angka antara nol dan sembilan, katakanlah satu. Lalu, pada dasarnya Anda mengatakan, “Angka ini sebenarnya lima, bukan satu.” Algoritme pelatihan memperbarui model, sehingga kemungkinan besar akan merespons dengan lima model di waktu berikutnya. Anda mengulangi proses ini untuk (hampir) semua gambar yang tersedia, dan idealnya, Anda memiliki model berperforma baik yang dapat mengenali angka dengan benar sebanyak 90%. Sekarang Anda dapat menggunakan model ini untuk membaca jutaan digit dalam skala lebih cepat daripada yang bisa dilakukan manusia. Dalam praktiknya, Layanan Pos Amerika Serikat menggunakan model ML untuk membaca 98% alamat tulisan tangan.
Anda dapat menghabiskan waktu berbulan-bulan atau bertahun-tahun untuk membedah detailnya bahkan untuk sebagian kecil dari proses ini (lihat berapa banyak versi algoritme pengoptimalan yang berbeda).
Jenis pembelajaran mesin
Sebenarnya ada empat jenis metode pembelajaran mesin: diawasi, tanpa pengawasan, semi-diawasi, dan penguatan. Perbedaan utamanya adalah bagaimana datanya diberi label (yaitu dengan atau tanpa jawaban yang benar).
Pembelajaran yang diawasi
Model pembelajaran terbimbing diberikan data berlabel (dengan jawaban yang benar). Contoh angka tulisan tangan termasuk dalam kategori ini: Kita dapat memberi tahu modelnya, “Lima adalah jawaban yang benar.” Model ini bertujuan untuk mempelajari hubungan eksplisit antara input dan output. Model ini dapat menghasilkan label tersendiri (misalnya, prediksi “kucing” atau “anjing” berdasarkan gambar hewan peliharaan) atau angka (misalnya, prediksi harga rumah berdasarkan jumlah tempat tidur, kamar mandi, lokasi, dll.) .
Pembelajaran tanpa pengawasan
Model pembelajaran tanpa pengawasan diberikan data yang tidak berlabel (tanpa jawaban yang benar). Model ini mengidentifikasi pola dalam data masukan untuk mengelompokkan data secara bermakna. Misalnya, mengingat banyak gambar kucing dan anjing tanpa jawaban yang benar, model ML tanpa pengawasan akan melihat persamaan dan perbedaan gambar untuk mengelompokkan gambar anjing dan kucing. Pengelompokan, aturan asosiasi, dan pengurangan dimensi adalah metode inti dalam ML tanpa pengawasan.
Pembelajaran semi-supervisi
Pembelajaran semi-supervisi adalah pendekatan pembelajaran mesin yang terletak di antara pembelajaran yang diawasi dan tanpa pengawasan. Metode ini menyediakan sejumlah besar data tak berlabel dan sejumlah kecil data berlabel untuk melatih model. Pertama, model dilatih pada data berlabel, lalu model diberi label pada data tidak berlabel dengan membandingkan kemiripannya dengan data berlabel.
Pembelajaran penguatan
Pembelajaran penguatan tidak memiliki serangkaian contoh dan label tertentu. Sebaliknya, model diberikan lingkungan (misalnya, permainan adalah hal yang umum), fungsi penghargaan, dan tujuan. Model belajar untuk mencapai tujuan melalui trial and error. Ia akan melakukan suatu tindakan, dan fungsi penghargaan memberitahukannya jika tindakan tersebut membantu mencapai tujuan menyeluruh. Kemudian, model memperbarui dirinya sendiri untuk melakukan lebih banyak atau lebih sedikit tindakan tersebut. Model dapat belajar mencapai tujuan dengan melakukan hal ini berkali-kali.
Contoh terkenal dari model pembelajaran penguatan adalah AlphaGo Zero. Model ini dilatih untuk memenangkan permainan Go dan hanya diberi status papan Go. Ia kemudian memainkan jutaan permainan melawan dirinya sendiri, seiring waktu mempelajari gerakan mana yang memberikan keuntungan dan mana yang tidak. Ia mencapai kinerja tingkat manusia super dalam 70 jam pelatihan, di atas juara dunia Go.
Pembelajaran dengan pengawasan mandiri
Sebenarnya ada jenis pembelajaran mesin kelima yang menjadi penting akhir-akhir ini: pembelajaran dengan pengawasan mandiri. Model pembelajaran mandiri diberikan data yang tidak berlabel tetapi belajar membuat label dari data ini. Hal ini mendasari model GPT di balik ChatGPT. Selama pelatihan GPT, model bertujuan untuk memprediksi kata berikutnya berdasarkan rangkaian kata masukan. Misalnya saja kalimat “Kucing itu duduk di atas matras”. GPT diberi “The” dan diminta memprediksi kata apa yang akan muncul selanjutnya. Ia membuat prediksinya (katakanlah, “anjing”), tetapi karena ia memiliki kalimat aslinya, ia mengetahui jawaban yang benar: “kucing”. Kemudian GPT diberikan “Si Kucing” dan diminta untuk memprediksi kata selanjutnya, dan seterusnya. Dengan melakukan itu, ia dapat mempelajari pola statistik antar kata dan banyak lagi.
Penerapan pembelajaran mesin
Masalah atau industri apa pun yang memiliki banyak data dapat menggunakan ML. Banyak industri telah merasakan hasil yang luar biasa dari tindakan ini, dan semakin banyak kasus penggunaan yang terus bermunculan. Berikut adalah beberapa kasus penggunaan ML yang umum:
Menulis
Model ML mendukung produk penulisan AI generatif seperti Grammarly. Dengan dilatih dalam jumlah besar tentang tulisan-tulisan hebat, Grammarly dapat membuatkan draf untuk Anda, membantu Anda menulis ulang dan memoles, serta bertukar pikiran tentang ide-ide bersama Anda, semuanya dalam gaya dan nada pilihan Anda.
Pengenalan ucapan
Siri, Alexa, dan versi suara ChatGPT semuanya bergantung pada model ML. Model ini dilatih berdasarkan banyak contoh audio, beserta transkrip benar yang sesuai. Dengan contoh-contoh ini, model dapat mengubah ucapan menjadi teks. Tanpa ML, masalah ini hampir tidak dapat diselesaikan karena setiap orang memiliki cara berbicara dan pengucapan yang berbeda. Tidak mungkin untuk menyebutkan semua kemungkinan yang ada.
Rekomendasi
Di balik feed Anda di TikTok, Netflix, Instagram, dan Amazon terdapat model rekomendasi ML. Model ini dilatih berdasarkan banyak contoh preferensi (misalnya, orang seperti Anda menyukai film ini dibandingkan film itu, produk ini dibandingkan produk itu) untuk menampilkan item dan konten yang ingin Anda lihat. Seiring waktu, model juga dapat menggabungkan preferensi spesifik Anda untuk membuat feed yang menarik secara spesifik bagi Anda.
Deteksi penipuan
Bank menggunakan model ML untuk mendeteksi penipuan kartu kredit. Penyedia email menggunakan model ML untuk mendeteksi dan mengalihkan email spam. Model Fraud ML memberikan banyak contoh data palsu; model ini kemudian mempelajari pola di antara data untuk mengidentifikasi penipuan di masa depan.
Mobil tanpa pengemudi
Mobil self-driving menggunakan ML untuk menafsirkan dan menavigasi jalan. ML membantu mobil mengidentifikasi pejalan kaki dan jalur jalan, memprediksi pergerakan mobil lain, dan memutuskan tindakan selanjutnya (misalnya mempercepat, berpindah jalur, dll.). Mobil tanpa pengemudi memperoleh kemahiran dengan melatih miliaran contoh menggunakan metode ML ini.
Keuntungan pembelajaran mesin
Jika dilakukan dengan baik, ML dapat menjadi transformatif. Model ML umumnya dapat membuat proses menjadi lebih murah, lebih baik, atau keduanya.
Efisiensi biaya tenaga kerja
Model ML terlatih dapat menyimulasikan pekerjaan seorang ahli dengan biaya yang lebih murah. Misalnya, seorang makelar barang tak bergerak yang ahli memiliki intuisi yang hebat dalam menentukan berapa harga sebuah rumah, namun hal itu memerlukan pelatihan bertahun-tahun. Agen penjual yang ahli (dan ahli apa pun) juga mahal untuk disewa. Namun, model ML yang dilatih berdasarkan jutaan contoh bisa mendekati kinerja seorang makelar barang tak bergerak yang ahli. Model seperti itu dapat dilatih dalam hitungan hari dan biaya penggunaannya akan jauh lebih murah setelah dilatih. Agen properti yang kurang berpengalaman kemudian dapat menggunakan model ini untuk melakukan lebih banyak pekerjaan dalam waktu yang lebih singkat.
Efisiensi waktu
Model ML tidak dibatasi oleh waktu seperti halnya manusia. AlphaGo Zero memainkan4,9 juta gameGo dalam tiga hari pelatihan . Hal ini memerlukan waktu bertahun-tahun, bahkan puluhan tahun bagi manusia untuk melakukannya. Karena skalabilitas ini, model ini mampu mengeksplorasi beragam gerakan dan posisi Go, sehingga menghasilkan kinerja manusia super. Model ML bahkan dapat menangkap pola yang diabaikan oleh para ahli; AlphaGo Zero bahkan menemukan dan menggunakan jurus-jurus yang biasanya tidak dimainkan oleh manusia. Namun hal ini tidak berarti bahwa para ahli tidak lagi berharga; Pakar Go menjadi lebih baik dengan menggunakan model seperti AlphaGo untuk mencoba strategi baru.
Kekurangan pembelajaran mesin
Tentu saja, ada juga kerugian dalam menggunakan model ML. Yakni, pelatihannya mahal, dan hasilnya tidak mudah dijelaskan.
Pelatihan mahal
Pelatihan ML bisa memakan biaya yang mahal. Misalnya, AlphaGo Zero membutuhkan biaya pengembangan sebesar $25 juta, dan GPT-4 menghabiskan biaya pengembangan lebih dari $100 juta. Biaya utama untuk mengembangkan model ML adalah pelabelan data, biaya perangkat keras, dan gaji karyawan.
Model ML yang diawasi dengan baik memerlukan jutaan contoh berlabel, yang masing-masing harus diberi label oleh manusia. Setelah semua label dikumpulkan, perangkat keras khusus diperlukan untuk melatih model. Unit pemrosesan grafis (GPU) dan unit pemrosesan tensor (TPU) adalah standar untuk perangkat keras ML dan bisa mahal untuk disewa atau dibeli—biaya pembelian GPU bisa antara ribuan hingga puluhan ribu dolar.
Terakhir, mengembangkan model ML yang unggul memerlukan perekrutan peneliti atau insinyur pembelajaran mesin, yang dapat menuntut gaji tinggi karena keterampilan dan keahlian mereka.
Kejelasan yang terbatas dalam pengambilan keputusan
Bagi banyak model ML, tidak jelas mengapa mereka memberikan hasil seperti itu. AlphaGo Zero tidak dapat menjelaskan alasan di balik pengambilan keputusannya; ia mengetahui bahwa suatu langkah akan berhasil dalam situasi tertentu tetapi tidak mengetahuialasannya. Hal ini dapat menimbulkan konsekuensi yang signifikan ketika model ML digunakan dalam situasi sehari-hari. Model ML yang digunakan dalam layanan kesehatan mungkin memberikan hasil yang salah atau bias, dan kita mungkin tidak mengetahuinya karena alasan di balik hasilnya tidak jelas. Bias, secara umum, merupakan masalah besar pada model ML, dan kurangnya penjelasan membuat masalah ini lebih sulit untuk diatasi. Masalah-masalah ini terutama berlaku untuk model pembelajaran mendalam. Model pembelajaran mendalam adalah model ML yang menggunakan jaringan saraf berlapis-lapis untuk memproses masukan. Mereka mampu menangani data dan pertanyaan yang lebih rumit.
Di sisi lain, model ML yang lebih sederhana dan “dangkal” (seperti pohon keputusan dan model regresi) tidak mengalami kerugian yang sama. Mereka masih membutuhkan banyak data tetapi biaya pelatihannya murah. Mereka juga lebih bisa dijelaskan. Sisi negatifnya adalah kegunaan model seperti itu mungkin terbatas; aplikasi tingkat lanjut seperti GPT memerlukan model yang lebih kompleks.
Masa depan pembelajaran mesin
Model ML berbasis transformator telah menjadi populer selama beberapa tahun terakhir. Ini adalah tipe model ML spesifik yang mendukung GPT (T di GPT), Grammarly, dan Claude AI. Model ML berbasis difusi, yang mendukung produk penciptaan citra seperti DALL-E dan Midjourney, juga mendapat perhatian.
Tren ini sepertinya tidak akan berubah dalam waktu dekat. Perusahaan ML berfokus pada peningkatan ukuran model mereka—model yang lebih besar yang memiliki kemampuan lebih baik dan kumpulan data yang lebih besar untuk dilatih. GPT-4 memiliki jumlah parameter model 10 kali lipat dibandingkan GPT-3, misalnya. Kita mungkin akan melihat lebih banyak industri menggunakan AI generatif dalam produk mereka untuk menciptakan pengalaman yang dipersonalisasi bagi pengguna.
Robotika juga sedang memanas. Peneliti menggunakan ML untuk membuat robot yang dapat menggerakkan dan menggunakan objek seperti manusia. Robot-robot ini dapat bereksperimen di lingkungannya dan menggunakan pembelajaran penguatan untuk beradaptasi dengan cepat dan mencapai tujuannya—misalnya, cara menendang bola.
Namun, seiring dengan semakin canggih dan meluasnya model ML, terdapat kekhawatiran mengenai potensi dampaknya terhadap masyarakat. Isu-isu seperti bias, privasi, dan perpindahan pekerjaan sedang hangat diperdebatkan, dan semakin banyak pengakuan akan perlunya pedoman etika dan praktik pembangunan yang bertanggung jawab.
Kesimpulan
Pembelajaran mesin adalah bagian dari AI, dengan tujuan eksplisit untuk membuat sistem cerdas dengan memungkinkan sistem belajar dari data. Pembelajaran yang diawasi, tanpa pengawasan, semi-supervisi, dan penguatan adalah jenis utama ML (bersama dengan pembelajaran yang diawasi mandiri). ML adalah inti dari banyak produk baru yang keluar saat ini, seperti ChatGPT, mobil tanpa pengemudi, dan rekomendasi Netflix. Hal ini bisa lebih murah atau lebih baik daripada kinerja manusia, namun pada saat yang sama, hal ini mahal pada awalnya dan kurang dapat dijelaskan dan dikendalikan. ML juga siap untuk menjadi lebih populer dalam beberapa tahun ke depan.
Ada banyak seluk-beluk dalam ML, dan peluang untuk belajar serta berkontribusi di bidang ini semakin luas. Secara khusus, panduan Grammarly tentang AI, pembelajaran mendalam, dan ChatGPT dapat membantu Anda mempelajari lebih lanjut tentang bagian penting lainnya dari bidang ini. Selain itu, memahami detail ML (seperti cara data dikumpulkan, seperti apa model sebenarnya, dan algoritme di balik “pembelajaran”) dapat membantu Anda menerapkannya secara efektif ke dalam pekerjaan Anda.
Dengan ML yang terus berkembang—dan dengan harapan bahwa ML akan menyentuh hampir semua industri—kini adalah waktu yang tepat untuk memulai perjalanan ML Anda!