Apa Itu Pemrosesan Bahasa Alami?
Diterbitkan: 2024-06-25Apa itu proses bahasa alami (NLP)?
Pemrosesan bahasa alami (NLP) adalah bidang kecerdasan buatan dan linguistik komputasi yang berfokus pada interaksi antara komputer dan bahasa manusia (alami). NLP melibatkan pengembangan algoritma dan model yang memungkinkan komputer untuk memahami, menafsirkan, dan menghasilkan bahasa manusia dengan cara yang bermakna dan berguna.
NLP secara garis besar dapat dibagi menjadi dua kategori utama:
- Pemahaman bahasa alami (NLU)
- Generasi bahasa alami (NLG)
Proses-proses ini membedakan bahasa alami dan bahasa manusia dari bahasa komputer atau pemrograman dengan berfokus pada nuansa, konteks, dan variabilitas komunikasi manusia.
Pemahaman bahasa alami (NLU)
Pemahaman bahasa alami adalah bagaimana AI memahami teks atau ucapan. Kata “mengerti” agak keliru karena komputer pada dasarnya tidak memahami apa pun; sebaliknya, mereka dapat memproses masukan sedemikian rupa sehingga menghasilkan keluaran yang masuk akal bagi manusia.
Bahasa terkenal sulit untuk dijelaskan secara menyeluruh. Bahkan jika Anda berhasil mendokumentasikan semua kata dan aturan versi standar bahasa tertentu, ada komplikasi seperti dialek, bahasa gaul, sarkasme, konteks, dan bagaimana hal-hal ini berubah seiring waktu.
Pendekatan pengkodean berbasis logika dengan cepat gagal menghadapi kompleksitas ini. Selama beberapa dekade, ilmuwan komputer telah mengembangkan metode statistik AI untuk memahami teks agar semakin akurat dalam memahami apa yang dikatakan orang.
Generasi bahasa alami (NLG)
Belakangan ini, kemampuan komputer dalam menciptakan bahasa semakin mendapat perhatian. Faktanya, bagian teks dari AI generatif adalah salah satu bentuk pembuatan bahasa alami.
NLG saat ini pada dasarnya adalah permainan tebak-tebakan yang sangat canggih. Daripada memahami aturan tata bahasa secara inheren, model AI generatif mengeluarkan teks per kata melalui model probabilistik yang mempertimbangkan konteks responsnya. Karena model bahasa besar (LLM) saat ini telah dilatih pada begitu banyak teks, keluarannya umumnya terlihat seperti ucapan manusia yang baik, meskipun terkadang kontennya tidak aktif. (Lebih lanjut tentang itu nanti.)
Bagaimana cara kerja pemrosesan bahasa alami?
Pemrosesan bahasa alami (NLP) melibatkan beberapa langkah untuk menganalisis dan memahami bahasa manusia. Berikut rincian tahapan utamanya:
Analisis leksikal
Pertama, masukan dipecah menjadi bagian-bagian kecil yang disebuttoken. Token dapat berupa kata individual, bagian kata, atau frasa pendek.
Misalnya, “cooked” bisa menjadi dua token, “cook” dan “ed,” untuk menangkap arti dan tense dari kata kerja secara terpisah, sedangkan “hot dog” mungkin menjadi satu token karena kedua kata tersebut memiliki arti yang berbeda.
Analisis sintaksis
Langkah ini berfokus pada struktur token, menyesuaikannya ke dalam kerangka tata bahasa.
Misalnya, dalam kalimat “Pat memasak hot dog untuk semua orang”, model mengidentifikasi “dimasak” sebagai kata kerja bentuk lampau, “hot dog” sebagai subjek langsung, dan “semua orang” sebagai subjek tidak langsung.
Analisis semantik
Semantik melibatkan pemahaman arti kata-kata. Proses ini membantu model mengenali maksud pembicara, terutama ketika sebuah kata atau frasa dapat diartikan berbeda.
Dalam contoh kalimat, karena subjek tidak langsung menunjukkan banyak orang, kecil kemungkinannya Pat memasak satu hot dog, sehingga model akan memahami artinya “satu hot dog per orang”.
Pengakuan Entitas Bernama (NER)
Nama mempunyai sifat khusus dalam bahasa. Baik dilatih secara implisit atau eksplisit, model AI membuat daftar panjang dalam banyak kategori, mulai dari nama rantai makanan cepat saji hingga bulan dalam setahun.
NER mengidentifikasinya dari satu atau beberapa token untuk meningkatkan pemahamannya tentang konteksnya. Dalam kasus “Pat,” satu poin data yang penting adalah bahwa gender yang tersirat di dalamnya bersifat ambigu.
Aspek lain dari NER adalah membantu mesin penerjemah agar tidak terlalu bersemangat. Tanggal dan nama negara harus diterjemahkan, namun nama orang dan perusahaan biasanya tidak boleh diterjemahkan. (Pat, namanya, tidak boleh diterjemahkan secara harfiah sebagai mengetuk lembut dengan tangan terbuka.)
Analisis pragmatis
Fase ini mempertimbangkan apakah akan mengikuti arti harfiah dari kata tersebut atau apakah ada faktor seperti idiom, sarkasme, atau implikasi praktis lainnya.
Dalam contoh kalimat, “semua orang” secara harfiah berarti setiap orang di dunia. Namun, mengingat konteks memasak satu orang, sangat tidak mungkin Pat memanggang dan mendistribusikan delapan miliar frank. Sebaliknya, AI akan menafsirkan kata tersebut sebagai “semua orang dalam kelompok tertentu”.
Integrasi wacana
Tahap ini menjelaskan bagaimana makna dibawa ke seluruh percakapan atau dokumen. Jika kalimat berikutnya adalah “Dia kemudian tidur siang”, model tersebut menggambarkan bahwa “dia” mengacu pada Pat dan dengan demikian memperjelas ambiguitas gender jika hal tersebut muncul lagi.
Penerapan pemrosesan bahasa alami
Berikut adalah beberapa aplikasi utama NLP:
Pemrosesan teks
Kapan pun komputer menafsirkan teks masukan, NLP sedang bekerja. Beberapa aplikasi spesifik meliputi:
- Bantuan menulis: Alat seperti Grammarly menggunakan NLP untuk memberikan umpan balik real-time pada tulisan Anda, termasuk pemeriksaan ejaan, koreksi tata bahasa, dan penyesuaian nada. Lihat selengkapnya tentang bagaimana Grammarly menggunakan NLP di bagian berikutnya.
- Analisis sentimen: NLP memungkinkan komputer menilai nada emosional di balik teks. Hal ini berguna bagi perusahaan untuk memahami perasaan pelanggan terhadap produk, pertunjukan, atau layanan, yang dapat memengaruhi penjualan dan keterlibatan.
- Mesin pencari: Dengan menganalisis makna di balik kueri Anda, mereka dapat memberikan hasil meskipun hasil tersebut tidak berisi persis apa yang Anda ketik. Hal ini berlaku untuk penelusuran web seperti Google dan jenis lainnya seperti media sosial dan situs belanja.
- Pelengkapan Otomatis: Dengan membandingkan apa yang telah Anda ketik dengan database besar berisi apa yang pernah diketik orang lain (dan Anda) di masa lalu, NLP dapat menyajikan satu atau beberapa tebakan tentang apa yang akan terjadi selanjutnya.
- Klasifikasi: Penggunaan umum NLP lainnya adalah mengkategorikan masukan yang berbeda. Misalnya, NLP dapat menentukan aspek produk dan layanan perusahaan mana yang sedang dibahas dalam tinjauan.
Pembuatan teks
Setelah model NLP memahami teks yang diberikan, model tersebut dapat bereaksi. Seringkali, keluarannya juga berupa teks.
- Penulisan Ulang: Alat seperti Grammarly menganalisis teks untuk menyarankan peningkatan kejelasan, nada, dan gaya. Grammarly juga menggunakan NLP untuk menyesuaikan kompleksitas teks untuk audiens target, menemukan kesenjangan konteks, mengidentifikasi area yang perlu ditingkatkan, dan banyak lagi.
- Ringkasnya: Salah satu kemampuan paling menarik dari generasi AI saat ini adalah menyederhanakan teks berukuran besar hingga ke intisarinya, baik itu transkrip rapat atau topik yang diketahui dari pelatihannya. Hal ini memanfaatkan kemampuannya menyimpan banyak informasi dalam memori jangka pendek sehingga dapat melihat konteks yang lebih luas dan menemukan pola.
- Artikel berita: AI terkadang digunakan untuk mengambil informasi dasar dan membuat artikel keseluruhan. Misalnya, dengan adanya berbagai statistik tentang pertandingan bisbol, ia dapat menulis narasi yang menelusuri jalannya permainan dan kinerja berbagai pemain.
- Rekayasa cepat: Dalam penggunaan meta AI, NLP dapat menghasilkan prompt yang menginstruksikan AI lain. Misalnya, jika Anda memiliki akun ChatGPT berbayar dan memintanya untuk membuat gambar, ini akan menambah teks Anda dengan informasi dan instruksi tambahan yang diteruskan ke model pembuatan gambar DALL-E.
Pemrosesan ucapan
Mengubah bahasa lisan menjadi teks menimbulkan tantangan seperti aksen, kebisingan latar belakang, dan variasi fonetik. NLP secara signifikan meningkatkan proses ini dengan menggunakan informasi kontekstual dan semantik untuk membuat transkripsi lebih akurat.
- Transkripsi langsung: Di platform seperti Zoom atau Google Meet, NLP memungkinkan transkrip real-time menyesuaikan teks sebelumnya berdasarkan konteks baru dari ucapan yang sedang berlangsung.Ini juga membantu dalam mengelompokkan ucapan menjadi kata-kata yang berbeda.
- Sistem respons suara interaktif (IVR): Sistem telepon yang biasanya digunakan oleh operasi layanan pelanggan perusahaan besar menggunakan NLP untuk memahami bantuan apa yang Anda minta.
Terjemahan bahasa
NLP sangat penting untuk menerjemahkan teks antar bahasa, melayani pengguna biasa dan penerjemah profesional. Berikut adalah beberapa poin penting:
- Penggunaan sehari-hari: NLP membantu orang menelusuri, mengobrol, belajar, dan bepergian menggunakan berbagai bahasa dengan menyediakan terjemahan yang akurat.
- Penggunaan profesional: Penerjemah sering kali menggunakan terjemahan mesin untuk draf awal, menyempurnakannya dengan keahlian bahasa mereka.Platform khusus menawarkan memori terjemahan untuk mempertahankan konsistensi terminologi untuk bidang tertentu seperti kedokteran atau hukum.
- Meningkatkan akurasi terjemahan: Memberikan lebih banyak konteks, seperti kalimat atau paragraf lengkap, dapat membantu model NLP menghasilkan terjemahan yang lebih akurat daripada frasa pendek atau kata tunggal.
Sejarah singkat NLP
Sejarah NLP dapat dibagi menjadi tiga era utama: pendekatan berbasis aturan, era metode statistik, dan revolusi pembelajaran mendalam. Setiap era membawa perubahan transformatif di lapangan.
Pendekatan berbasis aturan (1950an)
Program NLP pertama, dimulai pada tahun 1950an, didasarkan pada aturan-aturan yang dikodekan secara keras. Program-program ini bekerja dengan baik untuk tata bahasa sederhana namun segera mengungkapkan tantangan dalam membangun aturan komprehensif untuk keseluruhan bahasa. Kompleksitas nada dan konteks dalam bahasa manusia membuat pendekatan ini memakan banyak tenaga dan tidak memadai.
Metode statistik (1980-an)
Pada tahun 1980-an, ilmuwan komputer mulai mengembangkan model yang menggunakan metode statistik untuk menemukan pola dalam kumpulan teks berukuran besar. Pendekatan ini memanfaatkan probabilitas dibandingkan aturan untuk mengevaluasi masukan dan menghasilkan keluaran, dan terbukti lebih akurat, fleksibel, dan praktis. Selama tiga dekade, kemajuan dalam NLP sebagian besar didorong oleh peningkatan bertahap dalam kekuatan pemrosesan dan ukuran kumpulan data pelatihan.
Pembelajaran mendalam (Pertengahan 2010-an hingga sekarang)
Sejak pertengahan tahun 2010-an, pembelajaran mendalam telah merevolusi NLP. Teknik pembelajaran mendalam modern memungkinkan komputer memahami, menghasilkan, dan menerjemahkan bahasa manusia dengan akurasi luar biasa—sering kali melampaui kinerja manusia dalam tugas-tugas tertentu.
Dua kemajuan besar telah mendorong kemajuan ini:
- Data pelatihan yang sangat besar: Para peneliti telah memanfaatkan data ekstensif yang dihasilkan oleh internet.Misalnya, model seperti GPT-4 dilatih pada teks yang setara dengan lebih dari satu juta buku. Demikian pula, Google Terjemahan mengandalkan kumpulan besar konten terjemahan paralel.
- Jaringan saraf tingkat lanjut: Pendekatan baru telah meningkatkan jaringan saraf, memungkinkan mereka mengevaluasi masukan yang lebih besar secara holistik.Awalnya, jaringan saraf berulang dan teknologi terkait dapat menangani kalimat atau paragraf pendek. Arsitektur transformator saat ini, dengan menggunakan teknik yang disebut perhatian, dapat memproses banyak paragraf atau bahkan seluruh halaman. Konteks yang diperluas ini meningkatkan kemungkinan untuk memahami maknanya dengan benar, seperti halnya pemahaman manusia.
Bagaimana Grammarly menggunakan pemrosesan bahasa alami
Grammarly menggunakan perpaduan sistem berbasis aturan dan model pembelajaran mesin untuk membantu penulis. Metode berbasis aturan berfokus pada kesalahan yang lebih obyektif, seperti ejaan dan tata bahasa. Untuk tugas-tugas kebijaksanaan seperti nada dan gaya, ia menggunakan model pembelajaran mesin. Kedua jenis ini sering kali bekerja sama, dengan sistem yang disebut Gandalf (seperti dalam, “Anda tidak dapat lulus”) yang menentukan saran mana yang akan diberikan kepada pengguna. Alice Kaiser-Schatzlein, ahli bahasa analitis di Grammarly, menjelaskan, “Evaluasi berbasis aturan terutama dalam bidang kebenaran, sedangkan model cenderung digunakan untuk jenis perubahan yang lebih subjektif.”
Masukan dari pengguna, baik agregat maupun individu, merupakan sumber data penting untuk menyempurnakan model Grammarly. Gunnar Lund, ahli bahasa analitis lainnya, menjelaskan: “Kami mempersonalisasi saran berdasarkan apa yang diterima atau ditolak orang di masa lalu.” Masukan ini tidak teridentifikasi dan digunakan secara holistik untuk menyempurnakan dan mengembangkan fitur-fitur baru, memastikan bahwa alat tersebut beradaptasi dengan berbagai gaya penulisan dengan tetap menjaga privasi.
Kekuatan Grammarly terletak pada penyediaan bantuan langsung dan berkualitas tinggi di berbagai platform. Seperti yang dicatat oleh Lund, antarmuka produk adalah bagian penting dalam membuat kekuatan AI dapat diakses: “Grammarly memiliki bantuan langsung… menghadirkan NLP dalam UI yang cepat dan mudah digunakan.” Aksesibilitas dan daya tanggap ini menguntungkan semua orang yang menulis dalam bahasa Inggris, terutama yang bukan penutur asli bahasa Inggris.
Langkah selanjutnya adalah melakukan personalisasi, selain saran yang diterima dan ditolak pengguna. Seperti yang dikatakan Kaiser-Schatzlein, “Kami ingin produk kami menghasilkan tulisan yang lebih sadar konteks dan mencerminkan selera dan ekspresi pribadi penulis… kami berupaya membuat bahasanya terdengar lebih seperti Anda.”
Catatan Editor: Grammarly sangat memperhatikan privasi Anda. Ini menerapkan langkah-langkah ketat seperti enkripsi dan konfigurasi jaringan yang aman untuk melindungi data pengguna. Untuk informasi lebih lanjut, silakan lihat Kebijakan Privasi kami.
Kasus penggunaan industri
NLP merevolusi industri dengan memungkinkan mesin memahami dan menghasilkan bahasa manusia. Ini meningkatkan efisiensi, akurasi, dan pengalaman pengguna di bidang perawatan kesehatan, layanan hukum, ritel, asuransi, dan layanan pelanggan. Berikut beberapa kasus penggunaan utama di sektor ini.
Kesehatan
Perangkat lunak transkripsi dapat sangat meningkatkan efisiensi dan kemanjuran waktu terbatas seorang dokter dengan setiap pasien. Daripada menghabiskan banyak waktu untuk mengetik catatan, mereka dapat mengandalkan aplikasi untuk menyalin percakapan alami dengan pasien. Lapisan NLP lainnya dapat merangkum percakapan dan menyusun informasi terkait seperti gejala, diagnosis, dan rencana pengobatan.
Hukum
Alat NLP dapat mencari database hukum untuk kasus hukum, undang-undang, dan preseden hukum yang relevan, menghemat waktu dan meningkatkan akurasi dalam penelitian hukum. Demikian pula, mereka dapat meningkatkan proses penemuan, menemukan pola dan detail dalam ribuan dokumen yang mungkin terlewatkan oleh manusia.
Pengecer
Penjual menggunakan NLP untuk analisis sentimen, melihat ulasan dan umpan balik pelanggan di situs mereka dan di internet untuk mengidentifikasi tren. Beberapa pengecer juga mulai memaparkan analisis ini kepada pembeli, dengan merangkum reaksi konsumen terhadap berbagai atribut pada banyak produk.
Pertanggungan
Klaim sering kali melibatkan dokumentasi yang ekstensif. NLP dapat mengekstrak informasi yang relevan dari laporan polisi, catatan dokter seumur hidup, dan banyak sumber lain untuk membantu mesin dan/atau manusia mengambil keputusan dengan lebih cepat dan akurat.
Pelayanan pelanggan
Menyediakan dukungan pelanggan itu mahal, dan perusahaan telah menerapkan chatbot, pohon telepon respons suara, dan alat NLP lainnya selama beberapa dekade untuk mengurangi volume masukan yang harus ditangani langsung oleh staf. AI generatif, yang dapat memanfaatkan LLM dan penyesuaian khusus perusahaan, telah menjadikannya jauh lebih berguna. Bot berbasis NLP saat ini sering kali dapat memahami nuansa pertanyaan pelanggan, memberikan jawaban yang lebih spesifik, dan bahkan mengekspresikan diri dengan nada yang disesuaikan dengan merek yang mereka wakili.
Manfaat pemrosesan bahasa alami
NLP memiliki beragam aplikasi yang secara signifikan meningkatkan kehidupan kita sehari-hari dan interaksi dengan teknologi, termasuk:
- Mencari di seluruh data: Hampir semua mesin pencari, dari Google hingga katalog perpustakaan lokal Anda, menggunakan NLP untuk menemukan konten yang sesuai dengan maksud Anda. Tanpanya, hasil akan terbatas pada pencocokan persis dengan apa yang Anda ketik.
- Aksesibilitas: NLP adalah dasar bagaimana komputer dapat membacakan sesuatu dengan lantang bagi orang-orang yang mengalami gangguan penglihatan atau mengubah kata-kata yang diucapkan bagi mereka yang memiliki gangguan pendengaran.
- Terjemahan sehari-hari: Layanan terjemahan instan, gratis, dan berkualitas tinggi telah menjadikan informasi dunia lebih mudah diakses. Ini bukan hanya sekedar teks-ke-teks: Teknologi terjemahan visual dan audio memungkinkan Anda memahami apa yang Anda lihat dan dengar, bahkan jika Anda tidak tahu cara menulis bahasanya.
- Peningkatan komunikasi: Grammarly adalah contoh bagus tentang bagaimana NLP dapat meningkatkan kejelasan dalam menulis. Dengan memberikan saran yang relevan secara kontekstual, Grammarly membantu penulis memilih kata-kata yang menyampaikan makna yang diinginkan dengan lebih baik. Selain itu, jika seorang penulis mengalami hambatan menulis, kemampuan AI Grammarly dapat membantu mereka memulai dengan menawarkan petunjuk atau ide untuk memulai tulisan mereka.
Tantangan pemrosesan bahasa alami
Meskipun NLP menawarkan banyak manfaat, NLP juga menghadirkan beberapa tantangan signifikan yang perlu diatasi, termasuk:
- Bias dan keadilan: Model AI pada dasarnya tidak mengetahui benar atau salah, dan data pelatihannya sering kali berisi bias historis (dan terkini) yang memengaruhi keluarannya.
- Privasi dan keamanan: Chatbots dan generasi AI lainnya diketahui membocorkan informasi pribadi. NLP sangat memudahkan komputer untuk memproses dan mengkompilasi data sensitif. Ada risiko tinggi pencurian dan bahkan distribusi yang tidak disengaja.
- Jauh dari sempurna: NLP sering kali salah, terutama dalam pengucapan. Sebagian besar sistem NLP tidak memberi tahu Anda seberapa yakin mereka dalam tebakannya, jadi untuk kasus di mana keakuratan itu penting, pastikan untuk melakukan tinjauan manusia yang berpengetahuan luas atas terjemahan, transkrip, dll.
- Bahasa ekor panjang: Sebagian besar penelitian NLP dilakukan dalam bahasa Inggris, dan sebagian besar sisanya dilakukan dalam konteks penerjemahan, bukan analisis dalam bahasa tersebut. Ada beberapa hambatan untuk meningkatkan NLP non-Inggris, terutama menemukan data pelatihan yang cukup.
- Deepfake dan penyalahgunaan lainnya: Meskipun manusia telah memalsukan dokumen sejak awal penulisan, kemajuan NLP mempermudah pembuatan konten palsu dan menghindari deteksi. Khususnya, pemalsuan dapat disesuaikan dengan konteks dan gaya penulisan seseorang.
Masa depan pemrosesan bahasa alami
Memprediksi masa depan AI adalah tugas yang sangat sulit, namun berikut beberapa petunjuk yang harus diwaspadai:
- Personalisasi: Model akan mengumpulkan informasi tentang Anda untuk lebih memahami konteks, preferensi, dan kebutuhan Anda. Salah satu aspek rumit dari upaya ini adalah menghormati undang-undang privasi dan preferensi individu. Untuk memastikan data Anda tetap aman, gunakan hanya alat yang berkomitmen terhadap inovasi yang bertanggung jawab dan pengembangan AI.
- Multibahasa: Selain penerjemahan, teknik-teknik baru akan membantu model AI bekerja dalam berbagai bahasa dengan kemahiran yang kurang lebih sama.
- Multimodalitas: Inovasi AI terbaru secara bersamaan dapat menerima masukan dalam berbagai bentuk baik teks, video, audio, dan gambar. Artinya, Anda dapat berbicara tentang gambar atau video, dan model akan memahami apa yang Anda katakan dalam konteks media.
- Pemrosesan edge yang lebih cepat: “Edge”, dalam hal ini, mengacu pada perangkat, bukan pada cloud. Chip dan perangkat lunak baru akan memungkinkan ponsel dan komputer memproses bahasa tanpa mengirim data bolak-balik ke server. Pemrosesan lokal ini lebih cepat dan aman. Grammarly adalah bagian dari jalur baru yang menarik ini, dengan tim kami yang telah mengerjakan pemrosesan AI tingkat perangkat di Gemini Nano Google.
Kesimpulan
Singkatnya, NLP adalah bidang penting dan maju dalam AI dan linguistik komputasi yang memberdayakan komputer untuk memahami dan menghasilkan bahasa manusia. NLP telah mengubah aplikasi dalam pemrosesan teks, pengenalan suara, terjemahan, dan analisis sentimen dengan mengatasi kompleksitas seperti konteks dan variabilitas. Terlepas dari tantangan seperti bias, privasi, dan akurasi, masa depan NLP menjanjikan kemajuan dalam personalisasi, kemampuan multibahasa, dan pemrosesan multimodal, yang semakin meningkatkan dampaknya terhadap teknologi dan berbagai industri.