Bagaimana Anda memperbaiki kalimat run-on?
Diterbitkan: 2018-11-08Pada titik tertentu dalam hidup Anda, Anda mungkin memiliki seorang guru yang mencela kesalahan tertentu dalam penulisan bahasa Inggris: kalimat run-on.
Run-on adalah jenis kesalahan yang umum. Di antara mahasiswa di Amerika Serikat, kalimat run-on adalah kesalahan kedelapan belas yang paling sering dilakukan oleh penutur asli bahasa Inggris dan kesalahan kedelapan yang paling sering dilakukan oleh siswa yang bukan penutur asli bahasa Inggris.
Kemampuan untuk secara otomatis mendeteksi dan memperbaiki jenis kesalahan ini jelas akan berguna bagi penulis. Tetapi ada aplikasi yang lebih luas. Saat Anda mendiktekan pesan teks, misalnya, Anda perlu mengatakan "titik" di akhir kalimat Anda sebelum memulai yang baru, atau transkripsi Anda akan berubah menjadi satu kalimat panjang. Sistem AI yang dapat secara otomatis mengetahui di mana sebuah kalimat harus dimulai dan dihentikan dapat secara otomatis memasukkan tanda baca yang tepat, membebaskan otak Anda untuk berkonsentrasi pada informasi yang Anda coba komunikasikan.
Karya Grammarly pada kalimat run-on adalah subjek makalah baru yang kami presentasikan di The 4th Workshop on Noisy User-generated Text minggu lalu di konferensi EMNLP di Brussels. Kami bangga untuk mengatakan bahwa itu memenangkan salah satu dari dua penghargaan kertas terbaik di lokakarya! Baca terus untuk melihat bagaimana Grammarly mengatasi tantangan mengoreksi kalimat yang tidak berjalan.
Apa itu kalimat run-on?
Definisi kalimat run-on sedikit berbeda dari orang ke orang. Beberapa orang menganggap splices koma sebagai jenis kalimat run-on. Bagi orang lain, kalimat run-on hanyalah kalimat yang sangat panjang. Namun, panjangnya saja tidak membuat kalimat menjadi run-on yang sebenarnya.
Pada dasarnya, kalimat run-on hanyalah dua atau lebih kalimat lengkap yang disatukan dengan tidak benar. Berikut ini contoh run-on:
Ada dua klausa independen di sini: Jalani hidup sepenuhnya dan jangan anggap remeh . Secara tradisional, ketika Anda ingin menggabungkan dua klausa independen, Anda perlu menghubungkannya dengan cara tertentu. Salah satu opsi adalah menggunakan koma dan konjungsi:
Pilihan lain adalah menggunakan titik koma:
Opsi ketiga adalah memecah klausa menjadi kalimat terpisah:
Masalah dengan kalimat run-on adalah sulit dimengerti. Konjungsi, titik koma, dan titik bertindak sebagai penunjuk arah dalam sebuah kalimat untuk membantu pembaca mengikuti apa yang penulis katakan. Ketika rambu-rambu ini tidak ada, kemungkinan pembaca perlu mundur dan membaca ulang untuk memahami kalimatnya.
Mengapa sulit untuk mengoreksi run-on secara otomatis
Grammarly sudah mengoreksi kesalahan tanda baca dan kesalahan tata bahasa. Jadi apa bedanya dengan mengajarkan sistem AI untuk memperbaiki kalimat yang berjalan? Mengapa begitu sulit?
Banyak tanda baca atau kesalahan tata bahasa hanya memengaruhi bagian kalimat yang terisolasi. Itu berarti sistem AI Anda hanya perlu memproses potongan kalimat tertentu untuk mengidentifikasi dan memperbaiki masalah. Run-on, bagaimanapun, adalah masalah tingkat kalimat. Ini membutuhkan AI Anda untuk memproses string teks yang jauh lebih lama dan lebih kompleks.
Memperbaiki run-on secara otomatis juga sulit karena ada banyak cara untuk melakukannya. Seperti pada contoh di atas, Anda dapat menambahkan tanda baca, konjungsi, atau memecah run-on menjadi beberapa kalimat. AI Anda perlu mempelajari cara mengidentifikasi cara terbaik untuk memperbaiki run-on dalam situasi tertentu.
Selain itu, tidak banyak data yang ada di luar sana untuk melatih sistem AI untuk tujuan ini. Meskipun kalimat run-on adalah kesalahan umum, tidak ada korpus yang menyertakan kalimat run-on yang cukup berlabel untuk digunakan sebagai data pelatihan. (Korpus adalah kumpulan besar teks yang telah diberi label dengan cara yang dapat dipelajari oleh algoritme komputer.)
Apa yang kita lakukan
Urutan pertama bisnis adalah membuat kumpulan kalimat run-on. Kami membuat kalimat run-on secara artifisial dengan menghapus tanda baca di antara pasangan kalimat dari kumpulan artikel berita. (Lihat makalah kami untuk penjelasan lengkap tentang proses kami dan bagaimana kami memilih kalimat kandidat.)
Kami kemudian menggunakan kalimat run-on yang baru dibuat untuk melatih dua model pembelajaran mesin yang kami buat untuk mengidentifikasi dan memperbaiki run-on. Pembelajaran mesin adalah bidang AI yang melibatkan pengajaran algoritme untuk melakukan tugas secara otomatis dengan menunjukkan banyak contoh daripada dengan menyediakan serangkaian langkah yang telah ditentukan sebelumnya secara kaku.
Memperbaiki kalimat run-on: Apa yang kami temukan
Setelah model dilatih, kami mengujinya pada serangkaian kalimat run-on yang dibuat secara artifisial serta serangkaian kecil kalimat run-on yang muncul secara alami dari korpus penelitian yang ada.
Kami menemukan bahwa keduanya mengungguli model terkemuka untuk pemulihan tanda baca dan koreksi kesalahan tata bahasa pada tugas ini. Ada juga temuan menarik lainnya: Model kami, yang dilatih tentang kalimat yang dibuat secara artifisial, mampu mengidentifikasi kalimat run-on yang ditulis oleh penulis nyata serta mereka mengidentifikasi kalimat run-on buatan.
Ada, tentu saja, lebih banyak pekerjaan yang harus dilakukan di sini. Data pelatihan kami dihasilkan menggunakan teks "bersih", yang berarti bahwa teks tersebut tidak mengandung kesalahan tata bahasa selain yang kami sisipkan. Di dunia nyata, kalimat run-on mungkin mengandung masalah tata bahasa tambahan yang mempersulit algoritme untuk mengidentifikasi dan memperbaiki run-on. Namun demikian, ini adalah langkah yang menarik menuju visi kami untuk menciptakan asisten komunikasi yang komprehensif yang membantu Anda menulis pesan yang akan dipahami persis seperti yang Anda inginkan.
Bagaimana Anda mengoreksi kalimat run-on itu tidak semudah kelihatannya adalah makalah baru oleh Junchao Zheng, Courtney Napoles, Joel Tetreault, dan Kostiantyn Omelianchuk. Dipresentasikan pada Workshop Keempat Noisy User-generated Text yang bekerja sama dengan EMNLP 2018. Makalah ini muncul dalam Prosiding Workshop EMNLP 2018 W-NUT: Workshop Keempat tentang Teks yang Dihasilkan Pengguna Berisik.
Lebih banyak lagi dari seri Under the Hood at Grammarly kami:
- Mendeteksi Tulisan Tidak Teratur dengan AI
- Mengubah Gaya Menulis dengan AI