คุณจะแก้ไขประโยค run-on ได้อย่างไร?
เผยแพร่แล้ว: 2018-11-08ในบางช่วงชีวิตของคุณ คุณอาจมีครูที่ต่อต้านข้อผิดพลาดในการเขียนภาษาอังกฤษ: ประโยควิ่งเล่น
การรันออนเป็นข้อผิดพลาดทั่วไป ในบรรดานักศึกษาวิทยาลัยในสหรัฐอเมริกา ประโยคที่รันต่อเป็นข้อผิดพลาดที่พบบ่อยที่สุดอันดับที่ 18 ของผู้พูดภาษาอังกฤษเป็นภาษาแม่ และข้อผิดพลาดที่พบบ่อยที่สุดอันดับแปดของนักเรียนที่ไม่ใช่เจ้าของภาษา
ความสามารถในการตรวจหาและแก้ไขข้อผิดพลาดประเภทนี้โดยอัตโนมัติจะเป็นประโยชน์ต่อผู้เขียนอย่างเห็นได้ชัด แต่มีแอปพลิเคชันที่กว้างขึ้น ตัวอย่างเช่น เมื่อคุณป้อนข้อความตามคำบอก คุณต้องพูดว่า "จุด" ที่ท้ายประโยคก่อนเริ่มประโยคใหม่ มิฉะนั้น การถอดเสียงเป็นคำที่ใช้เวลานาน ระบบ AI ที่สามารถระบุตำแหน่งที่ประโยคควรเริ่มต้นและหยุดโดยอัตโนมัติสามารถแทรกเครื่องหมายวรรคตอนที่เหมาะสมโดยอัตโนมัติ ทำให้สมองของคุณมีสมาธิกับข้อมูลที่คุณพยายามจะสื่อสาร
งานของ Grammarly เกี่ยวกับประโยคที่รันบนเป็นหัวข้อของบทความใหม่ที่เรานำเสนอในการประชุมเชิงปฏิบัติการครั้งที่ 4 เรื่องข้อความที่สร้างโดยผู้ใช้ที่มีเสียงดังเมื่อสัปดาห์ที่แล้วที่การประชุม EMNLP ในกรุงบรัสเซลส์ เราภูมิใจที่จะบอกว่ามันชนะรางวัลกระดาษยอดเยี่ยมหนึ่งในสองรางวัลจากเวิร์กชอป! อ่านต่อไปเพื่อดูว่า Grammarly จัดการกับความท้าทายในการแก้ไขประโยคที่รันอยู่ได้อย่างไร
ประโยค run-on คืออะไร?
คำจำกัดความของประโยค run-on แตกต่างกันไปเล็กน้อยในแต่ละคน บางคนถือว่าการประกบจุลภาคเป็นประเภทของประโยคที่รันออน สำหรับคนอื่น ประโยค run-on เป็นประโยคที่ยาวมาก อย่างไรก็ตาม ความยาวเพียงอย่างเดียวไม่ได้ทำให้ประโยคเป็นการใช้จริง
โดยพื้นฐานแล้ว ประโยค run-on เป็นเพียงประโยคที่สมบูรณ์ตั้งแต่สองประโยคขึ้นไปซึ่งถูกบีบอัดเข้าด้วยกันอย่างไม่เหมาะสม นี่คือตัวอย่างของการรันออน:
มีอนุประโยคอิสระสองประโยค: ใช้ชีวิตให้เต็มที่ และ อย่าถือสาอะไร ตามเนื้อผ้า เมื่อคุณต้องการรวมส่วนคำสั่งอิสระสองส่วนเข้าด้วยกัน คุณต้องเชื่อมโยงส่วนคำสั่งทั้งสองเข้าด้วยกันในทางใดทางหนึ่ง ทางเลือกหนึ่งคือการใช้เครื่องหมายจุลภาคและคำสันธาน:
อีกทางเลือกหนึ่งคือการใช้อัฒภาค:
ตัวเลือกที่สามคือการแบ่งประโยคออกเป็นประโยคแยกกัน:
ปัญหาของประโยคที่ทับซ้อนกันคือพวกเขาเข้าใจยาก คำสันธาน อัฒภาค และมหัพภาคทำหน้าที่เป็นป้ายบอกทางภายในประโยคเพื่อช่วยให้ผู้อ่านปฏิบัติตามสิ่งที่ผู้เขียนพูด เมื่อไม่มีป้ายบอกทางเหล่านี้ ผู้อ่านอาจต้องย้อนรอยและอ่านซ้ำเพื่อให้เข้าใจประโยค
เหตุใดจึงยากที่จะแก้ไข run-on โดยอัตโนมัติ
ไวยากรณ์แก้ไขข้อผิดพลาดของเครื่องหมายวรรคตอนและข้อผิดพลาดทางไวยากรณ์แล้ว แล้วการสอนระบบ AI ให้แก้ไขประโยคที่รันบนต่างกันอย่างไร? ทำไมมันยากจัง
เครื่องหมายวรรคตอนหรือข้อผิดพลาดทางไวยากรณ์จำนวนมากมีผลกับประโยคที่แยกออกมาเท่านั้น นั่นหมายความว่าระบบ AI ของคุณจะต้องประมวลผลประโยคเฉพาะเพื่อระบุและแก้ไขปัญหา การรันออนเป็นปัญหาระดับประโยค ต้องใช้ AI ในการประมวลผลสตริงข้อความที่ยาวและซับซ้อนกว่ามาก
การแก้ไข run-on โดยอัตโนมัติก็ทำได้ยากเช่นกัน เพราะมีหลายวิธีที่จะทำ ดังในตัวอย่างข้างต้น คุณสามารถเพิ่มเครื่องหมายวรรคตอน คำเชื่อม หรือแบ่งการทับศัพท์ออกเป็นหลายประโยคได้ AI ของคุณจะต้องเรียนรู้วิธีระบุวิธีที่ดีที่สุดในการแก้ไขการเรียกใช้ในสถานการณ์เฉพาะ
ยิ่งไปกว่านั้น ยังไม่มีข้อมูลที่มีอยู่มากมายในการฝึกอบรมระบบ AI เพื่อจุดประสงค์นี้ แม้ว่าประโยค run-on จะเป็นข้อผิดพลาดทั่วไป แต่ไม่มีคลังข้อมูลที่มีอยู่ที่มีประโยค run-on ที่มีป้ายกำกับเพียงพอที่จะใช้เป็นข้อมูลการฝึกอบรม (คลังข้อมูลคือชุดข้อความขนาดใหญ่ที่มีป้ายกำกับในลักษณะที่อัลกอริทึมของคอมพิวเตอร์สามารถเรียนรู้ได้)
สิ่งที่เราทำ
ลำดับแรกของธุรกิจคือการสร้างคอลเลกชันของประโยคที่ต่อเนื่องกัน เราสร้างประโยคที่ทับซ้อนกันโดยนำเครื่องหมายวรรคตอนระหว่างคู่ประโยคออกจากคลังบทความข่าว (ดูบทความของเราสำหรับคำอธิบายทั้งหมดเกี่ยวกับกระบวนการของเราและวิธีที่เราเลือกประโยคของผู้สมัคร)
จากนั้นเราใช้ประโยค run-on ที่สร้างขึ้นใหม่เพื่อฝึกโมเดลการเรียนรู้ด้วยเครื่องทั้งสองแบบที่เราสร้างขึ้นเพื่อระบุและแก้ไข run-on แมชชีนเลิร์นนิงเป็นพื้นที่ของ AI ที่เกี่ยวข้องกับการสอนอัลกอริทึมให้ทำงานโดยอัตโนมัติโดยแสดงตัวอย่างจำนวนมาก แทนที่จะให้ชุดของขั้นตอนที่กำหนดไว้ล่วงหน้าอย่างเข้มงวด
การแก้ไขประโยคที่รันบน: สิ่งที่เราพบ
เมื่อโมเดลได้รับการฝึกอบรมแล้ว เราทดสอบพวกมันกับชุดประโยค run-on ที่สร้างขึ้นโดยไม่ได้ตั้งใจ เช่นเดียวกับชุดประโยค run-on ที่เกิดขึ้นตามธรรมชาติชุดเล็กๆ จากคลังข้อมูลการวิจัยที่มีอยู่
เราพบว่าทั้งคู่มีประสิทธิภาพเหนือกว่าโมเดลชั้นนำสำหรับการกู้คืนเครื่องหมายวรรคตอนและการแก้ไขข้อผิดพลาดทางไวยากรณ์ในงานนี้ นอกจากนี้ยังมีการค้นพบที่น่าตื่นเต้นอีกประการหนึ่ง: โมเดลของเราซึ่งได้รับการฝึกฝนเกี่ยวกับประโยคที่สร้างขึ้นโดยไม่ได้ตั้งใจ สามารถระบุประโยคที่รันอินที่เขียนโดยนักเขียนตัวจริงได้ เช่นเดียวกับที่พวกเขาระบุประโยคที่รันออนที่ประดิษฐ์ขึ้นเอง
แน่นอนว่ายังมีงานให้ทำอีกมากที่นี่ ข้อมูลการฝึกอบรมของเราสร้างขึ้นโดยใช้ข้อความ "สะอาด" ซึ่งหมายความว่าข้อความไม่มีข้อผิดพลาดทางไวยากรณ์นอกเหนือจากที่เราแทรก ในโลกแห่งความเป็นจริง ประโยค run-on อาจมีปัญหาทางไวยากรณ์เพิ่มเติมที่ทำให้อัลกอริธึมระบุและแก้ไข run-on ได้ยากขึ้น อย่างไรก็ตาม นี่เป็นขั้นตอนที่น่าตื่นเต้นสำหรับวิสัยทัศน์ของเราในการสร้างผู้ช่วยด้านการสื่อสารที่ครอบคลุม ซึ่งจะช่วยให้คุณเขียนข้อความที่เข้าใจได้ตรงตามที่คุณตั้งใจไว้
คุณจะแก้ไขประโยคที่รันต่อได้อย่างไร มันไม่ง่ายอย่างที่คิด เป็นบทความใหม่โดย Junchao Zheng, Courtney Napoles, Joel Tetreault และ Kostiantyn Omelianchuk มันถูกนำเสนอในการประชุมเชิงปฏิบัติการครั้งที่สี่เกี่ยวกับข้อความที่สร้างโดยผู้ใช้ที่มีเสียงดังซึ่งร่วมกับ EMNLP 2018 บทความนี้ปรากฏในการดำเนินการของการประชุมเชิงปฏิบัติการ EMNLP ปี 2018 W-NUT: การประชุมเชิงปฏิบัติการครั้งที่สี่เกี่ยวกับข้อความที่สร้างโดยผู้ใช้ที่มีเสียงดัง
เพิ่มเติมจากชุด Under the Hood ที่ Grammarly:
- ตรวจจับการเขียนที่ไม่เป็นระเบียบด้วย AI
- เปลี่ยนรูปแบบการเขียนด้วย AI