คุณจะแก้ไขประโยค Run-On ได้อย่างไร?
เผยแพร่แล้ว: 2018-11-08ในช่วงหนึ่งของชีวิต คุณอาจเคยมีครูที่ตำหนิข้อผิดพลาดในการเขียนภาษาอังกฤษ: ประโยคที่ต่อเนื่อง
การรันออนถือเป็นข้อผิดพลาดประเภทหนึ่งที่พบบ่อย ในบรรดานักศึกษาวิทยาลัยในสหรัฐอเมริกา ประโยคที่ต่อเนื่องกันถือเป็นข้อผิดพลาดที่พบบ่อยที่สุดอันดับที่ 18 ของผู้พูดภาษาอังกฤษโดยเจ้าของภาษา และข้อผิดพลาดที่พบบ่อยที่สุดอันดับที่ 8 ที่เกิดจากนักเรียนที่ไม่ใช่เจ้าของภาษาอังกฤษ
ความสามารถในการตรวจจับและแก้ไขข้อผิดพลาดประเภทนี้โดยอัตโนมัติจะเป็นประโยชน์ต่อผู้เขียนอย่างเห็นได้ชัด แต่มีการใช้งานที่กว้างกว่านั้นอีก ตัวอย่างเช่น เมื่อคุณกำหนดข้อความ คุณต้องพูดว่า "จุด" ที่ท้ายประโยคก่อนที่จะเริ่มประโยคใหม่ ไม่เช่นนั้นการถอดเสียงของคุณจะกลายเป็นการวิ่งต่อเนื่องครั้งเดียว ระบบ AI ที่สามารถระบุตำแหน่งที่ควรเริ่มต้นและหยุดประโยคโดยอัตโนมัติสามารถแทรกเครื่องหมายวรรคตอนที่เหมาะสมได้โดยอัตโนมัติ ช่วยให้สมองของคุณมีสมาธิกับข้อมูลที่คุณพยายามสื่อสาร
งานของ Grammarly เกี่ยวกับประโยคต่อเนื่องเป็นหัวข้อของรายงานใหม่ที่เรานำเสนอในการประชุมเชิงปฏิบัติการเรื่อง Noisy User-generated Text ครั้งที่ 4 เมื่อสัปดาห์ที่แล้วที่การประชุม EMNLP ที่กรุงบรัสเซลส์ เราภูมิใจที่จะบอกว่าได้รับรางวัล 1 ใน 2 รางวัลกระดาษที่ดีที่สุดในเวิร์กช็อป! อ่านต่อเพื่อดูว่า Grammarly รับมือกับความท้าทายในการแก้ไขประโยคที่ต่อเนื่องกันอย่างไร
ประโยควิ่งคืออะไร?
คำจำกัดความของประโยคต่อเนื่องจะแตกต่างกันไปเล็กน้อยในแต่ละคน บางคนถือว่าการต่อเครื่องหมายจุลภาคเป็นประเภทของประโยคต่อเนื่อง สำหรับคนอื่นๆ ประโยคต่อเนื่องเป็นเพียงประโยคที่ยาวมาก อย่างไรก็ตาม ความยาวเพียงอย่างเดียวไม่ได้ทำให้ประโยคดำเนินไปอย่างต่อเนื่อง
โดยพื้นฐานแล้ว ประโยคต่อเนื่องคือประโยคที่สมบูรณ์สองประโยคขึ้นไปที่ถูกนำมารวมกันอย่างไม่เหมาะสม ต่อไปนี้เป็นตัวอย่างของการเรียกใช้:
มีประโยคอิสระสองประโยคที่นี่: ใช้ชีวิตให้เต็มที่ และ อย่ามองข้ามสิ่งใดๆ โดยปกติแล้ว เมื่อคุณต้องการรวมอนุประโยคอิสระสองอนุประโยคเข้าด้วยกัน คุณจะต้องเชื่อมโยงอนุประโยคเหล่านั้นเข้าด้วยกันด้วยวิธีใดวิธีหนึ่ง ทางเลือกหนึ่งคือใช้เครื่องหมายจุลภาคและคำเชื่อม:
อีกทางเลือกหนึ่งคือการใช้อัฒภาค:
ทางเลือกที่สามคือการแบ่งอนุประโยคออกเป็นประโยคแยกกัน:
ปัญหาของประโยคต่อเนื่องคือมันเข้าใจยาก คำสันธาน อัฒภาค และจุดทำหน้าที่เป็นป้ายบอกทางภายในประโยคเพื่อช่วยให้ผู้อ่านติดตามสิ่งที่ผู้เขียนพูด เมื่อไม่มีป้ายบอกทางเหล่านี้ ผู้อ่านอาจจะต้องย้อนกลับไปอ่านซ้ำเพื่อให้เข้าใจประโยคนั้น
เหตุใดการแก้ไขการรันออนโดยอัตโนมัติจึงเป็นเรื่องยาก
ไวยากรณ์แก้ไขข้อผิดพลาดเครื่องหมายวรรคตอนและข้อผิดพลาดทางไวยากรณ์แล้ว แล้วการสอนระบบ AI เพื่อแก้ไขประโยคที่ต่อเนื่องแตกต่างกันอย่างไร ทำไมมันยากจัง?
ข้อผิดพลาดด้านเครื่องหมายวรรคตอนหรือไวยากรณ์จำนวนมากส่งผลต่อเฉพาะส่วนที่แยกออกจากประโยคเท่านั้น นั่นหมายความว่าระบบ AI ของคุณจะต้องประมวลผลประโยคบางส่วนเท่านั้นเพื่อระบุและแก้ไขปัญหา การวิ่งต่อไปเป็นปัญหาระดับประโยค ต้องการให้ AI ของคุณประมวลผลสตริงข้อความที่ยาวและซับซ้อนยิ่งขึ้น
การแก้ไขการรันออนโดยอัตโนมัติก็ทำได้ยากเช่นกัน เนื่องจากมีหลายวิธีในการดำเนินการ ดังตัวอย่างข้างต้น คุณสามารถเพิ่มเครื่องหมายวรรคตอน คำร่วม หรือแบ่งคำที่ต่อเนื่องออกเป็นหลายๆ ประโยคได้ AI ของคุณจะต้องเรียนรู้วิธีระบุวิธีที่ดีที่สุดในการแก้ไขปัญหาที่เกิดขึ้นในสถานการณ์เฉพาะ
ยิ่งไปกว่านั้น ยังไม่มีข้อมูลที่มีอยู่มากนักในการฝึกระบบ AI เพื่อจุดประสงค์นี้ แม้ว่าประโยคที่เรียกใช้จะเป็นข้อผิดพลาดทั่วไป แต่ไม่มีคลังข้อมูลที่รวมประโยคที่มีป้ายกำกับเพียงพอที่จะใช้เป็นข้อมูลการฝึกอบรม (คลังข้อมูลคือชุดข้อความจำนวนมากที่ได้รับการติดป้ายกำกับในลักษณะที่อัลกอริทึมของคอมพิวเตอร์สามารถเรียนรู้ได้)
สิ่งที่เราทำ
ลำดับแรกของธุรกิจคือการสร้างชุดประโยคที่ต่อเนื่องกัน เราสร้างประโยคที่ต่อเนื่องโดยไม่ตั้งใจโดยการลบเครื่องหมายวรรคตอนระหว่างคู่ประโยคออกจากคลังบทความข่าว (ดูบทความของเราสำหรับคำอธิบายทั้งหมดเกี่ยวกับกระบวนการของเราและวิธีที่เราเลือกประโยคผู้สมัคร)
จากนั้นเราใช้ประโยครันออนที่สร้างขึ้นใหม่เพื่อฝึกโมเดลแมชชีนเลิร์นนิงทั้งสองที่เราสร้างขึ้นเพื่อระบุและแก้ไขรันออน การเรียนรู้ของเครื่องเป็นพื้นที่หนึ่งของ AI ที่เกี่ยวข้องกับการสอนอัลกอริธึมให้ทำงานโดยอัตโนมัติด้วยการแสดงตัวอย่างมากมาย แทนที่จะให้ชุดขั้นตอนที่กำหนดไว้ล่วงหน้าที่เข้มงวด
การแก้ไขประโยคที่รันอยู่: สิ่งที่เราพบ
เมื่อโมเดลได้รับการฝึกอบรมแล้ว เราได้ทดสอบโมเดลเหล่านี้กับประโยคเรียกใช้ที่สร้างขึ้นใหม่ชุดใหม่ รวมถึงชุดประโยคเรียกใช้ที่เกิดขึ้นตามธรรมชาติชุดเล็กๆ จากคลังข้อมูลการวิจัยที่มีอยู่
เราพบว่าทั้งสองโมเดลมีประสิทธิภาพเหนือกว่าโมเดลชั้นนำสำหรับการกู้คืนเครื่องหมายวรรคตอนและการแก้ไขข้อผิดพลาดทางไวยากรณ์ในงานนี้ ยังมีการค้นพบที่น่าตื่นเต้นอีกประการหนึ่ง: แบบจำลองของเราซึ่งได้รับการฝึกฝนเกี่ยวกับประโยคที่สร้างขึ้นอย่างปลอมๆ สามารถระบุประโยคต่อเนื่องที่เขียนโดยนักเขียนตัวจริงได้ เช่นเดียวกับที่พวกเขาระบุประโยคที่ซ้ำกันที่สร้างขึ้นได้
แน่นอนว่ายังมีงานที่ต้องทำอีกมากที่นี่ ข้อมูลการฝึกอบรมของเราสร้างขึ้นโดยใช้ข้อความ "สะอาด" ซึ่งหมายความว่าข้อความไม่มีข้อผิดพลาดทางไวยากรณ์นอกเหนือจากที่เราแทรกไว้ ในโลกแห่งความเป็นจริง ประโยคที่รันบนอาจมีปัญหาทางไวยากรณ์เพิ่มเติม ซึ่งทำให้อัลกอริธึมระบุและแก้ไขการรันบนได้ยากขึ้น อย่างไรก็ตาม นี่เป็นก้าวที่น่าตื่นเต้นสู่วิสัยทัศน์ของเราในการสร้างผู้ช่วยด้านการสื่อสารที่ครอบคลุมซึ่งจะช่วยให้คุณเขียนข้อความที่จะเข้าใจได้อย่างที่คุณต้องการ
คุณจะแก้ไขประโยคที่ต่อเนื่องได้อย่างไร มันไม่ง่ายอย่างที่คิด บทความใหม่โดย Junchao Zheng, Courtney Napoles, Joel Tetreault และ Kostiantyn Omelianchuk มีการนำเสนอในการประชุมเชิงปฏิบัติการครั้งที่สี่เกี่ยวกับข้อความที่ผู้ใช้สร้างขึ้นที่มีเสียงดัง ซึ่งจัดร่วมกับ EMNLP 2018 บทความดังกล่าวปรากฏในการประชุมเชิงปฏิบัติการของ EMNLP ประจำปี 2018 W-NUT: การประชุมเชิงปฏิบัติการครั้งที่สี่เกี่ยวกับข้อความที่ผู้ใช้สร้างขึ้นที่มีเสียงดัง
เพิ่มเติมจากซีรีส์ Under the Hood at Grammarly ของเรา:
- การตรวจจับการเขียนที่ไม่เป็นระเบียบด้วย AI
- พลิกโฉมสไตล์การเขียนด้วย AI