คุณจะแก้ไขประโยค Run-On ได้อย่างไร?

เผยแพร่แล้ว: 2018-11-08

ในช่วงหนึ่งของชีวิต คุณอาจเคยมีครูที่ตำหนิข้อผิดพลาดในการเขียนภาษาอังกฤษ: ประโยคที่ต่อเนื่อง

การรันออนถือเป็นข้อผิดพลาดประเภทหนึ่งที่พบบ่อย ในบรรดานักศึกษาวิทยาลัยในสหรัฐอเมริกา ประโยคที่ต่อเนื่องกันถือเป็นข้อผิดพลาดที่พบบ่อยที่สุดอันดับที่ 18 ของผู้พูดภาษาอังกฤษโดยเจ้าของภาษา และข้อผิดพลาดที่พบบ่อยที่สุดอันดับที่ 8 ที่เกิดจากนักเรียนที่ไม่ใช่เจ้าของภาษาอังกฤษ

สับสนเกี่ยวกับประโยคที่วิ่งต่อใช่ไหม?
ไวยากรณ์สามารถช่วยได้

ความสามารถในการตรวจจับและแก้ไขข้อผิดพลาดประเภทนี้โดยอัตโนมัติจะเป็นประโยชน์ต่อผู้เขียนอย่างเห็นได้ชัด แต่มีการใช้งานที่กว้างกว่านั้นอีก ตัวอย่างเช่น เมื่อคุณกำหนดข้อความ คุณต้องพูดว่า "จุด" ที่ท้ายประโยคก่อนที่จะเริ่มประโยคใหม่ ไม่เช่นนั้นการถอดเสียงของคุณจะกลายเป็นการวิ่งต่อเนื่องครั้งเดียว ระบบ AI ที่สามารถระบุตำแหน่งที่ควรเริ่มต้นและหยุดประโยคโดยอัตโนมัติสามารถแทรกเครื่องหมายวรรคตอนที่เหมาะสมได้โดยอัตโนมัติ ช่วยให้สมองของคุณมีสมาธิกับข้อมูลที่คุณพยายามสื่อสาร

งานของ Grammarly เกี่ยวกับประโยคต่อเนื่องเป็นหัวข้อของรายงานใหม่ที่เรานำเสนอในการประชุมเชิงปฏิบัติการเรื่อง Noisy User-generated Text ครั้งที่ 4 เมื่อสัปดาห์ที่แล้วที่การประชุม EMNLP ที่กรุงบรัสเซลส์ เราภูมิใจที่จะบอกว่าได้รับรางวัล 1 ใน 2 รางวัลกระดาษที่ดีที่สุดในเวิร์กช็อป! อ่านต่อเพื่อดูว่า Grammarly รับมือกับความท้าทายในการแก้ไขประโยคที่ต่อเนื่องกันอย่างไร

ประโยควิ่งคืออะไร?

คำจำกัดความของประโยคต่อเนื่องจะแตกต่างกันไปเล็กน้อยในแต่ละคน บางคนถือว่าการต่อเครื่องหมายจุลภาคเป็นประเภทของประโยคต่อเนื่อง สำหรับคนอื่นๆ ประโยคต่อเนื่องเป็นเพียงประโยคที่ยาวมาก อย่างไรก็ตาม ความยาวเพียงอย่างเดียวไม่ได้ทำให้ประโยคดำเนินไปอย่างต่อเนื่อง

โดยพื้นฐานแล้ว ประโยคต่อเนื่องคือประโยคที่สมบูรณ์สองประโยคขึ้นไปที่ถูกนำมารวมกันอย่างไม่เหมาะสม ต่อไปนี้เป็นตัวอย่างของการเรียกใช้:

ใช้ชีวิตให้เต็มที่ อย่ามองข้ามสิ่งใดๆ

มีประโยคอิสระสองประโยคที่นี่: ใช้ชีวิตให้เต็มที่ และ อย่ามองข้ามสิ่งใดๆ โดยปกติแล้ว เมื่อคุณต้องการรวมอนุประโยคอิสระสองอนุประโยคเข้าด้วยกัน คุณจะต้องเชื่อมโยงอนุประโยคเหล่านั้นเข้าด้วยกันด้วยวิธีใดวิธีหนึ่ง ทางเลือกหนึ่งคือใช้เครื่องหมายจุลภาคและคำเชื่อม:

ใช้ชีวิตให้เต็มที่และอย่ามองข้ามสิ่งใดๆ

อีกทางเลือกหนึ่งคือการใช้อัฒภาค:

ใช้ชีวิตให้เต็มที่ อย่าถือสาอะไรเลย

ทางเลือกที่สามคือการแบ่งอนุประโยคออกเป็นประโยคแยกกัน:

ใช้ชีวิตให้เต็มที่ อย่าถือสาอะไรเป็นอันขาด

ปัญหาของประโยคต่อเนื่องคือมันเข้าใจยาก คำสันธาน อัฒภาค และจุดทำหน้าที่เป็นป้ายบอกทางภายในประโยคเพื่อช่วยให้ผู้อ่านติดตามสิ่งที่ผู้เขียนพูด เมื่อไม่มีป้ายบอกทางเหล่านี้ ผู้อ่านอาจจะต้องย้อนกลับไปอ่านซ้ำเพื่อให้เข้าใจประโยคนั้น

เหตุใดการแก้ไขการรันออนโดยอัตโนมัติจึงเป็นเรื่องยาก

ไวยากรณ์แก้ไขข้อผิดพลาดเครื่องหมายวรรคตอนและข้อผิดพลาดทางไวยากรณ์แล้ว แล้วการสอนระบบ AI เพื่อแก้ไขประโยคที่ต่อเนื่องแตกต่างกันอย่างไร ทำไมมันยากจัง?

ข้อผิดพลาดด้านเครื่องหมายวรรคตอนหรือไวยากรณ์จำนวนมากส่งผลต่อเฉพาะส่วนที่แยกออกจากประโยคเท่านั้น นั่นหมายความว่าระบบ AI ของคุณจะต้องประมวลผลประโยคบางส่วนเท่านั้นเพื่อระบุและแก้ไขปัญหา การวิ่งต่อไปเป็นปัญหาระดับประโยค ต้องการให้ AI ของคุณประมวลผลสตริงข้อความที่ยาวและซับซ้อนยิ่งขึ้น

การแก้ไขการรันออนโดยอัตโนมัติก็ทำได้ยากเช่นกัน เนื่องจากมีหลายวิธีในการดำเนินการ ดังตัวอย่างข้างต้น คุณสามารถเพิ่มเครื่องหมายวรรคตอน คำร่วม หรือแบ่งคำที่ต่อเนื่องออกเป็นหลายๆ ประโยคได้ AI ของคุณจะต้องเรียนรู้วิธีระบุวิธีที่ดีที่สุดในการแก้ไขปัญหาที่เกิดขึ้นในสถานการณ์เฉพาะ

ยิ่งไปกว่านั้น ยังไม่มีข้อมูลที่มีอยู่มากนักในการฝึกระบบ AI เพื่อจุดประสงค์นี้ แม้ว่าประโยคที่เรียกใช้จะเป็นข้อผิดพลาดทั่วไป แต่ไม่มีคลังข้อมูลที่รวมประโยคที่มีป้ายกำกับเพียงพอที่จะใช้เป็นข้อมูลการฝึกอบรม (คลังข้อมูลคือชุดข้อความจำนวนมากที่ได้รับการติดป้ายกำกับในลักษณะที่อัลกอริทึมของคอมพิวเตอร์สามารถเรียนรู้ได้)

สิ่งที่เราทำ

ลำดับแรกของธุรกิจคือการสร้างชุดประโยคที่ต่อเนื่องกัน เราสร้างประโยคที่ต่อเนื่องโดยไม่ตั้งใจโดยการลบเครื่องหมายวรรคตอนระหว่างคู่ประโยคออกจากคลังบทความข่าว (ดูบทความของเราสำหรับคำอธิบายทั้งหมดเกี่ยวกับกระบวนการของเราและวิธีที่เราเลือกประโยคผู้สมัคร)

จากนั้นเราใช้ประโยครันออนที่สร้างขึ้นใหม่เพื่อฝึกโมเดลแมชชีนเลิร์นนิงทั้งสองที่เราสร้างขึ้นเพื่อระบุและแก้ไขรันออน การเรียนรู้ของเครื่องเป็นพื้นที่หนึ่งของ AI ที่เกี่ยวข้องกับการสอนอัลกอริธึมให้ทำงานโดยอัตโนมัติด้วยการแสดงตัวอย่างมากมาย แทนที่จะให้ชุดขั้นตอนที่กำหนดไว้ล่วงหน้าที่เข้มงวด

การแก้ไขประโยคที่รันอยู่: สิ่งที่เราพบ

เมื่อโมเดลได้รับการฝึกอบรมแล้ว เราได้ทดสอบโมเดลเหล่านี้กับประโยคเรียกใช้ที่สร้างขึ้นใหม่ชุดใหม่ รวมถึงชุดประโยคเรียกใช้ที่เกิดขึ้นตามธรรมชาติชุดเล็กๆ จากคลังข้อมูลการวิจัยที่มีอยู่

เราพบว่าทั้งสองโมเดลมีประสิทธิภาพเหนือกว่าโมเดลชั้นนำสำหรับการกู้คืนเครื่องหมายวรรคตอนและการแก้ไขข้อผิดพลาดทางไวยากรณ์ในงานนี้ ยังมีการค้นพบที่น่าตื่นเต้นอีกประการหนึ่ง: แบบจำลองของเราซึ่งได้รับการฝึกฝนเกี่ยวกับประโยคที่สร้างขึ้นอย่างปลอมๆ สามารถระบุประโยคต่อเนื่องที่เขียนโดยนักเขียนตัวจริงได้ เช่นเดียวกับที่พวกเขาระบุประโยคที่ซ้ำกันที่สร้างขึ้นได้

แน่นอนว่ายังมีงานที่ต้องทำอีกมากที่นี่ ข้อมูลการฝึกอบรมของเราสร้างขึ้นโดยใช้ข้อความ "สะอาด" ซึ่งหมายความว่าข้อความไม่มีข้อผิดพลาดทางไวยากรณ์นอกเหนือจากที่เราแทรกไว้ ในโลกแห่งความเป็นจริง ประโยคที่รันบนอาจมีปัญหาทางไวยากรณ์เพิ่มเติม ซึ่งทำให้อัลกอริธึมระบุและแก้ไขการรันบนได้ยากขึ้น อย่างไรก็ตาม นี่เป็นก้าวที่น่าตื่นเต้นสู่วิสัยทัศน์ของเราในการสร้างผู้ช่วยด้านการสื่อสารที่ครอบคลุมซึ่งจะช่วยให้คุณเขียนข้อความที่จะเข้าใจได้อย่างที่คุณต้องการ

คุณจะแก้ไขประโยคที่ต่อเนื่องได้อย่างไร มันไม่ง่ายอย่างที่คิด บทความใหม่โดย Junchao Zheng, Courtney Napoles, Joel Tetreault และ Kostiantyn Omelianchuk มีการนำเสนอในการประชุมเชิงปฏิบัติการครั้งที่สี่เกี่ยวกับข้อความที่ผู้ใช้สร้างขึ้นที่มีเสียงดัง ซึ่งจัดร่วมกับ EMNLP 2018 บทความดังกล่าวปรากฏในการประชุมเชิงปฏิบัติการของ EMNLP ประจำปี 2018 W-NUT: การประชุมเชิงปฏิบัติการครั้งที่สี่เกี่ยวกับข้อความที่ผู้ใช้สร้างขึ้นที่มีเสียงดัง

เพิ่มเติมจากซีรีส์ Under the Hood at Grammarly ของเรา:

  • การตรวจจับการเขียนที่ไม่เป็นระเบียบด้วย AI
  • พลิกโฉมสไตล์การเขียนด้วย AI