Under the Hood at Grammarly: ตรวจจับการเขียนที่ไม่เป็นระเบียบด้วย AI
เผยแพร่แล้ว: 2018-07-10เมื่อใดก็ตามที่คุณเขียนสิ่งที่ยาวกว่าประโยค คุณต้องตัดสินใจเกี่ยวกับวิธีจัดระเบียบและนำเสนอความคิดของคุณ การเขียนที่ดีนั้นเข้าใจง่ายเพราะแต่ละประโยคสร้างขึ้นจากประโยคที่มาก่อน เมื่อหัวข้อเปลี่ยนไป นักเขียนที่เก่งๆ จะใช้ประโยคเปลี่ยนและตัวแบ่งย่อหน้าเป็นป้ายบอกทางเพื่อบอกผู้อ่านว่าจะเกิดอะไรขึ้นต่อไป
นักภาษาศาสตร์เรียกแง่มุมของการเขียนวาทกรรมที่สอดคล้องกันและเป็นหัวข้อของงานวิจัยใหม่ที่น่าสนใจจากทีมวิจัยไวยากรณ์ที่จะปรากฏในการประชุม SIGDIAL ในเมืองเมลเบิร์น ประเทศออสเตรเลีย ในสัปดาห์นี้
ความสอดคล้องกันของวาทกรรมคืออะไร และเหตุใดจึงสนใจเรื่องนี้
เมื่อเราพูดว่าข้อความมีความสอดคล้องของวาทกรรมในระดับสูง เราหมายความว่าประโยคทั้งหมดเชื่อมโยงกันอย่างมีเหตุผล ผู้เขียนไม่เบี่ยงเบนประเด็น จุดต่าง ๆ เชื่อมต่อกันด้วยการเปลี่ยนภาพ ข้อความที่ง่ายต่อการติดตามตั้งแต่ต้นจนจบ
องค์กรประเภทนี้ไม่ได้เกิดขึ้นเองตามธรรมชาติเสมอไป พวกเราสองสามคนคิดอย่างเป็นเส้นตรงอย่างสมบูรณ์แบบ ระบบที่สามารถบอกคุณได้โดยอัตโนมัติเมื่อคุณเขียนบางสิ่งที่คนอื่นไม่สามารถทำตามได้ และในที่สุดก็แนะนำวิธีแก้ไขปัญหานี้ ซึ่งจะเป็นประโยชน์อย่างมากในการสื่อสารสิ่งที่คุณหมายถึง
สิ่งที่ทำไปแล้ว
การสอนคอมพิวเตอร์ให้ตัดสินระดับความสอดคล้องของข้อความอย่างถูกต้องเป็นสิ่งที่ท้าทาย จนถึงปัจจุบัน วิธีที่ใช้กันทั่วไปในการประเมินว่าคอมพิวเตอร์ให้คะแนนความสอดคล้องกันของวาทกรรมนั้นดีเพียงใดนั้นขึ้นอยู่กับงานเรียงลำดับประโยค ด้วยวิธีนี้ นักวิจัยจะนำข้อความที่มีอยู่แล้วและมีการแก้ไขอย่างดี เช่น บทความข่าว และสุ่มเรียงลำดับประโยคทั้งหมดใหม่ สมมติฐานคือว่าการเรียงสับเปลี่ยนแบบสุ่มสามารถมองได้ว่าไม่ต่อเนื่องกัน และการจัดลำดับดั้งเดิมสามารถมองได้ว่าเชื่อมโยงกัน ภารกิจคือการสร้างอัลกอริธึมของคอมพิวเตอร์ที่สามารถแยกแยะระหว่างเวอร์ชันที่ไม่ต่อเนื่องกับต้นฉบับ ภายใต้เงื่อนไขเหล่านี้ ระบบบางระบบมีความแม่นยำสูงถึง 90 เปอร์เซ็นต์ ค่อนข้างน่าประทับใจ
แต่มีข้อบกพร่องที่อาจเกิดขึ้นได้มากด้วยวิธีนี้ บางทีคุณอาจเคยเห็นมันแล้ว การเรียงลำดับประโยคใหม่แบบสุ่มอาจทำให้ข้อความมีความสอดคล้องกันต่ำ แต่ไม่ได้สร้างข้อความที่ดูเหมือนสิ่งที่มนุษย์จะเขียนโดยธรรมชาติ
ที่ Grammarly เรามุ่งเน้นที่การแก้ปัญหาในโลกแห่งความเป็นจริง เราจึงรู้ว่างานใดๆ ที่เราทำในพื้นที่นี้จะต้องได้รับการเปรียบเทียบกับการเขียนจริง ไม่ใช่สถานการณ์จำลอง น่าแปลกที่มีการทดสอบวิธีการประเมินวาทกรรมกับข้อความจริงที่เขียนโดยบุคคลภายใต้สถานการณ์ปกติน้อยมาก ถึงเวลาเปลี่ยนสิ่งนั้นแล้ว
การวิจัยในโลกแห่งความเป็นจริง นักเขียนในโลกแห่งความเป็นจริง
ปัญหาแรกที่เราต้องแก้ไขคือปัญหาเดียวกับที่นักวิจัยคนอื่นๆ ที่ทำงานเกี่ยวกับความสอดคล้องของวาทกรรมต้องเผชิญ นั่นคือ การขาดข้อมูลในโลกแห่งความเป็นจริง ไม่มีคลังข้อมูลที่เป็นข้อความธรรมดาที่เขียนโดยธรรมชาติที่เราสามารถทดสอบอัลกอริทึมของเราได้
เราสร้างคลังข้อมูลโดยรวบรวมข้อความจากแหล่งข้อมูลสาธารณะหลายแห่ง: Yahoo Answers, Yelp Reviews และอีเมลของรัฐบาลและองค์กรที่เปิดเผยต่อสาธารณะ เราเลือกแหล่งข้อมูลเฉพาะเหล่านี้เนื่องจากเป็นแหล่งข้อมูลประเภทต่างๆ ที่ผู้คนเขียนในแต่ละวัน เช่น โพสต์ในฟอรัม บทวิจารณ์ และอีเมล
ในการเปลี่ยนข้อความทั้งหมดนี้ให้เป็นคลังข้อมูลที่อัลกอริทึมของคอมพิวเตอร์สามารถเรียนรู้ได้ เรายังต้องให้คะแนนระดับความสอดคล้องกันของแต่ละข้อความด้วย กระบวนการนี้เรียกว่าคำอธิบายประกอบ ไม่ว่าอัลกอริธึมของคุณจะดีแค่ไหน คำอธิบายประกอบที่เลอะเทอะจะทำให้ผลลัพธ์ของคุณบิดเบือนไปอย่างมาก ในรายงานของเรา เราได้ให้รายละเอียดเกี่ยวกับวิธีการใส่คำอธิบายประกอบหลายอย่างที่เราทดสอบ รวมถึงวิธีการที่เกี่ยวข้องกับการระดมมวลชนด้วย ในที่สุด เราก็ตัดสินใจให้ผู้เชี่ยวชาญใส่คำอธิบายประกอบให้คะแนนระดับความสอดคล้องกันของข้อความแต่ละชิ้นในระดับสามจุด (ความสอดคล้องกันต่ำ กลาง หรือสูง) ข้อความแต่ละชิ้นได้รับการตัดสินโดยผู้ใส่คำอธิบายประกอบสามคน
นำอัลกอริทึมไปทดสอบ
เมื่อเรามีคลังข้อมูลแล้ว ก็ถึงเวลาทดสอบว่าระบบคอมพิวเตอร์ต่างๆ สามารถระบุระดับความสอดคล้องกันของข้อความที่กำหนดได้อย่างแม่นยำเพียงใด เราทดสอบระบบสามประเภท:
ในประเภทแรกเป็นแบบจำลองตามเอนทิตี ระบบเหล่านี้จะติดตามตำแหน่งและความถี่ที่กล่าวถึงเอนทิตีเดียวกันในข้อความ ตัวอย่างเช่น หากระบบพบคำว่า "การขนส่ง" ในหลายประโยค ก็ถือเป็นสัญญาณว่าประโยคเหล่านั้นมีความเกี่ยวข้องกันตามตรรกะ
ในหมวดหมู่ที่สอง เราทดสอบแบบจำลองโดยอิงจากกราฟการเชื่อมโยงกันของคำศัพท์ นี่เป็นวิธีการแสดงประโยคเป็นโหนดในกราฟและเชื่อมประโยคที่มีคำที่คล้ายกันเป็นคู่ ตัวอย่างเช่น โมเดลประเภทนี้จะเชื่อมประโยคที่มีคำว่า "car" กับประโยคที่มีคำว่า "truck" เพราะทั้งสองประโยคน่าจะเกี่ยวกับยานพาหนะหรือการขนส่ง
ในประเภทที่สามคือโครงข่ายประสาทเทียมหรือแบบจำลองการเรียนรู้เชิงลึก เราได้ทดสอบสิ่งเหล่านี้หลายตัว รวมถึงโมเดลใหม่เอี่ยมสองรุ่นที่สร้างโดยทีม Grammarly เหล่านี้เป็นระบบที่ใช้ AI ที่เรียนรู้การเป็นตัวแทนของแต่ละประโยคที่รวบรวมความหมายของประโยค และสามารถเรียนรู้ความหมายทั่วไปของเอกสารได้โดยการรวมการแสดงประโยคเหล่านี้เข้าด้วยกัน พวกเขาสามารถค้นหารูปแบบที่ไม่จำกัดเฉพาะการเกิดเอนทิตีหรือคู่คำที่คล้ายกัน
งานสั่งประโยค
เราใช้ข้อความที่มีความเชื่อมโยงกันสูงจากคลังข้อมูลใหม่ของเราเพื่อสร้างงานเรียงลำดับประโยคสำหรับแบบจำลองทั้งสามประเภท เราพบว่าแบบจำลองที่ทำงานได้ดีกับชุดข้อมูลการเรียงลำดับประโยคอื่นๆ ก็ทำงานได้ดีในชุดข้อมูลของเราด้วย โดยมีความแม่นยำสูงถึง 89 เปอร์เซ็นต์ แบบจำลองตามเอนทิตีและกราฟการเชื่อมโยงกันของคำศัพท์แสดงความแม่นยำที่เหมาะสม (โดยทั่วไปมีความแม่นยำ 60 ถึง 70 เปอร์เซ็นต์) แต่เป็นแบบจำลองทางประสาทซึ่งมีประสิทธิภาพเหนือกว่าแบบจำลองอื่นๆ อย่างน้อยสิบเปอร์เซ็นต์ในสามในสี่โดเมน
แบบทดสอบการเขียนจริง
สิ่งที่เราอยากรู้จริงๆ ก็คือว่าโมเดลใดๆ เหล่านี้สามารถทำงานที่ระดับความแม่นยำเท่ากันกับข้อความจริงที่เขียนอย่างเป็นธรรมชาติได้หรือไม่ เราแปลงป้ายกำกับของผู้ใส่คำอธิบายประกอบเป็นค่าตัวเลข (ต่ำ=1 กลาง=2 สูง=3) และนำตัวเลขมาเฉลี่ยรวมกันเพื่อให้ได้คะแนนความสอดคล้องกันสำหรับข้อความแต่ละชิ้น
ในทุกโดเมน อย่างน้อยหนึ่งในระบบเครือข่ายประสาทเทียมมีประสิทธิภาพเหนือกว่าระบบอื่นๆ ทั้งหมด อันที่จริง โมเดลหนึ่งของ Grammarly ที่คำนึงถึงการแบ่งย่อหน้าเป็นข้อความที่มีประสิทธิภาพสูงสุดจาก Yahoo Answers ดังที่แสดงในตารางด้านล่าง โมเดล Neural Clique ซึ่งพัฒนาโดยนักวิจัยที่ Stanford ก็เป็นนักแสดงที่แข็งแกร่งเช่นกัน
แต่สมมติฐานเดิมของเรานั้นถูกต้อง: ตัวแบบทั้งหมดทำงานจริงได้แย่กว่าที่ทำในงานเรียงประโยค—บางตัวแย่กว่ามาก ตัวอย่างเช่น วิธีกราฟคำศัพท์นั้นแม่นยำ 78 เปอร์เซ็นต์สำหรับอีเมลขององค์กรในสถานการณ์การเรียงลำดับประโยคใหม่ปลอม แต่ทำได้เพียง 45 เปอร์เซ็นต์เท่านั้นในการประเมินที่สมจริงยิ่งขึ้น
สิ่งที่เราพบ
ปรากฎว่างานก่อนหน้านี้เกี่ยวกับความสอดคล้องวาทกรรมได้รับการทดสอบสิ่งที่ผิด งานเรียงลำดับประโยคไม่ใช่ตัวแทนที่ดีสำหรับการวัดความสอดคล้องของวาทกรรมอย่างแน่นอน ผลลัพธ์ของเราชัดเจน: ระบบที่ทำงานได้ดีในสถานการณ์เทียมจะแย่กว่ามากในข้อความในโลกแห่งความเป็นจริง
สิ่งสำคัญคือต้องสังเกตว่าการค้นพบนี้ไม่ใช่ความล้มเหลว ห่างไกลจากมันในความเป็นจริง ส่วนหนึ่งของการเติบโตในด้านต่างๆ คือการประเมินว่าคุณกำลังประเมินอย่างไร ให้หยุดเป็นระยะๆ เพื่อดูว่าคุณวัดผลอะไรจริงๆ เนื่องจากงานนี้ นักวิจัยที่ทำงานเกี่ยวกับความสอดคล้องของวาทกรรมจึงมีข้อมูลสำคัญสองส่วน หนึ่งคือความเข้าใจที่ชัดเจนว่างานเรียงลำดับประโยคไม่ควรเป็นวิธีที่เราวัดความถูกต้องอีกต่อไป ส่วนที่สองคือคลังข้อมูลที่มีคำอธิบายประกอบที่เปิดเผยต่อสาธารณะของข้อความในโลกแห่งความเป็นจริงและเกณฑ์มาตรฐานใหม่ (แบบจำลองทางประสาทของเรา) เพื่อใช้ในการวิจัยในอนาคต
มองไปข้างหน้า
มีงานอีกมากที่ต้องทำและแอปพลิเคชั่นที่น่าตื่นเต้นมากมายสำหรับระบบที่สามารถตัดสินความสอดคล้องของวาทกรรมในข้อความได้อย่างน่าเชื่อถือ อยู่มาวันหนึ่ง ระบบเช่นนี้ไม่เพียงบอกคุณได้ว่าข้อความโดยรวมของคุณมีความสอดคล้องกันเพียงใด แต่ยังชี้ให้เห็นข้อความเฉพาะที่อาจติดตามได้ยาก สักวันหนึ่ง เราหวังว่าจะช่วยให้คุณเข้าใจข้อความเหล่านั้นได้ง่ายขึ้น เพื่อให้สิ่งที่คุณพยายามจะพูดนั้นชัดเจนสำหรับผู้รับ
ท้ายที่สุด เส้นทางของ Grammarly ในการเป็นผู้ช่วยด้านการสื่อสารแบบครอบคลุม ไม่ใช่แค่การทำให้แน่ใจว่างานเขียนของคุณถูกต้องตามหลักไวยากรณ์และถูกต้องตามรูปแบบ แต่เป็นการรับรองว่าคุณจะเข้าใจตามที่ตั้งใจไว้
—-
Joel Tetreault เป็นผู้อำนวยการฝ่ายวิจัยที่ Grammarly Alice Lai เป็นนักศึกษาระดับปริญญาเอกที่ University of Illinois at Urbana-Champaign และเป็นนักศึกษาฝึกงานด้านการวิจัยที่ Grammarly งานวิจัยนี้จะนำเสนอในการประชุมประจำปี SIGDIAL 2018 ที่เมืองเมลเบิร์น ประเทศออสเตรเลีย วันที่ 12-14 กรกฎาคม พ.ศ. 2561 บทความวิจัยที่มีชื่อว่า “Discourse Coherence in the Wild: A Dataset, Evaluation and Methods” จะได้รับการตีพิมพ์ในรายงานการประชุมของ การประชุมประจำปีของกลุ่มผลประโยชน์พิเศษด้านวาทกรรมและการเจรจา ครั้งที่ 19 ชุดข้อมูลที่อธิบายไว้ในโพสต์บล็อกนี้เรียกว่า Grammarly Corpus of Discourse Coherence และสามารถดาวน์โหลดได้ฟรีเพื่อวัตถุประสงค์ในการวิจัยที่นี่