تحت غطاء محرك السيارة في Grammarly: اكتشاف الكتابة غير المنظمة باستخدام الذكاء الاصطناعي
نشرت: 2018-07-10عندما تكتب شيئًا أطول من جملة ، فأنت بحاجة إلى اتخاذ قرارات حول كيفية تنظيم وتقديم أفكارك. الكتابة الجيدة سهلة الفهم لأن كل جملة تبني على الجمل التي سبقتها. عندما يتغير الموضوع ، يستخدم الكتاب الأقوياء الجمل الانتقالية وفواصل الفقرات كعلامات إرشادية لإخبار القراء بما يمكن توقعه بعد ذلك.
يسمي اللغويون هذا الجانب من كتابة تماسك الخطاب ، وهو موضوع بحث جديد رائع من فريق Grammarly Research الذي سيظهر في مؤتمر SIGDIAL في ملبورن ، أستراليا ، هذا الأسبوع.
ما هو تماسك الخطاب ولماذا الاهتمام به؟
عندما نقول أن النص يحتوي على مستوى عالٍ من تماسك الخطاب ، فإننا نعني أن جميع الجمل مرتبطة ببعضها البعض منطقيًا. الكاتب لا ينحرف عن الموضوع. نقاط مختلفة مرتبطة بالتحولات. النص سهل المتابعة من البداية إلى النهاية.
هذا النوع من التنظيم لا يأتي دائمًا بشكل طبيعي. قلة منا يفكر في تسلسل خطي تمامًا للأفكار. إن النظام الذي يمكن أن يخبرك تلقائيًا عندما تكتب شيئًا ما سيكافح الآخرون لاتباعه - وفي النهاية ، يقترح كيفية إصلاح ذلك - سيكون مفيدًا للغاية في إيصال ما تعنيه.
ما تم فعله
يعد تعليم الكمبيوتر للحكم بدقة على مستوى تماسك النص أمرًا صعبًا. حتى الآن ، تعتمد الطريقة الأكثر شيوعًا لتقييم مدى جودة تماسك الخطاب في الكمبيوتر على مهمة ترتيب الجملة. باستخدام هذه الطريقة ، يأخذ الباحثون نصًا موجودًا ومُحرر جيدًا ، مثل مقالة إخبارية ، ويعيدون ترتيب جميع الجمل بشكل عشوائي. الافتراض هو أنه يمكن اعتبار التقليب العشوائي غير متماسك ويمكن اعتبار الترتيب الأصلي متماسكًا. تتمثل المهمة في بناء خوارزمية كمبيوتر يمكنها التمييز بين الإصدار غير المترابط والأصل. في ظل هذه الظروف ، وصلت بعض الأنظمة إلى دقة تصل إلى 90 بالمائة. مبهر للغايه.
ولكن هناك عيب كبير محتمل في هذه الطريقة. ربما تكون قد رصدتها بالفعل. قد ينتج عن إعادة ترتيب الجمل عشوائيًا نصًا منخفض التماسك ، لكنه لا ينتج نصًا يشبه أي شيء يكتبه الإنسان بشكل طبيعي.
في Grammarly ، نركز على حل مشكلات العالم الحقيقي ، لذلك علمنا أن أي عمل قمنا به في هذا المجال يجب أن يتم قياسه مقابل الكتابة الحقيقية ، وليس السيناريوهات المصطنعة. من المثير للدهشة أنه كان هناك القليل جدًا من العمل الذي يختبر طرق تقييم الخطاب على نص حقيقي كتبه أشخاص في ظروف عادية. حان الوقت لتغيير ذلك.
أبحاث العالم الحقيقي ، كتاب العالم الحقيقي
كانت المشكلة الأولى التي كان علينا حلها هي نفس المشكلة التي واجهها كل باحث آخر يعمل على تماسك الخطاب: نقص في بيانات العالم الحقيقي. لم يكن هناك أي مجموعة نصية عادية مكتوبة بشكل طبيعي يمكننا اختبار الخوارزميات عليها.
أنشأنا مجموعة من خلال جمع نصوص من عدة مصادر عامة: Yahoo Answers و Yelp Reviews ورسائل البريد الإلكتروني الحكومية والشركات المتاحة للجمهور. لقد اخترنا هذه المصادر المحددة لأنها تمثل أنواع الأشياء التي يكتبها الأشخاص في يوم عادي - مشاركات المنتدى والمراجعات ورسائل البريد الإلكتروني.
لتحويل كل هذا النص إلى مجموعة يمكن لخوارزميات الكمبيوتر التعلم منها ، نحتاج أيضًا إلى تقييم مستويات التماسك لكل نص. هذه العملية تسمى التعليق التوضيحي. بغض النظر عن مدى جودة الخوارزمية لديك ، فإن التعليقات التوضيحية غير الدقيقة ستؤدي إلى تحريف نتائجك بشكل كبير. في ورقتنا البحثية ، نقدم تفاصيل حول العديد من مناهج التعليقات التوضيحية التي اختبرناها ، بما في ذلك بعض الأساليب التي تضمنت التعهيد الجماعي. قررنا في النهاية أن نجعل المعلقين الخبراء يقيمون مستوى التماسك لكل جزء من النص على مقياس من ثلاث نقاط (منخفض أو متوسط أو تماسك عالٍ). تم الحكم على كل جزء من النص من قبل ثلاثة شروحات.
اختبار الخوارزميات
بمجرد أن نحصل على المجموعة ، حان الوقت لاختبار مدى دقة أنظمة الكمبيوتر المختلفة في تحديد مستوى التماسك لجزء معين من النص. اختبرنا ثلاثة أنواع من الأنظمة:
في الفئة الأولى هي النماذج المستندة إلى الكيانات. تتعقب هذه الأنظمة مكان وعدد المرات التي يتم فيها ذكر نفس الكيانات في النص. على سبيل المثال ، إذا وجد النظام كلمة "نقل" في عدة جمل ، فإنه يأخذها كإشارة إلى أن هذه الجمل مرتبطة منطقيًا ببعضها البعض.
في الفئة الثانية ، اختبرنا نموذجًا يعتمد على رسم بياني للتماسك المعجمي. هذه طريقة لتمثيل الجمل كعقد في رسم بياني وربط الجمل التي تحتوي على أزواج من الكلمات المتشابهة. على سبيل المثال ، قد يربط هذا النوع من النماذج جملة تحتوي على "سيارة" وجملة تحتوي على "شاحنة" لأن الجملتين على الأرجح تتعلقان بالمركبات أو وسائل النقل.
في الفئة الثالثة توجد نماذج الشبكة العصبية ، أو نماذج التعلم العميق. اختبرنا العديد من هذه النماذج ، بما في ذلك نموذجان جديدان تمامًا صممهما فريق Grammarly. هذه أنظمة قائمة على الذكاء الاصطناعي تتعلم تمثيل كل جملة تعبر عن معناها ، ويمكنهم معرفة المعنى العام للمستند من خلال الجمع بين تمثيلات الجملة هذه. يمكنهم البحث عن الأنماط التي لا تقتصر على تكرارات الكيانات أو أزواج الكلمات المتشابهة.
مهمة ترتيب الجملة
استخدمنا النصوص عالية الترابط من مجموعتنا الجديدة لإنشاء مهمة ترتيب الجملة لجميع أنواع النماذج الثلاثة. لقد وجدنا أن النماذج التي حققت أداءً جيدًا في مجموعات بيانات ترتيب الجمل الأخرى كان أداءها جيدًا أيضًا على مجموعة البيانات الخاصة بنا ، مع دقة أداء تصل إلى 89 بالمائة. أظهرت النماذج القائمة على الكيانات والرسوم البيانية للتماسك المعجمي دقة مناسبة (دقة بشكل عام من 60 إلى 70 في المائة) ، لكن النماذج العصبية هي التي تفوقت على النماذج الأخرى بما لا يقل عن عشر نقاط مئوية في ثلاثة من المجالات الأربعة.
اختبار الكتابة الحقيقي
ما أردنا معرفته حقًا هو ما إذا كان أي من هذه النماذج يمكنه الأداء بنفس المستوى من الدقة على نص حقيقي مكتوب بشكل طبيعي. قمنا بتحويل تسميات المعلقين التوضيحيين إلى قيم عددية (منخفض = 1 ، متوسط = 2 ، مرتفع = 3) وقمنا بحساب متوسط الأرقام معًا للحصول على درجة تماسك لكل جزء من النص.
في كل مجال ، تفوق نظام واحد على الأقل من الأنظمة القائمة على الشبكة العصبية على جميع الأنظمة الأخرى. في الواقع ، كان أحد نماذج Grammarly التي تأخذ فواصل الفقرات في الاعتبار هو الأفضل أداءً على نص من إجابات Yahoo ، كما هو موضح في الجدول أدناه. كان نموذج العصابة العصبية ، الذي طوره باحثون في جامعة ستانفورد ، ذو أداء قوي أيضًا.
لكن فرضيتنا الأصلية كانت صحيحة: كان أداء جميع النماذج في مهمة العالم الحقيقي أسوأ مما كانت عليه في مهمة ترتيب الجملة - كان بعضها أسوأ بكثير. على سبيل المثال ، كانت طريقة الرسم البياني المعجمي دقيقة بنسبة 78 بالمائة لرسائل البريد الإلكتروني الخاصة بالشركات في سيناريو إعادة ترتيب الجملة المصطنعة ، لكنها تمكنت فقط من تحقيق 45 بالمائة في هذا التقييم الأكثر واقعية.
ما وجدناه
اتضح أن العمل السابق على تماسك الخطاب كان يختبر الخطأ. إن مهمة ترتيب الجملة ليست بالتأكيد وكيلًا جيدًا لقياس اتساق الخطاب. نتائجنا واضحة: الأنظمة التي تعمل بشكل جيد في السيناريو المصطنع تعمل بشكل أسوأ بكثير على نصوص العالم الحقيقي.
من المهم ملاحظة أن هذه النتيجة ليست انتكاسة. على العكس من ذلك، في الواقع. جزء من تنمية أي مجال هو تقييم كيفية قيامك بالتقييم - التوقف بين الحين والآخر لإلقاء نظرة على ما كنت تقيسه بالفعل. بسبب هذا العمل ، أصبح لدى الباحثين الذين يعملون على تماسك الخطاب معلومتان مهمتان. الأول هو أن مهمة ترتيب الجملة يجب ألا تكون الطريقة التي نقيس بها الدقة. والثاني هو مجموعة نصوص واقعية ومتاحة للجمهور ومعايير جديدة (نماذجنا العصبية) لاستخدامها في البحث المستقبلي.
يتطلع
هناك المزيد من العمل الذي يتعين القيام به والكثير من التطبيقات المثيرة لنظام يمكنه الحكم بشكل موثوق على تماسك الخطاب في جزء من النص. في يوم من الأيام ، لن يخبرك نظام كهذا بمدى تماسك رسالتك العامة فحسب ، بل يشير أيضًا إلى المقاطع المحددة التي قد يكون من الصعب متابعتها. نأمل يومًا ما مساعدتك في تسهيل فهم هذه المقاطع بحيث يكون ما تحاول قوله واضحًا لمتلقيك.
بعد كل شيء ، فإن طريق Grammarly لتصبح مساعد تواصل شامل لا يقتصر فقط على التأكد من أن كتابتك دقيقة نحويًا وأسلوبيًا - إنها تتعلق بضمان فهمك على النحو المنشود تمامًا.
—-
جويل تيترو هو مدير الأبحاث في Grammarly. أليس لاي طالبة دكتوراه في جامعة إلينوي في أوربانا شامبين وكانت متدربة بحثية في Grammarly. سيتم تقديم هذا البحث في المؤتمر السنوي SIGDIAL 2018 في ملبورن ، أستراليا ، 12-14 يوليو ، 2018. وستُنشر الورقة البحثية المصاحبة ، بعنوان "ترابط الخطاب في البرية: مجموعة بيانات وتقييم وطرق" في وقائع الاجتماع السنوي التاسع عشر للمجموعة ذات الاهتمام الخاص حول الخطاب والحوار. تسمى مجموعة البيانات الموضحة في منشور المدونة هذا مجموعة القواعد النحوية لاتساق الخطاب ويمكن تنزيلها مجانًا لأغراض البحث هنا.