كيف يمكنك تصحيح الجمل الجارية؟

نشرت: 2018-11-08

في مرحلة ما من حياتك، ربما كان لديك معلم انتقد خطأً معينًا في الكتابة باللغة الإنجليزية: الجمل غير المباشرة.

تعد عمليات التشغيل نوعًا شائعًا من الأخطاء. بين طلاب الجامعات في الولايات المتحدة، تعد الجمل المستمرة هي الخطأ الثامن عشر الأكثر شيوعًا الذي يرتكبه المتحدثون الأصليون للغة الإنجليزية والخطأ الثامن الأكثر شيوعًا الذي يرتكبه الطلاب الذين ليسوا متحدثين أصليين للغة الإنجليزية.

هل أنت مرتبك بشأن الجمل التي يتم تشغيلها؟
النحوي يمكن أن يساعد.

من الواضح أن القدرة على اكتشاف هذا النوع من الأخطاء وإصلاحه تلقائيًا ستكون مفيدة للكتاب. ولكن هناك تطبيقات أوسع. عندما تملي رسالة نصية، على سبيل المثال، عليك أن تقول "فترة" في نهاية الجملة قبل بدء جملة جديدة، وإلا سيتحول النسخ إلى نسخة واحدة طويلة. يمكن لنظام الذكاء الاصطناعي الذي يمكنه اكتشاف أين يجب أن تبدأ الجملة وتنتهي تلقائيًا أن يقوم تلقائيًا بإدخال علامات الترقيم المناسبة، مما يحرر عقلك للتركيز على المعلومات التي تحاول توصيلها.

إن عمل Grammarly على الجمل المتداخلة هو موضوع بحث جديد قدمناه في ورشة العمل الرابعة حول النص الصاخب الذي أنشأه المستخدمون الأسبوع الماضي في مؤتمر EMNLP في بروكسل. نحن فخورون بأن نقول إنها فازت بواحدة من أفضل جائزتين ورقيتين في ورشة العمل! تابع القراءة لترى كيف يتعامل Grammarly مع التحدي المتمثل في تصحيح الجمل التي يتم تشغيلها.

ما هي الجملة الجارية؟

يختلف تعريف الجملة الجارية قليلاً من شخص لآخر. بعض الناس يعتبرون وصلات الفاصلة نوعًا من الجملة المستمرة. بالنسبة للآخرين، الجملة المستمرة هي ببساطة جملة طويلة جدًا. ومع ذلك، فإن الطول وحده لا يجعل الجملة عبارة عن تكرار حقيقي.

في الأساس، الجملة المستمرة هي مجرد جملتين كاملتين أو أكثر تم سحقهما معًا بشكل غير صحيح. فيما يلي مثال على التشغيل:

عش الحياة على أكمل وجه ولا تأخذ أي شيء على أنه أمر مسلم به.

هناك شرطان مستقلان هنا: عش الحياة على أكمل وجه ولا تأخذ أي شيء على أنه أمر مسلم به . تقليديا، عندما تريد ضم جملتين مستقلتين معا، تحتاج إلى ربطهما معا بطريقة ما. أحد الخيارات هو استخدام الفاصلة وأداة الاقتران:

عش الحياة على أكمل وجه، ولا تأخذ أي شيء على أنه أمر مسلم به.

خيار آخر هو استخدام الفاصلة المنقوطة:

عش الحياة على أكمل وجه؛ لا تأخذ أي شيء كأمر مسلم به.

الخيار الثالث هو تقسيم الجمل إلى جمل منفصلة:

عش الحياة على أكمل وجه. لا تأخذ أي شيء كأمر مسلم به.

المشكلة في الجمل المستمرة هي أنه من الصعب فهمها. تعمل أدوات الوصل والفواصل المنقوطة والنقاط كعلامات ضمن الجملة لمساعدة القراء على متابعة ما يقوله الكاتب. عندما تغيب هذه العلامات، فمن المحتمل أن يحتاج القراء إلى التراجع وإعادة القراءة لفهم الجملة.

لماذا يصعب تصحيح عمليات التشغيل تلقائيًا؟

يقوم Grammarly بالفعل بتصحيح أخطاء علامات الترقيم والأخطاء النحوية. إذًا ما هو المختلف في تعليم نظام الذكاء الاصطناعي لإصلاح الجمل المستمرة؟ لماذا هو صعب جدا؟

تؤثر العديد من علامات الترقيم أو الأخطاء النحوية على جزء معزول من الجملة فقط. وهذا يعني أن نظام الذكاء الاصطناعي الخاص بك يحتاج فقط إلى معالجة جزء معين من الجملة من أجل تحديد المشكلة وحلها. ومع ذلك، فإن التشغيل المستمر يمثل مشكلة على مستوى الجملة. يتطلب الأمر من الذكاء الاصطناعي الخاص بك معالجة سلسلة نصية أطول وأكثر تعقيدًا.

يعد إصلاح عمليات التشغيل تلقائيًا أمرًا صعبًا أيضًا نظرًا لوجود طرق متعددة للقيام بذلك. كما في المثال أعلاه، يمكنك إضافة علامات الترقيم، أو أدوات العطف، أو تقسيم الجملة إلى جمل متعددة. سيحتاج الذكاء الاصطناعي الخاص بك إلى تعلم كيفية تحديد أفضل طريقة لإصلاح مشكلة التشغيل في موقف معين.

علاوة على ذلك، لا يوجد الكثير من البيانات الموجودة لتدريب أنظمة الذكاء الاصطناعي عليها لهذا الغرض. على الرغم من أن الجمل التشغيلية هي أخطاء شائعة، إلا أنه لم يكن هناك مجموعة موجودة تتضمن ما يكفي من الجمل التشغيلية المُصنفة لاستخدامها كبيانات تدريب. (المتن عبارة عن مجموعة كبيرة من النصوص التي تم تصنيفها بطريقة يمكن لخوارزميات الكمبيوتر التعلم منها.)

ماذا فعلنا

كان الأمر الأول في العمل هو إنشاء مجموعة من الجمل المستمرة. لقد أنشأنا جملًا متتابعة بشكل مصطنع عن طريق إزالة علامات الترقيم بين أزواج الجمل من مجموعة من المقالات الإخبارية. (راجع ورقتنا للحصول على شرح كامل لعمليتنا وكيف اخترنا الجمل المرشحة.)

استخدمنا بعد ذلك الجمل التشغيلية التي تم إنشاؤها حديثًا لتدريب نموذجي التعلم الآلي اللذين قمنا ببنائهما لتحديد عمليات التشغيل وتصحيحها. التعلم الآلي هو مجال من مجالات الذكاء الاصطناعي يتضمن تعليم خوارزمية لأداء المهام تلقائيًا من خلال عرض الكثير من الأمثلة عليها بدلاً من تقديم سلسلة من الخطوات المحددة مسبقًا بشكل صارم.

تصحيح الجمل التشغيلية: ما وجدناه

بمجرد تدريب النماذج، قمنا باختبارها على مجموعة جديدة من الجمل المصاحبة التي تم إنشاؤها بشكل مصطنع بالإضافة إلى مجموعة صغيرة من الجمل المصاحبة التي تحدث بشكل طبيعي من مجموعة بحثية موجودة.

لقد وجدنا أن كلاهما تفوقا على النماذج الرائدة في استعادة علامات الترقيم وتصحيح الأخطاء النحوية في هذه المهمة. كانت هناك أيضًا نتيجة أخرى مثيرة: نماذجنا، التي تم تدريبها على الجمل المولدة بشكل مصطنع، كانت قادرة على تحديد الجمل المكررة التي كتبها كتاب حقيقيون تمامًا كما حددت الجمل المكررة المصطنعة.

وبطبيعة الحال، هناك المزيد من العمل الذي يتعين القيام به هنا. تم إنشاء بيانات التدريب الخاصة بنا باستخدام نص "نظيف"، مما يعني أن النص لا يحتوي على أخطاء نحوية بخلاف تلك التي أدخلناها. في العالم الحقيقي، قد تحتوي الجمل التي يتم تشغيلها على مشاكل نحوية إضافية تجعل من الصعب على الخوارزميات التعرف على الجمل التي يتم تشغيلها وإصلاحها. ومع ذلك، فهذه خطوة مثيرة نحو رؤيتنا المتمثلة في إنشاء مساعد اتصال شامل يساعدك على كتابة الرسائل التي سيتم فهمها تمامًا كما تريد.

كيف تقوم بتصحيح الجمل المتتابعة، الأمر ليس سهلاً كما يبدو، في بحث جديد بقلم جونشاو تشنغ، وكورتني نابوليس، وجويل تيترو، وكوستيانتين أوميليانشوك. تم تقديمه في ورشة العمل الرابعة حول النصوص المزعجة التي أنشأها المستخدم والتي أقيمت في نفس الموقع مع EMNLP 2018. تظهر الورقة في وقائع ورشة عمل EMNLP لعام 2018 W-NUT: ورشة العمل الرابعة حول النصوص المزعجة التي أنشأها المستخدمون.

المزيد من سلسلة Under the Hood at Grammarly:

  • اكتشاف الكتابة غير المنظمة باستخدام الذكاء الاصطناعي
  • تحويل أسلوب الكتابة باستخدام الذكاء الاصطناعي