كيف تصحح تشغيل الجمل؟
نشرت: 2018-11-08في مرحلة ما من حياتك ، ربما يكون لديك مدرس انتقد خطأ معينًا في الكتابة الإنجليزية: الجمل التكميلية.
عمليات التشغيل هي نوع شائع من الأخطاء. من بين طلاب الجامعات في الولايات المتحدة ، تعد الجمل التكميلية هي الخطأ الثامن عشر الأكثر شيوعًا الذي يرتكبه المتحدثون الأصليون للغة الإنجليزية والخطأ الثامن الأكثر شيوعًا الذي يرتكبه الطلاب الذين لا يتحدثون اللغة الإنجليزية.
من الواضح أن القدرة على اكتشاف هذا النوع من الأخطاء وإصلاحها تلقائيًا ستكون مفيدة للكتاب. ولكن هناك تطبيقات أوسع. عندما تملي رسالة نصية ، على سبيل المثال ، تحتاج إلى قول "فترة" في نهاية الجملة قبل بدء جملة جديدة ، وإلا سيتحول النسخ الخاص بك إلى عملية تشغيل طويلة. يمكن لنظام الذكاء الاصطناعي الذي يمكنه أن يكتشف تلقائيًا المكان الذي يجب أن تبدأ فيه الجملة وتنتهي ، إدراج علامات الترقيم المناسبة تلقائيًا ، مما يحرر عقلك للتركيز على المعلومات التي تحاول إيصالها.
عمل Grammarly على الجمل التكميلية هو موضوع ورقة جديدة قدمناها في ورشة العمل الرابعة حول النص الصاخب الذي تم إنشاؤه بواسطة المستخدم الأسبوع الماضي في مؤتمر EMNLP في بروكسل. نحن فخورون بأن نقول إنها فازت بإحدى أفضل جائزتين ورقية في ورشة العمل! تابع القراءة لترى كيف يتصدى Grammarly لتحدي تصحيح الجمل التكميلية.
ما هي الجملة الجارية؟
يختلف تعريف الجملة الجارية قليلاً من شخص لآخر. يعتبر بعض الناس وصلات الفاصلة نوعًا من الجمل المتواصلة. بالنسبة للآخرين ، فإن الجملة التكميلية هي ببساطة جملة طويلة جدًا. الطول وحده ، مع ذلك ، لا يجعل الجملة عملية تشغيل حقيقية.
في الأساس ، الجملة التكميلية هي مجرد جملتين كاملتين أو أكثر تم سحقهما معًا بشكل غير صحيح. فيما يلي مثال على السباق:
هناك جملتان مستقلتان هنا: عش الحياة على أكمل وجه ولا تأخذ أي شيء كأمر مسلم به . تقليديًا ، عندما تريد ضم جملتين مستقلتين معًا ، فأنت بحاجة إلى ربطهما معًا بطريقة ما. يتمثل أحد الخيارات في استخدام فاصلة ورابط:
خيار آخر هو استخدام فاصلة منقوطة:
الخيار الثالث هو تقسيم الجمل إلى جمل منفصلة:
تكمن مشكلة الجمل التكميلية في صعوبة فهمها. تعمل أدوات الربط والفاصلة المنقوطة والفترات كمؤشرات في الجملة لمساعدة القراء على متابعة ما يقوله الكاتب. عندما تكون هذه الإشارات غائبة ، فمن المحتمل أن القراء سيحتاجون إلى التراجع وإعادة القراءة لفهم الجملة.
لماذا يصعب تصحيح عمليات التشغيل تلقائيًا
تقوم القواعد النحوية بالفعل بتصحيح أخطاء الترقيم والأخطاء النحوية. إذن ما هو الاختلاف في تدريس نظام ذكاء اصطناعي لإصلاح الجمل الجارية؟ لما هو صعب جدا؟
تؤثر العديد من علامات الترقيم أو الأخطاء النحوية على جزء منفصل من الجملة فقط. هذا يعني أن نظام الذكاء الاصطناعي الخاص بك يحتاج فقط إلى معالجة جزء معين من الجملة من أجل تحديد المشكلة وحلها. على الرغم من ذلك ، فإن التشغيل هو مشكلة على مستوى الجملة. يتطلب الأمر أن يقوم الذكاء الاصطناعي الخاص بك بمعالجة سلسلة نصية أطول بكثير وأكثر تعقيدًا.
يعد الإصلاح التلقائي لعمليات التشغيل أمرًا صعبًا أيضًا نظرًا لوجود طرق متعددة للقيام بذلك. كما في المثال أعلاه ، يمكنك إضافة علامات الترقيم أو اقتران أو تقسيم التشغيل إلى جمل متعددة. سيحتاج الذكاء الاصطناعي الخاص بك إلى تعلم كيفية تحديد أفضل طريقة لإصلاح عملية تشغيل في موقف معين.
علاوة على ذلك ، ليس هناك الكثير من البيانات الموجودة لتدريب أنظمة الذكاء الاصطناعي عليها لهذا الغرض. على الرغم من أن الجمل التي يتم إجراؤها هي أخطاء شائعة ، إلا أنه لم يكن هناك مجموعة موجودة تتضمن ما يكفي من الجمل التي يتم تشغيلها لاستخدامها كبيانات تدريبية. (المجموعة عبارة عن مجموعة كبيرة من النصوص التي تم تصنيفها بطريقة يمكن لخوارزميات الكمبيوتر التعلم منها.)
ماذا فعلنا
كان أول أمر في العمل هو إنشاء مجموعة من الجمل الفورية. لقد أنشأنا جمل تشغيلية بشكل مصطنع عن طريق إزالة علامات الترقيم بين أزواج الجمل من مجموعة المقالات الإخبارية. (انظر ورقتنا للحصول على شرح كامل لعمليتنا وكيف اخترنا الجمل المرشحة.)
استخدمنا بعد ذلك جملنا التي تم إنشاؤها حديثًا لتدريب نموذجين للتعلم الآلي قمنا ببنائهما لتحديد عمليات التشغيل وتصحيحها. التعلم الآلي هو أحد مجالات الذكاء الاصطناعي التي تتضمن تدريس خوارزمية لأداء المهام تلقائيًا من خلال عرض الكثير من الأمثلة عليها بدلاً من تقديم سلسلة من الخطوات المحددة مسبقًا بشكل صارم.
تصحيح الجمل الجارية: ما وجدناه
بمجرد تدريب النماذج ، اختبرناها على مجموعة جديدة من الجمل التي تم إنشاؤها بشكل مصطنع بالإضافة إلى مجموعة صغيرة من الجمل التي تحدث بشكل طبيعي من مجموعة بحثية موجودة.
وجدنا أن كلاهما تفوق في الأداء على النماذج الرائدة لاستعادة علامات الترقيم وتصحيح الأخطاء النحوية في هذه المهمة. كان هناك أيضًا اكتشاف مثير آخر: كانت نماذجنا ، التي تم تدريبها على جمل تم إنشاؤها بشكل مصطنع ، قادرة على تحديد الجمل المباشرة التي كتبها كتّاب حقيقيون تمامًا كما حددوا الجمل المصطنعة التي يتم تشغيلها.
هناك ، بالطبع ، المزيد من العمل الذي يتعين القيام به هنا. تم إنشاء بيانات التدريب الخاصة بنا باستخدام نص "نظيف" ، مما يعني أن النص لا يحتوي على أخطاء نحوية غير تلك التي أدخلناها. في العالم الحقيقي ، قد تحتوي الجمل التكميلية على مشاكل نحوية إضافية تجعل من الصعب على الخوارزميات التعرف على التكرار وإصلاحه. ومع ذلك ، فهذه خطوة مثيرة نحو رؤيتنا المتمثلة في إنشاء مساعد اتصال شامل يساعدك في كتابة الرسائل التي سيتم فهمها تمامًا كما تريد.
كيف تصحح الجمل التكميلية ليس بالسهولة التي تبدو عليها ورقة بحثية جديدة كتبها Junchao Zheng و Courtney Napoles و Joel Tetreault و Kostiantyn Omelianchuk. تم تقديمه في ورشة العمل الرابعة حول النص الصاخب الذي تم إنشاؤه بواسطة المستخدم في موقع مشترك مع EMNLP 2018. تظهر الورقة في وقائع ورشة عمل EMNLP 2018 W-NUT: ورشة العمل الرابعة حول النص الصاخب الذي تم إنشاؤه بواسطة المستخدم.
المزيد من سلسلة Under the Hood at Grammarly:
- الكشف عن الكتابة غير المنظمة باستخدام الذكاء الاصطناعي
- تحويل أسلوب الكتابة باستخدام الذكاء الاصطناعي