Comment corrigez-vous les phrases interminables ?

Publié: 2018-11-08

À un certain moment de votre vie, vous avez peut-être eu un enseignant qui s'est élevé contre une erreur particulière dans l'écriture anglaise : les phrases à rallonge.

Les ruissellements sont un type courant d'erreur. Parmi les étudiants aux États-Unis, les phrases d'exécution sont la dix-huitième erreur la plus fréquente commise par les anglophones natifs et la huitième erreur la plus fréquente commise par les étudiants qui ne sont pas anglophones.

Confus au sujet des phrases à répétition ?

La grammaire peut aider.

Écrire avec la grammaire

La possibilité de détecter et de corriger automatiquement ce type d'erreur serait évidemment utile aux rédacteurs. Mais il existe des applications encore plus larges. Lorsque vous dictez un SMS, par exemple, vous devez dire "point" à la fin de votre phrase avant d'en commencer une nouvelle, sinon votre transcription se transforme en une longue séquence. Un système d'IA capable de déterminer automatiquement où une phrase doit commencer et s'arrêter pourrait insérer automatiquement la ponctuation appropriée, libérant ainsi votre cerveau pour qu'il se concentre sur les informations que vous essayez de communiquer.

Le travail de Grammarly sur les phrases continues fait l'objet d'un nouvel article que nous avons présenté lors du 4e atelier sur le texte généré par l'utilisateur bruyant la semaine dernière lors de la conférence EMNLP à Bruxelles. Nous sommes fiers de dire qu'il a remporté l'un des deux prix du meilleur papier de l'atelier ! Lisez la suite pour voir comment Grammarly s'attaque au défi de corriger les phrases interminables.

Qu'est-ce qu'une phrase d'attente ?

La définition d'une phrase d'exécution varie un peu d'une personne à l'autre. Certaines personnes considèrent les épissures de virgules comme un type de phrase continue. Pour d'autres, une phrase d'exécution est simplement une très longue phrase. La longueur seule, cependant, ne fait pas d'une phrase une véritable séquence.

Essentiellement, une phrase d'exécution n'est que deux phrases complètes ou plus qui ont été incorrectement écrasées ensemble. Voici un exemple de run-on :

Vivez pleinement votre vie, ne tenez rien pour acquis.

Il y a deux clauses indépendantes ici : Vivez pleinement votre vie et ne tenez rien pour acquis . Traditionnellement, lorsque vous souhaitez joindre deux clauses indépendantes, vous devez les relier d'une manière ou d'une autre. Une option consiste à utiliser une virgule et une conjonction :

Vivez pleinement votre vie et ne tenez rien pour acquis.

Une autre option consiste à utiliser un point-virgule :

Vivez la vie pleinement; ne prenez rien pour acquis.

La troisième option consiste à diviser les clauses en phrases distinctes :

Vivez la vie pleinement. Ne prenez rien pour acquis.

Le problème avec les phrases interminables, c'est qu'elles sont difficiles à comprendre. Les conjonctions, les points-virgules et les points agissent comme des panneaux indicateurs dans une phrase pour aider les lecteurs à suivre ce que l'auteur dit. Lorsque ces panneaux sont absents, il est probable que les lecteurs devront revenir en arrière et relire pour donner un sens à la phrase.

Pourquoi il est difficile de corriger automatiquement les run-ons

Grammarly corrige déjà les fautes de ponctuation et les erreurs grammaticales. Alors, qu'y a-t-il de différent dans l'apprentissage d'un système d'IA pour corriger les phrases qui s'écoulent ? Pourquoi est-ce si difficile?

De nombreuses erreurs de ponctuation ou de grammaire n'affectent qu'une partie isolée d'une phrase. Cela signifie que votre système d'IA n'a besoin de traiter qu'une partie particulière de la phrase afin d'identifier et de résoudre le problème. Un run-on, cependant, est un problème au niveau de la phrase. Cela nécessite que votre IA traite une chaîne de texte beaucoup plus longue et plus complexe.

La réparation automatique des run-ons est également difficile car il existe plusieurs façons de le faire. Comme dans l'exemple ci-dessus, vous pouvez ajouter une ponctuation, une conjonction ou diviser le passage en plusieurs phrases. Votre IA devra apprendre à identifier la meilleure façon de réparer un run-on dans une situation particulière.

En plus de cela, il n'y a tout simplement pas beaucoup de données existantes sur lesquelles former les systèmes d'IA à cette fin. Bien que les phrases continues soient des erreurs courantes, il n'existait pas de corpus comprenant suffisamment de phrases continues étiquetées à utiliser comme données d'apprentissage. (Un corpus est une grande collection de textes qui ont été étiquetés de manière à ce que les algorithmes informatiques puissent en tirer des enseignements.)

Ce que nous avons fait

Le premier ordre du jour était de créer une collection de phrases d'exécution. Nous avons généré artificiellement des phrases continues en supprimant la ponctuation entre les paires de phrases d'un corpus d'articles de presse. (Voir notre article pour une explication complète de notre processus et de la façon dont nous avons sélectionné les phrases candidates.)

Nous avons ensuite utilisé nos phrases d'exécution nouvellement créées pour former les deux modèles d'apprentissage automatique que nous avons construits pour identifier et corriger les exécutions. L'apprentissage automatique est un domaine de l'IA qui consiste à apprendre à un algorithme à effectuer des tâches automatiquement en lui montrant de nombreux exemples plutôt qu'en fournissant une série d'étapes rigidement prédéfinies.

Corriger les phrases interminables : ce que nous avons trouvé

Une fois les modèles formés, nous les avons testés sur un nouvel ensemble de phrases d'exécution créées artificiellement ainsi que sur un petit ensemble de phrases d'exécution naturelles à partir d'un corpus de recherche existant.

Nous avons constaté que les deux surpassaient les modèles principaux pour la restauration de la ponctuation et la correction des erreurs grammaticales sur cette tâche. Il y avait aussi une autre découverte passionnante : nos modèles, qui ont été entraînés sur des phrases générées artificiellement, ont été capables d'identifier des phrases d'exécution écrites par de vrais écrivains aussi bien qu'ils ont identifié des phrases d'exécution artificielles.

Il y a, bien sûr, plus de travail à faire ici. Nos données de formation ont été générées à l'aide de texte "propre", ce qui signifie que le texte ne contenait aucune erreur grammaticale autre que celles que nous avons insérées. Dans le monde réel, les phrases d'exécution peuvent contenir des problèmes grammaticaux supplémentaires qui rendent plus difficile pour les algorithmes d'identifier et de corriger l'exécution. Néanmoins, il s'agit d'une étape passionnante vers notre vision de créer un assistant de communication complet qui vous aide à rédiger des messages qui seront compris exactement comme vous le souhaitiez.

Comment corriger les phrases interminables n'est pas aussi facile qu'il n'y paraît est un nouvel article de Junchao Zheng, Courtney Napoles, Joel Tetreault et Kostiantyn Omelianchuk. Il a été présenté au Fourth Workshop on Noisy User-generated Text co-localisé avec EMNLP 2018. L'article apparaît dans les Actes de l'atelier EMNLP 2018 W-NUT: The Fourth Workshop on Noisy User-generated Text.

Plus de notre série Under the Hood at Grammarly :

Détecter l'écriture désorganisée avec l'IA
Transformer le style d'écriture avec l'IA