Comment corriger les phrases répétées ?
Publié: 2018-11-08À un moment donné de votre vie, vous avez peut-être eu un professeur qui s'est élevé contre une erreur particulière dans l'écriture anglaise : les phrases répétées.
Les run-ons sont un type d’erreur courant. Parmi les étudiants aux États-Unis, les phrases répétées sont la dix-huitième erreur la plus fréquente commise par les anglophones natifs et la huitième erreur la plus fréquente commise par les étudiants qui ne sont pas anglophones.
La possibilité de détecter et de corriger automatiquement ce type d’erreur serait évidemment utile aux rédacteurs. Mais il existe des applications encore plus larges. Lorsque vous dictez un message texte, par exemple, vous devez dire « point » à la fin de votre phrase avant d'en commencer une nouvelle, sinon votre transcription se transforme en une longue suite. Un système d'IA capable de déterminer automatiquement où une phrase doit commencer et s'arrêter pourrait automatiquement insérer la ponctuation appropriée, libérant ainsi votre cerveau pour qu'il puisse se concentrer sur les informations que vous essayez de communiquer.
Le travail de Grammarly sur les phrases répétées fait l'objet d'un nouvel article que nous avons présenté lors du 4e atelier sur le texte généré par les utilisateurs bruyants la semaine dernière lors de la conférence EMNLP à Bruxelles. Nous sommes fiers de dire qu'il a remporté l'un des deux prix du meilleur papier de l'atelier ! Poursuivez votre lecture pour voir comment Grammarly relève le défi de la correction des phrases répétées.
Qu'est-ce qu'une phrase récurrente ?
La définition d’une phrase répétée varie un peu d’une personne à l’autre. Certaines personnes considèrent les virgules comme un type de phrase récurrente. Pour d’autres, une phrase interminable est simplement une phrase très longue. Cependant, la longueur à elle seule ne fait pas d’une phrase une véritable reprise.
Essentiellement, une phrase continue est constituée de deux phrases complètes ou plus qui ont été incorrectement écrasées. Voici un exemple de run-on :
Il y a ici deux clauses indépendantes : vivre pleinement sa vie et ne rien prendre pour acquis . Traditionnellement, lorsque vous souhaitez joindre deux clauses indépendantes, vous devez les lier d’une manière ou d’une autre. Une option consiste à utiliser une virgule et une conjonction :
Une autre option consiste à utiliser un point-virgule :
La troisième option consiste à diviser les propositions en phrases distinctes :
Le problème des phrases interminables est qu’elles sont difficiles à comprendre. Les conjonctions, les points-virgules et les points agissent comme des panneaux indicateurs dans une phrase pour aider les lecteurs à comprendre ce que dit l'écrivain. Lorsque ces panneaux sont absents, il est probable que les lecteurs devront revenir en arrière et relire pour comprendre la phrase.
Pourquoi il est difficile de corriger automatiquement les run-ons
Grammarly corrige déjà les erreurs de ponctuation et les erreurs grammaticales. Alors, en quoi est-il différent d'apprendre à un système d'IA à corriger des phrases répétées ? Pourquoi est-ce si difficile ?
De nombreuses erreurs de ponctuation ou grammaticales n’affectent qu’une partie isolée d’une phrase. Cela signifie que votre système d’IA n’a besoin de traiter qu’une partie particulière de la phrase afin d’identifier et de résoudre le problème. Cependant, une répétition est un problème au niveau de la phrase. Cela nécessite que votre IA traite une chaîne de texte beaucoup plus longue et plus complexe.
La réparation automatique des run-ons est également difficile car il existe plusieurs façons de le faire. Comme dans l'exemple ci-dessus, vous pouvez ajouter un signe de ponctuation, une conjonction ou diviser le texte en plusieurs phrases. Votre IA devra apprendre à identifier la meilleure façon de résoudre un problème de poursuite dans une situation particulière.
En plus de cela, il n’existe tout simplement pas beaucoup de données existantes sur lesquelles former les systèmes d’IA à cet effet. Bien que les phrases répétées soient des erreurs courantes, il n'existait aucun corpus existant comprenant suffisamment de phrases répétées étiquetées pour être utilisées comme données d'entraînement. (Un corpus est une vaste collection de textes qui ont été étiquetés de manière à ce que les algorithmes informatiques puissent en tirer des enseignements.)
Ce que nous avons fait
La première chose à faire était de créer une collection de phrases récurrentes. Nous avons généré artificiellement des phrases répétées en supprimant la ponctuation entre les paires de phrases d'un corpus d'articles de presse. (Voir notre article pour une explication complète de notre processus et de la manière dont nous avons sélectionné les phrases candidates.)
Nous avons ensuite utilisé nos phrases d'exécution nouvellement créées pour entraîner les deux modèles d'apprentissage automatique que nous avons construits pour identifier et corriger les phrases d'exécution. L'apprentissage automatique est un domaine de l'IA qui consiste à apprendre à un algorithme à effectuer des tâches automatiquement en lui montrant de nombreux exemples plutôt qu'en fournissant une série d'étapes strictement prédéfinies.
Corriger les phrases répétées : ce que nous avons trouvé
Une fois les modèles formés, nous les avons testés sur un nouvel ensemble de phrases répétées créées artificiellement ainsi que sur un petit ensemble de phrases répétées naturelles provenant d'un corpus de recherche existant.
Nous avons constaté que les deux surpassaient les principaux modèles de restauration de la ponctuation et de correction des erreurs grammaticales sur cette tâche. Il y a également eu une autre découverte intéressante : nos modèles, qui ont été formés sur des phrases générées artificiellement, ont été capables d'identifier des phrases répétées écrites par de vrais écrivains tout aussi bien qu'ils ont identifié des phrases artificielles répétées.
Il y a bien sûr encore du travail à faire ici. Nos données de formation ont été générées à l'aide d'un texte « propre », ce qui signifie que le texte ne contenait aucune erreur grammaticale autre que celles que nous avons insérées. Dans le monde réel, les phrases répétées peuvent contenir des problèmes grammaticaux supplémentaires qui rendent plus difficile pour les algorithmes d'identifier et de corriger la répétition. Néanmoins, il s'agit d'une étape passionnante vers notre vision de créer un assistant de communication complet qui vous aide à rédiger des messages qui seront compris exactement comme vous l'aviez prévu.
Comment corriger les phrases récurrentes n'est pas aussi facile qu'il y paraît, selon un nouvel article de Junchao Zheng, Courtney Napoles, Joel Tetreault et Kostiantyn Omelianchuk. Il a été présenté lors du quatrième atelier sur le texte généré par les utilisateurs bruyants, organisé conjointement avec l'EMNLP 2018. Le document apparaît dans les actes de l'atelier EMNLP 2018 W-NUT : le quatrième atelier sur le texte généré par les utilisateurs bruyants.
En savoir plus sur notre série Under the Hood at Grammarly :
- Détection de l'écriture désorganisée avec l'IA
- Transformer le style d'écriture avec l'IA