Wie korrigiert man Folgesätze?
Veröffentlicht: 2018-11-08Irgendwann in Ihrem Leben hatten Sie vielleicht einen Lehrer, der gegen einen bestimmten Fehler beim englischen Schreiben wetterte: fortlaufende Sätze.
Run-Ons sind eine häufige Art von Fehlern. Unter College-Studenten in den Vereinigten Staaten sind fortlaufende Sätze der achtzehnthäufigste Fehler, der von englischen Muttersprachlern gemacht wird, und der achthäufigste Fehler, der von Studenten gemacht wird, die keine englischen Muttersprachler sind.
Die Fähigkeit, diese Art von Fehlern automatisch zu erkennen und zu beheben, wäre für Autoren offensichtlich nützlich. Aber es gibt noch breitere Anwendungen. Wenn Sie beispielsweise eine Textnachricht diktieren, müssen Sie am Ende Ihres Satzes „Punkt“ sagen, bevor Sie einen neuen beginnen, sonst wird Ihre Transkription zu einem langen Nachlauf. Ein KI-System, das automatisch herausfinden kann, wo ein Satz beginnen und enden sollte, könnte automatisch die richtige Interpunktion einfügen, sodass sich Ihr Gehirn auf die Informationen konzentrieren kann, die Sie zu kommunizieren versuchen.
Die Arbeit von Grammarly zu Folgesätzen ist Gegenstand eines neuen Papiers, das wir letzte Woche auf der EMNLP-Konferenz in Brüssel beim 4. Workshop zu verrauschtem benutzergeneriertem Text vorgestellt haben. Wir sind stolz sagen zu können, dass es beim Workshop einen der beiden Preise für das beste Papier gewonnen hat! Lesen Sie weiter, um zu sehen, wie Grammarly die Herausforderung angeht, fortlaufende Sätze zu korrigieren.
Was ist ein Folgesatz?
Die Definition eines Folgesatzes ist von Person zu Person etwas unterschiedlich. Einige Leute betrachten Kommaspleiße als eine Art Folgesatz. Für andere ist ein Folgesatz einfach ein sehr langer Satz. Die Länge allein macht einen Satz jedoch noch lange nicht zu einem echten Dauerläufer.
Im Wesentlichen besteht ein Folgesatz aus zwei oder mehr vollständigen Sätzen, die unsachgemäß zusammengequetscht wurden. Hier ist ein Beispiel für einen Run-On:
Hier gibt es zwei unabhängige Klauseln: Lebe das Leben in vollen Zügen und betrachte nichts als selbstverständlich . Wenn Sie zwei unabhängige Klauseln miteinander verbinden möchten, müssen Sie sie traditionell auf irgendeine Weise miteinander verknüpfen. Eine Möglichkeit besteht darin, ein Komma und eine Konjunktion zu verwenden:
Eine weitere Möglichkeit ist die Verwendung eines Semikolons:
Die dritte Möglichkeit besteht darin, die Klauseln in einzelne Sätze aufzuteilen:
Das Problem mit Folgesätzen ist, dass sie schwer zu verstehen sind. Konjunktionen, Semikolons und Punkte dienen als Wegweiser innerhalb eines Satzes, um den Lesern zu helfen, dem zu folgen, was der Autor sagt. Wenn diese Wegweiser fehlen, ist es wahrscheinlich, dass die Leser zurückgehen und erneut lesen müssen, um den Satz zu verstehen.
Warum es schwierig ist, Nachläufe automatisch zu korrigieren
Grammarly korrigiert bereits Satzzeichen- und Grammatikfehler. Was ist also anders daran, einem KI-System beizubringen, fortlaufende Sätze zu korrigieren? Warum ist es so schwer?

Viele Interpunktions- oder Grammatikfehler betreffen nur einen isolierten Teil eines Satzes. Das bedeutet, dass Ihr KI-System nur einen bestimmten Teil des Satzes verarbeiten muss, um das Problem zu identifizieren und zu beheben. Ein Run-On ist jedoch ein Problem auf Satzebene. Es erfordert, dass Ihre KI eine viel längere und komplexere Textfolge verarbeitet.
Das automatische Beheben von Nachläufern ist ebenfalls schwierig, da es mehrere Möglichkeiten gibt, dies zu tun. Wie im obigen Beispiel können Sie Satzzeichen oder eine Konjunktion hinzufügen oder den Nachlauf in mehrere Sätze aufteilen. Ihre KI muss lernen, wie sie in einer bestimmten Situation den besten Weg findet, um einen Run-On zu beheben.
Darüber hinaus gibt es einfach nicht viele vorhandene Daten, auf denen KI-Systeme für diesen Zweck trainiert werden könnten. Obwohl Folgesätze häufige Fehler sind, gab es kein Korpus, das genügend beschriftete Folgesätze enthielt, um sie als Trainingsdaten zu verwenden. (Ein Korpus ist eine große Textsammlung, die so gekennzeichnet wurde, dass Computeralgorithmen daraus lernen können.)
Was wir gemacht haben
Die erste Aufgabe bestand darin, eine Sammlung von Folgesätzen zu erstellen. Wir haben künstlich fortlaufende Sätze generiert, indem wir die Interpunktion zwischen Satzpaaren aus einem Korpus von Nachrichtenartikeln entfernt haben. (Siehe unser Papier für eine vollständige Erklärung unseres Prozesses und wie wir Kandidatensätze ausgewählt haben.)
Wir haben dann unsere neu erstellten Nachlaufsätze verwendet, um die beiden von uns erstellten maschinellen Lernmodelle zu trainieren, um Nachläufe zu identifizieren und zu korrigieren. Maschinelles Lernen ist ein Bereich der KI, bei dem einem Algorithmus beigebracht wird, Aufgaben automatisch auszuführen, indem ihm viele Beispiele gezeigt werden, anstatt eine Reihe starr vordefinierter Schritte bereitzustellen.
Korrigieren von Folgesätzen: Was wir gefunden haben
Nachdem die Modelle trainiert waren, testeten wir sie mit einem neuen Satz künstlich erzeugter Folgesätze sowie einem kleinen Satz natürlich vorkommender Folgesätze aus einem bestehenden Forschungskorpus.
Wir haben festgestellt, dass beide führende Modelle für die Wiederherstellung von Zeichensetzung und die Korrektur von Grammatikfehlern bei dieser Aufgabe übertrafen. Es gab noch eine weitere spannende Erkenntnis: Unsere Modelle, die auf künstlich erzeugten Sätzen trainiert wurden, konnten von echten Schreibern geschriebene Folgesätze genauso gut erkennen wie künstliche Folgesätze.
Hier gibt es natürlich noch einiges zu tun. Unsere Trainingsdaten wurden mit „sauberem“ Text generiert, was bedeutet, dass der Text keine anderen Grammatikfehler als die von uns eingefügten enthielt. In der realen Welt können Folgesätze zusätzliche grammatikalische Probleme enthalten, die es Algorithmen erschweren, die Folge zu identifizieren und zu beheben. Dennoch ist dies ein spannender Schritt in Richtung unserer Vision, einen umfassenden Kommunikationsassistenten zu schaffen, der Ihnen hilft, Nachrichten zu schreiben, die genau so verstanden werden, wie Sie es beabsichtigt haben.
Wie man Folgesätze korrigiert, ist nicht so einfach, wie es scheint, ist ein neues Papier von Junchao Zheng, Courtney Napoles, Joel Tetreault und Kostiantyn Omelianchuk. Es wurde auf dem Fourth Workshop on Noisy User-generated Text vorgestellt, der gemeinsam mit EMNLP 2018 stattfand. Das Papier erscheint in den Proceedings of the 2018 EMNLP Workshop W-NUT: The Fourth Workshop on Noisy User-generated Text.
Mehr aus unserer Reihe Under the Hood at Grammarly:
- Unorganisiertes Schreiben mit KI erkennen
- Transformation des Schreibstils mit KI