Wie korrigiert man Folgesätze?
Veröffentlicht: 2018-11-08Möglicherweise hatten Sie irgendwann in Ihrem Leben einen Lehrer, der sich über einen bestimmten Fehler im englischen Schreiben beschwerte: Folgesätze.
Nachläufe sind eine häufige Fehlerart. Unter College-Studenten in den Vereinigten Staaten sind Folgesätze der achtzehnthäufigste Fehler von englischen Muttersprachlern und der achthäufigste Fehler von Studenten, die keine englischen Muttersprachler sind.
Die Möglichkeit, diese Art von Fehlern automatisch zu erkennen und zu beheben, wäre für Autoren offensichtlich nützlich. Es gibt aber noch umfassendere Anwendungen. Wenn Sie beispielsweise eine Textnachricht diktieren, müssen Sie am Ende Ihres Satzes „Punkt“ sagen, bevor Sie einen neuen Satz beginnen, sonst wird Ihre Transkription zu einem langen Nachlauf. Ein KI-System, das automatisch herausfinden kann, wo ein Satz beginnen und enden soll, könnte automatisch die richtigen Satzzeichen einfügen und Ihrem Gehirn so mehr Zeit geben, sich auf die Informationen zu konzentrieren, die Sie mitteilen möchten.
Grammarlys Arbeit zu Folgesätzen ist Gegenstand eines neuen Papiers, das wir letzte Woche beim 4. Workshop zu lautem benutzergeneriertem Text auf der EMNLP-Konferenz in Brüssel vorgestellt haben. Wir sind stolz, sagen zu können, dass es einen der beiden Preise für das beste Papier des Workshops gewonnen hat! Lesen Sie weiter, um zu erfahren, wie Grammarly die Herausforderung der Korrektur von Folgesätzen meistert.
Was ist ein Folgesatz?
Die Definition eines Folgesatzes ist von Person zu Person unterschiedlich. Manche Leute betrachten Komma-Verbindungen als eine Art Folgesatz. Für andere ist ein Folgesatz einfach ein sehr langer Satz. Die Länge allein macht einen Satz jedoch noch nicht zu einem echten Fortsetzungssatz.
Im Wesentlichen besteht ein Folgesatz nur aus zwei oder mehr vollständigen Sätzen, die falsch zusammengequetscht wurden. Hier ist ein Beispiel für einen Nachlauf:
Hier gibt es zwei unabhängige Klauseln: Lebe das Leben in vollen Zügen und nimm nichts als selbstverständlich hin . Wenn Sie zwei unabhängige Klauseln zusammenfügen möchten, müssen Sie sie traditionell auf irgendeine Weise miteinander verknüpfen. Eine Möglichkeit besteht darin, ein Komma und eine Konjunktion zu verwenden:
Eine andere Möglichkeit ist die Verwendung eines Semikolons:
Die dritte Möglichkeit besteht darin, die Sätze in einzelne Sätze aufzuteilen:
Das Problem bei Folgesätzen ist, dass sie schwer zu verstehen sind. Konjunktionen, Semikolons und Punkte dienen als Wegweiser innerhalb eines Satzes und helfen dem Leser, dem Gesagten des Autors zu folgen. Wenn diese Wegweiser fehlen, ist es wahrscheinlich, dass die Leser zurückgehen und noch einmal lesen müssen, um den Satz zu verstehen.
Warum es schwierig ist, Nachläufe automatisch zu korrigieren
Grammarly korrigiert bereits Satzzeichen- und Grammatikfehler. Was ist also anders daran, einem KI-System beizubringen, Folgesätze zu korrigieren? Warum ist es so schwer?
Viele Zeichensetzungs- oder Grammatikfehler betreffen nur einen isolierten Teil eines Satzes. Das bedeutet, dass Ihr KI-System nur einen bestimmten Teil des Satzes verarbeiten muss, um das Problem zu identifizieren und zu beheben. Ein Run-on ist jedoch ein Problem auf Satzebene. Es erfordert, dass Ihre KI eine viel längere und komplexere Textfolge verarbeitet.
Auch das automatische Reparieren von Nachläufen ist schwierig, da es dafür mehrere Möglichkeiten gibt. Wie im obigen Beispiel können Sie Satzzeichen oder eine Konjunktion hinzufügen oder den Nachlauf in mehrere Sätze aufteilen. Ihre KI muss lernen, wie sie einen Nachlauf in einer bestimmten Situation am besten beheben kann.
Darüber hinaus gibt es einfach nicht viele Daten, auf deren Grundlage KI-Systeme für diesen Zweck trainiert werden könnten. Obwohl Nachfolgesätze häufige Fehler sind, gab es kein Korpus, das genügend beschriftete Nachfolgesätze enthielt, um sie als Trainingsdaten zu verwenden. (Ein Korpus ist eine große Textsammlung, die so beschriftet wurde, dass Computeralgorithmen daraus lernen können.)
Was wir getan haben
Die erste Aufgabe bestand darin, eine Sammlung von Folgesätzen zu erstellen. Wir haben künstlich Folgesätze generiert, indem wir die Interpunktion zwischen Satzpaaren aus einem Korpus von Nachrichtenartikeln entfernt haben. (Eine ausführliche Erklärung unseres Prozesses und wie wir Kandidatensätze ausgewählt haben, finden Sie in unserem Artikel.)
Anschließend nutzten wir unsere neu erstellten Nachlaufsätze, um die beiden von uns erstellten maschinellen Lernmodelle zu trainieren, um Nachläufe zu identifizieren und zu korrigieren. Maschinelles Lernen ist ein Bereich der KI, bei dem es darum geht, einem Algorithmus beizubringen, Aufgaben automatisch auszuführen, indem ihm viele Beispiele gezeigt werden, anstatt eine Reihe starr vordefinierter Schritte bereitzustellen.
Folgesätze korrigieren: Was wir herausgefunden haben
Nachdem die Modelle trainiert waren, testeten wir sie an einem neuen Satz künstlich erstellter Folgesätze sowie an einem kleinen Satz natürlich vorkommender Folgesätze aus einem bestehenden Forschungskorpus.
Wir haben festgestellt, dass beide führende Modelle für die Wiederherstellung der Interpunktion und die Korrektur grammatikalischer Fehler bei dieser Aufgabe übertrafen. Es gab noch eine weitere spannende Erkenntnis: Unsere Modelle, die an künstlich generierten Sätzen trainiert wurden, konnten Folgesätze, die von echten Autoren geschrieben wurden, genauso gut identifizieren wie künstliche Folgesätze.
Hier gibt es natürlich noch viel zu tun. Unsere Trainingsdaten wurden mit „sauberem“ Text generiert, was bedeutet, dass der Text außer den von uns eingefügten keine grammatikalischen Fehler enthielt. In der realen Welt können Nachfolgesätze zusätzliche grammatikalische Probleme enthalten, die es für Algorithmen schwieriger machen, die Nachfolgesätze zu identifizieren und zu beheben. Dennoch ist dies ein spannender Schritt in Richtung unserer Vision, einen umfassenden Kommunikationsassistenten zu schaffen, der Sie beim Verfassen von Nachrichten unterstützt, die genau so verstanden werden, wie Sie es beabsichtigt haben.
Wie man Folgesätze korrigiert, ist nicht so einfach, wie es scheint, ist ein neuer Artikel von Junchao Zheng, Courtney Napoles, Joel Tetreault und Kostiantyn Omelianchuk. Es wurde auf dem vierten Workshop zu verrauschtem benutzergeneriertem Text vorgestellt, der gleichzeitig mit EMNLP 2018 stattfand. Das Papier erscheint in den Proceedings des EMNLP-Workshops 2018 W-NUT: The Fourth Workshop on Noisy User-generated Text.
Mehr aus unserer Under the Hood at Grammarly-Reihe:
- Unorganisiertes Schreiben mit KI erkennen
- Schreibstil mit KI verändern