Come si correggono le frasi consecutive?

Pubblicato: 2018-11-08

Ad un certo punto della tua vita, potresti aver avuto un insegnante che si scagliava contro un particolare errore nella scrittura inglese: le frasi run-on.

I run-on sono un tipo comune di errore. Tra gli studenti universitari degli Stati Uniti, le frasi ripetitive rappresentano il diciottesimo errore più frequente commesso dai madrelingua inglesi e l’ottavo errore più frequente commesso dagli studenti che non sono madrelingua inglesi.

Confuso riguardo alle frasi run-on?
La grammatica può aiutare.

La capacità di rilevare e correggere automaticamente questo tipo di errore sarebbe ovviamente utile agli scrittori. Ma ci sono applicazioni ancora più ampie. Quando detti un messaggio di testo, ad esempio, devi dire "punto" alla fine della frase prima di iniziarne una nuova, altrimenti la trascrizione si trasforma in una lunga sequenza. Un sistema di intelligenza artificiale in grado di capire automaticamente dove dovrebbe iniziare e finire una frase potrebbe inserire automaticamente la punteggiatura corretta, liberando il cervello e permettendogli di concentrarsi sulle informazioni che stai cercando di comunicare.

Il lavoro di Grammarly sulle frasi ripetitive è l'argomento di un nuovo articolo che abbiamo presentato al 4° Workshop sul testo generato dagli utenti noiosi la scorsa settimana alla conferenza EMNLP a Bruxelles. Siamo orgogliosi di dire che ha vinto uno dei due migliori premi di carta al workshop! Continua a leggere per vedere come Grammarly sta affrontando la sfida di correggere le frasi ripetitive.

Cos'è una frase run-on?

La definizione di frase ripetuta varia leggermente da persona a persona. Alcune persone considerano le giunzioni di virgole un tipo di frase run-on. Per altri, una frase run-on è semplicemente una frase molto lunga. La lunghezza da sola, tuttavia, non rende una frase un vero e proprio gioco.

In sostanza, una frase ripetuta è costituita da due o più frasi complete che sono state erroneamente compresse insieme. Ecco un esempio di run-on:

Vivi la vita al massimo, non dare nulla per scontato.

Ci sono due clausole indipendenti qui: vivere la vita al massimo e non dare nulla per scontato . Tradizionalmente, quando si vogliono unire due proposizioni indipendenti, è necessario collegarle in qualche modo. Un'opzione è utilizzare una virgola e una congiunzione:

Vivi la vita al massimo e non dare nulla per scontato.

Un'altra opzione è utilizzare il punto e virgola:

Vivi la vita al massimo; non dare nulla per scontato.

La terza opzione è suddividere le clausole in frasi separate:

Vivi la vita al massimo. Non dare nulla per scontato.

Il problema con le frasi ripetitive è che sono difficili da capire. Congiunzioni, punto e virgola e punti fungono da indicatori all'interno di una frase per aiutare i lettori a seguire ciò che sta dicendo lo scrittore. Quando questi segnali sono assenti, è probabile che i lettori debbano tornare indietro e rileggere per dare un senso alla frase.

Perché è difficile correggere automaticamente i grippaggi

Grammarly corregge già gli errori di punteggiatura e gli errori grammaticali. Quindi cosa c'è di diverso nell'insegnare a un sistema di intelligenza artificiale a correggere frasi ripetitive? Perché è così difficile?

Molti errori di punteggiatura o grammaticali riguardano solo una parte isolata della frase. Ciò significa che il tuo sistema di intelligenza artificiale deve elaborare solo una parte particolare della frase per identificare e risolvere il problema. Un run-on, però, è un problema a livello di frase. Richiede alla tua intelligenza artificiale di elaborare una stringa di testo molto più lunga e complessa.

Anche la correzione automatica dei run-on è difficile perché esistono diversi modi per farlo. Come nell'esempio sopra, puoi aggiungere la punteggiatura, una congiunzione o suddividere la sequenza in più frasi. La tua intelligenza artificiale dovrà imparare a identificare il modo migliore per risolvere un problema in una situazione particolare.

Oltre a ciò, non ci sono molti dati esistenti su cui addestrare i sistemi di intelligenza artificiale a questo scopo. Sebbene le frasi di esecuzione siano errori comuni, non esisteva un corpus che includesse un numero sufficiente di frasi di esecuzione etichettate da utilizzare come dati di training. (Un corpus è una vasta raccolta di testo etichettata in modo tale da consentire agli algoritmi informatici di apprendere.)

Cosa abbiamo fatto

La prima cosa da fare era creare una raccolta di frasi ripetute. Abbiamo generato artificialmente frasi ripetitive rimuovendo la punteggiatura tra coppie di frasi da un corpus di articoli di notizie. (Consulta il nostro articolo per una spiegazione completa del nostro processo e di come abbiamo selezionato le frasi candidate.)

Abbiamo quindi utilizzato le nostre frasi run-on appena create per addestrare i due modelli di machine learning che abbiamo creato per identificare e correggere le run-on. L’apprendimento automatico è un’area dell’intelligenza artificiale che consiste nell’insegnare a un algoritmo a eseguire compiti automaticamente mostrando molti esempi anziché fornendo una serie di passaggi rigidamente predefiniti.

Correggere le frasi ripetute: cosa abbiamo trovato

Una volta addestrati i modelli, li abbiamo testati su una nuova serie di frasi eseguite artificialmente, nonché su un piccolo insieme di frasi eseguite in modo naturale da un corpus di ricerca esistente.

Abbiamo scoperto che entrambi hanno sovraperformato i modelli principali per il ripristino della punteggiatura e la correzione degli errori grammaticali in questo compito. C’è stata anche un’altra scoperta interessante: i nostri modelli, che sono stati addestrati su frasi generate artificialmente, sono stati in grado di identificare le frasi ripetute scritte da scrittori reali proprio come hanno identificato le frasi ripetute artificiali.

Naturalmente c’è ancora molto lavoro da fare qui. I nostri dati di addestramento sono stati generati utilizzando testo “pulito”, nel senso che il testo non conteneva errori grammaticali diversi da quelli che abbiamo inserito. Nel mondo reale, le frasi run-on possono contenere ulteriori problemi grammaticali che rendono più difficile per gli algoritmi identificare e correggere il run-on. Tuttavia, questo è un passo entusiasmante verso la nostra visione di creare un assistente di comunicazione completo che ti aiuti a scrivere messaggi che verranno compresi esattamente come li intendevi.

Come correggere le frasi ricorrenti non è così facile come sembra, è un nuovo articolo di Junchao Zheng, Courtney Napoles, Joel Tetreault e Kostiantyn Omelianchuk. È stato presentato al Fourth Workshop on Noisy User-generated Text organizzato in concomitanza con EMNLP 2018. Il documento appare negli Atti del Workshop EMNLP 2018 W-NUT: The Fourth Workshop on Noisy User-generated Text.

Altro dalla nostra serie Under the Hood at Grammarly:

  • Rilevare la scrittura disorganizzata con l’intelligenza artificiale
  • Trasformare lo stile di scrittura con l'intelligenza artificiale