Come si correggono le frasi run-on?
Pubblicato: 2018-11-08Ad un certo punto della tua vita, potresti aver avuto un insegnante che si è scagliato contro un particolare errore di scrittura in inglese: le frasi scontate.
I run-on sono un tipo comune di errore. Tra gli studenti universitari negli Stati Uniti, le frasi ripetute sono il diciottesimo errore più frequente commesso da madrelingua inglese e l'ottavo errore più frequente commesso da studenti che non sono madrelingua inglese.
La capacità di rilevare e correggere automaticamente questo tipo di errore sarebbe ovviamente utile agli scrittori. Ma ci sono applicazioni ancora più ampie. Quando si detta un messaggio di testo, ad esempio, è necessario dire "punto" alla fine della frase prima di iniziarne una nuova, altrimenti la trascrizione si trasforma in un lungo run-on. Un sistema di intelligenza artificiale in grado di capire automaticamente dove iniziare e dove terminare una frase potrebbe inserire automaticamente la punteggiatura corretta, liberando il cervello per concentrarsi sulle informazioni che stai cercando di comunicare.
Il lavoro di Grammarly sulle frasi in esecuzione è oggetto di un nuovo documento che abbiamo presentato al 4° Workshop sul testo generato dagli utenti rumoroso la scorsa settimana alla conferenza EMNLP a Bruxelles. Siamo orgogliosi di dire che ha vinto uno dei due premi per la migliore carta al workshop! Continua a leggere per vedere come Grammarly sta affrontando la sfida di correggere le frasi run-on.
Che cos'è una frase run-on?
La definizione di una frase run-on varia un po' da persona a persona. Alcune persone considerano le giunzioni a virgola un tipo di frase run-on. Per altri, una frase run-on è semplicemente una frase molto lunga. La lunghezza da sola, tuttavia, non rende una frase un vero rincorrersi.
In sostanza, una frase run-on è solo due o più frasi complete che sono state schiacciate insieme in modo improprio. Ecco un esempio di run-on:
Ci sono due clausole indipendenti qui: vivi la vita al massimo e non dare nulla per scontato . Tradizionalmente, quando vuoi unire due clausole indipendenti insieme, devi collegarle insieme in qualche modo. Un'opzione è usare una virgola e una congiunzione:
Un'altra opzione è usare un punto e virgola:
La terza opzione è spezzare le clausole in frasi separate:
Il problema con le frasi run-on è che sono difficili da capire. Congiunzioni, punti e virgola e punti fungono da segnali all'interno di una frase per aiutare i lettori a seguire ciò che lo scrittore sta dicendo. Quando questi segnali sono assenti, è probabile che i lettori dovranno tornare sui propri passi e rileggere per dare un senso alla frase.
Perché è difficile correggere automaticamente i run-on
Grammarly corregge già gli errori di punteggiatura e gli errori grammaticali. Quindi cosa c'è di diverso nell'insegnare a un sistema di intelligenza artificiale a correggere le frasi run-on? Perché è così difficile?
Molti errori di punteggiatura o grammaticali riguardano solo una parte isolata di una frase. Ciò significa che il tuo sistema di intelligenza artificiale deve elaborare solo una parte particolare della frase per identificare e risolvere il problema. Un run-on, però, è un problema a livello di frase. Richiede che la tua IA elabori una stringa di testo molto più lunga e complessa.
Anche la correzione automatica dei run-on è difficile perché ci sono diversi modi per farlo. Come nell'esempio sopra, puoi aggiungere la punteggiatura, una congiunzione o spezzare il run-on in più frasi. La tua IA dovrà imparare a identificare il modo migliore per riparare un run-on in una particolare situazione.
Inoltre, non ci sono molti dati esistenti là fuori per addestrare i sistemi di intelligenza artificiale a questo scopo. Sebbene le frasi ripetute siano errori comuni, non esisteva un corpus che includesse abbastanza frasi ripetute etichettate da utilizzare come dati di addestramento. (Un corpus è una vasta raccolta di testo che è stata etichettata in un modo da cui gli algoritmi informatici possono imparare.)
Cosa abbiamo fatto
Il primo ordine del giorno era quello di creare una raccolta di frasi run-on. Abbiamo generato artificialmente frasi ripetute rimuovendo la punteggiatura tra coppie di frasi da un corpus di articoli di notizie. (Vedi il nostro articolo per una spiegazione completa del nostro processo e di come abbiamo selezionato le frasi candidate.)
Abbiamo quindi utilizzato le nostre frasi run-on appena create per addestrare i due modelli di apprendimento automatico che abbiamo creato per identificare e correggere i run-on. L'apprendimento automatico è un'area dell'IA che implica l'insegnamento a un algoritmo di eseguire attività automaticamente mostrandogli molti esempi anziché fornire una serie di passaggi rigidamente predefiniti.
Correzione delle frasi run-on: cosa abbiamo trovato
Una volta che i modelli sono stati addestrati, li abbiamo testati su una nuova serie di frasi ricorrenti create artificialmente, nonché su una piccola serie di frasi ricorrenti presenti in natura da un corpus di ricerca esistente.
Abbiamo scoperto che entrambi hanno superato i modelli principali per il ripristino della punteggiatura e la correzione degli errori grammaticali in questo compito. C'è stata anche un'altra scoperta interessante: i nostri modelli, che sono stati addestrati su frasi generate artificialmente, sono stati in grado di identificare frasi ripetute scritte da veri scrittori così come hanno identificato frasi ripetute artificiali.
C'è, ovviamente, più lavoro da fare qui. I nostri dati di allenamento sono stati generati utilizzando un testo "pulito", il che significa che il testo non conteneva errori grammaticali oltre a quelli che abbiamo inserito. Nel mondo reale, le frasi run-on possono contenere ulteriori problemi grammaticali che rendono più difficile per gli algoritmi identificare e correggere il run-on. Tuttavia, questo è un passo entusiasmante verso la nostra visione di creare un assistente di comunicazione completo che ti aiuti a scrivere messaggi che saranno compresi esattamente come intendevi.
Come correggere le frasi ripetute non è così facile come sembra è un nuovo articolo di Junchao Zheng, Courtney Napoles, Joel Tetreault e Kostiantyn Omelianchuk. È stato presentato al Fourth Workshop on Noisy User-generated Text in collaborazione con EMNLP 2018. Il documento appare negli Atti del Workshop EMNLP 2018 W-NUT: The Fourth Workshop on Noisy User-generated Text.
Altro dalla nostra serie Under the Hood at Grammarly:
- Rilevamento della scrittura disorganizzata con l'intelligenza artificiale
- Trasformare lo stile di scrittura con l'intelligenza artificiale