Cum corectezi propozițiile care se execută?

Publicat: 2018-11-08

La un moment dat în viața ta, s-ar putea să fi avut un profesor care a criticat o anumită greșeală în scrierea în limba engleză: propoziții care nu au loc.

Run-on-urile sunt un tip comun de eroare. În rândul studenților din Statele Unite, propozițiile neîntrerupte sunt a optsprezecea cea mai frecventă eroare făcută de vorbitorii nativi de engleză și a opta cea mai frecventă eroare făcută de studenții care nu sunt vorbitori nativi de engleză.

Sunteți confuz în privința propozițiilor care se repetă?
Gramatical poate ajuta.

Capacitatea de a detecta și remedia automat acest tip de eroare ar fi, evident, utilă scriitorilor. Dar există aplicații și mai largi. Când dictați un mesaj text, de exemplu, trebuie să spuneți „punct” la sfârșitul propoziției înainte de a începe unul nou, altfel transcrierea dvs. se transformă într-o perioadă lungă. Un sistem AI care poate afla automat unde ar trebui să înceapă și să se oprească o propoziție ar putea introduce automat semnele de punctuație adecvate, eliberându-ți creierul pentru a se concentra asupra informațiilor pe care încerci să le comunici.

Lucrarea lui Grammarly cu privire la propozițiile executate este subiectul unei noi lucrări pe care am prezentat-o ​​săptămâna trecută la conferința EMNLP de la Bruxelles la cel de-al 4-lea Atelier privind textul generat de utilizatori zgomotoși. Suntem mândri să spunem că a câștigat unul dintre cele două premii pentru cea mai bună lucrare la atelier! Citiți mai departe pentru a vedea cum abordează Grammarly provocarea de a corecta propozițiile care se repetă.

Ce este o propoziție care se execută?

Definiția unei propoziții consecutive variază puțin de la persoană la persoană. Unii oameni consideră că îmbinările prin virgulă sunt un tip de propoziție continuă. Pentru alții, o propoziție continuă este pur și simplu o propoziție foarte lungă. Lungimea singură, însă, nu face din propoziție un adevărat run-on.

În esență, o propoziție continuă este doar două sau mai multe propoziții complete care au fost strivite în mod necorespunzător. Iată un exemplu de rulare:

Trăiește viața la maxim, nu iei nimic de la sine înțeles.

Există două clauze independente aici: Trăiește viața la maxim și nu iei nimic de bun . În mod tradițional, atunci când doriți să uniți două clauze independente împreună, trebuie să le legați într-un fel. O opțiune este să folosiți o virgulă și o conjuncție:

Trăiește viața la maxim și nu iei nimic de bun.

O altă opțiune este să folosiți punct și virgulă:

Traieste viata la maxim; nu lua nimic de bun.

A treia opțiune este de a împărți clauzele în propoziții separate:

Traieste viata la maxim. Nu lua nimic de bun.

Problema cu propozițiile care se execută este că sunt greu de înțeles. Conjuncțiile, punctele și virgulă și punctele acționează ca indicatoare în cadrul unei propoziții pentru a ajuta cititorii să urmeze ceea ce spune scriitorul. Când aceste indicatoare lipsesc, este posibil ca cititorii să fie nevoiți să se întoarcă și să recitească pentru a înțelege propoziția.

De ce este greu să corectezi automat run-on-urile

Gramatical corectează deja greșelile de punctuație și greșelile gramaticale. Deci, ce este diferit în ceea ce privește predarea unui sistem AI să repare propozițiile care se execută? De ce este atât de greu?

Multe erori de punctuație sau gramaticale afectează doar o parte izolată a unei propoziții. Asta înseamnă că sistemul tău AI trebuie doar să proceseze o anumită bucată a propoziției pentru a identifica și remedia problema. Un run-on, totuși, este o problemă la nivel de propoziție. Este nevoie de AI pentru a procesa un șir de text mult mai lung și mai complex.

Remedierea automată a run-on-urilor este, de asemenea, dificilă, deoarece există mai multe moduri de a face acest lucru. Ca și în exemplul de mai sus, puteți adăuga semne de punctuație, o conjuncție sau puteți împărți runda în mai multe propoziții. AI-ul tău va trebui să învețe cum să identifice cea mai bună modalitate de a remedia o problemă într-o anumită situație.

În plus, nu există prea multe date existente pentru a instrui sistemele AI în acest scop. Deși propozițiile care se execută sunt greșeli obișnuite, nu a existat un corpus existent care să includă suficiente propoziții etichetate pentru a fi folosite ca date de antrenament. (Un corpus este o colecție mare de text care a fost etichetat într-un mod din care algoritmii computerului pot învăța.)

Ce am făcut

Prima ordine a treburilor a fost crearea unei colecții de propoziții executate. Am generat în mod artificial propoziții care se execută prin eliminarea punctuației dintre perechile de propoziții dintr-un corpus de articole de știri. (Consultați lucrarea noastră pentru o explicație completă a procesului nostru și a modului în care am selectat propozițiile candidatului.)

Apoi am folosit propozițiile noastre de rulare nou create pentru a antrena cele două modele de învățare automată pe care le-am construit pentru a identifica și corecta run-on-urile. Învățarea automată este un domeniu al AI care implică predarea unui algoritm pentru a efectua sarcini automat, arătându-i o mulțime de exemple, mai degrabă decât oferind o serie de pași predefiniti rigid.

Corectarea propozițiilor întârziate: Ce am găsit

Odată ce modelele au fost antrenate, le-am testat pe un nou set de propoziții executate artificial create, precum și pe un mic set de propoziții care apar în mod natural dintr-un corpus de cercetare existent.

Am descoperit că ambele au depășit modelele de vârf pentru restaurarea punctuației și corectarea erorilor gramaticale la această sarcină. A existat, de asemenea, o altă descoperire interesantă: modelele noastre, care au fost antrenate pe propoziții generate artificial, au fost capabile să identifice propoziții executate scrise de scriitori adevărați la fel de bine cum au identificat propoziții artificiale.

Există, desigur, mai multă muncă de făcut aici. Datele noastre de antrenament au fost generate folosind text „curat”, ceea ce înseamnă că textul nu conținea alte erori gramaticale decât cele introduse de noi. În lumea reală, propozițiile care se execută pot conține probleme gramaticale suplimentare care îngreunează algoritmii să identifice și să rezolve problema. Cu toate acestea, acesta este un pas interesant către viziunea noastră de a crea un asistent de comunicare cuprinzător care vă ajută să scrieți mesaje care vor fi înțelese exact așa cum ați vrut.

Cum se corectează propozițiile în continuare nu este atât de ușor pe cât pare este o nouă lucrare de Junchao Zheng, Courtney Napoles, Joel Tetreault și Kostiantyn Omelianchuk. A fost prezentată la cel de-al patrulea atelier privind textul generat de utilizatori zgomotoși, co-locat cu EMNLP 2018. Lucrarea apare în Proceedings of the 2018 EMNLP Workshop W-NUT: The Fourth Workshop on Nosy User-generated Text.

Mai multe din seria noastră Under the Hood at Grammarly:

  • Detectarea scrisului dezorganizat cu AI
  • Transformarea stilului de scriere cu AI