Como você corrige sentenças contínuas?
Publicados: 2018-11-08Em algum momento da sua vida, você pode ter tido um professor que criticou um erro específico na escrita em inglês: frases contínuas.
Run-ons são um tipo comum de erro. Entre os estudantes universitários nos Estados Unidos, as sentenças contínuas são o décimo oitavo erro mais frequente cometido por falantes nativos de inglês e o oitavo erro mais frequente cometido por estudantes que não são falantes nativos de inglês.
A capacidade de detectar e corrigir automaticamente esse tipo de erro seria obviamente útil para os escritores. Mas existem aplicações ainda mais amplas. Ao ditar uma mensagem de texto, por exemplo, você precisa dizer “ponto final” no final da frase antes de iniciar uma nova, ou então sua transcrição se transformará em uma longa sequência. Um sistema de IA que pode descobrir automaticamente onde uma frase deve começar e parar poderia inserir automaticamente a pontuação adequada, liberando seu cérebro para se concentrar na informação que você está tentando comunicar.
O trabalho de Grammarly sobre sentenças contínuas é o tema de um novo artigo que apresentamos no 4º Workshop sobre Texto Gerado por Usuário Noisy na semana passada na conferência EMNLP em Bruxelas. Temos orgulho de dizer que ganhou um dos dois prêmios de melhor artigo do workshop! Continue lendo para ver como Grammarly está enfrentando o desafio de corrigir frases contínuas.
O que é uma sentença contínua?
A definição de sentença contínua varia um pouco de pessoa para pessoa. Algumas pessoas consideram as emendas de vírgula um tipo de frase contínua. Para outros, uma sentença contínua é simplesmente uma sentença muito longa. O comprimento por si só, entretanto, não faz de uma frase uma verdadeira continuação.
Essencialmente, uma frase contínua são apenas duas ou mais frases completas que foram comprimidas indevidamente. Aqui está um exemplo de execução:
Existem duas cláusulas independentes aqui: Viva a vida ao máximo e não tome nada como garantido . Tradicionalmente, quando você deseja unir duas cláusulas independentes, é necessário vinculá-las de alguma forma. Uma opção é usar uma vírgula e uma conjunção:
Outra opção é usar ponto e vírgula:
A terceira opção é dividir as cláusulas em sentenças separadas:
O problema com frases contínuas é que elas são difíceis de entender. Conjunções, ponto e vírgula e pontos funcionam como sinais dentro de uma frase para ajudar os leitores a acompanhar o que o escritor está dizendo. Quando essas placas de sinalização estão ausentes, é provável que os leitores precisem voltar atrás e reler para entender a frase.
Por que é difícil corrigir automaticamente run-ons
Grammarly já corrige erros de pontuação e erros gramaticais. Então, o que há de diferente em ensinar um sistema de IA para corrigir sentenças contínuas? Por que é tão difícil?
Muitos erros de pontuação ou gramaticais afetam apenas uma parte isolada de uma frase. Isso significa que seu sistema de IA só precisa processar uma parte específica da frase para identificar e corrigir o problema. Um run-on, porém, é um problema no nível da frase. Requer que sua IA processe uma sequência de texto muito mais longa e complexa.
A correção automática de run-ons também é difícil porque existem várias maneiras de fazer isso. Como no exemplo acima, você pode adicionar pontuação, uma conjunção ou dividir a sequência em várias frases. Sua IA precisará aprender como identificar a melhor maneira de corrigir um problema em uma situação específica.
Além disso, simplesmente não existem muitos dados disponíveis para treinar sistemas de IA para esse fim. Embora sentenças contínuas sejam erros comuns, não havia nenhum corpus existente que incluísse sentenças contínuas rotuladas suficientes para usar como dados de treinamento. (Um corpus é uma grande coleção de texto que foi rotulado de uma forma que os algoritmos de computador possam aprender.)
O que fizemos
A primeira tarefa foi criar uma coleção de sentenças contínuas. Geramos artificialmente sentenças contínuas removendo a pontuação entre pares de sentenças de um corpus de artigos de notícias. (Veja nosso artigo para uma explicação completa de nosso processo e como selecionamos as frases candidatas.)
Em seguida, usamos nossas frases contínuas recém-criadas para treinar os dois modelos de aprendizado de máquina que construímos para identificar e corrigir run-ons. O aprendizado de máquina é uma área da IA que envolve ensinar um algoritmo a executar tarefas automaticamente, mostrando-lhe muitos exemplos, em vez de fornecer uma série de etapas rigidamente predefinidas.
Corrigindo frases contínuas: o que encontramos
Depois que os modelos foram treinados, nós os testamos em um novo conjunto de sentenças contínuas criadas artificialmente, bem como em um pequeno conjunto de sentenças contínuas que ocorrem naturalmente de um corpus de pesquisa existente.
Descobrimos que ambos superaram os principais modelos para restauração de pontuação e correção de erros gramaticais nesta tarefa. Houve também outra descoberta interessante: nossos modelos, que foram treinados em sentenças geradas artificialmente, foram capazes de identificar sentenças contínuas escritas por escritores reais tão bem quanto identificaram sentenças contínuas artificiais.
É claro que há mais trabalho a ser feito aqui. Nossos dados de treinamento foram gerados com texto “limpo”, o que significa que o texto não continha erros gramaticais além daqueles que inserimos. No mundo real, as sentenças contínuas podem conter problemas gramaticais adicionais que tornam mais difícil para os algoritmos identificar e corrigir a sequência. No entanto, este é um passo emocionante em direção à nossa visão de criar um assistente de comunicação abrangente que o ajude a escrever mensagens que serão compreendidas exatamente como você pretendia.
Como corrigir sentenças contínuas não é tão fácil quanto parece, é um novo artigo de Junchao Zheng, Courtney Napoles, Joel Tetreault e Kostiantyn Omelianchuk. Foi apresentado no Quarto Workshop sobre Texto Noisy Gerado pelo Usuário co-localizado com EMNLP 2018. O artigo aparece nos Anais do Workshop EMNLP 2018 W-NUT: O Quarto Workshop sobre Texto Noisy Gerado pelo Usuário.
Mais de nossa série Under the Hood at Grammarly:
- Detectando escrita desorganizada com IA
- Transformando o estilo de escrita com IA