¿Cómo se corrigen las oraciones continuas?
Publicado: 2018-11-08En algún momento de tu vida, es posible que hayas tenido un maestro que criticó un error particular en la escritura en inglés: las oraciones continuas.
Los run-ons son un tipo común de error. Entre los estudiantes universitarios de Estados Unidos, las oraciones continuas son el decimoctavo error más frecuente cometido por hablantes nativos de inglés y el octavo error más frecuente cometido por estudiantes que no son hablantes nativos de inglés.
La capacidad de detectar y corregir automáticamente este tipo de error obviamente sería útil para los escritores. Pero existen aplicaciones aún más amplias. Cuando dictas un mensaje de texto, por ejemplo, necesitas decir "punto" al final de la oración antes de comenzar una nueva, o de lo contrario tu transcripción se convierte en una larga secuencia. Un sistema de inteligencia artificial que pueda determinar automáticamente dónde debe comenzar y terminar una oración podría insertar automáticamente la puntuación adecuada, liberando su cerebro para concentrarse en la información que está tratando de comunicar.
El trabajo de Grammarly sobre oraciones continuas es el tema de un nuevo artículo que presentamos en el 4º Taller sobre texto generado por usuarios ruidosos la semana pasada en la conferencia EMNLP en Bruselas. ¡Estamos orgullosos de decir que ganó uno de los dos premios al mejor papel del taller! Continúe leyendo para ver cómo Grammarly aborda el desafío de corregir oraciones continuas.
¿Qué es una sentencia continua?
La definición de oración continua varía un poco de persona a persona. Algunas personas consideran que las comas son un tipo de oración continua. Para otros, una sentencia continua es simplemente una sentencia muy larga. Sin embargo, la longitud por sí sola no convierte una oración en una verdadera continuación.
Básicamente, una oración continua son solo dos o más oraciones completas que se han agrupado incorrectamente. A continuación se muestra un ejemplo de ejecución continua:
Aquí hay dos cláusulas independientes: Vive la vida al máximo y no des nada por sentado . Tradicionalmente, cuando desea unir dos cláusulas independientes, debe vincularlas de alguna manera. Una opción es utilizar una coma y una conjunción:
Otra opción es utilizar un punto y coma:
La tercera opción es dividir las cláusulas en oraciones separadas:
El problema con las oraciones continuas es que son difíciles de entender. Las conjunciones, el punto y coma y los puntos actúan como señales dentro de una oración para ayudar a los lectores a seguir lo que dice el escritor. Cuando estas señales están ausentes, es probable que los lectores necesiten retroceder y releer para encontrarle sentido a la oración.
Por qué es difícil corregir automáticamente las corridas
Grammarly ya corrige errores de puntuación y errores gramaticales. Entonces, ¿qué tiene de diferente enseñarle a un sistema de inteligencia artificial a corregir oraciones continuas? ¿Por qué es tan difícil?
Muchos errores gramaticales o de puntuación afectan sólo a una parte aislada de una oración. Eso significa que su sistema de inteligencia artificial solo necesita procesar una parte particular de la oración para identificar y solucionar el problema. Sin embargo, una repetición es un problema a nivel de oración. Requiere que su IA procese una cadena de texto mucho más larga y compleja.
Arreglar automáticamente los run-ons también es difícil porque hay varias formas de hacerlo. Como en el ejemplo anterior, puedes agregar puntuación, una conjunción o dividir la continuación en varias oraciones. Su IA deberá aprender a identificar la mejor manera de solucionar un problema en una situación particular.
Además de eso, simplemente no hay muchos datos disponibles para entrenar sistemas de IA con este propósito. Aunque las oraciones continuas son errores comunes, no existía un corpus que incluyera suficientes oraciones continuas etiquetadas para usar como datos de entrenamiento. (Un corpus es una gran colección de texto que ha sido etiquetado de manera que los algoritmos informáticos puedan aprender).
lo que hicimos
La primera orden del día fue crear una colección de oraciones continuas. Generamos artificialmente oraciones continuas eliminando la puntuación entre pares de oraciones de un corpus de artículos de noticias. (Consulte nuestro artículo para obtener una explicación completa de nuestro proceso y cómo seleccionamos las oraciones candidatas).
Luego utilizamos nuestras oraciones continuas recién creadas para entrenar los dos modelos de aprendizaje automático que construimos para identificar y corregir las continuas. El aprendizaje automático es un área de la IA que implica enseñar a un algoritmo a realizar tareas automáticamente mostrándole muchos ejemplos en lugar de proporcionar una serie de pasos rígidamente predefinidos.
Corregir oraciones continuas: lo que encontramos
Una vez que se entrenaron los modelos, los probamos en un nuevo conjunto de oraciones continuas creadas artificialmente, así como en un pequeño conjunto de oraciones continuas que ocurren naturalmente de un corpus de investigación existente.
Descubrimos que ambos superaron a los modelos líderes en restauración de puntuación y corrección de errores gramaticales en esta tarea. También hubo otro hallazgo interesante: nuestros modelos, que fueron entrenados en oraciones generadas artificialmente, fueron capaces de identificar oraciones continuas escritas por escritores reales tan bien como identificaron oraciones continuas artificiales.
Por supuesto, hay más trabajo por hacer aquí. Nuestros datos de entrenamiento se generaron utilizando texto "limpio", lo que significa que el texto no contenía errores gramaticales distintos de los que insertamos. En el mundo real, las oraciones continuas pueden contener problemas gramaticales adicionales que dificultan que los algoritmos identifiquen y corrijan las oraciones continuas. Sin embargo, este es un paso emocionante hacia nuestra visión de crear un asistente de comunicación integral que le ayude a escribir mensajes que se entenderán exactamente como usted esperaba.
Cómo corregir oraciones seguidas no es tan fácil como parece es un nuevo artículo de Junchao Zheng, Courtney Napoles, Joel Tetreault y Kostiantyn Omelianchuk. Se presentó en el Cuarto Taller sobre Texto Generado por Usuarios Ruidoso, ubicado conjuntamente con EMNLP 2018. El documento aparece en las Actas del Taller W-NUT de EMNLP de 2018: El Cuarto Taller sobre Texto Generado por Usuarios Ruidosos.
Más de nuestra serie Under the Hood at Grammarly:
- Detección de escritura desorganizada con IA
- Transformando el estilo de escritura con IA