Как исправить дополнительные предложения?

Опубликовано: 2018-11-08

В какой-то момент вашей жизни, возможно, у вас был учитель, который критиковал конкретную ошибку в написании английского языка: длинные предложения.

Пропуски — распространенный тип ошибок. Среди студентов колледжей в США пролонгированные предложения являются восемнадцатой по частоте ошибкой среди носителей английского языка и восьмой по частоте ошибкой среди студентов, для которых английский язык не является родным.

Смущаетесь по поводу дополнительных предложений?
Грамматика может помочь.

Возможность автоматически обнаруживать и исправлять ошибки такого типа, очевидно, была бы полезна для авторов. Но есть и более широкие применения. Например, когда вы диктуете текстовое сообщение, вам нужно сказать «точка» в конце предложения, прежде чем начинать новое, иначе ваша транскрипция превратится в одну длинную пробежку. Система искусственного интеллекта, которая может автоматически определять, где предложение должно начинаться и заканчиваться, может автоматически вставлять правильные знаки препинания, освобождая ваш мозг, чтобы сконцентрироваться на информации, которую вы пытаетесь передать.

Работа Grammarly над предложениями, генерируемыми пользователями, является темой новой статьи, которую мы представили на 4-м семинаре по зашумленному пользовательскому тексту на прошлой неделе на конференции EMNLP в Брюсселе. Мы с гордостью можем сообщить, что он получил одну из двух наград за лучшую бумагу на семинаре! Читайте дальше, чтобы узнать, как Grammarly решает проблему исправления повторяющихся предложений.

Что такое отсроченный приговор?

Определение дополнительного предложения немного варьируется от человека к человеку. Некоторые люди считают соединения запятых своего рода продолжением предложения. Для других продление срока — это просто очень длинный приговор. Однако сама по себе длина не делает предложение настоящим продолжением.

По сути, дополнительное предложение — это всего лишь два или более полных предложения, которые неправильно спрессованы вместе. Вот пример обгона:

Живите полной жизнью, ничего не принимайте как должное.

Здесь есть два независимых пункта: Живите полной жизнью и не принимайте ничего как должное . Традиционно, когда вы хотите соединить два независимых предложения вместе, вам нужно каким-то образом связать их вместе. Один из вариантов — использовать запятую и союз:

Живите полной жизнью и не принимайте ничего как должное.

Другой вариант — использовать точку с запятой:

Живите полной жизнью; не принимайте ничего как должное.

Третий вариант — разбить предложения на отдельные предложения:

Живите полной жизнью. Не принимайте ничего как должное.

Проблема с дополнительными предложениями в том, что их трудно понять. Союзы, точки с запятой и точки выступают в качестве указателей внутри предложения, помогая читателям следить за тем, что говорит автор. Когда эти указатели отсутствуют, вполне вероятно, что читателям придется вернуться назад и перечитать, чтобы понять смысл предложения.

Почему сложно автоматически корректировать набеги

Grammarly уже исправляет пунктуационные и грамматические ошибки. Так в чем же особенность обучения системы искусственного интеллекта исправлять повторяющиеся предложения? Почему это так сложно?

Многие пунктуационные или грамматические ошибки затрагивают лишь изолированную часть предложения. Это означает, что вашей системе искусственного интеллекта нужно обработать только определенный фрагмент предложения, чтобы выявить и устранить проблему. Однако задержка — это проблема на уровне предложения. Это требует от вашего ИИ обработки гораздо более длинной и сложной строки текста.

Автоматическое устранение набегов также сложно, поскольку существует несколько способов сделать это. Как и в примере выше, вы можете добавить знаки препинания, союзы или разбить продолжение на несколько предложений. Ваш ИИ должен будет научиться определять лучший способ исправить ситуацию в конкретной ситуации.

Кроме того, существует не так уж много данных, на которых можно было бы обучать системы ИИ для этой цели. Хотя дополнительные предложения являются распространенными ошибками, не существовало корпуса, который включал бы достаточное количество помеченных дополнительных предложений, которые можно было бы использовать в качестве обучающих данных. (Корпус — это большая коллекция текста, помеченная таким образом, чтобы компьютерные алгоритмы могли учиться на нем.)

Что мы сделали

Первым делом нужно было создать коллекцию повторяющихся предложений. Мы искусственно создали дополнительные предложения, удалив знаки препинания между парами предложений из корпуса новостных статей. (Полное объяснение нашего процесса и того, как мы отбирали предложения-кандидаты, можно найти в нашей статье.)

Затем мы использовали наши недавно созданные дополнительные предложения для обучения двух построенных нами моделей машинного обучения для выявления и исправления дополнительных предложений. Машинное обучение — это область ИИ, которая предполагает обучение алгоритма автоматическому выполнению задач путем показа ему множества примеров, а не путем предоставления ряда жестко заранее определенных шагов.

Исправление повторяющихся предложений: что мы обнаружили

После обучения моделей мы протестировали их на новом наборе искусственно созданных дополнительных предложений, а также на небольшом наборе естественных дополнительных предложений из существующего исследовательского корпуса.

Мы обнаружили, что обе они превзошли ведущие модели по восстановлению пунктуации и исправлению грамматических ошибок в этой задаче. Был также еще один интересный вывод: наши модели, обученные на искусственно сгенерированных предложениях, смогли идентифицировать дополнительные предложения, написанные настоящими писателями, так же, как они идентифицировали искусственные дополнительные предложения.

Здесь, конечно, есть над чем работать. Наши обучающие данные были сгенерированы с использованием «чистого» текста, то есть текст не содержал никаких грамматических ошибок, кроме тех, которые мы вставили. В реальном мире предложения с продолжением могут содержать дополнительные грамматические проблемы, из-за которых алгоритмам сложнее идентифицировать и исправить это. Тем не менее, это захватывающий шаг на пути к нашему видению создания комплексного помощника по общению, который поможет вам писать сообщения, которые будут поняты именно так, как вы предполагали.

«Как исправить повторяющиеся предложения — это не так просто, как кажется», — новая статья Цзюньчао Чжэна, Кортни Наполес, Джоэла Тетро и Константина Омельянчука. Он был представлен на четвертом семинаре по зашумленному тексту, генерируемому пользователями, который проводился совместно с EMNLP 2018. Этот документ опубликован в материалах семинара EMNLP 2018 W-NUT: Четвертый семинар по зашумленному тексту, генерируемому пользователями.

Еще из нашей серии «Под капотом в Grammarly»:

  • Обнаружение неорганизованного письма с помощью ИИ
  • Преобразование стиля письма с помощью ИИ