Как вы исправляете повторяющиеся предложения?
Опубликовано: 2018-11-08В какой-то момент вашей жизни, возможно, у вас был учитель, который осуждал определенную ошибку в письме на английском языке: повторяющиеся предложения.
Запуски являются распространенным типом ошибок. Среди студентов колледжей в Соединенных Штатах повторяющиеся предложения занимают восемнадцатое место среди самых частых ошибок, совершаемых носителями английского языка, и восьмое место среди ошибок, совершаемых студентами, для которых английский язык не является родным.
Возможность автоматически обнаруживать и исправлять ошибки такого типа, очевидно, была бы полезна для писателей. Но есть и более широкое применение. Например, когда вы диктуете текстовое сообщение, вам нужно сказать «точка» в конце предложения, прежде чем начинать новое, иначе ваша транскрипция превратится в одно длинное повторение. Система искусственного интеллекта, которая может автоматически определять, где должно начинаться и заканчиваться предложение, может автоматически расставлять правильные знаки препинания, освобождая ваш мозг, чтобы сосредоточиться на информации, которую вы пытаетесь передать.
Работа Grammarly над повторяющимися предложениями является предметом новой статьи, которую мы представили на 4-м семинаре по зашумленному пользовательскому тексту на прошлой неделе на конференции EMNLP в Брюсселе. Мы с гордостью можем сказать, что она получила одну из двух наград за лучшую бумагу на семинаре! Читайте дальше, чтобы узнать, как Grammarly решает проблему исправления повторяющихся предложений.
Что такое беглое предложение?
Определение непрерывного предложения немного варьируется от человека к человеку. Некоторые люди считают, что запятые являются типом непрерывного предложения. Для других беглое предложение — это просто очень длинное предложение. Одна только длина, однако, не делает предложение настоящим продолжением.
По сути, предложение с продолжением — это просто два или более полных предложения, которые были неправильно сжаты вместе. Вот пример запуска:
Здесь есть два независимых пункта: Живите полной жизнью и ничего не принимайте как должное . Традиционно, когда вы хотите соединить два независимых предложения вместе, вам нужно каким-то образом связать их вместе. Один из вариантов — использовать запятую и союз:
Другой вариант — использовать точку с запятой:
Третий вариант — разбить предложения на отдельные предложения:
Проблема с длинными предложениями в том, что их трудно понять. Союзы, точки с запятой и точки действуют как указатели в предложении, помогая читателям следить за тем, что говорит автор. Когда эти указатели отсутствуют, вероятно, читателю придется вернуться назад и перечитать предложение, чтобы понять смысл предложения.
Почему сложно автоматически исправлять нестыковки
Grammarly уже исправляет пунктуационные ошибки и грамматические ошибки. Так что же особенного в том, чтобы научить систему искусственного интеллекта исправлять повторяющиеся предложения? Почему это так сложно?
Многие пунктуационные или грамматические ошибки затрагивают только отдельные части предложения. Это означает, что вашей системе ИИ нужно обработать только определенный фрагмент предложения, чтобы выявить и устранить проблему. Однако наплыв — это проблема на уровне предложения. Это требует, чтобы ваш ИИ обрабатывал гораздо более длинную и сложную строку текста.
Автоматическое исправление накладок также сложно, потому что есть несколько способов сделать это. Как и в приведенном выше примере, вы можете добавить знаки препинания, союз или разбить продолжение на несколько предложений. Ваш ИИ должен будет научиться определять лучший способ исправить набег в конкретной ситуации.
Вдобавок ко всему, существует не так много существующих данных для обучения систем ИИ для этой цели. Хотя повторяющиеся предложения являются распространенными ошибками, не существовало существующего корпуса, который включал бы достаточное количество помеченных повторяющихся предложений для использования в качестве обучающих данных. (Корпус — это большой набор текстов, помеченных таким образом, чтобы компьютерные алгоритмы могли учиться на них.)
Что мы сделали
Первым делом нужно было создать коллекцию повторяющихся предложений. Мы искусственно генерировали повторяющиеся предложения, удаляя знаки препинания между парами предложений из свода новостных статей. (См. нашу статью для полного объяснения нашего процесса и того, как мы выбрали предложения-кандидаты.)
Затем мы использовали наши недавно созданные предложения с повторами для обучения двух моделей машинного обучения, которые мы построили, для выявления и исправления повторений. Машинное обучение — это область ИИ, которая включает в себя обучение алгоритма автоматическому выполнению задач, показывая ему множество примеров, а не предоставляя ряд жестко предопределенных шагов.
Исправление незаконченных предложений: что мы обнаружили
После того, как модели были обучены, мы протестировали их на новом наборе искусственно созданных кратких предложений, а также на небольшом наборе естественных кратких предложений из существующего исследовательского корпуса.
Мы обнаружили, что обе они превзошли ведущие модели по восстановлению пунктуации и исправлению грамматических ошибок в этой задаче. Был также еще один интересный вывод: наши модели, которые были обучены на искусственно сгенерированных предложениях, смогли идентифицировать повторяющиеся предложения, написанные настоящими писателями, так же, как они идентифицировали искусственные повторяющиеся предложения.
Здесь, конечно, предстоит еще много работы. Наши обучающие данные были сгенерированы с использованием «чистого» текста, что означает, что текст не содержал грамматических ошибок, кроме тех, которые мы вставили. В реальном мире предложения с повторами могут содержать дополнительные грамматические проблемы, из-за которых алгоритмам сложнее идентифицировать и исправлять такие предложения. Тем не менее, это захватывающий шаг к нашему видению создания комплексного помощника по общению, который поможет вам писать сообщения, которые будут поняты именно так, как вы задумали.
Как исправлять повторяющиеся предложения — это не так просто, как кажется — новая статья Цзюньчао Чжэна, Кортни Наполес, Джоэла Тетро и Константина Омельянчука. Он был представлен на Четвертом семинаре по зашумленному пользовательскому тексту, совмещенном с EMNLP 2018. Документ опубликован в материалах семинара EMNLP 2018 W-NUT: Четвертый семинар по зашумленному пользовательскому тексту.
Еще из нашей серии «Под капотом в Grammarly»:
- Обнаружение неорганизованного письма с помощью ИИ
- Преобразование стиля письма с помощью ИИ