실행 문장을 어떻게 수정합니까?
게시 됨: 2018-11-08인생의 어느 시점에서 영어 쓰기의 특정 오류, 즉 연속 문장에 대해 비난하는 교사가 있었을 것입니다.
실행은 일반적인 유형의 오류입니다. 미국 대학생들 사이에서 연속 문장은 영어 원어민이 18번째로 많이 저지르는 실수이며, 영어가 모국어가 아닌 학생들이 8번째로 자주 하는 실수입니다.
이러한 유형의 오류를 자동으로 감지하고 수정하는 기능은 작성자에게 분명히 유용할 것입니다. 그러나 더 광범위한 응용 프로그램이 있습니다. 예를 들어 문자 메시지를 받아쓰는 경우 새 메시지를 시작하기 전에 문장 끝에 "마침표"라고 말해야 합니다. 문장이 시작되고 끝나는 위치를 자동으로 알아낼 수 있는 AI 시스템은 적절한 구두점을 자동으로 삽입하여 뇌가 의사소통하려는 정보에 집중할 수 있도록 합니다.
실행 문장에 대한 Grammarly의 작업은 지난주 브뤼셀에서 열린 EMNLP 컨퍼런스에서 열린 4번째 Workshop on Noisy User-generated Text에서 발표한 새로운 논문의 주제입니다. 워크샵에서 2개의 최우수 논문상 중 하나를 수상하게 된 것을 자랑스럽게 생각합니다! 계속해서 Grammarly가 연속된 문장을 수정하는 문제를 해결하는 방법을 알아보세요.
실행 문장이란 무엇입니까?
실행 문장의 정의는 사람마다 약간 다릅니다. 어떤 사람들은 쉼표 연결을 일종의 연속 문장으로 간주합니다. 다른 사람들에게 실행 문장은 단순히 매우 긴 문장입니다. 그러나 길이만으로는 문장이 제대로 실행되지 않습니다.
본질적으로, 연속 문장은 부적절하게 함께 뭉쳐진 두 개 이상의 완전한 문장입니다. 다음은 실행의 예입니다.
여기에는 두 가지 독립적인 조항이 있습니다. 최대한의 삶을 살고 아무 것도 당연하게 여기지 마십시오 . 전통적으로 두 개의 독립 절을 함께 연결하려면 어떤 방식으로든 이들을 함께 연결해야 합니다. 한 가지 옵션은 쉼표와 접속사를 사용하는 것입니다.
또 다른 옵션은 세미콜론을 사용하는 것입니다.
세 번째 옵션은 절을 별도의 문장으로 나누는 것입니다.
실행 문장의 문제는 이해하기 어렵다는 것입니다. 접속사, 세미콜론 및 마침표는 독자가 작가가 말하는 내용을 따라갈 수 있도록 문장 내에서 이정표 역할을 합니다. 이러한 푯말이 없으면 독자는 문장을 이해하기 위해 뒤로 돌아가서 다시 읽어야 할 것입니다.
런온을 자동으로 수정하기 어려운 이유
Grammarly는 이미 구두점 오류와 문법 오류를 수정합니다. 그렇다면 인공 지능 시스템이 연속된 문장을 수정하도록 가르치는 것과 다른 점은 무엇입니까? 왜 그렇게 힘든가요?
많은 구두점이나 문법 오류는 문장의 고립된 부분에만 영향을 미칩니다. 즉, AI 시스템은 문제를 식별하고 수정하기 위해 문장의 특정 부분만 처리하면 됩니다. 그러나 실행은 문장 수준의 문제입니다. AI가 훨씬 더 길고 복잡한 텍스트 문자열을 처리해야 합니다.
런온을 자동으로 수정하는 것도 여러 가지 방법이 있기 때문에 어렵습니다. 위의 예에서와 같이 구두점, 접속사를 추가하거나 실행을 여러 문장으로 나눌 수 있습니다. AI는 특정 상황에서 실행을 수정하는 가장 좋은 방법을 식별하는 방법을 배워야 합니다.
게다가 이 목적을 위해 AI 시스템을 훈련시키기 위한 기존 데이터가 많지 않습니다. 실행 문장은 일반적인 실수이지만 훈련 데이터로 사용할 만큼 레이블이 지정된 실행 문장을 포함하는 기존 코퍼스는 없었습니다. (말뭉치는 컴퓨터 알고리즘이 학습할 수 있는 방식으로 레이블이 지정된 텍스트의 큰 모음입니다.)
우리가 한 일
첫 번째 업무는 연속된 문장 모음을 만드는 것이었습니다. 우리는 뉴스 기사 모음에서 문장 쌍 사이의 구두점을 제거하여 인공적으로 연속 문장을 생성했습니다. (우리의 과정과 후보 문장을 선택한 방법에 대한 자세한 설명은 논문을 참조하십시오.)
그런 다음 새로 만든 실행 문장을 사용하여 실행을 식별하고 수정하기 위해 구축한 두 개의 기계 학습 모델을 훈련했습니다. 기계 학습은 엄격하게 사전 정의된 일련의 단계를 제공하기 보다는 많은 예를 보여줌으로써 작업을 자동으로 수행하도록 알고리즘을 가르치는 AI의 영역입니다.
연속 문장 수정: 우리가 찾은 것
모델이 훈련되면 인공적으로 생성된 새로운 실행 문장 세트와 기존 연구 말뭉치에서 자연스럽게 발생하는 작은 실행 문장 세트에서 모델을 테스트했습니다.
우리는 둘 다 이 작업에서 구두점 복원 및 문법 오류 수정에 대한 주요 모델보다 성능이 우수하다는 것을 발견했습니다. 또 다른 흥미로운 발견이 있었습니다. 인위적으로 생성된 문장에 대해 훈련된 우리 모델은 실제 작가가 작성한 문장을 인공 문장으로 식별하는 것과 마찬가지로 식별할 수 있었습니다.
물론 여기에서 해야 할 일이 더 있습니다. 우리의 훈련 데이터는 "깨끗한" 텍스트를 사용하여 생성되었습니다. 즉, 텍스트에는 우리가 삽입한 것 외에 문법적 오류가 포함되어 있지 않습니다. 현실 세계에서 연속 문장에는 알고리즘이 연속 실행을 식별하고 수정하기 어렵게 만드는 추가적인 문법 문제가 포함될 수 있습니다. 그럼에도 불구하고 이것은 의도한 대로 정확히 이해할 수 있는 메시지를 작성하는 데 도움이 되는 포괄적인 커뮤니케이션 도우미를 만드는 우리의 비전을 향한 흥미로운 단계입니다.
Junchao Zheng, Courtney Napoles, Joel Tetreault 및 Kostiantyn Omelianchuk의 새 논문인 것처럼 연속 문장을 수정하는 방법은 쉽지 않습니다. 이는 EMNLP 2018과 함께 개최된 네 번째 노이즈 사용자 생성 텍스트 워크샵에서 발표되었습니다. 이 논문은 2018 EMNLP 워크샵 W-NUT: 노이즈 사용자 생성 텍스트에 대한 네 번째 워크샵에 실렸습니다.
Under the Hood at Grammarly 시리즈에서 더 많은 정보:
- AI로 무질서한 쓰기 감지하기
- AI로 글쓰기 스타일 바꾸기