실행 중인 문장을 어떻게 수정합니까?
게시 됨: 2018-11-08인생의 어느 시점에서, 영어 작문의 특정 오류, 즉 연속 문장을 비난하는 교사가 있었을 것입니다.
런온은 일반적인 유형의 오류입니다. 미국 대학생들 사이에서 런온 문장은 영어 원어민이 저지르는 가장 빈번한 오류 중 18위이고, 영어가 모국어가 아닌 학생들이 저지르는 가장 빈번한 오류는 8위입니다.
이러한 유형의 오류를 자동으로 감지하고 수정하는 기능은 작성자에게 분명히 유용할 것입니다. 그러나 더 넓은 적용 범위가 있습니다. 예를 들어, 문자 메시지를 받아쓰는 경우 새 문장을 시작하기 전에 문장 끝에 "마침표"를 말해야 합니다. 그렇지 않으면 전사가 하나의 긴 실행으로 전환됩니다. 문장의 시작과 끝 위치를 자동으로 파악하는 AI 시스템은 적절한 구두점을 자동으로 삽입하여 전달하려는 정보에 집중할 수 있도록 두뇌를 확보할 수 있습니다.
연속 문장에 대한 Grammarly의 작업은 지난 주 브뤼셀에서 열린 EMNLP 컨퍼런스에서 열린 Noisy User-generated Text에 관한 제4차 워크숍에서 우리가 발표한 새로운 논문의 주제입니다. 우리는 그것이 워크숍에서 두 개의 최우수 논문상 중 하나를 수상했다는 것을 자랑스럽게 생각합니다! 계속해서 Grammarly가 런온 문장 수정 문제를 어떻게 해결하고 있는지 알아보세요.
실행 문장이란 무엇입니까?
실행 문장의 정의는 사람마다 조금씩 다릅니다. 어떤 사람들은 쉼표 연결을 일종의 실행 문장으로 간주합니다. 다른 사람들에게는 실행 문장이 단순히 매우 긴 문장일 뿐입니다. 그러나 길이만으로는 문장이 실제로 실행되는 것은 아닙니다.
본질적으로, 연속 문장은 부적절하게 함께 눌려진 두 개 이상의 완전한 문장입니다. 다음은 실행의 예입니다.
여기에는 두 가지 독립 조항이 있습니다. 인생을 최대한 활용 하고 아무것도 당연하게 여기지 마십시오 . 전통적으로 두 개의 독립절을 함께 결합하려면 어떤 방식으로든 이들을 함께 연결해야 합니다. 한 가지 옵션은 쉼표와 접속사를 사용하는 것입니다.
또 다른 옵션은 세미콜론을 사용하는 것입니다.
세 번째 옵션은 절을 별도의 문장으로 나누는 것입니다.
연속 문장의 문제점은 이해하기 어렵다는 것입니다. 접속사, 세미콜론, 마침표는 문장 내에서 독자가 작가의 말을 따라가는 데 도움이 되는 이정표 역할을 합니다. 이러한 표지판이 없으면 독자는 문장을 이해하기 위해 되돌아가서 다시 읽어야 할 가능성이 높습니다.
런온을 자동으로 수정하기 어려운 이유
문법적으로는 이미 구두점 실수와 문법 오류를 수정합니다. 그렇다면 런온 문장을 수정하도록 AI 시스템을 가르치는 것과 무엇이 다른가요? 왜 그렇게 힘든가요?
많은 구두점이나 문법 오류는 문장의 일부에만 영향을 미칩니다. 이는 AI 시스템이 문제를 식별하고 해결하기 위해 문장의 특정 부분만 처리하면 된다는 것을 의미합니다. 그러나 실행은 문장 수준의 문제입니다. AI가 훨씬 더 길고 복잡한 텍스트 문자열을 처리해야 합니다.
런온을 자동으로 수정하는 방법도 여러 가지가 있기 때문에 어렵습니다. 위의 예와 같이 구두점, 접속사를 추가하거나 연속 문장을 여러 문장으로 나눌 수 있습니다. AI는 특정 상황에서 문제를 해결하는 가장 좋은 방법을 식별하는 방법을 배워야 합니다.
게다가 이러한 목적으로 AI 시스템을 교육할 수 있는 기존 데이터가 많지 않습니다. 실행 문장은 흔히 발생하는 실수이지만 훈련 데이터로 사용할 만큼 레이블이 지정된 실행 문장을 충분히 포함하는 기존 코퍼스가 없었습니다. (코퍼스는 컴퓨터 알고리즘이 학습할 수 있는 방식으로 레이블이 지정된 대규모 텍스트 모음입니다.)
우리가 한 일
첫 번째 작업 순서는 연속 문장 모음을 만드는 것이었습니다. 우리는 뉴스 기사 모음에서 문장 쌍 사이의 구두점을 제거하여 인위적으로 연속 문장을 생성했습니다. (프로세스와 후보 문장 선택 방법에 대한 자세한 설명은 논문을 참조하세요.)
그런 다음 새로 생성된 실행 문장을 사용하여 실행을 식별하고 수정하기 위해 구축한 두 가지 기계 학습 모델을 교육했습니다. 머신러닝은 엄격하게 사전 정의된 일련의 단계를 제공하는 대신 많은 예를 보여줌으로써 자동으로 작업을 수행하도록 알고리즘을 가르치는 AI 영역입니다.
런온 문장 수정: 우리가 발견한 것
모델이 훈련된 후, 우리는 인위적으로 생성된 새로운 실행 문장 세트와 기존 연구 코퍼스에서 자연적으로 발생하는 작은 실행 문장 세트에 대해 모델을 테스트했습니다.
우리는 둘 다 이 작업에서 구두점 복원 및 문법 오류 수정에 대한 주요 모델보다 성능이 우수하다는 것을 발견했습니다. 또 다른 흥미로운 발견도 있었습니다. 인위적으로 생성된 문장에 대해 훈련된 우리 모델은 인공적인 연속 문장을 식별할 뿐만 아니라 실제 작가가 쓴 연속 문장도 식별할 수 있었습니다.
물론 여기서 해야 할 일이 더 있습니다. 우리의 훈련 데이터는 "깨끗한" 텍스트를 사용하여 생성되었습니다. 즉, 텍스트에 우리가 삽입한 것 이외의 문법 오류가 포함되어 있지 않다는 의미입니다. 실제 세계에서 런온 문장에는 알고리즘이 런온을 식별하고 수정하기 어렵게 만드는 추가 문법 문제가 포함될 수 있습니다. 그럼에도 불구하고 이는 의도한 대로 정확히 이해될 메시지를 작성하는 데 도움이 되는 포괄적인 커뮤니케이션 도우미를 만드는 우리의 비전을 향한 흥미로운 단계입니다.
런온 문장을 수정하는 방법은 Junchao Zheng, Courtney Napoles, Joel Tetreault 및 Kostiantyn Omelianchuk의 새로운 논문인 것처럼 보이는 것만큼 쉽지 않습니다. 이 논문은 EMNLP 2018과 함께 개최된 제4차 시끄러운 사용자 생성 텍스트 워크숍에서 발표되었습니다. 이 논문은 2018 EMNLP 워크숍 W-NUT: 시끄러운 사용자 생성 텍스트에 대한 제4차 워크숍에 게재되었습니다.
Grammarly 시리즈의 Under the Hood에 대한 추가 정보:
- AI로 무질서한 글쓰기 감지
- AI로 글쓰기 스타일을 변화시키다