Grammarly의 Under the Hood: AI로 무질서한 쓰기 감지하기
게시 됨: 2018-07-10문장보다 긴 것을 쓸 때마다 생각을 정리하고 표현할 방법을 결정해야 합니다. 좋은 글은 각 문장이 앞에 오는 문장을 기반으로 하기 때문에 이해하기 쉽습니다. 주제가 변경되면 강력한 작가는 전환 문장과 단락 나누기를 이정표로 사용하여 독자에게 다음에 무엇을 기대해야 하는지 알려줍니다.
언어학자들은 이 측면을 담론 일관성 쓰기의 측면이라고 부르며, 이번 주 호주 멜버른에서 열리는 SIGDIAL 컨퍼런스에 나타날 Grammarly Research 팀의 멋진 새로운 연구 주제입니다.
담론 일관성이란 무엇이며 왜 그것에 관심을 두는가?
텍스트가 높은 수준의 담화 일관성을 갖는다는 것은 모든 문장이 논리적으로 연결되어 있음을 의미합니다. 작가는 주제에서 벗어나지 않는다. 다른 지점은 전환으로 연결됩니다. 텍스트는 처음부터 끝까지 따라하기 쉽습니다.
이러한 유형의 조직은 항상 자연스럽게 오는 것은 아닙니다. 우리 중 아이디어가 완벽하게 선형적으로 진행되는 방식으로 생각하는 사람은 거의 없습니다. 다른 사람들이 따라 하기 힘든 내용을 작성했을 때 자동으로 알려주고 궁극적으로 이를 수정하는 방법을 제안하는 시스템은 여러분이 의미하는 바를 전달하는 데 엄청난 도움이 될 것입니다.
무엇을 했는지
텍스트의 일관성 수준을 정확하게 판단하도록 컴퓨터를 가르치는 것은 어려운 일입니다. 현재까지 컴퓨터가 담화 일관성을 얼마나 잘 평가하는지 평가하는 가장 일반적인 방법은 문장 순서 지정 작업을 기반으로 합니다. 이 방법으로 연구자들은 뉴스 기사와 같이 기존의 잘 편집된 텍스트를 가져와서 모든 문장을 무작위로 재정렬합니다. 임의 순열은 일관성이 없는 것으로 볼 수 있고 원래 순서는 일관성 있는 것으로 볼 수 있다고 가정합니다. 작업은 일관성 없는 버전과 원본을 구별할 수 있는 컴퓨터 알고리즘을 구축하는 것입니다. 이러한 조건에서 일부 시스템은 90%의 정확도에 도달했습니다. 꽤 인상적입니다.
그러나 이 방법에는 큰 잠재적인 결함이 있습니다. 이미 눈치채셨을 수도 있습니다. 문장을 무작위로 재정렬하면 일관성이 낮은 텍스트가 생성될 수 있지만 인간이 자연스럽게 쓰는 것처럼 보이는 텍스트는 생성하지 않습니다.
Grammarly에서는 실제 문제를 해결하는 데 중점을 두고 있으므로 이 영역에서 수행한 모든 작업은 인공 시나리오가 아닌 실제 쓰기에 대해 벤치마킹해야 한다는 것을 알고 있었습니다. 의외로 평범한 상황에서 사람들이 쓴 실제 텍스트에 대한 담론 평가 방법을 테스트하는 작업은 거의 없습니다. 이제 바꿀 시간입니다.
실제 연구, 실제 작가
우리가 해결해야 하는 첫 번째 문제는 담론 일관성을 연구하는 다른 모든 연구자가 직면한 것과 동일한 문제였습니다. 바로 실제 데이터의 부족이었습니다. 알고리즘을 테스트할 수 있는 자연스럽고 평범한 텍스트의 기존 코퍼스는 없었습니다.
Yahoo Answers, Yelp 리뷰, 공개적으로 사용 가능한 정부 및 기업 이메일과 같은 여러 공개 소스에서 텍스트를 수집하여 말뭉치를 만들었습니다. 포럼 게시물, 리뷰 및 이메일과 같이 사람들이 일상적으로 작성하는 종류를 나타내기 때문에 이러한 특정 출처를 선택했습니다.
이 모든 텍스트를 컴퓨터 알고리즘이 학습할 수 있는 말뭉치로 바꾸려면 각 텍스트의 일관성 수준을 평가해야 했습니다. 이 프로세스를 주석이라고 합니다. 알고리즘이 아무리 뛰어나더라도 엉성한 주석은 결과를 크게 왜곡합니다. 이 문서에서는 크라우드소싱과 관련된 일부를 포함하여 테스트한 많은 주석 접근 방식에 대한 세부 정보를 제공합니다. 우리는 궁극적으로 전문 주석가가 각 텍스트 조각의 일관성 수준을 3점 척도(낮음, 중간 또는 높음)로 평가하게 하기로 결정했습니다. 각 텍스트 조각은 세 명의 주석가가 판단했습니다.
테스트에 알고리즘 적용하기
말뭉치를 얻었으면 다양한 컴퓨터 시스템이 주어진 텍스트 조각의 일관성 수준을 얼마나 정확하게 식별할 수 있는지 테스트할 때였습니다. 우리는 세 가지 유형의 시스템을 테스트했습니다.
첫 번째 범주에는 엔터티 기반 모델이 있습니다. 이러한 시스템은 동일한 개체가 텍스트에서 언급되는 위치와 빈도를 추적합니다. 예를 들어, 시스템이 여러 문장에서 "운송"이라는 단어를 찾으면 해당 문장이 서로 논리적으로 관련되어 있다는 신호로 간주합니다.
두 번째 범주에서는 어휘 일관성 그래프를 기반으로 모델을 테스트했습니다. 이것은 그래프에서 노드로 문장을 표현하고 유사한 단어의 쌍을 포함하는 문장을 연결하는 방법입니다. 예를 들어, 이 유형의 모델은 "car"가 포함된 문장과 "truck"가 포함된 문장을 연결합니다. 두 문장 모두 차량 또는 운송에 관한 것일 수 있기 때문입니다.
세 번째 범주에는 신경망 또는 딥 러닝 모델이 있습니다. 우리는 Grammarly 팀이 구축한 두 개의 새로운 모델을 포함하여 이들 중 몇 가지를 테스트했습니다. 각 문장의 의미를 포착한 표현을 학습하는 AI 기반 시스템으로, 이러한 문장 표현을 결합하여 문서의 일반적인 의미를 학습할 수 있습니다. 엔티티 발생 또는 유사한 단어 쌍으로 제한되지 않는 패턴을 찾을 수 있습니다.
문장 정렬 작업
우리는 세 가지 유형의 모델 모두에 대한 문장 순서 지정 작업을 만들기 위해 새 말뭉치의 일관성이 높은 텍스트를 사용했습니다. 우리는 다른 문장 순서 데이터 세트에서 잘 수행된 모델이 우리 데이터 세트에서도 89%의 정확도로 높은 성능을 보였다는 것을 발견했습니다. 엔터티 기반 모델과 어휘 일관성 그래프는 상당한 정확도(일반적으로 60~70% 정확도)를 보여주었지만 4개 영역 중 3개 영역에서 다른 모델보다 10% 이상 우수한 성능을 보인 것은 신경망 모델이었습니다.
실제 쓰기 시험
우리가 정말로 알고 싶었던 것은 이러한 모델이 실제의 자연스럽게 쓰여진 텍스트에 대해 동일한 수준의 정확도로 수행할 수 있는지 여부였습니다. 주석자의 레이블을 숫자 값(낮음=1, 중간=2, 높음=3)으로 변환하고 숫자를 평균화하여 각 텍스트 조각에 대한 일관성 점수를 얻었습니다.
모든 영역에서 신경망 기반 시스템 중 적어도 하나는 다른 모든 시스템을 능가했습니다. 사실, 단락 나누기를 고려하는 Grammarly의 모델 중 하나는 아래 표에서 볼 수 있듯이 Yahoo Answers의 텍스트에서 최고 실적을 보였습니다. Stanford의 연구원들이 개발한 Neural Clique 모델도 강력한 성능을 보였습니다.
그러나 우리의 원래 가설은 맞았습니다. 모든 모델은 문장 순서 작업보다 실제 작업에서 더 나쁜 성능을 보였습니다. 일부는 훨씬 더 나빴습니다. 예를 들어, 어휘 그래프 방법은 인위적인 문장 재정렬 시나리오에서 기업 이메일에 대해 78%의 정확도를 보였으나 이보다 현실적인 평가에서는 45%에 그쳤습니다.
우리가 찾은 것
담론 일관성에 대한 이전 작업은 잘못된 것을 테스트하고 있음이 밝혀졌습니다. 문장 순서 작업은 확실히 담화 일관성을 측정하는 좋은 프록시가 아닙니다. 우리의 결과는 분명합니다. 인공 시나리오에서 잘 작동하는 시스템은 실제 텍스트에서 훨씬 더 나쁩니다.
이 발견이 좌절이 아니라는 점에 주목하는 것이 중요합니다. 사실 그것과는 거리가 멀다. 모든 분야를 성장시키는 것의 일부는 평가 방법을 평가하는 것입니다. 때때로 중단하여 실제로 측정한 것이 무엇인지 살펴봅니다. 이 작업으로 인해 담론 일관성을 연구하는 연구자들은 이제 두 가지 중요한 정보를 갖게 되었습니다. 하나는 문장 정렬 작업이 더 이상 정확도를 측정하는 방식이 되어서는 안 된다는 통찰입니다. 두 번째는 공개적으로 사용 가능한 주석이 달린 실제 텍스트 코퍼스와 향후 연구에 사용할 새로운 벤치마크(신경 모델)입니다.
기대
텍스트에서 담화 일관성을 안정적으로 판단할 수 있는 시스템에 대해 수행해야 할 작업과 흥미로운 응용 프로그램이 많이 있습니다. 어느 날, 이와 같은 시스템은 전체 메시지의 일관성을 알려줄 뿐만 아니라 따르기 어려울 수 있는 특정 구절도 지적할 수 있습니다. 언젠가 우리는 당신이 말하려는 내용이 받는 사람에게 명확하도록 그 구절을 더 쉽게 이해할 수 있도록 돕기를 바랍니다.
결국, Grammarly가 포괄적인 커뮤니케이션 도우미가 되는 길은 당신의 글이 문법적으로나 문체적으로 정확하다는 것을 확인하는 것이 아니라 의도한 대로 이해하도록 하는 것입니다.
—-
Joel Tetreault는 Grammarly의 연구 이사입니다. Alice Lai는 University of Illinois at Urbana-Champaign의 박사 과정 학생이며 Grammarly에서 연구 인턴이었습니다. 이 연구는 2018년 7월 12일부터 14일까지 호주 멜버른에서 열리는 SIGDIAL 2018 연례 회의에서 발표될 예정입니다. 첨부된 연구 논문인 "Discourse Coherence in the Wild: A Dataset, Evaluation and Methods"는 Proceedings of the Proceedings of 담화와 대화에 관한 시그(SIG)의 19차 연례 회의. 이 블로그 게시물에 설명된 데이터 세트는 담화 일관성의 문법 코퍼스(Grammarly Corpus of Discourse Coherence)라고 하며 여기에서 연구 목적으로 무료로 다운로드할 수 있습니다.