Grammarlyのフードの下で：AIによる無秩序な書き込みの検出

公開: 2018-07-10

文より長いものを書くときはいつでも、あなたは自分の考えをどのように整理して提示するかについて決定を下す必要があります。それぞれの文は前の文に基づいているので、良い文章は理解しやすいです。トピックが変わると、強力な作家は、読者に次に何を期待するかを伝えるための道標として、移行文と段落区切りを使用します。

言語学者は談話の一貫性を書くことのこの側面を呼びます、そしてそれは今週オーストラリアのメルボルンで開催されるSIGDIAL会議に現れるGrammarlyResearchチームからのいくつかのクールな新しい研究の主題です。

談話の一貫性とは何ですか、そしてなぜそれを気にするのですか？

テキストが高いレベルの談話の一貫性を持っていると言うとき、私たちはすべての文が論理的に一緒にリンクされていることを意味します。作家は話題から外れることはありません。さまざまなポイントがトランジションによって接続されます。テキストは最初から最後まで簡単に理解できます。

この種の組織は必ずしも自然に生まれるとは限りません。アイデアの完全に直線的な進行について考える人はほとんどいません。他の人がフォローするのに苦労する何かを書いたときに自動的に通知し、最終的にはこれを修正する方法を提案できるシステムは、あなたが何を意味するのかを伝えるのに非常に役立ちます。

何が行われたか

テキストの一貫性レベルを正確に判断するようにコンピューターを教えることは困難です。今日まで、コンピュータが談話の一貫性をどれだけうまく評価するかを評価する最も一般的な方法は、文の順序付けタスクに基づいています。この方法では、研究者はニュース記事などの既存のよく編集されたテキストを取得し、すべての文をランダムに並べ替えます。ランダム置換はインコヒーレントと見なすことができ、元の順序はコヒーレントと見なすことができると想定されています。タスクは、インコヒーレントバージョンとオリジナルを区別できるコンピューターアルゴリズムを構築することです。これらの条件下で、一部のシステムは90％もの精度に達しました。かなり印象的です。

しかし、この方法には大きな潜在的な欠陥があります。多分あなたはすでにそれを見つけました。文をランダムに並べ替えると、一貫性の低いテキストが生成される可能性がありますが、人間が自然に書くようなテキストは生成されません。

Grammarlyでは、現実世界の問題の解決に重点を置いているため、この分野で行った作業は、人工的なシナリオではなく、実際の文章に対してベンチマークする必要があることを認識していました。驚いたことに、通常の状況下で人々によって書かれた実際のテキストで談話評価方法をテストする作業はほとんどありません。それを変える時が来ました。

実世界の研究、実世界の作家

私たちが解決しなければならなかった最初の問題は、談話の一貫性に取り組んでいる他のすべての研究者が直面しているのと同じ問題でした。つまり、実世界のデータの欠如です。アルゴリズムをテストできる、通常の自然に書かれたテキストの既存のコーパスはありませんでした。

Yahoo Answers、Yelp Reviews、および公的に入手可能な政府および企業の電子メールなど、いくつかの公開ソースからテキストを収集することにより、コーパスを作成しました。これらの特定のソースを選択したのは、フォーラムの投稿、レビュー、メールなど、人々が通常の日に書くものの種類を表しているためです。

このすべてのテキストをコンピューターアルゴリズムが学習できるコーパスに変換するには、各テキストのコヒーレンスレベルを評価する必要もありました。このプロセスは注釈と呼ばれます。アルゴリズムがどれほど優れていても、ずさんな注釈は結果を大幅に歪めます。私たちの論文では、クラウドソーシングを含むいくつかを含む、テストした多くのアノテーションアプローチの詳細を提供します。最終的に、専門家のアノテーターに各テキストのコヒーレンスレベルを3段階（低、中、高のコヒーレンス）で評価させることにしました。各テキストは3人のアノテーターによって判断されました。

アルゴリズムをテストする

コーパスを入手したら、さまざまなコンピューターシステムが特定のテキストの一貫性レベルをどれだけ正確に識別できるかをテストするときが来ました。 3種類のシステムをテストしました。

最初のカテゴリには、エンティティベースのモデルがあります。これらのシステムは、同じエンティティがテキストで言及されている場所と頻度を追跡します。たとえば、システムが複数の文で「輸送」という単語を見つけた場合、それらの文が互いに論理的に関連していることを示していると見なされます。

2番目のカテゴリでは、字句コヒーレンスグラフに基づいてモデルをテストしました。これは、文をグラフ内のノードとして表し、類似した単語のペアを含む文を接続する方法です。たとえば、このタイプのモデルは、「車」を含む文と「トラック」を含む文を接続します。これは、両方の文がおそらく車両または輸送に関するものであるためです。

3番目のカテゴリには、ニューラルネットワークまたはディープラーニングモデルがあります。 Grammarlyチームによって作成された2つの新しいモデルを含め、これらのいくつかをテストしました。これらはAIベースのシステムであり、各文の表現を学習してその意味を捉え、これらの文の表現を組み合わせることでドキュメントの一般的な意味を学習できます。エンティティの出現や類似した単語のペアに制限されていないパターンを探すことができます。

文の順序付けタスク

新しいコーパスからの一貫性の高いテキストを使用して、3つのタイプのモデルすべての文の順序付けタスクを作成しました。他の文の順序付けデータセットでうまく機能したモデルは、89％の精度で、私たちのデータセットでもうまく機能することがわかりました。エンティティベースのモデルと語彙コヒーレンスグラフはまともな精度（通常は60〜70％の精度）を示しましたが、4つのドメインのうち3つで他のモデルを少なくとも10パーセントポイント上回ったのはニューラルモデルでした。

リアルライティングテスト

私たちが本当に知りたかったのは、これらのモデルのいずれかが、実際の自然に書かれたテキストに対して同じレベルの精度で実行できるかどうかでした。アノテーターのラベルを数値（低= 1、中= 2、高= 3）に変換し、数値を平均して、各テキストの一貫性スコアを取得しました。

すべてのドメインで、ニューラルネットワークベースのシステムの少なくとも1つが他のすべてのシステムを上回りました。実際、段落の区切りを考慮したGrammarlyのモデルの1つは、次の表に示すように、YahooAnswersからのテキストでトップパフォーマーでした。スタンフォード大学の研究者によって開発されたNeuralCliqueモデルも、強力なパフォーマンスを発揮しました。

しかし、私たちの当初の仮説は正しかった。すべてのモデルは、実際のタスクでは文の順序のタスクよりもパフォーマンスが悪かった。一部のモデルははるかに悪かった。たとえば、レキシカルグラフ方式は、人為的な文の並べ替えシナリオで企業の電子メールに対して78％正確でしたが、このより現実的な評価では45％しか達成できませんでした。

私たちが見つけたもの

談話の一貫性に関する以前の研究は、間違ったことをテストしていたことが判明しました。文の順序付けタスクは、談話の一貫性を測定するための適切なプロキシではありません。私たちの結果は明らかです。人工的なシナリオでうまく機能するシステムは、実際のテキストでははるかに悪い結果をもたらします。

この発見は挫折ではないことに注意することが重要です。実際、それからはほど遠い。あらゆる分野を成長させることの一部は、あなたがどのように評価しているかを評価することです。あなたが実際に測定しているものを見るために時々立ち止まります。この作業のおかげで、談話の一貫性に取り組んでいる研究者は現在、2つの重要な情報を持っています。 1つは、文の順序付けタスクが精度を測定する方法ではなくなったという洞察です。 2つ目は、公開されている注釈付きの実世界のテキストのコーパスと、将来の研究で使用する新しいベンチマーク（ニューラルモデル）です。

楽しみにしている

やるべきことはまだたくさんあり、テキストの談話の一貫性を確実に判断できるシステムには、エキサイティングなアプリケーションがたくさんあります。ある日、このようなシステムは、あなたの全体的なメッセージがどれほど首尾一貫しているかをあなたに伝えるだけでなく、従うのが難しいかもしれない特定の箇所を指摘することもできました。いつの日か、あなたがこれらの文章を理解しやすくして、あなたが言おうとしていることが受信者に明確になるように手助けしたいと思っています。

結局のところ、Grammarlyが包括的なコミュニケーションアシスタントになるための道は、文章が文法的およびスタイル的に正確であることを確認することだけではありません。意図したとおりに理解されるようにすることです。

Joel Tetreaultは、Grammarlyのリサーチディレクターです。 Alice Laiは、イリノイ大学アーバナシャンペーン校の博士課程の学生であり、Grammarlyの研究インターンでした。 この研究は、2018年7月12〜14日にオーストラリアのメルボルンで開催されるSIGDIAL2018年次会議で発表されます。付随する研究論文「DiscourseCoherencein the Wild：A Dataset、EvaluationandMethods」がProceedingsof。談話と対話に関する特別興味グループの第19回年次総会。 このブログ投稿で説明されているデータセットは、Grammarly Corpus of Discourse Coherenceと呼ばれ、ここから研究目的で無料でダウンロードできます。