乱文を修正するにはどうすればよいですか?
公開: 2018-11-08あなたの人生のある時点で、英語のライティングにおける特定の間違い、つまり文章のランオンを激しく非難する教師に出会ったことがあるかもしれません。
ランオンは一般的なタイプのエラーです。米国の大学生の間では、ランオンセンテンスは、英語を母国語とする学生が犯す間違いの 18 番目に多く、英語を母国語としない学生が犯す間違いの 8 番目に多いものです。
この種のエラーを自動的に検出して修正できる機能は、作成者にとって明らかに役立ちます。しかし、さらに幅広い用途があります。たとえば、テキスト メッセージを口述する場合、新しいメッセージを開始する前に文の最後に「ピリオド」と言う必要があります。そうしないと、文字起こしが 1 つの長い続きになってしまいます。文の開始位置と終了位置を自動的に判断できる AI システムがあれば、適切な句読点が自動的に挿入され、脳が解放されて、伝えようとしている情報に集中できるようになります。
ランオンセンテンスに関する Grammarly の研究は、先週ブリュッセルで開催された EMNLP カンファレンスでの、ノイズの多いユーザー生成テキストに関する第 4 回ワークショップで発表した新しい論文の主題です。このワークショップで 2 つの最優秀論文賞のうちの 1 つを受賞したことを誇りに思います。 Grammarly が、連続した文章を修正するという課題にどのように取り組んでいるかをご覧ください。
ランオンセンテンスとは何ですか?
ランオンセンテンスの定義は人によって少し異なります。カンマ継ぎを文章の一種だと考える人もいます。他の人にとって、ランオンセンテンスは単に非常に長いセンテンスに過ぎません。ただし、長さだけでは、文が本当の意味での続きになるわけではありません。
基本的に、連続文とは、不適切に結合された 2 つ以上の完全な文です。ランオンの例を次に示します。
ここには 2 つの独立した条項があります:人生を最大限に生き、何事も当たり前のことだと思わないでください。従来、2 つの独立した条項を結合したい場合は、何らかの方法でそれらをリンクする必要があります。オプションの 1 つは、コンマと接続詞を使用することです。
別のオプションはセミコロンを使用することです。
3 番目のオプションは、文節を別々の文に分割することです。
連続した文章の問題は、理解しにくいことです。接続詞、セミコロン、ピリオドは文内で道しるべとして機能し、読者が書き手の言いたいことを理解できるようにします。これらの道しるべが存在しない場合、読者は文を理解するために後戻りして読み直す必要がある可能性があります。
ランオンを自動的に修正するのが難しい理由
Grammarly では、句読点の間違いや文法上の誤りがすでに修正されています。では、AI システムに連続した文章を修正するように教えることと何が違うのでしょうか?なぜそんなに難しいのですか?
句読点や文法上の誤りの多くは、文の孤立した部分にのみ影響します。つまり、AI システムは問題を特定して修正するために、文の特定の部分を処理するだけで済みます。ただし、ランオンは文レベルの問題です。 AI は、より長く複雑なテキスト文字列を処理する必要があります。
ランオンを自動的に修正することも、方法が複数あるため困難です。上の例のように、句読点や接続詞を追加したり、ランオンを複数の文に分割したりできます。 AI は、特定の状況で暴走を修正する最適な方法を特定する方法を学習する必要があります。
それに加えて、この目的のために AI システムをトレーニングするための既存のデータはそれほど多くありません。連続文はよくある間違いですが、トレーニング データとして使用するのに十分なラベル付き連続文を含む既存のコーパスはありませんでした。 (コーパスとは、コンピューターのアルゴリズムが学習できる方法でラベル付けされたテキストの大規模なコレクションです。)
私たちがやったこと
最初の仕事は、連続した文のコレクションを作成することでした。ニュース記事のコーパスから文のペアの間の句読点を削除することで、連続文を人為的に生成しました。 (私たちのプロセスと候補文の選択方法の完全な説明については、論文を参照してください。)
次に、新しく作成したランオン センテンスを使用して、ランオンを識別して修正するために構築した 2 つの機械学習モデルをトレーニングしました。機械学習は AI の分野であり、厳密に事前定義された一連のステップを提供するのではなく、多くの例を示すことによって、アルゴリズムにタスクを自動的に実行するように教えることを含みます。
連続文の修正: 見つかったこと
モデルがトレーニングされた後、人工的に作成された新しい一連の連続文と、既存の調査コーパスからの自然に発生した一連の連続文でモデルをテストしました。
このタスクでは、どちらも句読点の復元と文法エラーの修正において主要なモデルよりも優れたパフォーマンスを示したことがわかりました。また、別の興味深い発見もありました。人工的に生成された文でトレーニングされた私たちのモデルは、人工的な続きの文を識別するのと同じように、実際の作家によって書かれた続きの文も識別できました。
もちろん、ここでやるべきことはまだあります。トレーニング データは「クリーン」テキストを使用して生成されました。これは、テキストに挿入したもの以外に文法上のエラーが含まれていないことを意味します。現実の世界では、ランオン文には、アルゴリズムによるランオンの特定と修正が困難になる追加の文法上の問題が含まれる場合があります。それでも、これは、意図したとおりに理解されるメッセージの作成を支援する包括的なコミュニケーション アシスタントを作成するという私たちのビジョンに向けた素晴らしい一歩です。
連続した文章をどのように修正するかは、見た目ほど簡単ではありません。これは、Junchao Zheng、Courtney Napoles、Joel Tetreault、Kostiantyn Omelianchuk による新しい論文です。この論文は、EMNLP 2018 と同時開催されたノイズのあるユーザー生成テキストに関する第 4 回ワークショップで発表されました。この論文は、2018 EMNLP ワークショップ W-NUT: ノイズのあるユーザー生成テキストに関する第 4 回ワークショップの議事録に掲載されています。
Grammarly の「Under the Hood」シリーズの詳細:
- AI で乱文を検出
- AI によるライティング スタイルの変革