連続文をどのように修正しますか?
公開: 2018-11-08あなたの人生のある時点で、あなたは英語の執筆における特定の誤り、つまり連続した文章に対抗する教師を持っていたかもしれません。
ランオンは一般的なタイプのエラーです。 米国の大学生の中で、連続文は、英語を母国語とする人が犯す最も頻繁なエラーであり、英語を母国語としない学生が犯す最も頻繁な誤りです。
このタイプのエラーを自動的に検出して修正する機能は、ライターにとって明らかに便利です。 しかし、さらに幅広いアプリケーションがあります。 たとえば、テキストメッセージを口述する場合、新しいメッセージを開始する前に、文の最後に「ピリオド」と言う必要があります。そうしないと、文字起こしが1つの長い連続になります。 文の開始位置と停止位置を自動的に判断できるAIシステムは、適切な句読点を自動的に挿入し、脳を解放して、伝達しようとしている情報に集中できるようにします。
ランオンセンテンスに関するGrammarlyの作業は、先週ブリュッセルで開催されたEMNLPカンファレンスで開催された第4回ノイズの多いユーザー生成テキストに関するワークショップで発表した新しい論文の主題です。 ワークショップで2つの最優秀論文賞の1つを受賞したことを誇りに思います。 Grammarlyが連続した文を修正するという課題にどのように取り組んでいるかを確認するために読んでください。
ランオンセンテンスとは何ですか?
連続文の定義は人によって少し異なります。 一部の人々は、コンマスプライスを一種の連続文と見なします。 他の人にとっては、連続文は単に非常に長い文です。 ただし、長さだけでは、文は真のランオンにはなりません。
基本的に、連続文は、不適切に一緒に押しつぶされた2つ以上の完全な文です。 ランオンの例を次に示します。
ここには2つの独立した条項があります。人生を最大限に生き、当然のこととして何も考えないでください。 従来、2つの独立した句を結合する場合は、何らかの方法でそれらをリンクする必要があります。 1つのオプションは、コンマと接続詞を使用することです。
別のオプションは、セミコロンを使用することです。
3番目のオプションは、句を別々の文に分割することです。
連続文の問題は、理解しにくいことです。 接続詞、セミコロン、およびピリオドは、文内の道標として機能し、読者が作家の言っていることを理解するのに役立ちます。 これらの道標がない場合、読者は文を理解するために後戻りして読み直す必要がある可能性があります。
ランオンを自動的に修正するのが難しい理由
Grammarlyは、句読点の間違いや文法上の誤りをすでに修正しています。 では、AIシステムにランオンセンテンスを修正するように教えることの違いは何ですか? なんでそんなに難しいの?
多くの句読点や文法上の誤りは、文の孤立した部分にのみ影響します。 つまり、AIシステムは、問題を特定して修正するために、文の特定のチャンクを処理するだけで済みます。 ただし、ランオンは文レベルの問題です。 AIは、はるかに長く複雑なテキスト文字列を処理する必要があります。
ランオンを自動的に修正する方法も複数あるため、自動的に修正することも困難です。 上記の例のように、句読点や接続詞を追加したり、ランオンを複数の文に分割したりできます。 AIは、特定の状況でランオンを修正するための最良の方法を特定する方法を学ぶ必要があります。
その上、この目的のためにAIシステムをトレーニングするための既存のデータはそれほど多くありません。 ランオンセンテンスはよくある間違いですが、トレーニングデータとして使用するのに十分なラベル付きランオンセンテンスを含む既存のコーパスはありませんでした。 (コーパスは、コンピューターアルゴリズムが学習できる方法でラベル付けされた、テキストの大規模なコレクションです。)
我々のしたこと
最初の仕事は、連続した文のコレクションを作成することでした。 ニュース記事のコーパスから文のペア間の句読点を削除することにより、人為的に連続文を生成しました。 (私たちのプロセスと候補文の選択方法の完全な説明については、私たちの論文を参照してください。)
次に、新しく作成したランオンセンテンスを使用して、ランオンを識別して修正するために構築した2つの機械学習モデルをトレーニングしました。 機械学習は、一連の厳密に事前定義されたステップを提供するのではなく、多くの例を示すことによってタスクを自動的に実行するアルゴリズムを教えることを含むAIの領域です。
連続文の修正:私たちが見つけたもの
モデルがトレーニングされたら、人工的に作成されたランオンセンテンスの新しいセットと、既存のリサーチコーパスから自然に発生するランオンセンテンスの小さなセットでモデルをテストしました。
どちらも、このタスクで句読点の復元と文法上の誤り訂正の主要なモデルよりも優れていることがわかりました。 また、別のエキサイティングな発見もありました。人工的に生成された文でトレーニングされたモデルは、人工的なランオンセンテンスを識別するのと同様に、実際の作家によって書かれたランオンセンテンスを識別することができました。
もちろん、ここでやるべきことはまだたくさんあります。 トレーニングデータは「クリーンな」テキストを使用して生成されました。つまり、テキストには、挿入したもの以外の文法上のエラーは含まれていませんでした。 現実の世界では、ランオンセンテンスには、アルゴリズムがランオンを識別して修正することを困難にする追加の文法上の問題が含まれている場合があります。 それでも、これは、意図したとおりに正確に理解されるメッセージを作成するのに役立つ包括的なコミュニケーションアシスタントを作成するという私たちのビジョンに向けたエキサイティングなステップです。
Junchao Zheng、Courtney Napoles、Joel Tetreault、およびKostiantyn Omelianchukによる新しい論文であるように思われるほど簡単ではない、連続した文をどのように修正しますか。 これは、EMNLP 2018と同じ場所にあるノイズの多いユーザー生成テキストに関する第4回ワークショップで発表されました。この論文は、2018 EMNLPワークショップW-NUT:ノイズの多いユーザー生成テキストに関する第4回ワークショップの議事録に掲載されています。
Under the Hood atGrammarlyシリーズの詳細:
- AIによる無秩序な書き込みの検出
- AIで文体を変革する