自己教師あり学習: 自己教師あり学習とは何か、どのように機能するのか

公開: 2024-07-18

人工知能の最先端技術である自己教師あり学習は、機械がデータ内の固有のパターンや構造を発見できるようにし、明示的な指示ではなくコンテキストや経験から学習する人間の能力を模倣します。

目次

  • 自己教師あり学習とは何ですか?
  • 他のタイプの機械学習と比較して自己教師あり
  • 自己教師あり学習の仕組み
  • 自己教師あり学習の種類
  • 自己教師あり学習の応用
  • 自己教師あり学習の利点
  • 自己教師あり学習のデメリット

自己教師あり学習とは何ですか?

自己教師あり学習は、ラベルのない生データを使用して独自のラベル (つまり、明示的にペアになった入力と出力) を作成するようにモデルをトレーニングする機械学習 (ML) の一種です。大量のラベル付きデータが必要な教師あり学習とは異なり、自己教師あり学習はデータ自体から擬似ラベル (人工ラベル) を生成します。この手法により、モデルに教師あり学習アプローチの目標指向性と測定可能性が与えられるほか、大量のラベルなしデータから有用な結論を導き出す教師なし学習の能力が得られます。

機械学習は、ハードコードされた命令に依存するのではなく、データと統計的手法を使用して人間の推論を模倣するモデルを構築する人工知能 (AI) のサブセットです。自己教師あり学習は、利用可能な大量のラベルなしデータを活用し、最小限の手動介入でモデルのパフォーマンスを向上させる強力なアプローチとなります。実際、今日の主要な生成 AI テキストおよび画像モデルは、主に自己教師あり学習を使用してトレーニングされています。

Grammarly で賢く仕事をする
仕事を持つすべての人のための AI ライティング パートナー

他のタイプの機械学習と比較して自己教師あり

自己教師あり学習は、教師あり学習と教師なし学習の両方の要素を組み合わせたものですが、半教師あり学習とは異なります。

  • 教師あり学習:ラベル付きデータを使用して、分類や回帰などの特定のタスクのモデルをトレーニングします。ラベルは明示的なガイダンスを提供し、モデルが正確な予測を行えるようにします。一般的なアプリケーションには、スパム検出、画像分類、天気予報などがあります。
  • 教師なし学習:ラベルのないデータを処理してパターンとグループを見つけます。クラスターと関連性を識別し、データの複雑さを軽減して処理を容易にします。例には、顧客のセグメンテーション、推奨システム、異常検出などがあります。
  • 半教師あり学習:適度な量のラベル付きデータを使用して初期ガイダンスを提供し、その後、1 つ以上のラベルなしデータのより大きなコレクションを活用してモデルを洗練し、改善します。このアプローチは、いくつかのラベル付きデータがある場合に特に役立ちますが、完全に教師あり学習に必要な量を生成するには困難またはコストがかかりすぎます。
  • 自己教師あり学習:生データを使用して独自のラベルを生成し、最初のラベル付きデータなしでモデルがデータから学習できるようにします。このアプローチは、自然言語処理 (NLP) や画像認識など、ラベル付きデータがまったく利用できない場合、または利用可能なデータのごく一部にすぎない場合に特に価値があります。

自己教師あり学習の仕組み

自己監視とは、データ自体が正しい答えを提供することを意味します。自己教師あり学習プロセスには、教師あり手法と教師なし手法の両方の側面を組み合わせたいくつかのステップが含まれます。

データ収集:ラベルのない大量の生データを収集します。このデータは、疑似ラベルの作成とモデルのトレーニングの基礎を形成します。多くのデータセットは無料で入手できます。

  1. 前処理:品質を確保するためにデータを準備します。この手順には、重複の削除、欠損値の処理、データ範囲の正規化が含まれます。
  2. タスクの作成:口実タスクと呼ばれる、モデルが解決するパズルを作成します。これらは、単語の削除、画像ピクセルの削除、ビデオ フレームのシャッフルなど、データの一部を削除またはシャッフルすることによって作成されます。この意図的な破損以前に存在していたものはすべて擬似ラベルとして知られており、人間によるラベル付けではなくデータ自体から作成された「正しい答え」です。
  3. トレーニング:生成された疑似ラベルを使用して、口実タスクでモデルをトレーニングします。これは、モデルが正しい答えの生成を試み、その答えを擬似ラベルと比較し、調整して、正しい答えの生成を再試行することを意味します。このフェーズは、モデルがデータ内の関係を理解するのに役立ち、最終的には入力と出力の間の関係についての複雑な理解を作成します。
  4. 微調整:モデルを切り替えて、より小さなラベル付きデータセットから学習することで、特定のタスクでのパフォーマンスを向上させます。このステップにより、モデルは初期トレーニング段階で学習した表現を活用できるようになります。微調整は厳密に必要というわけではありませんが、通常は微調整を行うことでより良い結果が得られます。
  5. 評価:まだ見ていないデータに対するモデルのパフォーマンスを評価します。 F1 スコアなどのタスクに関連する標準メトリクスを使用して、この評価によりモデルが新しいデータに適切に一般化されることが保証されます。
  6. 導入と監視:トレーニングされたモデルを現実世界のアプリケーションに導入し、そのパフォーマンスを継続的に監視します。必要に応じて新しいデータでモデルを更新し、精度と関連性を維持します。

自己教師あり学習の種類

自己教師あり学習にはさまざまなタイプがあり、それぞれに複数の手法とアプローチがあります。ここでは、いくつかのタイプを検討し、それぞれの独特のトレーニング方法に焦点を当て、それぞれの代表的な例を 1 つまたは 2 つ示します。

画像について

  • 自己予測学習:自己予測学習には、モデルが情報をより単純な形式に圧縮し、そこから元のデータを再作成する方法を学習する自動エンコーディングなどの手法が含まれます。画像処理では、これは多くの場合、画像の一部を選択的に破損し (セクションをマスキングするなど)、元の画像を再構築するようにモデルをトレーニングすることを意味します。これにより、モデルは、さまざまな位置、サイズにあるオブジェクト、さらには部分的に隠れている場合でも、オブジェクトをより適切に認識できるようになります。
  • 対照学習:対照学習では、モデルは、ペアまたはグループで比較することによって、類似した画像と異なる画像を区別することを学習します。たとえば、SimCLR メソッドは、画像拡張 (トリミング、歪み、反転など) を使用してトレーニング ペアを作成します。ポジティブ ペアは同じ画像に異なる変更を適用することで作成され、ネガティブ ペアは異なる画像から作成されます。次にモデルは、類似したペアではどのような特徴が共通し、異なるペアではどのような特徴が異なるかを学習します。
  • クラスタリング ベースの方法:クラスタリング ベースの方法では、類似したデータ ポイントをグループ化し、これらのクラスターをトレーニング用の疑似ラベルとして使用します。たとえば、DeepCluster は類似の特徴によって画像をクラスター化し、これらのクラスターを使用してモデルをトレーニングします。このプロセスは、モデルが適切に実行されるまで、クラスタリングとトレーニングを交互に繰り返します。 SwAV (ビュー間での割り当ての交換) は、同じ画像の複数のバージョンを使用することでこれを強化し、エッジ、テクスチャ、オブジェクトの位置など、一定に保たれる重要な特徴をモデルが学習できるようにします。

テキスト用

  • 自己予測学習:これは、テキストを一連のトークンとして理解する大規模言語モデル (LLM) の中核となるトレーニング メカニズムです。これらは通常、1 つの単語を表しますが、単語の一部または単語のクラスターを表す場合もあります。
    • マスク言語モデル (MLM):これらは、いくつかのトークンが欠落している文を示し、欠落している単語を予測する役割を果たします。これらの空白を埋める方法を学ぶことで、MLM は言語構造とコンテキストの完全な表現を開発し、予測を行うときに入力全体のコンテキストを考慮できるようになります。感情分析や固有表現認識などの有用な出力は、微調整を通じて開発されます。代表的な例は、Google が検索クエリの意図を理解するために使用する BERT です。
    • 因果言語モデル (CLM): ChatGPT、Claude、Gemini などの生成モデルは、以前のトークンに基づいて一度に 1 つの単語を予測することで、見たテキストを再作成することを学習します。トレーニングが完了すると、入力テキストを予測のコンテキストとして扱い、生成する新しいトークンごとに予測を続けます。この逐次的な予測が、出力が一度にすべて表示されるのではなく、自動的に入力されているように見える理由です。
  • 対照学習:このアプローチでは、テキスト サンプルのペアを比較し、それらの間の相違点と類似点を強調します。 SimCSE は、ドロップアウトを適用することにより、同じ文のわずかに異なる 2 つのバージョンを作成します。これは、トレーニング中に隠れ層にある文の表現の一部をランダムに無視します (深層学習に関する記事で隠れ層の詳細を参照してください)。モデルは、これらのバージョンを類似したものとして認識することを学習します。この手法により、文を理解して比較するモデルの能力が向上し、類似した文の検索や検索クエリの関連情報の取得などのアプリケーションに役立ちます。
  • 次の文の予測 (NSP):名前が示すように、NSP には、文書内の特定の文が別の文の次の文であるかどうかを予測することが含まれており、モデルが文間の関係とテキストの論理的な流れを理解するのに役立ちます。これは、より大きなテキスト本文の理解を強化するために、MLM と並行して使用されるのが一般的です。たとえば、BERT NSP では、モデルは元のテキストに 2 つの文が連続して出現するかどうかを予測します。

自己教師あり学習の応用

自己教師あり学習には、さまざまな領域にわたって幅広い用途があります。

  • 自然言語処理: BERT や GPT-3 などのモデルは、自己教師あり学習を使用して、チャットボット、翻訳、テキスト要約などのアプリケーションで人間の言語を理解して生成します。
  • コンピューター ビジョン:自己教師あり学習は、生の視覚データから疑似ラベルを生成することにより、画像とビデオの分析を向上させます。用途には、物体検出 (ドアベル カメラなど)、顔認識、長いビデオからのクリップの自動作成などがあります。
  • 音声認識:自己教師ありモデルは、大量のラベルなし音声データから学習することで音声認識システムを改善します。このアプローチにより、手動での文字起こしの必要性が減り、さまざまなアクセントや方言にわたる精度が向上します。
  • ヘルスケア:自己教師あり学習は、最小限のラベル付きサンプルを含む大規模なデータセットを活用することで、医療画像分析、創薬、患者モニタリングの向上に役立ちます。これにより、大規模かつ高価な専門家による人間によるラベル付けを必要とせずに、疾患の検出と推奨治療の精度が向上します。
  • ロボティクス:ロボットは自己教師あり学習を使用して環境を理解し、意思決定プロセスを改善します。用途には、自律ナビゲーション、オブジェクト操作、人間とロボットの相互作用が含まれます。

自己教師あり学習の利点

  • 費用対効果の高い:大規模なラベル付きデータの必要性が減り、注釈のコストと人的労力が削減されます。
  • スケーラビリティ:大規模なデータセットを処理できるため、ラベル付きデータは限られているがラベルなしデータが豊富な現実世界のアプリケーションに適しています。
  • 一般化:十分な生データでトレーニングされた場合、直接関連するデータでトレーニングされなかった場合でも、モデルは新しいタスクを実行するのに十分な学習を行うことができます。たとえば、ある言語に基づく NLP モデルを使用して、別の言語に基づく学習を強化することができます。
  • 柔軟性:特定のニーズに合わせて利用できる多くのサブタイプを備え、さまざまなタスクやドメインに適応できます。

自己教師あり学習のデメリット

  • 複雑さ:効果的な口実タスクを作成し、疑似ラベルを生成するには、慎重な設計と実験が必要です。
  • ノイズ感度:生データから生成された疑似ラベルは目標とは無関係である可能性があり、モデルに処理する必要のない入力が多すぎるため、パフォーマンスに影響を与える可能性があります。
  • 計算リソース:自己教師ありモデルのトレーニング (特に大規模なデータセットの場合) には、かなりの計算能力と時間が必要です。