フューショット学習の説明: 最小限のデータで AI を変革する

公開: 2025-01-13

フューショット学習 (FSL) は、膨大なデータセットを必要とする従来の方法とは異なり、モデルがほんの少数の例から学習して正確な出力を生成できるようにすることで、機械学習 (ML) を変革します。このガイドでは、FSL の仕組み、その応用、ゼロショット学習 (ZSL) との比較、その課題と可能性について説明します。

目次

  • 少数ショット学習とは何ですか?
  • 数回の学習と数回のプロンプト: 違いは何ですか?
  • 少数ショット学習の仕組み
  • 少数ショット学習とゼロショット学習
  • 数ショット学習のアプリケーション
  • 数回の学習で得られるメリット
  • 少数ショット学習の課題

少数ショット学習 (FSL) とは何ですか?

フューショット学習 (FSL) は、カテゴリごとにわずか数個のラベル付きサンプルでトレーニングされた後、正確な出力を生成できる適応可能なモデルを作成するように設計された ML テクニックのファミリーを指します。カテゴリごとにラベル付きの例が 1 つだけ利用できる場合、それはワンショット学習と呼ばれます。たとえば、最新のスマートフォンは FSL を利用して、わずか数枚の写真、あるいは 1 枚の写真だけでユーザーの顔を認識します。

FSL は、現実世界ではよくあることですが、データが不足している問題に ML モデルで対処できるため、特に価値があります。 FSL モデルは一般化を学習するため、従来の教師あり学習モデルよりも幅広いタスクを処理できます。多くの場合、完全に新しいモデルを最初からトレーニングするよりも、FSL モデルを新しいタスクに適応させる方が安くて早いため、これによりリソースが節約されます。 FSL は、ほんの一握りの例から抽象化することを学習することで、ML モデルに人間のように「考える」ように教えるものであるとよく説明されます。

FSL はコンピューター ビジョン アプリケーションによく使用されますが、ロボット工学や自然言語処理 (NLP) にも導入されています。たとえば、FSL は古代シュメール語のテキストの翻訳に使用されています。シュメール語の専門家が不足していることを考えると、これは役立つ作業です。シュメール語翻訳者の FSL モデルは、楔形文字板の高品質なサンプルのほんの少数のセットから翻訳方法を学習しました。その後、研究者が分析できるよう、大量の馴染みのないテキストを正確に翻訳しました。

Grammarly で賢く仕事をする
仕事を持つすべての人のための AI ライティング パートナー

数回の学習と数回のプロンプト: 違いは何ですか?

FSL と少数ショット プロンプトは、ML と NLP では関連する概念ですが、目的は異なります。

少数ショット学習

FSL は、目に見えないデータを分類するようモデルに教えるモデル トレーニング手法です。これは、事前の知識に基づいて、新しい種類の分類タスクに適応するようにモデル パラメーターを調整することで機能します。 FSL は教師あり学習に関連していますが、違いは、FSL モデルがより限定されたデータセットでトレーニングされることです。

数発のプロンプト

フューショット プロンプトは、大規模言語モデル (LLM) を操作する方法です。これは、モデルが形式やセンチメントなどのプロンプトからの情報を使用して出力を予測する学習のタイプである、インコンテキスト学習を使用します。 FSL や従来の教師あり学習とは異なり、少数ショット プロンプトには LLM のパラメーターの変更が含まれません。数回のプロンプトを使用する場合は、探している応答の種類の例を LLM に提供します。 FSL と同様に、少数ショット プロンプトは、モデルを同様のタスクのいくつかの例にさらすことでモデルの一般化を支援することを目的としています。

少数ショット学習の仕組み

フューショット学習には 2 つの段階が含まれます。まず、モデルが世界について学習するために一般的なデータセットで事前トレーニングされます。次に、モデルが小さなデータ サンプルから一般化する方法を学習するタスク適応を受けます。

事前トレーニング

ほとんどの FSL モデルの最初の段階は、教師あり学習と同様に、大規模なラベル付きデータセットでの事前トレーニングから始まります。モデルは、このデータセットに対して特徴抽出を実行し、データ内のパターンと関係に関する知識ベースを開発することで例を分類する方法を学習します。

タスクの適応

事前トレーニング後の FSL の次の段階では、新しい分類タスクに一般化するためにモデルをトレーニングします。これはタスク適応と呼ばれ、複数のトレーニング エピソードにわたって発生します。

各エピソードには、モデルが研究するための 2 ~ 5 つの例のサポート セットと、モデルが分類しようとする未確認のターゲットを含むクエリ セットがあります。このフレームワークは N ウェイ K ショット分類と呼ばれます。Nカテゴリ (クラスと呼ばれる) の数を指し、 K は各カテゴリのラベル付きサンプル (ショット) の数を指します。

すべての FSL モデルは、タスクの適応を達成するように設計されています。 FSL テクニックセットの中で、最も重要かつ刺激的な研究領域の 1 つはメタ学習です。

メタ学習アプローチ

メタ学習には、モデルが解決するために最初にトレーニングされた分類タスクに類似または関連するタスクにモデルをさらすことが含まれます。それぞれの新しいタスクの例はほんの数例しか得られませんが、これらから、なじみのないタスクが与えられたときに何をすべきかについてのメタフレームワークを開発することで一般化することを学習します。

大まかに言って、メタ学習には 3 種類のアプローチがあります。

  1. 最適化ベースの学習:これには、モデルをトレーニングしてパラメーターを迅速に改善するアプローチが含まれます。それらの中には、学習者が特定のタスクでトレーニングされ、次にメタ学習者が学習者段階の損失関数を使用して次のタスクのモデルのパラメーターを改善する 2 段階のプロセスを使用するものもあります。
  2. メトリック レベルの学習:主にコンピューター ビジョン タスクに使用されるメトリック学習は、抽出された特徴を埋め込み空間にマッピングし、マップ上の特徴間の距離を使用して 2 つの画像が類似する確率を出力することによって機能します。
  3. モデルに依存しないメタ学習 (MAML): MAML では、トレーニング プロセスの目標は、タスクに関係なく、モデル パラメーターの最適化に必要な勾配ステップの数を減らすことです。 MAML は、タスクの学習プロセスを分析し、そのプロセスがどのように機能するかのパターンを推測し、ショートカットとして機能するモデルを開発して、新しいタスクが表示されるたびに学習プロセスを高速化します。

研究者がモデルを適応可能にするための新しい方法を考案するにつれて、メタ学習技術を使用するモデル アーキテクチャのリストは常に増加しています。

非メタ学習アプローチ

メタ学習を使用しない FSL および FSL 隣接手法もあります。 FSL は、ハイブリッド アプローチを作成するために、次の手法と並行して導入されることがあります。

  • 転移学習:この方法には、事前トレーニングされたモデルを取得し、ニューラル ネットワークの外層を微調整することが含まれます。転移学習は、モデルに実行させたいタスクがすでにトレーニングされているタスクに近いシナリオでより役立ちます。
  • データ拡張: FSL はデータ拡張で強化できます。これには、限られたデータをベースとして使用し、敵対的生成ネットワーク (GAN) または変分オートエンコーダーを使用して合成データを作成し、トレーニング セットのサンプル数を増やすことが含まれます。

少数ショット学習とゼロショット学習

フューショット学習 (またはワンショット学習) は、モデルをトレーニングするための高品質のデータが限られているシナリオでよく使用されます。しかし、高品質のデータがまったくない場合はどうなるでしょうか?ゼロショット学習 (ZSL) では、モデルに例を与えず、代わりに、不慣れなタスクを処理するためにモデルが利用できる事前知識とセマンティック埋め込みのみに依存するように求めます。

ZSL は、データが非常に少ない状況に対処するための高速で柔軟なソリューションを提供します。ただし、ZSL モデルはドメインの移行に苦労する可能性があり、つまり、表示されているデータの種類が知識ベースとあまりにも異なる場合に苦労する可能性があり、モデルのパフォーマンスを評価するのが難しい場合があります。

数ショット学習のアプリケーション

FSL のアプリケーションは広範囲に渡っており、常に進化していますが、利用可能な例が比較的少ない分野でも役立つ可能性が大いにあります。ユースケースに関する最近の研究分野には次のようなものがあります。

  • 医療診断: FSL は、従来の教師あり学習モデルに役立つ十分なラベル付きデータがない場合に、画像ベースの腫瘍分類に役立ちます。
  • リモート センシング: FSL は、UAV 映像を使用して環境災害の影響を評価するなど、リモート センシング タスクを高速化できます。
  • F1 レースカーのプロトタイピング:FSL モデルは、数千のレースにわたる数百台の車両の流体力学、空気力学、その他のデータに基づいて事前トレーニングされています。次に、FSL を使用して、少数の高価なテスト実行に基づいて新車プロトタイプの空力と部品の劣化を予測します。
  • 機械翻訳: FSL は、入力をほとんど使用せず、方言や地域の違いのニュアンスを前例のない精度で捉えることができる、より効率的な機械翻訳機の構築に役立ちました。
  • ロボティクス: FSL は、人間のデモンストレーションを見てロボットに物体の把握方法を学習させるために使用されています。
  • センチメント分析:ホテルのレビューで元々トレーニングされた FSL モデルを使用して、レストランのレビューを分類できます。

FSL は、人間が問題解決に取り組む方法をより厳密に模倣するため、汎用人工知能を構築する探求の一環でもあります。

数回の学習で得られるメリット

FSL モデルの主な利点は、利用可能なデータが限られている場合に問題を処理できることと、新しいモデルのトレーニングに必要な計算リソースと財務リソースを削減できることです。

限られたデータで一般化する

FSL モデルは、画像、音声、言語を何度も繰り返して記憶しないため、これが可能になります。代わりに、類似点と相違点を迅速に分析する方法を学びます。従来のモデルは、特定の種類の鳥の識別や指紋の照合など、非常に特殊なタスクには優れていますが、他のタスクを完了するように要求するとすぐに失敗します。

使用するリソースの削減

MAML のような手法は、モデル トレーニング リソースをより効率的に使用する方法です。これにより、高価な再トレーニング手順を行わずに、非常に高価な大規模モデルを特定のユースケースに迅速かつ効率的に適応させることができます。機械学習における大きな課題の 1 つは、大規模で高品質のデータセットをコンパイルするという点と、どれくらいの時間と計算が必要かという点で、有用な出力を生成するためにモデルをトレーニングするためにどのくらいのデータが必要かということです。 FSL は、データが不足している場合やドメインをまたがる場合の現実世界の多くの問題を解決することを約束します。

少数ショット学習の課題

その約束にもかかわらず、FSL にはモデルの有効性を妨げる可能性のある課題があります。

過学習

限られたデータセットを使用すると、モデルがトレーニング セット内のデータと一致しすぎて一般化が困難になる過剰適合が発生する可能性があります。これは ML ではよく知られた問題であり、FSL では他の ML アプローチよりも頻繁に発生します。オーバーフィットする FSL モデルは、テスト データでは良好に機能しますが、実際の例で提示された場合は新しいカテゴリを識別できません。これを防ぐには、少数ショットのトレーニングに使用される限られたサンプルに多様性を持たせることが重要です。上で説明したデータ拡張では、トレーニング用により多くのサンプルを合成することで過学習を軽減しようとします。

データ品質

事前トレーニングと数ショット学習段階の両方で高品質のデータが重要です。 FSL モデルは、ノイズが多く、ラベル付けが不十分なデータによって妨げられやすくなります。また、データにある種類が多すぎて別の種類が含まれていない場合や、モデルで分析するには特徴が多すぎる場合にも、うまく機能しません。このような場合、過度に複雑になる傾向があります。研究者は、正則化手法を使用してこれらの問題に対処できる場合があります。正則化手法は、データを平滑化して、モデルが何に注意を払い、何を無視すべきかを判断できるようにする方法です。