転送学習:ショートカットはよりスマートでより速いAI開発になります

公開: 2025-02-04

事前に訓練されたAIモデルの再利用と適応により、機械学習(ML)タスクがどのようにアプローチするかが変わります。転送学習は、大規模で複雑なAIシステムを新しいドメインと問題に適応させるための効率的で費用対効果の高い方法です。このガイドでは、転送学習の重要な側面、それがどのように機能するか、そのさまざまなタイプとアプリケーション、およびその利点と課題を探ります。

目次

  • 転送学習とは何ですか?
  • 転送学習はどのように機能しますか?
  • 微調整と微調整
  • 転送学習の種類
  • 転送学習の利点
  • 転送学習の課題
  • 転送学習のアプリケーション

転送学習とは何ですか?

転送学習は、別のが関連するタスクの事前に訓練されたモデルを活用する強力な機械学習手法です。既存のモデルでキャプチャされた一般的な知識を基盤として使用して、より具体的な関連ドメインで問題を解決する方法を学びます。

転送学習にはいくつかの利点があります。カスタマイズされた人工知能(AI)アプリケーションの開発と展開を加速し、リソースコストを削減し、多くの場合、モデルをゼロから構築するよりも優れたパフォーマンスを提供します。その結果、転送学習は、モデルをゼロからトレーニングするために通常必要な膨大な量のデータや計算能力なしで、専門のAIソリューションを開発することを目的とした組織にとって特に価値があります。

文法でより賢く働きます
やるべき仕事をしている人のためのAI執筆パートナー

転送学習の例

製品の欠陥を検出するAIシステムを作成したいメーカーの例を考えてみましょう。 1つの選択肢は、専門のML開業医を雇い、何百万もの関連製品イメージを収集およびキュレートし、モデルをゼロからトレーニングするのに必要な時間と計算リソースを脇に置いてください。 Transfer Learningは、はるかに優れたオプションを提示します。メーカーは、Imagenetなどの大規模で標準化された画像データセットで、すでに高価で時間のかかるトレーニングを完了しているモデルから始めることができます。メーカーは、転送学習を迅速かつ効率的に使用して、特定の製品画像の欠陥を検出するためにモデルを適応させることができます。

転送学習はどのように機能しますか?

転送学習は、事前に訓練されたモデルの一般的な知識を新しい関連するタスクに適応させます。通常、プロセスには3つの重要なステップが含まれます。

  • 適切な事前に訓練されたモデルを選択します
  • モデルのアーキテクチャの更新
  • 新しいデータでモデルをトレーニングします

1.事前に訓練されたモデルを選択します

最初のステップは、ターゲットタスクに関連するドメイン内のデータセットですでにトレーニングされているモデルを選択することです。事前に訓練されたモデルは、新しいアプリケーションに関連する一般的および高レベルの機能を学習する必要があります。

  • ヘルスケアの例:ヘルスケア組織は、NIH(国立衛生研究所)Chestx-ray14データセットで事前に訓練されたモデルから始まる可能性があります。このモデルは、X線画像の構造方法や、生物学的特性が画像コンポーネントとどのように相関するかなどの一般的な機能を学習していたでしょう。このモデルは、胸部に位置し、肺炎や肺がんなどのX線画像に見える特定の状態の診断ツールを開発するための基礎として機能します。
  • 財務の例:金融企業は、金融文書、収益の呼び出し、規制申請で事前に訓練されたモデルであるFinbertを使用する場合があります。このモデルは、金融言語の構造や市場の感情とビジネスパフォーマンスを示す特定の用語などの一般的な機能を学習していたでしょう。 Finbertモデルは、収益レポートの声明に関する自動的にフラグを立てるなど、より専門的な機能の基盤として機能する可能性があります。

適切な訓練を受けたモデルを選択するには、元のトレーニングが意図したアプリケーションとうまく調和することを保証することが含まれます。これにより、適応が成功する可能性が高くなります。

2。モデルアーキテクチャの変更

適切な事前に訓練されたモデルが選択されると、そのアーキテクチャは新しいタスクに合わせて適応します。このステップには通常、次のものが含まれます。

  • 出力層の交換:元のタスク用に設計された事前に訓練されたモデルの最終レイヤーが削除され、新しいタスク固有のレイヤー(たとえば、分類用の完全に接続されたレイヤー)に置き換えられます。
  • 一般的な特徴の保持:画像のエッジやテキストの言語関係などの一般化可能なパターンをキャプチャする内部層は、しばしば保存されます。これらの機能は、関連するタスクに効果的に転送できます。

アーキテクチャの変更の程度は、特定のユースケースと、ソースタスクとターゲットタスクの間の類似性の程度に依存します。

3。新しいデータでモデルをトレーニングします

最終ステップでは、変更されたモデルは、新しいタスクに合わせたデータセットでトレーニングされます。このステップは、データセットのサイズとタスク間の類似性に応じて、2つの主要な方法でアプローチできます。

  • 機能抽出:
    • 新しく追加されたレイヤーのみがトレーニングされますが、元のレイヤーは変更されません。
    • この方法は、新しいタスクが元のタスクに密接に関連している場合、またはターゲットデータセットが小さい場合に理想的です。
  • 微調整:
    • モデル全体は再訓練されていますが、トレーニング前の段階で学んだ貴重な機能を失わないように、データセットと学習率が小さくなります。
    • このアプローチは、大規模なデータセットや、新しいタスクが元のタスクと大きく異なる場合に適しています。

アプローチに関係なく、目標はモデルを十分な関連データに公開し、新しいアプリケーションを効果的に学習し、一般化できるようにすることです。

微調整と微調整

転送学習はしばしば微調整と混同されます。概念は密接に関連していますが、顕著な違いがあります。最も重要なことは、転送学習は、事前に訓練されたモデルを新しい目的に適応させる全体的なプロセスであり、微調整が含まれる場合とそうでない場合があります。一方、微調整は、全体的な転送学習プロセスの一部として、モデルのパラメーターの一部またはすべてを再訓練するために使用されるいくつかの手法の1つです。微調整は、転送学習の単なるサブセットではありません。データの特定のサブグループのモデルパフォーマンスを改善したり、モデルをデータ分布のシフトに適応させるなど、トランスファーラーニング以外のMLの他のコンテキストでアプリケーションがあります。

さらに、転送学習では、通常、既存のレイヤーの削除と交換やレイヤー間の接続の再構築など、モデルのアーキテクチャを実際に変更する必要があります。対照的に、微調整には、一般に、アーキテクチャに大幅な変更なしに、小規模で正確なパラメーター調整が含まれます。

トランスファーラーニングは、ガレージをアパートに変換するなど、ある目的のために設計された建物を改修して、別の目的に使用できるように考えてください。これには、窓のインストールや断熱材や新しい部屋やユーティリティ接続の追加などの構造的な更新が含まれる可能性があります。一方、微調整は、構造に大きな変更を加えることなく、ガレージを追加のワークスペースとして使用するようなものです。たとえば、ライトが交換され、新しい棚が追加される場合がありますが、ガレージの全体的な構造とアーキテクチャは変更されていません。

転送学習の種類

転送学習は、それぞれ特定のシナリオに適したいくつかのフォームをとることができます。適切なタイプは、ターゲットドメインでのラベル付きデータの可用性、ソースタスクとターゲットタスクの類似性、特定のビジネス要件などの要因に依存します。転送学習の主なタイプは、帰納的転送学習導入転送学習、および監視されていない転送学習です。さらに、少数のショット学習ゼロショット学習のような最新のアプローチは、しばしば転送学習技術を活用します。

帰納的転送学習

帰納的転送学習は、最も一般的なタイプの転送学習であり、ターゲットとソースのタスクが密接に関連しており、非常に異なる場合に使用されます。

例:ヘルスケア組織は、転送学習を使用して、一般的なMRI画像を分類して特定の脳の状態を検出するためにトレーニングされたモデルを適応させる場合があります。

このシナリオでは、ソースモデルの一般的な視覚認識機能はターゲットタスクに適切に転送されますが、ターゲットドメインのラベル付きデータが必要です。転送学習は、新しいラベルが利用可能なタスクに特に効果的ですが、タスク自体はソースとは異なる(通常はより専門的なバージョン)。

導入転送学習

トランスダクティブ転送学習では、ソースとターゲットのタスクは同じですが、問題ドメインは異なります。

例:英語の電子メールでトレーニングされたスパムフィルターを採用するために、フランス語の電子メールを分類することができます。このシナリオでは、語彙と言語のパターンが異なっていても、電子メール構造のテキストパターンの認識とターゲットタスクによく転送されます。タスク(電子メール分類)は変更されていませんが、データ(言語)は異なります。このアプローチは、ソースドメインに豊富なラベルデータがあり、ターゲットドメインにほとんどまたはまったくない場合に役立ちます。

監視されていない転送学習

監視されていない転送学習は、ターゲットドメインでラベル付けされたデータが利用できない場合に使用されます。一般に、このタイプの転送学習は、クラスタリングや次元削減などの監視されていないタスクを実行するためのモデルをトレーニングするために使用されます。

例: IT組織は、監視されていない転送学習を使用して、AI駆動の脅威検出システムがラベルのある例なしに新しい脅威タイプを識別するのを支援する場合があります。

この場合、モデルは、通常の未知の脅威タイプに、通常のパターンと潜在的な脅威の一般的な理解を転送できます。

少数のショット学習

少数のショット学習(FSL)は、転送学習を使用して、モデルが非常に限られたデータから学習するのを支援するML技術です。 FSLでは、モデルはほんのいくつかの例を使用して新しいタスクまたは分類を実行することを学びます。

例:顔認識モデルは、1枚または2枚の写真に基づいて新しい個人を識別できます。

ゼロショット学習

Zero-Shot Learning(ZSL)は、モデルがトレーニングで見られない新しいクラスを学習するのに役立つMLテクニックです。 ZSLはしばしば転送学習概念を使用しますが、学習知識を新しいカテゴリに一般化するために、セマンティック関係と補助情報に依存しています。

例:モデルは、他のタイプの魚の理解と、ティラピアが訓練中にティラピアを見たことがないにもかかわらず魚の一種であるという知識に基づいてティラピアを認識することを学ぶかもしれません。

転送学習の利点

転送学習は、カスタマイズされたAIソリューションを開発しようとする組織にいくつかの利点を提供します。これらには、開発とリソースの要件の削減、限られたデータを使用した良好なパフォーマンス、モデルの堅牢性が向上します。

開発とリソースの要件の削減

転送学習は、開発サイクルを同時に短縮し、AIアプリケーションのリソース要件を削減する素晴らしい方法です。ゼロからモデルを構築するには、データの収集、クリーニング、およびラベル付けが含まれます。これは、トレーニングが開始される前にさえできます。転送学習により、開発と展開は数ヶ月ではなく数週間、さらには日になります。モデルをゼロからトレーニングするには、多くの場合、重要な計算時間とパワーが必要ですが、転送学習は必要ありません。これは、組織がAIソリューションをより迅速かつより少ないオーバーヘッドで市場に持ち込むことができることを意味します。

限られたデータを使用した良好なパフォーマンス

転送学習を使用すると、トレーニングデータセットが限られていても、モデルがうまく機能することができます。これは、製造やヘルスケアなどの専門分野の組織にとって非常に便利です。ラベル付きデータを見つけるのが難しいか、調達が高価です。たとえば、ヘルスケア組織は、特定の病状の数百ラベルの例を持っているかもしれませんが、転送学習を使用して、関係なくパフォーマンス検出システムを構築できます。

モデルの堅牢性と信頼性の向上

直感的ではないように思えるかもしれませんが、転送学習を通じて訓練されたモデルは、限られたデータでゼロからトレーニングされたモデルよりもよく一般化されることがよくあります。これは、トレーニング前に使用される大規模なデータセットが、より具体的なドメインとタスクに一般化できる多様なパターンと機能を提供するためです。さらに、すでにテストされているモデルから始めると、モデルの故障のリスクが減り、信頼性が向上します。このリスク削減は、ヘルスケアや金融などの規制業界で重要です。

転送学習の課題

多くの利点にもかかわらず、転送学習にはいくつかの課題と制限もあります。組織は、適切な実装戦略を設計し、現実的な期待を持つように、これらの課題を理解する必要があります。これらの課題には、負の転送、ドメインの不一致、モデル選択が含まれます。

負の転送

負の転送では、ソースドメインからの知識は、ターゲットタスクを学習することを妨げ、事前に訓練されたモデルがゼロから訓練されたものよりも悪いパフォーマンスを発揮します。これは、転送学習に関する最も一般的な課題の1つであり、通常、ターゲットドメインとソースドメインが異なる場合に発生します。たとえば、学習された機能は新しいタスクとは無関係であるため、画像内の犬種を分類するために訓練されたコンピュータービジョンモデルは、医療画像分析に適応するとパフォーマンスが低下する可能性があります。毛皮のテクスチャー、尾の長さ、耳の形など、犬の品種を区別するのに役立つ機能は、医療スキャンを分類しようとする際に意味のあるアプリケーションがありません。組織は、負の転送を避けるために、ソースとターゲットドメインを慎重に比較する必要があります。

ドメインの不一致

ドメインの不一致は、ソースとターゲットドメインで利用可能なデータ間の違いがモデルのパフォーマンスを低下させると発生します。これらの違いには、データの品質または分布の変動が含まれます。負の転送とは異なり、ドメインの不一致に苦しむモデルは、ゼロから訓練されたものよりも優れたパフォーマンスを発揮する可能性があります。たとえば、猫の画像の大規模で多様なデータセットで訓練されたモデルは、犬の識別にはうまくいきません。ただし、このモデルは、犬の画像の小さなセットで訓練されたモデルよりも、一般的に一般的に優れています。

モデルの選択と変更

適切な事前に訓練されたモデルを選択し、それを変更する方法を把握することは、複雑で時間がかかる可能性があります。組織は、ソースドメインとターゲットドメインとターゲットドメインのアラインメント、利用可能なインフラストラクチャと人事リソース、トレーニングデータセットのサイズと品質、モデルアーキテクチャなど、あらゆる種類の要因を考慮する必要があります。さらに、事前に訓練されたモデルは、多くの場合、すぐには明らかではないかもしれない仮定と依存関係を念頭に置いて構築されます。適切なモデルを選択し、適切な変更を加えるには、専門知識、実験の時間、およびすべての組織がアクセスできるわけではないインフラストラクチャが必要です。

転送学習のアプリケーション

転送学習は、新しいモデルを構築するよりも、特定のタスクまたはドメインのAIシステムを作成するためのより簡単で信頼性の高い方法です。その後、この手法は広範な採用を発見し、コンピュータービジョン、自然言語処理(NLP)、音声認識と生成など、多数のアプリケーションがあります。

コンピュータービジョン

転送学習は、コンピュータービジョンで非常に成功しています。組織は、数百万の画像から一般化可能な機能を学習した事前に訓練されたビジョンモデルを使用することにより、比較的簡単にカスタムビジョンアプリケーションを作成できます。たとえば、セキュリティ会社は、事前に訓練されたコンピュータービジョンモデルを適応させて、監視フィードの疑わしい動作を検出したり、興味のある特定のオブジェクトを特定したりすることができます。

自然言語処理(NLP)

転送学習の主要なアプリケーションは、特定のNLPタスクを処理するモデルをトレーニングすることです。たとえば、法律事務所は、ドキュメント分析ツールの基礎として事前に訓練されたNLPモデルを選択し、移転学習を使用して特定の法的ドメインを処理するようにモデルに教えることができます。

音声認識と生成

転送学習は、特殊な音声アプリケーションのモデルをトレーニングするためにも使用されます。たとえば、コールセンターは、一般化された音声モデルを適応させて、業界固有の用語を理解し、よりカスタマイズされた自動化されたカスタマーサービスシステムを作成できます。別の例は、転送学習を使用して、一般的な言語タスク用にトレーニングされた音声コマンドモデルを調整して、特定の方言と言語を処理することです。