教師あり学習: 教師あり学習とは何か、どのように機能するか

公開: 2024-07-03

画像認識からスパム フィルタリングまで、この有益なガイドでは、教師あり学習が私たちが日常的に目にする AI アプリケーションの多くにどのように力を与えているかを発見します。

目次

  • 教師あり学習とは何ですか?
  • 教師あり学習と教師なし学習
  • 教師あり学習の仕組み
  • 教師あり学習の種類
  • 教師あり学習の応用
  • 教師あり学習の利点
  • 教師あり学習のデメリット

教師あり学習とは何ですか?

教師あり学習は、正解のラベルが付けられたデータを使用してモデルをトレーニングする機械学習 (ML) の一種です。 「監視あり」という用語は、これらのラベルが入力と出力の関係について明確なガイダンスを提供することを意味します。 このプロセスは、モデルが新しい未知のデータに対して正確な予測を行うのに役立ちます。

機械学習は、ハードコードされた命令に依存するのではなく、データと統計的手法を使用して人間の推論を模倣するモデルを構築する人工知能 (AI) のサブセットです。 教師あり学習では、ラベル付きデータセット内のパターンと関係を特定するために、ガイド付きのデータ駆動型アプローチが採用されます。 評価から外挿して、新しい未確認データの結果を予測します。 予測を既知のラベルと比較し、エラーを最小限に抑えるようにモデルを調整することで学習します。

Grammarly で賢く仕事をする
仕事を持つすべての人のための AI ライティング パートナー

教師あり学習と教師なし学習

ラベル付きデータを使用する教師あり学習とは対照的に、教師なし学習はラベルなしデータからパターンを見つけます。

トレーニング データ内の明示的な正解によって提供される「教師」がなければ、教師なし学習では、目に見えるものすべてがパターンやグループ化を分析するためのデータとして扱われます。 主なタイプは次の 3 つです。

  • クラスタリング:この技術は、互いに最も隣接するデータ ポイントをグループ化します。顧客のセグメント化や文書の分類に役立ちます。
  • 関連性:物事が同時に発生する傾向がある時期を判断します。最も顕著なのは、頻繁に一緒に購入されるアイテムを同じ場所に配置したり、次に何をストリーミングするかを提案したりすることです。
  • 次元削減:詳細のすべてまたはほとんどを維持しながら、処理しやすくするためにデータセットを縮小します。

一方、モデルに意思決定をさせたい場合には、教師あり学習が合理的です。 主な用途は次のとおりです。

  • はいまたはいいえの決定:データを 1 つのクラスまたは別のクラスとしてマークします。スパムや詐欺の検出などのフィルタリングによく使用されます。
  • 分類:画像内のオブジェクトの識別や音声の認識など、何かが複数のクラスのどれに属するかを判断します。
  • 回帰:住宅価格や気象条件の予測など、履歴データに基づいて連続値を予測します。

他のタイプの ML は、半教師あり学習、強化学習、自己教師あり学習の 2 つの中間に位置します。

教師あり学習の仕組み

教師あり学習には、データの選択とフォーマット、モデルの実行、そのパフォーマンスのテストという構造化されたプロセスが含まれます。

教師あり学習プロセスの概要を次に示します。

1ラベル付け:ラベル付きデータは、入力と出力の間の正しい関連性を学習するために不可欠です。たとえば、製品レビューのセンチメントを分析するモデルを作成している場合は、人間の評価者にレビューを読んでもらい、肯定的、否定的、または中立としてマークを付けることから始めます。

2データの収集とクリーニング:トレーニング データが包括的で代表的なものであることを確認します。重複を削除し、エラーを修正し、欠損値を処理してデータをクリーンアップし、分析の準備をします。

3特徴の選択と抽出:最も影響力のある属性を特定して選択し、モデルをより効率的かつ効果的にします。このステップには、生年月日から年齢への変換など、データ内の基礎となるパターンをより適切に捕捉するために、既存の特徴から新しい特徴を作​​成することも含まれる場合があります。

4データ分割:データセットをトレーニング セットとテスト セットに分割します。トレーニング セットを使用してモデルをトレーニングし、テスト セットを使用して新しい未知のデータにどの程度一般化されるかを確認します。

5アルゴリズムの選択:タスクとデータの特性に基づいて教師あり学習アルゴリズムを選択します。複数のアルゴリズムを実行して比較し、最適なアルゴリズムを見つけることもできます。

6モデルのトレーニング:データを使用してモデルをトレーニングし、予測精度を向上させます。このフェーズでは、モデルは、その予測とトレーニング データで提供される実際のラベルの間の誤差を繰り返し最小化することで、入力と出力の間の関係を学習します。 アルゴリズムの複雑さとデータセットのサイズによっては、これには数秒から数日かかる場合があります。

7モデルの評価:モデルのパフォーマンスを評価すると、新しいデータに対して信頼性が高く正確な予測が生成されることが保証されます。これは教師なし学習との主な違いです。期待される出力がわかっているため、モデルのパフォーマンスを評価できます。

8モデルのチューニング:モデルのパラメーターを調整および再トレーニングして、パフォーマンスを微調整します。この反復プロセスはハイパーパラメーター調整と呼ばれ、モデルを最適化し、過剰適合などの問題を防ぐことを目的としています。 このプロセスは調整のたびに繰り返す必要があります。

9導入と監視:トレーニングされたモデルを導入して、現実世界の設定で新しいデータを予測します。たとえば、トレーニングされたスパム検出モデルを展開して電子メールをフィルタリングし、そのパフォーマンスを監視し、必要に応じて調整します。

10時間をかけて微調整する:より多くの実世界のデータを収集するにつれて、モデルのトレーニングを継続して、より正確で関連性の高いものになります。

教師あり学習の種類

教師あり学習には、分類と回帰という 2 つの主なタイプがあります。 各タイプには独自のサブタイプと特定の使用例があります。 それらをさらに詳しく見てみましょう。

分類

分類には、入力がどのカテゴリまたはクラスに属するかを予測することが含まれます。 さまざまな分類問題を処理するために、さまざまなサブタイプと概念が使用されます。 以下に人気のあるタイプをいくつか示します。

  • 二値分類:モデルは、2 つの可能なクラスのうちの 1 つを予測します。これは、結果がバイナリである場合、つまり考えられる状態またはカテゴリが 2 つだけである場合に便利です。 このアプローチは、明確な区別が必要な意思決定に使用されます。
  • マルチクラス分類:バイナリに似ていますが、選択肢が 2 つ以上あり、正解は 1 つだけです。 このアプローチは、入力が属する可能性のあるカテゴリが複数ある場合に使用されます。
  • マルチラベル分類:各入力は同時に複数のクラスに属することができます。 各入力が単一のクラスに割り当てられるバイナリ分類やマルチクラス分類とは異なり、マルチラベル分類では、単一の入力に複数のラベルを割り当てることができます。 これは、入力が属する可能性が最も高いクラスを単に選択するのではなく、含める確率のしきい値を決定する必要があるため、より複雑な分析になります。
  • ロジスティック回帰:回帰 (以下を参照) を二値分類に適用したものです。 このアプローチでは、単純なあれこれではなく、予測の信頼度を知ることができます。

分類モデルの品質を測定するには、次のようないくつかの方法があります。

  • 精度:合計の予測のうち何個が正しかったでしょうか?
  • 精度:肯定的なもののうち、実際に肯定的なものはいくつありますか?
  • 思い出してください:実際に陽性者のうち何人が陽性としてマークされましたか?
  • F1 スコア: 0% から 100% のスケールで、モデルの精度と再現率のバランスはどの程度取れていますか?

回帰

回帰では、入力特徴に基づいて連続値を予測し、予測とも呼ばれる数値を出力します。 これらの入力特徴と連続出力の間の関係を把握するために、さまざまなタイプの回帰モデルが使用されます。 以下に人気のあるタイプをいくつか示します。

  • 線形回帰:入力フィーチャと出力の間の関係を直線としてモデル化します。モデルは、従属変数 (出力) と独立変数 (入力) の間に線形関係があると仮定します。 目標は、予測値と実際の値の差を最小限に抑える、データ ポイントを通る最適な線を見つけることです。
  • 多項式回帰: 2 乗や 3 乗などの多項式を使用して入力変数と出力変数の間のより複雑な関係を取得するため、線形回帰よりも複雑です。 モデルは、これらの高次項を使用して非線形データを近似できます。
  • リッジ回帰となげなわ回帰:過学習の問題に対処します。過学習とは、一般化を犠牲にしてトレーニング対象のデータを読み込みすぎるモデルの傾向です。 リッジ回帰では、細部に対するモデルの感度が低下しますが、ラッソ回帰では、それほど重要ではない特徴が考慮から除外されます。

回帰品質の測定のほとんどは、予測が実際の値からどれだけ離れているかに関係します。 彼らが答える質問は次のとおりです。

  • 平均絶対誤差:平均して、予測は実際の値からどれくらい離れていますか?
  • 平均二乗誤差:誤差が大きくなると、誤差はどの程度大きくなりますか?
  • 二乗平均平方根誤差: 誤差が大きいと、予測が実際の値からどの程度外れますか?
  • R 二乗:回帰はデータにどの程度適合しますか?

教師あり学習の応用

教師あり学習は、さまざまな業界で幅広い用途に使用できます。 一般的な例をいくつか示します。

  • スパム検出:電子メール サービスは、バイナリ分類を使用して、電子メールが受信トレイに届くかスパムにルーティングされるかを決定します。これらは、スパム フォルダー内の電子メールをスパムではないとマークするユーザーに応じて継続的に改善されており、またその逆も同様です。
  • 画像認識:モデルはラベル付き画像でトレーニングされ、オブジェクトを認識して分類します。例としては、タブレットやモバイル デバイスのロックを解除する Apple の Face ID 機能、活字をデジタル テキストに変換する光学式文字認識 (OCR)、自動運転車の物体検出などがあります。
  • 医療診断:教師ありモデルは、患者データと医療記録を使用して病気を予測し、潜在的な診断を提案できます。たとえば、MRI で癌性腫瘍を認識したり、糖尿病管理計画を作成したりするようにモデルをトレーニングできます。
  • 不正行為の検出:金融機関は教師あり学習を使用して、ラベル付き取引データのパターンを分析することで不正取引を特定します。
  • センチメント分析:肯定的または否定的な反応や、幸福や嫌悪感などの感情を測定する場合でも、手動でタグ付けされたデータセットは、ソーシャル メディアの投稿、製品レビュー、アンケート結果などの入力を解釈するようにモデルに通知します。
  • 予知メンテナンス:過去のパフォーマンス データと環境要因に基づいて、モデルは機械が故障する可能性が高い時期を予測できるため、故障する前に修理または交換できます。

教師あり学習の利点

  • 正確かつ予測可能。適切なデータが与えられていると仮定すると、教師あり学習モデルは他の機械学習手法よりも正確になる傾向があります。 通常、より単純なモデルは決定論的であり、与えられた入力が常に同じ出力を生成することを意味します。
  • 明確な目標。 監視のおかげで、モデルが何を達成しようとしているのかがわかります。 これは、教師なし学習や自己教師あり学習とは明らかに対照的です。
  • 評価がしやすい。 分類モデルと回帰モデルの両方の精度を判断するために自由に使用できる品質尺度がいくつかあります。
  • 解釈可能。 教師ありモデルでは、データ サイエンティストにとって比較的理解しやすい回帰やデシジョン ツリーなどの手法が使用されます。 解釈可能性は、特に影響の大きい環境や規制された業界において、意思決定者の自信を向上させます。

教師あり学習のデメリット

  • ラベル付きデータが必要です。 データには明確な入力とラベルが必要です。 これは、手動でデータに注釈を付けるために何千人もの (数百万人ではないにしても) 人が雇用されているため、分類トレーニングではしばしば課題となります。
  • トレーニングデータのエラーと一貫性のない判断。 人間によるラベル付けには、間違い、タイプミス、異なる意見などの誤った認識が伴います。 後者は感情分析の特に難しい側面です。 高品質の感情トレーニング データでは通常、複数の人が特定のデータ ポイントを評価する必要があり、合意が得られた場合にのみ結果が記録されます。
  • 過学習。 多くの場合、モデルはトレーニング データに対しては非常にうまく機能する計算を思いつきますが、まだ見ていないデータに対してはうまく機能しません。 注意深いトレーナーは常に過剰適合を探し、その影響を軽減するテクニックを使用します。
  • 既知のパターンに限定されます。 株価予測モデルが強気市場のデータのみに基づいている場合、弱気市場に突入すると精度が低くなります。 したがって、モデルに示したデータの制限に敏感になり、モデルをより多くの状況にさらすトレーニング データを見つけるか、その出力を単純に無視するかを検討してください。