教師なし学習: それが何であり、どのように機能するか

公開: 2024-07-03

教師なし学習の謎を解明します。教師なし学習は、機械が自律的なデータ アナリストとなり、人間の介入なしに貴重な洞察を抽出できるようにする革新的な技術です。

目次

  • 教師なし学習とは何ですか?
  • 教師なし学習と教師あり学習
  • 教師なし学習の仕組み
  • 教師なし学習の種類
  • 教師なし学習の応用
  • 教師なし学習の利点
  • 教師なし学習のデメリット

教師なし学習とは何ですか?

教師なし学習は、データ内のパターンと関係を独自に見つける機械学習 (ML) の一種です。 「教師なし」という用語は、モデルがラベルのないデータを使用することを意味します。つまり、何を探すべきかについて人間から指示を受けず、何を見ているのかについての指示さえも得られません。代わりに、アルゴリズムを使用してデータセットを評価し、相関関係、類似点、相違点、および数学を使用してデータを記述するその他の方法を見つけます。

機械学習は、ハードコードされた命令に依存するのではなく、データと統計的手法を使用して人間の推論を模倣するモデルを構築する人工知能 (AI) のサブセットです。教師なし学習では、大規模なデータセットから結論を引き出すための探索的でデータ駆動型のアプローチが採用されます。たとえば、エンティティを共通の特徴によってグループ化したり、どのデータ ポイントが共起する傾向があるかを見つけたりします。これは、落葉樹と常緑樹の写真を分類したり、セサミストリートをストリーミングしている人はダニエル・タイガーも見る可能性が高いということだ。

Grammarly で賢く仕事をする
仕事を持つすべての人のための AI ライティング パートナー

教師なし学習と教師あり学習

教師なし手法とは対照的に、教師あり学習では、入力と正しい出力をペアにするラベル付きデータが使用されます。逆に、教師なし学習には、モデルが直観的に認識するための入力と出力はなく、分析するデータのみが必要です。

ラベルは、モデルの学習プロセスのいわゆる監視を提供し、与えられた入力から正しい答えに至るまでのリバース エンジニアリングをガイドします。教師あり学習を使用するのは、モデルが目的として、そこから推定できる次のようなデータがある場合に意味があります。

  • スパムや不正行為の検出などの「はい」または「いいえ」の決定
  • 分類、画像内のオブジェクトの識別や音声認識など
  • 住宅価格や天気などの予測

対照的に、教師なし学習は、正しい答えに到達するためではなく、データ内のパターンやグループを見つけるために行われます。主なアプリケーションは次の 3 つです。

  • クラスタリング(顧客のセグメンテーションやドキュメントのグループ化など)
  • 関連(推奨エンジンやセキュリティ異常など)
  • 次元削減。通常、大規模なデータセットを圧縮して管理しやすくするために使用されます。

機械学習は教師ありメソッドまたは教師なしメソッドだけに限定されません。これらはスペクトルの両端にすぎません。他のタイプの機械学習方法には、半教師あり学習、強化学習、自己教師あり学習などがあります。

教師なし学習の仕組み

教師なし学習は概念的に単純です。アルゴリズムは大量のデータを処理して、さまざまなデータ ポイントがどのように関連しているかを判断します。データにはラベルが付けられていないため、教師なし学習にはコンテキストや目標がありません。単にパターンやその他の特徴を見つけようとしているだけです。

教師なし学習プロセスの概要は次のとおりです。

1データの収集とクリーニング。教師なし学習では一度に 1 つのテーブルが評価されるため、複数のデータセットがある場合はそれらを慎重にマージする必要があります。重複の削除やエラーの修正など、できる限りデータを整理することも重要です。

2機能のスケーリング。教師なしアルゴリズムは範囲が広いと無視される可能性があるため、次のような手法を使用して特徴をより狭い範囲に変換することを検討してください。

  • 正規化:最高値を 1 に、最低値を 0 に、その他すべてを 10 進数として変換します。
  • 標準化:平均値を 0、標準偏差を 1 として指定し、各データ ポイントをそれに応じて調整します。
  • 対数変換:広範囲を圧縮するため、10 を底とする対数では、100,000 は 6 になり、1,000,000 は 7 になります。

3アルゴリズムの選択。教師なし学習の種類ごとに複数のアルゴリズムがあり、それぞれに長所と短所があります (次のセクションで説明します)。同じデータセットに異なるアルゴリズムを適用して比較することを選択できます。

4パターンの発見と識別。選択したアルゴリズムが機能します。データセットのサイズとアルゴリズムの効率に応じて、これには数秒から数時間かかる場合があります。大規模なデータセットがある場合は、全体を処理する前にサブセットに対してアルゴリズムを実行することをお勧めします。

5解釈。この段階では、人間が引き継ぐ時期が来ています。データ アナリストは、チャート、スポット チェック、およびさまざまな計算を使用して、データを分析および解釈できます。

6アプリケーション。有益な結果が得られたと確信したら、それを使用してください。教師なし学習のいくつかの応用については後ほど説明します。

教師なし学習の種類

教師なし学習にはいくつかの種類がありますが、最も広く使用されているのは、クラスタリング、相関ルール、次元削減の 3 つです。

クラスタリング

クラスタリングではデータ ポイントのグループが作成されます。これは、後で人間による分析によって分類できるように、互いに類似したアイテムをバンドルする場合に非常に役立ちます。たとえば、顧客の年齢と平均取引金額を含むデータセットがある場合、広告金額をどこにターゲットにするかを決定するのに役立つクラスターが見つかる可能性があります。

クラスタリングの種類には次のものがあります。

  • 排他的またはハード クラスタリング。各データ ポイントは 1 つのクラスターにのみ属することができます。 K 平均法として知られる一般的なアプローチの 1 つでは、作成するクラスターの数を指定できますが、クラスターの最適な数を決定できるアプローチもあります。
  • オーバーラップまたはソフト クラスタリング。このアプローチにより、データ ポイントが複数のクラスターに存在し、純粋に内外に存在するのではなく、それぞれに「ある程度」のメンバーシップを持つことができます。
  • 階層的クラスタリング。ボトムアップで実行される場合は、階層的凝集クラスタリング (HAC) と呼ばれます。トップダウンは分裂的クラスタリングと呼ばれます。どちらも、より大きなクラスターに編成された多数のクラスターを伴います。
  • 確率的クラスタリング。これは、任意のカテゴリに属する​​任意のデータ ポイントの尤度を計算する別のアプローチです。このアプローチの利点の 1 つは、特定のクラスターの一部である確率が非常に低い特定のデータ ポイントを割り当てることができることです。これにより、異常なデータや破損したデータが強調表示される可能性があります。

協会規則

相関ルール マイニングまたは相関ルール学習とも呼ばれるこのアプローチは、データ ポイント間の興味深い関係を見つけます。アソシエーション ルールの最も一般的な用途は、どのアイテムが一般的に購入されたり、一緒に使用されたりするかを把握し、次に購入するものや見るべき番組をモデルが提案できるようにすることです。

アソシエーション ルールの 3 つの中心的な概念は次のとおりです。

  • サポート。利用可能なすべてのインスタンス (トランザクションなど) の割合として、A と B が一緒に見つかる頻度はどれくらいですか? A と B は、個別の項目であることも、複数の項目を表すセットであることもできます。
  • 自信。 A が見られると B も見られる頻度はどれくらいですか?
  • リフト。相関関係がない場合と比較して、A と B が一緒に見られる可能性はどのくらいですか?リフトは、関連付けの「面白さ」の尺度です。

次元削減

次元削減は、テーブル内の列の数に対応します。この文脈における列のその他の用語は、特徴または属性です。データセット内の特徴の数が増加するにつれて、データを分析して最適な結果を達成することがより困難になります。

高次元データの処理には、より多くの時間、計算能力、エネルギーがかかります。また、標準以下の出力が得られる可能性もあります。特に有害な例の 1 つは過剰適合です。これは、機械学習モデルが新しいデータによく一般化するより広範なパターンを犠牲にして、トレーニング データの詳細から多くのことを学習する傾向です。

次元削減アルゴリズムは、元のデータを、最も重要な情報を保持した、より小さく管理しやすいバージョンに圧縮することにより、簡素化されたデータセットを作成します。これらは、相関する特徴をマージし、一般的な傾向からの変化に注目することで機能し、重要な詳細を失うことなく列の数を効果的に削減します。

たとえば、ホテルとその設備に関するデータセットがある場合、モデルでは多くの機能が星の評価と相関していることがわかり、スパ、ルームサービス、24 時間対応のフロントなどの属性を 1 つの列に圧縮できます。

通常、エンジニアは前処理ステップとして次元を削減し、クラスタリングや相関ルール学習などの他のプロセスのパフォーマンスと結果を向上させます。

教師なし学習の応用

例としては次のようなものがあります。

  • マーケットバスケット分析。小売業者はアソシエーション ルールを多用しています。たとえば、食料品店のショッピング カートにホットドッグを入れた場合、ケチャップとホットドッグ用バンズを購入するよう提案される可能性があります。これは、これらの組み合わせが他の買い物客から高い評価を得ているためです。同じデータに基づいて、スーパーマーケットでケチャップとホットドッグを並べて置くことも考えられます。
  • レコメンデーションエンジン。これらはあなたの個人データ (人口統計や行動パターン) を調べ、それを他のデータと比較して、あなたが次に何を買ったり見たりするのが楽しいかを推測します。彼らは 3 種類の教師なし学習を使用できます。1 つは他の顧客のどのパターンがあなたのパターンを予測するかを判断するためのクラスタリング、特定の活動や購入の間の相関関係を見つけるための相関ルール、そして複雑なデータセットを処理しやすくするための次元削減です。
  • 顧客のセグメンテーション。マーケティング担当者は何十年もの間、オーディエンスを名前付きのカテゴリに分類してきましたが、教師なしクラスタリングでは、人間が思いもよらなかったグループが抽出される可能性があります。このアプローチにより、行動ベースの分析が可能になり、チームが新しい方法でメッセージングやプロモーションをターゲットにするのに役立ちます。
  • 異常検出。パターンを理解することに非常に優れているため、教師なし学習は、異常な場合に警告するためによく使用されます。用途には、不正なクレジット カードによる購入、テーブル内の破損したデータ、金融市場での裁定取引の機会の警告などがあります。
  • 音声認識。コンピューターが音声を解析するのは、背景雑音、アクセント、方言、音声と対処する必要があるため、複雑です。教師なし学習は、バックグラウンド ノイズのフィルタリングやその他の機能強化に加えて、音声認識エンジンがどの音がどの音素 (音声単位) と相関しているか、また通常一緒に聞こえる音素を学習するのに役立ちます。

教師なし学習の利点

  • 人間の関与が低い。教師なし学習システムの信頼性が証明されれば、入力と出力が適切にルーティングされていることを確認するだけで、その実行にはほとんど労力がかかりません。
  • 生データで動作します。ラベルを提供する必要はありません。つまり、特定の入力からどのような出力が得られるかを指定する必要はありません。データをそのまま処理するこの機能は、大量の未加工データを処理する場合に非常に価値があります。
  • 隠されたパターンの発見。パターンを見つけること以外に目標やアジェンダがない教師なし学習では、「未知の既知のもの」、つまりこれまで考慮していなかったが、提示されれば意味をなすデータに基づく結論を導き出すことができます。このアプローチは、細胞死の原因について DNA を分析するなど、干し草の山から針を見つける場合に特に役立ちます。
  • データ探索。次元を削減し、パターンとクラスターを見つけることで、教師なし学習により、アナリストは新しいデータセットを理解する上で有利なスタートを切ることができます。
  • インクリメンタルトレーニング。多くの教師なしモデルは、進行中に学習できます。より多くのデータが入ってくると、すでに発見したものと関連して最新の入力を評価できます。これにより、時間と計算量が大幅に削減されます。

教師なし学習のデメリット

  • 大量のデータが必要です。教師なし学習は、限られた例でトレーニングすると大きな間違いを起こしやすくなります。現実の世界では保持されないパターン (過剰適合)、新しいデータに直面して劇的に変化するパターン (不安定性)、または意味のあるものを判断するのに十分な情報がないパターン (限定的なパターン発見) がデータ内に見つかる可能性があります。
  • 解釈可能性が低い。クラスタリングのロジックなどのアルゴリズムがなぜ特定の結論に達したのかを理解するのは難しいかもしれません。
  • 誤検知。教師なしモデルは、注目に値するものを教えるためのラベルなしで、異常ではあるが重要ではないデータ ポイントを読み込みすぎる可能性があります。
  • 体系的に評価するのは難しい。比較する「正しい」答えがないため、出力の精度や有用性を測定する簡単な方法はありません。この問題は、同じデータに対して異なるアルゴリズムを実行することである程度軽減できますが、最終的には品質の尺度は主に主観的なものになります。