機械学習におけるロジスティック回帰とは何ですか?

公開: 2024-10-04

ロジスティック回帰は、統計分析と機械学習 (ML) の基礎となる手法です。この包括的なガイドでは、ロジスティック回帰の基本を説明し、さまざまなタイプ、実際のアプリケーション、この強力な手法を使用する利点と欠点について説明します。

目次

  • ロジスティック回帰とは何ですか?
  • ロジスティック回帰の種類
  • ロジスティック回帰と線形回帰
  • ロジスティック回帰の仕組み
  • アプリケーション
  • 利点
  • 短所

ロジスティック回帰とは何ですか?

ロジスティック回帰は、ロジット回帰またはロジット モデルとも呼ばれ、分類タスク、特にバイナリ結果 (つまり、2 つの可能なクラス) の確率を予測するために使用される教師あり学習アルゴリズムの一種です。これは、特定のイベントが発生する確率を推定する、同名の統計手法に基づいています。たとえば、ロジスティック回帰を使用して、電子メールがスパムである可能性や、顧客が購入するか Web サイトから離れる可能性を予測できます。

モデルは、イベントの関連プロパティ (「予測変数」または「特徴」と呼ばれます) を評価します。たとえば、イベントが「電子メールの到着」である場合、関連するプロパティには、送信元 IP アドレス、送信者の電子メール アドレス、またはコンテンツの可読性評価が含まれる可能性があります。次の形式のロジスティック関数を使用して、これらの予測変数と結果の確率の間の関係をモデル化します。

f (x) = 1 / ( 1 + e -x )

この関数は、イベントの推定確率を表す 0 ~ 1 の値を出力します (「この電子メールはスパムである可能性が 80% である」と表示される場合があります)。

ロジスティック回帰は、ML、特にバイナリ分類タスクで広く使用されています。シグモイド関数 (ロジスティック関数の一種) は、バイナリ分類モデルの出力を確率に変換するためによく使用されます。ロジスティック回帰は単純ですが、同様のロジスティック関数を使用して確率をモデル化する、ニューラル ネットワークなどのより複雑なモデルの基礎的な手法として機能します。ロジット モデルという用語は、このロジット関数を使用して入力特徴を予測確率にマッピングするモデルを指します。

Grammarly で賢く仕事をする
仕事を持つすべての人のための AI ライティング パートナー

ロジスティック回帰の種類

ロジスティック回帰には、二項回帰、多項回帰、順序回帰の 3 つの主なタイプがあります。

二値ロジスティック回帰

これはバイナリ回帰とも呼ばれ、ロジスティック回帰の標準的かつ最も一般的な形式です。ロジスティック回帰という用語が修飾子なしで使用される場合、通常はこのタイプを指します。 「バイナリ」という名前は、まさに 2 つの結果を考慮するという事実に由来しています。これは、「はい」または「いいえ」の質問に答えるものと考えることができます。二値回帰では、イエスかノー、つまり二値の質問の連鎖として再構成すれば、より複雑な質問を処理できます。

例:相互に排他的な 3 つのオプションの確率を計算することを想像してください。クライアントが解約するか (つまり、製品の使用を中止するか)、サービスの無料バージョンにサインアップするか、有料プレミアム バージョンにサインアップするかです。連鎖二項回帰は、次の一連の質問に答えることで、この問題を解決できる可能性があります。

  • クライアントは解約しますか (はいまたはいいえ)?
  • そうでない場合、クライアントは無料サービスにサインアップしますか (はい、またはいいえ)。
  • そうでない場合、クライアントは有料プレミアム サービスにサインアップしますか (はい、またはいいえ)。

多項ロジスティック回帰

多項回帰としても知られるこの形式のロジスティック回帰は、2 つ以上の潜在的な結果を含む質問に答えることができる二項回帰の拡張です。これにより、より複雑な問題を解決するために質問を連鎖させる必要がなくなります。多項回帰では、計算されるオッズには相互依存性や順序性がなく、考慮されたオプションのセットが考えられるすべての結果をカバーしていると仮定します。

例:多項回帰は、顧客が購入する車にどの色を望む可能性が高いかを、利用可能な色のリストから予測する場合にうまく機能します。ただし、カスタマー サポートの問題の重大度タグとして緑、黄、赤の色を評価するなど、順序が重要なオッズを計算する場合にはうまく機能しません。問題は常に緑から始まり、その後黄色にエスカレーションされる可能性があります。赤(常に緑の後に黄色が続き、常に黄色の後に赤が続きます)。

順序ロジスティック回帰

回帰の比例オッズ モデルとしても知られるこの特殊な形式のロジスティック回帰は、順序値、つまり結果間の相対的な順序が重要な状況向けに設計されています。順序ロジスティック回帰は、結果に自然な順序があるが、カテゴリ間の距離が不明な場合に使用されます。

例:ホテルの宿泊客が自分の滞在を 5 段階のスケール (非常に悪い、悪い、どちらでもない、良い、非常に良い) でランク付けする確率を計算するために使用できます。相対的な順序が重要です。悪いは常に中立よりも悪いものであり、レビューがスケール上でどちらの方向に移動するかに注目することが重要です。順序が重要な場合、順序回帰は、オッズが計算されている値間の関係を定量化できます (たとえば、悪い値が中立値の半分の頻度で現れる傾向があることを検出する可能性があります)。

ロジスティック回帰と線形回帰

ロジスティック回帰と線形回帰は異なりますが、より大きな関連する数学的ツールセットの一部であるため、類似した文脈で現れることがよくあります。ロジスティック回帰は通常、離散的な結果の確率を計算しますが、線形回帰は連続的な結果の期待値を計算します。

たとえば、将来の 1 日の最も可能性の高い気温を予測しようとすると、線形回帰モデルがその作業に適したツールになります。対照的に、ロジスティック回帰モデルは、固定された選択肢リストから 2 つ以上の選択肢のオッズを計算または予測しようとします。ロジスティック回帰モデルは、特定の気温を予測する代わりに、特定の日が暖かい、快適な、または寒い気温の範囲に入る確率を与える可能性があります。

2 つのモデルは別々のユースケースに対応するように構築されているため、予測する値の統計的特性について異なる仮定を立て、異なる統計ツールを使用して実装されています。ロジスティック回帰では通常、ベルヌーイ分布などの離散値に適用される統計分布が想定されますが、線形回帰ではガウス分布が使用される場合があります。ロジスティック回帰が効果的に機能するには、多くの場合、より大きなデータセットが必要ですが、線形回帰は、通常、影響力のある外れ値に対してより敏感です。さらに、ロジスティック回帰では、計算するオッズの構造についての仮定が行われますが、線形回帰では、トレーニング データセット内で誤差がどのように分布するかについての仮定が行われます。

これらのモデル間の違いにより、特定の理想的な使用例でのパフォーマンスが向上します。カテゴリ値を予測する場合はロジスティック回帰がより正確になり、連続値を予測する場合は線形回帰がより正確になります。ただし、この 2 つの手法は、その出力が単純な数学的計算で再利用できるため、しばしば互いに混同されます。ロジスティック回帰モデルの出力は、変換後に線形モデルの出力と同じ種類の問題に適用できるため、2 つの別々のモデルをトレーニングするコストを節約できます。しかし、それはうまくいきません。逆も同様です。

ロジスティック回帰はどのように機能しますか?

教師あり学習アルゴリズムの一種であるロジスティック回帰は、十分に注釈が付けられたデータセットからの学習に依存します。通常、データセットには、それぞれの予想されるモデル出力と一致する特徴表現のリストが含まれています。

ロジスティック回帰をより明確に理解するには、まず次の重要な用語を理解することが重要です。

  • 予測変数:結果のオッズを計算するときにロジスティック モデルによって考慮されるプロパティまたは特徴。たとえば、顧客が製品を購入する可能性を推定するための予測変数には、人口統計データや閲覧履歴が含まれる可能性があります。
  • 特徴表現:予測子変数の特定のインスタンス。たとえば、予測変数が「郵便番号」、「州」、および「所得階層」である場合、1 つの特徴表現は「90210」、「カリフォルニア」、および「75,000+/年」となる可能性があります。
  • リンク関数:予測変数を特定の結果の確率に結び付ける、回帰モデルの中核となる数学関数。関数は次のパターンに従います。

θ = b(μ)

ここで、 θは予測するカテゴリごとのオッズ、 bは特定の関数 (通常はシグモイドと呼ばれる S型の関数)、 μ は(値の連続範囲からの) 予測値を表します。

  • ロジスティック関数:ロジスティック回帰で使用される特定のリンク関数。次のように定義されます。

σ ( x ) =1 / ( 1 +e-x)

出力を 0 と 1 の間の確率に正規化し、予測子変数の比例的な乗算ベースの変化をオッズの一貫した加算的な変化に変換します。

  • ロジット関数:ロジスティック関数の逆関数で、確率値を対数オッズに変換します。これは、予測変数が結果のオッズにどのように関係するかを説明するのに役立ちます。これは、予測変数が結果の確率にどのように関係するかを説明するのに役立ちます。それは次のように定義されます。

ロジット p =σ ( p ) -1 = ln ( p / ( 1 – p ) )

与えられたオッズpに対して、ロジスティック関数の逆関数を実行します。

  • 対数損失:クロスエントロピー損失またはロジスティック損失とも呼ばれ、分類モデルにおける予測確率と実際の結果の差を測定します。バイナリ分類の場合、「バイナリ クロス エントロピー」と呼ばれることがよくあります。

ロジスティック回帰プロセスの中心となるのは、どのリンク関数を使用するかの決定です。バイナリ ロジスティック回帰の場合、それは常にロジスティック関数になります。より複雑な回帰では、他の種類のシグモイド関数が使用されます。最も人気のあるシグモイド関数の 1 つはソフトマックスとして知られており、ML モデルや多項回帰のユースケースで非常に頻繁に使用されます。

トレーニング中に、システムは回帰のパフォーマンスやその適合度を計算する損失関数にも依存します。システムの目的は、予測された結果やオッズと現実世界で起こることとの間の距離を縮めることであると考えることができます (この距離は「サプライズ」と呼ばれることもあります)。ロジスティック回帰の場合、損失関数は非常に一般的な対数損失関数のバリエーションです。

ロジスティック回帰モデルのトレーニングには、勾配降下法、最尤推定、確率的勾配降下法などのさまざまな標準 ML トレーニング アルゴリズムを使用できます。

ML におけるロジスティック回帰の応用

ロジスティック回帰 ML モデルは通常、分類タスク、または部分情報からクラスを予測するために使用されます。ユースケースは、金融、ヘルスケア、疫学、マーケティングなど、多くの領域に及びます。最もよく知られている 2 つのアプリケーションは、電子メールのスパム検出と医療診断です。

電子メールのスパム検出

ロジスティック回帰は、電子メールをスパムかどうか識別するなど、通信を分類するための効果的なツールとなり得ますが、複雑な場合にはより高度な方法が使用されることがよくあります。送信者アドレス、宛先、メッセージのテキスト内容、送信元 IP アドレスなど、電子メールのすべてのプロパティを予測変数としてマークし、特定の電子メールがスパムである確率を考慮することができます。電子メール スパム フィルター ツールは、新しい電子メール メッセージに関するバイナリ ロジスティック モデルを迅速にトレーニングおよび更新し、新しいスパム戦略を迅速に検出して対応します。

より高度なバージョンのスパム フィルターでは、電子メールを前処理して、スパムとして識別しやすくします。たとえば、スクリプトでは、電子メール内の送信者の IP アドレスに対してスパムとしてマークされた電子メールの割合を追加でき、回帰ではその情報を考慮できます。

医学的診断

ロジスティック回帰モデルは、糖尿病や乳がんなどの病状の診断を支援するために一般的に使用されます。彼らは医師や医学研究者が行った分析から学び、それに基づいて分析を行っています。

がんの検出など、画像を多用する診断の場合、医療研究者や専門家は、さまざまな検査、画像処理、スキャンからデータセットを構築します。このデータは処理され、テキスト評価のリストに変換されます。画像は、ピクセル密度、ピクセルのさまざまなクラスターの数と平均半径などの詳細について分析される場合があります。これらの測定値は、他のテストと評価の結果を含む予測変数のリストに含まれます。ロジスティック回帰システムはそれらから学習し、患者が癌と診断される可能性が高いかどうかを予測します。

ロジスティック回帰システムは、医療診断を高精度で予測するだけでなく、どの検査結果がその評価に最も関連しているかを示すこともできます。この情報は、新しい患者の検査に優先順位を付け、診断プロセスを迅速化するのに役立ちます。

ML におけるロジスティック回帰の利点

ロジスティック回帰は、特に結果を比較的迅速に生成する必要がある場合やデータの洞察が重要な場合に、その単純さと解釈のしやすさで好まれることがよくあります。

迅速で実用的な結果が得られます

実用的な観点から見ると、ロジスティック回帰は実装が簡単で、解釈も簡単です。データが仮定や期待と完全に一致しない場合でも、信頼性の高いパフォーマンスを発揮し、貴重な洞察を提供します。基礎となる数学モデルは効率的で、最適化が比較的簡単であるため、ロジスティック回帰は多くのアプリケーションにとって堅牢で実用的な選択肢となります。

データのプロパティに関する有益な洞察

理論的には、ロジスティック回帰はバイナリ分類タスクに優れており、一般に新しいデータの分類が非常に高速です。これは、どの変数が関心のある結果に関連しているかを特定するのに役立ち、さらなるデータ分析がどこに焦点を当てるべきかについての洞察を提供します。ロジスティック回帰は、多くの場合、単純な使用例で高い精度を実現します。特定のデータセットの精度が低下した場合でも、変数の相対的な重要性とその影響の方向 (プラスまたはマイナス) について有意義な洞察が得られます。

ML におけるロジスティック回帰の欠点

ロジスティック回帰は、分析するデータについての仮定を作成し、その有用性を制限する代わりに、基礎となるアルゴリズムをより高速かつ理解しやすくするのに役立ちます。これらは、連続的な結果や非線形関係のモデル化には使用できず、モデルとの関係が複雑すぎる場合は失敗する可能性があり、分析するデータが多すぎる場合はオーバーフィットしてしまいます。

離散的な結果に限定される

ロジスティック回帰は、離散的な結果を予測する場合にのみ使用できます。問題で継続的な予測が必要な場合は、線形回帰などの手法がより適しています。

線形関係を仮定する

このモデルは、予測変数と推定オッズの間に線形関係があることを前提としていますが、現実世界のデータではこのようなことはほとんどありません。多くの場合、精度を向上させるために追加の前処理と調整が必要になります。さらに、ロジスティック回帰では、分類の決定が単純な線形関数を使用して行われることを前提としていますが、これは現実世界のシナリオの複雑さを反映していない可能性があります。その結果、ロジスティック回帰は近似値となることが多く、関連性を維持するには定期的な最適化と更新が必要になる場合があります。

複雑な関係をモデル化できない可能性がある

一連の予測子変数が計算されたオッズと線形関係を持たない場合、または予測子変数が互いに十分に独立していない場合、ロジスティック回帰は完全に機能しないか、線形関係のサブセットのみが検出される可能性があります。システムに線形特性と他のより複雑な特性の両方が混在している場合。

大規模なデータセットをオーバーフィットする

大規模で複雑なデータセットの場合、ロジスティック回帰は過学習になる傾向があります。過学習では、モデルがトレーニングされた特定のデータと密接に一致しすぎて、一般的なパターンではなくノイズや細かい詳細が捕捉されます。これにより、新しい未確認データのパフォーマンスが低下する可能性があります。正則化などの手法は過学習を軽減するのに役立ちますが、複雑なデータにロジスティック回帰を適用する場合は慎重な考慮が必要です。