機械学習における回帰: その正体と仕組み
公開: 2024-11-13機械学習 (ML) における回帰は、入力特徴に基づいて連続値を予測するために使用される基本的な概念です。住宅価格の推定でも、売上の予測でも、回帰モデルは変数間の関係を確立します。この記事では、さまざまな種類の回帰モデル、その背後にあるアルゴリズム、および各方法が最適に適用されるタイミングについて詳しく説明します。また、回帰がどのように機能するか、その実際の使用例、機械学習での回帰の使用に関連する利点と課題についても説明します。
目次
- 回帰とは何ですか?
- 回帰モデルの種類
- 回帰に使用されるアルゴリズム
- 回帰の例
- 回帰の利点
- 回帰の課題
機械学習における回帰とは何ですか?
回帰は、入力データに基づいて連続値を予測するために使用される教師あり学習の一種です。変数間の関係を推定して、住宅価格、株式市場の動向、気象条件など、さまざまなことを予測および説明します。回帰モデルは入力特徴を連続ターゲット変数にマッピングし、正確な数値予測を可能にします。
たとえば、過去 1 週間の気象データを使用して、回帰モデルで明日の降雨量を予測できます。予測される値は連続的です。つまり、小数点まで測定された気温や今後数か月間予測される売上収益など、数値スケールのどこにでも収まる可能性があります。
回帰と分類: 違いは何ですか?
回帰は連続的な結果を予測しますが、分類は離散的なカテゴリまたはクラスの予測に焦点を当てます。たとえば、回帰モデルは明日の降水量の正確な量を予測する場合がありますが、分類モデルは雨が降るかどうか (「はい」または「いいえ」) を予測する場合があります。主な違いは、回帰では数値が扱われるのに対し、分類ではデータが事前定義されたカテゴリに割り当てられることです。
場合によっては、回帰モデルの出力を分類タスクに適用したり、その逆も可能ですが、通常、2 つのアプローチはさまざまな種類の問題に適しています。
回帰: アルゴリズム、モデル、それとも分析?
回帰は、回帰分析と呼ばれることもあります。これは、観察と結果の間の継続的な関係の検索を説明するために使用される広範な統計用語です。回帰アルゴリズムは、これらの関係を特定するために設計された特定の数学的ツールです。アルゴリズムを使用して機械学習モデルをトレーニングした場合、その結果は回帰モデルと呼ばれます。
これら 3 つの用語 (回帰分析、回帰アルゴリズム、回帰モデル) は、多くの場合同じ意味で使用されますが、それぞれ回帰プロセスの異なる側面を表します。
機械学習における回帰の種類
回帰モデルにはさまざまな形式があり、それぞれが入力データと予測される結果の間のさまざまな関係を処理するように設計されています。線形回帰は最も頻繁に使用され、比較的理解しやすいものですが、より複雑なタスクや特殊なタスクには、多項式回帰、ロジスティック回帰、ベイズ回帰などの他のモデルの方が適しています。以下に、回帰モデルの主な種類と、それらが通常使用される場合を示します。
単純回帰および多重 (線形) 回帰
線形回帰は、一般的な回帰手法であり、その解釈の容易さ、迅速なトレーニング、およびさまざまなアプリケーションにわたる信頼性の高いパフォーマンスで知られています。直線を使用して説明変数と目的変数の間の関係を推定します。単純線形回帰には 1 つの説明変数が含まれますが、多重線形回帰には 2 つ以上の説明変数が含まれます。一般に、回帰分析について議論するときは、線形回帰を意味します。
多項式回帰
直線では観測変数と期待される結果の間の関係を十分に説明できない場合は、多項式回帰モデルの方が良い選択肢になる可能性があります。このモデルは、連続的で複雑な関係を探索し、曲線または曲線と直線の組み合わせを使用して最もよく説明されるパターンを特定できます。
ロジスティック回帰
観測値と予測値の間の関係が連続的 (または離散的) ではない場合、ロジスティック回帰がこのジョブの最も一般的なツールです。この文脈での離散とは、分数や実数がそれほど重要ではない状況を意味します (たとえば、コーヒー ショップに入る客の数を予測する場合、ロジスティック回帰では、4.35 のような解釈が難しいものではなく、4 または 5 という答えが得られます)。
ロジスティック回帰の最もよく知られた形式は二項回帰です。これは二項 (つまり、はい/いいえ) の質問に対する答えを予測します。通常、ロジスティック回帰は 2 値です。多項回帰などのより複雑なバリエーションでは、2 つ以上の選択肢がある質問の答えを予測します。ロジスティック モデルの中核は、連続入力を離散入力に変換するためのいくつかの関数の 1 つを選択することに依存しています。
ベイジアン回帰
線形回帰手法やその他の回帰手法では、正確な予測を行うために大量のトレーニング データが必要です。対照的に、ベイジアン回帰は、データの統計的特性の一部が既知であるか、推定できる場合に限り、より少ないデータで信頼性の高い予測を行うことができる高度な統計アルゴリズムです。たとえば、ホリデー シーズン中の新製品の売上を予測することは、新製品の売上データが不足しているため、線形回帰では困難になる可能性があります。ベイジアン回帰では、新製品の売上が他の類似製品の売上と同じ統計分布に従うと仮定することで、より高い精度で売上データを予測できます。通常、ベイジアン回帰ではデータがガウス統計分布に従うと想定されているため、ベイジアン回帰とガウス回帰という用語が互換的に使用されます。
混合効果回帰
回帰では、観測データと予測データの間に非ランダムな関係があることを前提としています。場合によっては、観察されたデータの複雑な相互依存性や時折のランダムな動作により、この関係を定義することが困難になることがあります。混合効果モデルは、モデル化が困難なランダム データやその他の動作を処理するメカニズムを含む回帰モデルです。これらのモデルは、混合モデル、混合効果モデル、または混合エラー モデルとも同じ意味で呼ばれます。
他の回帰アルゴリズム
回帰は非常によく研究されています。他にも、二項、多項、および高度な混合効果技術を使用するものや、複数のアルゴリズムを組み合わせたものなど、より複雑または特殊な回帰アルゴリズムが多数あります。結合された複数のアルゴリズムは、複数の連続層などで連続した順序で編成することも、並行して実行してから何らかの方法で集約することもできます。複数のモデルを並行して実行するシステムは、多くの場合フォレストと呼ばれます。
回帰分析に使用されるアルゴリズム
機械学習では、回帰モデルを生成するために多くの種類の回帰アルゴリズムが使用されます。一部のアルゴリズムは、特定のタイプのモデルを構築するように設計されています (この場合、アルゴリズムとモデルは同じ名前を共有することがよくあります)。精度や効率の向上など、既存のモデルの側面を改善することに焦点を当てている人もいます。以下では、より一般的に使用されるアルゴリズムのいくつかについて説明します。ただし、その前に、それらがどのように評価されるかを理解することが重要です。一般に、評価は分散と偏りという 2 つの重要なプロパティに基づいています。
- 分散は、異なるデータセットでトレーニングしたときにモデルの予測がどの程度変動するかを測定します。分散が大きいモデルは、トレーニング データに非常に厳密に適合する可能性がありますが、新しい未確認のデータではパフォーマンスが低下する可能性があり、これは過剰適合として知られる現象です。理想的には、回帰アルゴリズムは分散が低いモデルを生成する必要があります。これは、回帰アルゴリズムが新しいデータによく一般化し、トレーニング セットの変化に過度に敏感ではないことを意味します。
- バイアスとは、複雑すぎる可能性がある現実の問題を単純化されたモデルで近似することによって生じる誤差を指します。バイアスが高いと、モデルがデータ内の重要なパターンを捕捉できず、不正確な予測につながるアンダーフィッティングが発生する可能性があります。理想的には、バイアスは低く、モデルが過度に単純化することなくデータ内の関係を効果的に捉えていることを示している必要があります。場合によっては、トレーニング データを改善するか、回帰アルゴリズムのパラメーターを調整することによってバイアスを軽減できます。
単純回帰および多重 (線形) 回帰
単純線形回帰は、単一の説明変数と予測結果の間の関係を分析するもので、回帰の最も単純な形式となります。多重線形回帰はより複雑で、2 つ以上の変数と 1 つの結果の間の関係を見つけます。どちらも、一般にこのパターンに適合する線形方程式に基づいて、線形構造を持つ関係を見つけます。
y =β + β1x + ε
ここで、y は予測する結果、 x は予測する変数、 εは最小化を試みる誤差、 βとβ1 は回帰が計算する値です。
線形回帰では、教師あり学習プロセスを使用して、説明変数と予測結果の間の関連性を構築します。学習プロセスではトレーニング データを繰り返し検査し、データを反復するたびに基礎となる線形方程式のパラメーターを改善します。パラメーターのパフォーマンスを評価する最も一般的な方法には、テストまたはトレーニングで使用されるすべての利用可能なデータの平均誤差値を計算することが含まれます。誤差計算方法の例には、平均二乗誤差(予測と実際の結果の間の二乗距離の平均)、平均絶対誤差、および残差二乗和(平均ではなく合計誤差) などのより複雑な方法が含まれます。
多項式回帰
多項式回帰は、線形回帰よりも複雑な問題を処理し、通常は高度な行列演算を使用して線形方程式系を解く必要があります。直線で表現できる関係だけでなく、曲線のデータからも関係を見つけることができます。正しく適用すると、線形回帰が失敗する問題の分散が減少します。また、高度な数学的概念と演算に依存するため、理解、実装、最適化がより困難になります。
多項式回帰では、次のパターンに従う多項式形状の方程式を使用して、yと複数のxを関連付ける方程式を解こうとします。
y =β + β1x + β2x2+ … + ε
多項式回帰アルゴリズムは、使用する理想的なβ値と多項式の形状 ( yと各xの間の関係を定義するにはxの指数がいくつ必要になるか) の両方を探します。
なげなわ回帰
ラッソ回帰 (最小絶対収縮および選択演算子の略) は、ラッソ回帰、L1およびL1ノルム回帰とも呼ばれ、過学習を軽減し、モデルの精度を向上させるために使用される手法です。これは、モデル係数の絶対値にペナルティを適用し、一部の係数を効果的にゼロに縮小または削減することによって機能します。これにより、無関係な特徴が除外されたより単純なモデルが得られます。なげなわアルゴリズムは、モデルの複雑さを制御することで過剰適合を防止し、精度をあまり犠牲にすることなくモデルをより解釈しやすくします。
Lasso は、説明変数が相関している場合に特に役立ちます。たとえば、天気予報では、温度と湿度に相関関係があり、過剰適合につながる可能性があります。 Lasso はそのような相関関係の影響を軽減し、より堅牢なモデルを作成します。
リッジ回帰
リッジ回帰 ( L2、 L2ノルム、またはチホノフ正則化とも呼ばれる) は、特に多重共線性 (説明変数間の相関) が存在する場合に、過学習を防ぐもう 1 つの手法です。係数をゼロに縮小できるなげなわとは異なり、リッジ回帰では、モデル係数の 2 乗に比例するペナルティが追加されます。目標は、変数を完全に削除することなく、係数を微調整することです。
回帰のユースケースの例
回帰モデルは、過去のデータに基づいて予測を行うために、さまざまな業界で広く使用されています。これらのモデルは、パターンと変数間の関係を特定することにより、意思決定のための貴重な洞察を提供できます。以下に、回帰が適用される分野のよく知られた 3 つの例を示します。
天気の分析と予測
回帰分析により、来週の各日の予想気温や降水量などの気象パターンを予測できます。多くの場合、湿度、風速、気圧、雲量などの過去の気象データに基づいて、いくつかの異なる回帰アルゴリズムがトレーニングされます。これらの変数の時間ごとまたは毎日の測定は、モデルが学習するための特徴として機能し、アルゴリズムは時間の経過に伴う温度変化を予測する役割を果たします。気象パターンを予測するために複数の回帰アルゴリズム (アンサンブル) を並行して使用する場合、それらの予測は通常、加重平均などの平均化形式を通じて結合されます。
売上と収益の予測
ビジネスの文脈では、収益やその他の主要なパフォーマンス指標を予測するために回帰モデルがよく使用されます。重回帰モデルには、マーケティング キャンペーンの指標、顧客からのフィードバック、マクロ経済動向など、販売量に影響を与える変数が組み込まれる場合があります。次に、モデルには、将来の指定された期間の売上と収益を予測することが求められます。新しいデータが利用可能になると、モデルが再トレーニングまたは更新されて、最新の観測に基づいて予測が改良される場合があります。
医療成果の予測
回帰モデルは、健康上の結果を予測する上で数多くの用途があります。たとえば、ベイジアン モデルは、過去の患者データから学習することによって発生率比を推定するために使用される場合があります。これらのモデルは、「薬の投与量を調整すると何が起こる可能性がありますか?」などの質問に答えるのに役立ちます。線形回帰を使用して、ライフスタイルの調整に基づいて患者の健康状態の変化を予測するなど、危険因子を特定できます。診断に一般的に使用されるロジスティック回帰は、患者の病歴およびその他の関連変数に基づいて疾患の存在のオッズ比を計算します。
回帰の利点
回帰アルゴリズムとモデル、特に線形回帰は、多くの機械学習システムの基本コンポーネントです。これらは次の利点があるため、広く使用されています。
- 彼らは速いかもしれない。回帰手法は、複数の変数 (特徴) とターゲット値の間の関係を迅速に確立できるため、探索的なデータ分析に役立ち、機械学習モデルのトレーニングを高速化します。
- 多用途です。線形回帰、多項式回帰、ロジスティック回帰などの多くの回帰モデルはよく研究されており、予測から分類タスクに至るまで、現実世界の幅広い問題の解決に適用できます。
- 実装は簡単です。たとえば、線形回帰モデルは複雑な数学的または工学的手法を必要とせずに実装できるため、さまざまなスキル レベルのデータ サイエンティストやエンジニアが利用できるようになります。
- それらは理解しやすいです。回帰モデル、特に線形回帰は、多くの場合、変数間の関係と、予測結果に対するそれらの影響が明らかな、解釈可能な出力を提供します。これにより、データの傾向やパターンを特定し、より詳細な分析に情報を提供するのに役立ちます。場合によっては、回帰モデルは、ユースケースに応じて、より高い精度を得るために解釈可能性を犠牲にすることがあります。
回帰における課題
回帰モデルには多くの利点がありますが、独自の課題も伴います。多くの場合、これらの課題は、特に複雑な問題や限られたデータを扱う場合、パフォーマンスや汎用性の低下に反映されます。以下は、回帰分析で直面する最も一般的な問題の一部です。
- 過学習:モデルはバイアスと分散のバランスを取るのに苦労することがよくあります。モデルが複雑すぎる場合は、過去のデータに非常によく適合できますが (分散は減少します)、新しいデータにさらされるとバイアスがかかります。これは多くの場合、モデルが一般化された抽象化を学習するのではなく、トレーニング データを記憶することが原因です。
- アンダーフィッティング:当面の問題に対してモデルが単純すぎると、高いバイアスが発生する可能性があります。トレーニング データと目に見えないデータの両方で高いエラー率が示され、基礎となるパターンが学習されていないことがわかります。高いバイアスを修正するために過度に調整すると、モデルがデータの複雑さを捉えることができなくなるアンダーフィッティングにつながる可能性があります。
- 複雑なトレーニング データ:回帰モデルは通常、トレーニングに使用される観測値が独立していることを前提としています。データに複雑な関係や固有のランダム性が含まれている場合、モデルは正確で信頼性の高い予測を構築するのに苦労する可能性があります。
- 不完全なデータまたは欠落したデータ:教師あり回帰アルゴリズムでは、パターンを学習して例外的なケースを考慮するために大量のデータが必要です。欠落しているデータまたは不完全なデータを扱う場合、特に広範なデータ範囲を必要とする複雑な関係を学習する場合、モデルのパフォーマンスが低下する可能性があります。
- 予測変数の選択:回帰モデルは人間に依存して適切な予測変数 (特徴) を選択します。無関係な変数が多すぎると、モデルのパフォーマンスが低下する可能性があります。逆に、選択した変数が少なすぎる場合、または間違った変数を選択した場合、モデルは問題を正確に解決できなかったり、信頼性の高い予測を行えなかったりする可能性があります。