強化學習：它是什麼以及它是如何運作的

已發表: 2024-07-17

在迷人的人工智慧世界中，強化學習作為一種強大的技術脫穎而出，它使機器能夠透過反覆試驗來學習最佳行為，就像人類和動物在現實世界中獲得技能一樣。

什麼是強化學習？
強化學習與監督學習與無監督學習
強化學習如何運作
強化學習的類型
強化學習的應用
強化學習的優點
強化學習的缺點

什麼是強化學習（RL）？

強化學習 (RL) 是機器學習 (ML) 的一種，其中代理人透過與其環境互動來學習做出決策。在這種情況下，代理是一個程序，它決定要採取的行動，接收獎勵或懲罰形式的回饋，並調整其行為以最大化累積獎勵。

機器學習是人工智慧 (AI) 的一個子集，它使用數據和統計方法來建立模仿人類推理的程序，而不是依賴硬編碼指令。強化學習的直接靈感來自於人們如何透過反覆試驗來優化決策。

使用 Grammarly 更聰明地工作

任何有工作要做的人的人工智慧寫作夥伴

強化與監督與無監督學習

在監督式學習中，使用標記資料來訓練模型，其中為每個輸入提供正確的輸出。此指南可協助模型在面對新的、未見過的資料時做出準確的預測。監督學習對於垃圾郵件偵測、影像分類和天氣預報等任務非常有用。

另一方面，無監督學習使用未標記的資料來尋找模式和分組。 它可以對相似的資料點進行聚類，尋找項目之間的關聯，並降低資料複雜性以便於處理。例如客戶細分、推薦系統和異常檢測。

強化學習與兩者不同。在強化學習中，智能體透過與其環境互動並接收正面或負面的回饋來學習。這種反饋循環使代理能夠調整其行為以實現最佳結果。強化學習對於代理需要學習一系列決策的任務特別有用，例如玩遊戲、機器人和自動駕駛。

強化學習如何運作

理解強化學習的原理對於掌握智能體如何學習和決策至關重要。下面，我們將詳細探討關鍵概念和強化學習過程。

強化學習中的關鍵概念

強化學習有一個獨特的詞彙表，不適用於其他類型的機器學習。要理解的主要概念是：

1代理與環境：代理是決策電腦程序，而環境則包含代理與之互動的一切。這包括所有可能的狀態和操作，包括代理先前做出的決定。智能體與環境之間的互動是學習過程的核心。

2狀態和動作：狀態代表智能體在任何給定時刻的當前情況，動作是智能體針對其狀態可以做出的決定。智能體的目標是選擇能夠導致最有利狀態的行動。

3獎勵和懲罰：在採取行動後，智能體會收到來自環境的回饋：如果是正面的，則稱為獎勵，如果是負面的，則稱為懲罰。這種回饋可以幫助智能體了解哪些行為是有益的，哪些行為應該避免，從而引導其未來的決策。

4策略：策略是代理決定在每個狀態下採取哪些動作的策略。它將狀態映射到行動，作為代理根據過去的經驗實現最佳結果的指南。

5價值函數：價值函數估計處於某種狀態或採取某種行動的長期利益。它可以幫助智能體了解潛在的未來獎勵，即使這意味著忍受短期的負獎勵以最大化長期收益。價值函數對於制定隨時間優化累積獎勵的決策至關重要。

強化學習過程

雖然目的和學習方法與其他類型的機器學習有很大不同，但在準備資料、選擇參數、評估和迭代方面的過程是相似的。

以下是 RL 流程的簡要概述：

1問題定義和目標設定。明確定義問題並確定代理的目的和目標，包括獎勵結構。這將幫助您決定需要什麼數據以及選擇什麼演算法。

2資料收集和初始化。收集初始資料、定義環境並設定 RL 實驗所需的參數。

3預處理和特徵工程。清理資料：抽查、刪除重複、確保擁有正確的特徵標籤，並決定如何處理缺失值。在許多情況下，您需要建立新功能來闡明環境的重要方面，例如從多個感測器輸入建立單一定位資料點。

4演算法選擇。根據問題和環境，選擇適當的 RL 演算法並配置核心設定（稱為超參數）。例如，您需要建立探索（嘗試新路徑）與利用（遵循已知路徑）的平衡。

5培訓。透過允許代理與環境互動、採取行動、接收獎勵並更新其策略來訓練代理。調整超參數並重複此過程。繼續監控和調整探索與利用的權衡，以確保智能體有效學習。

6評估。使用指標評估代理的效能，並觀察其在適用場景中的效能，以確保其滿足定義的目的和目標。

7模型調整和最佳化。調整超參數、細化演算法並重新訓練代理程式以進一步提高效能。

8部署和監控。一旦您對代理的效能感到滿意，就可以在現實環境中部署經過訓練的代理程式。持續監控其績效並實施回饋循環以進行持續學習和改進。

9維護和更新。雖然持續學習非常有用，但有時您可能需要從初始條件重新訓練才能充分利用新資料和技術。定期更新代理商的知識庫，使用新資料重新訓練，並確保其適應環境或目標的變化。

強化學習的類型

強化學習大致可以分為三種：無模型、基於模型和混合。每種類型都有其特定的用例和方法。

無模型強化學習

透過無模型強化學習，智能體可以直接從與環境的互動中學習。它不會嘗試理解或預測環境，而只是嘗試在所呈現的情況下最大化其性能。無模型強化學習的一個例子是 Roomba 機器人吸塵器：隨著它的移動，它會了解障礙物在哪裡，並逐漸減少撞到障礙物的次數，同時清潔更多的東西。

例子：

基於價值的方法。最常見的是 Q 學習，其中 Q 值表示在給定狀態下採取給定操作的預期未來獎勵。此方法最適合具有離散選擇的情況，也就是說，選項有限且已定義，例如在十字路口轉向哪個方向。您可以手動分配 Q 值，使用零或低值來避免偏差，隨機化值以鼓勵探索，或使用統一的高值來確保徹底的初始探索。每次迭代時，代理都會更新這些 Q 值以反映更好的策略。基於價值的學習很受歡迎，因為它實施起來很簡單，並且在離散的行動空間中效果很好，儘管它可能會遇到太多的變數。
策略梯度方法：與試圖估計每個狀態下動作的價值的 Q 學習不同，策略梯度方法直接專注於改進代理用於選擇動作的策略（或政策）。這些方法不是估計價值，而是調整策略以最大化預期獎勵。策略梯度方法在操作可以是任何值的情況下非常有用（按照上面的類比，這可能是在田野中向任何方向行走）或很難確定不同操作的值的情況。他們可以處理更複雜的決策和連續的選擇，但通常需要更多的運算能力才能有效運作。

基於模型的強化學習

基於模型的強化學習涉及創建環境模型來規劃行動和預測未來狀態。這些模型透過預測動作影響環境狀態的可能性以及由此產生的獎勵或懲罰來捕捉動作和狀態變化之間的相互作用。這種方法可以更有效，因為代理可以在行動之前在內部模擬不同的策略。自動駕駛汽車使用這種方法來了解如何回應交通特徵和各種物體。 Roomba 的無模型技術不足以完成如此複雜的任務。

例子：

Dyna-Q： Dyna-Q 是一種混合強化學習演算法，將 Q 學習與規劃結合。代理根據與環境的真實交互作用以及模型生成的模擬體驗來更新其 Q 值。當現實世界的互動成本高或耗時時，Dyna-Q 特別有用。
蒙特卡羅樹搜尋（MCTS）： MCTS 模擬許多可能的未來動作和狀態來建立搜尋樹來表示每個選擇之後的決策。代理商使用這棵樹透過估計不同路徑的潛在獎勵來決定最佳行動。 MCTS擅長結構清晰的決策場景，例如西洋棋等桌遊，可以處理複雜的策略規劃。

當可以對環境進行準確建模並且模擬可以提供有價值的見解時，基於模型的方法是合適的。與無模型方法相比，它們需要更少的樣本，但這些樣本必須準確，這意味著它們可能需要更多的計算工作來開發。

混合式強化學習

混合式強化學習結合了各種方法來發揮各自的優勢。該技術可以幫助平衡樣本效率和計算複雜性之間的權衡。

例子：

引導策略搜尋（GPS）： GPS 是一種在監督學習和強化學習之間交替的混合技術。它使用監督學習根據基於模型的控制器產生的資料來訓練策略。然後使用強化學習來完善策略，以處理模型不太準確的狀態空間部分。這種方法有助於將知識從基於模型的規劃轉移到直接政策學習。
整合架構：一些架構將各種基於模型和無模型的元件整合在一個框架中，適應複雜環境的不同方面，而不是在所有事情上都採用一種方法。例如，代理可能會使用基於模型的方法進行長期規劃，並使用無模型的方法進行短期決策。
世界模型：世界模型是一種代理構建環境的緊湊和抽象表示的方法，用於模擬未來狀態。代理使用無模型方法來學習內部模擬環境中的策略。這項技術減少了對現實世界互動的需求。

強化學習的應用

強化學習在各領域都有廣泛的應用：

玩遊戲：強化學習演算法在國際象棋和視頻遊戲等情況下已經實現了超人的性能。一個著名的例子是 AlphaGo，它透過混合使用深度神經網路和蒙特卡羅樹搜尋來玩棋盤遊戲圍棋。這些成功證明了強化學習發展複雜策略和適應動態環境的能力。
機器人技術：在機器人技術中，強化學習有助於訓練機器人執行抓取物件和穿越障礙物等任務。試誤學習過程使機器人能夠適應現實世界的不確定性，並隨著時間的推移提高其性能，超越不靈活的基於規則的方法。
醫療保健：透過回應患者特定數據，RL 可以優化治療計劃、管理臨床試驗和個人化醫療。強化學習也可以透過不斷地從患者資料中學習來提出介入措施，從而最大限度地提高患者的治療效果。
金融：基於模型的強化學習非常適合金融領域各個部分的明確參數和複雜動態，尤其是那些與高度動態市場互動的部分。它在這裡的用途包括投資組合管理、風險評估和適應新市場條件的交易策略。
自動駕駛汽車：自動駕駛汽車使用強化學習訓練的模型來回應障礙物、道路狀況和動態交通模式。他們立即應用這些模型來適應當前的駕駛條件，同時也將數據回饋到集中的持續訓練過程中。來自環境的持續回饋有助於這些車輛隨著時間的推移提高其安全性和效率。

強化學習的優點

自適應學習：強化學習智能體不斷學習並適應與環境的互動。 動態學習使強化學習特別適合動態和不可預測的環境。
多功能性：強化學習適用於解決一系列涉及一系列決策的問題，其中一個決策會影響下一個決策的環境，從遊戲到機器人再到醫療保健。
最優決策：強化學習專注於最大化長期獎勵，確保強化學習代理人制定針對隨著時間的推移獲得最佳結果而最佳化的策略，而不僅僅是下一個決策。
複雜任務的自動化：強化學習可以自動執行難以硬編碼的任務，例如動態資源分配、電網管理等複雜控制系統以及精確的個人化建議。

強化學習的缺點

數據和計算要求：強化學習通常需要大量數據和處理能力，而這兩者都可能非常昂貴。
訓練時間長：當訓練過程涉及與現實世界互動而不僅僅是與模型互動時，訓練 RL 代理可能需要數週甚至數月的時間。
複雜性：設計和調整強化學習系統需要仔細考慮獎勵結構、策略表示和探索-利用平衡。這些決定必須經過深思熟慮，以避免花費太多時間或資源。
安全性和可靠性：對於醫療保健和自動駕駛等關鍵應用，意外行為和次優決策可能會產生嚴重後果。
低解釋性：在某些強化學習過程中，尤其是在複雜的環境中，很難或不可能準確地知道智能體是如何做出決策的。
樣本效率低：許多強化學習演算法需要與環境進行大量互動才能學習有效的策略。這可能會限制它們在現實世界互動成本高或有限的場景中的有用性。