通過 Q-learning 深入理解強化學習

摘要：本文將帶你學習經典強化學習算法Q-learning的相關知識。在這篇文章中，你將學到：（1）Q-learning的概念解釋和算法詳解；（2）通過Numpy實現Q-learning。故事案例：騎士和公主

本文將帶你學習經典強化學習算法 Q-learning 的相關知識。在這篇文章中，你將學到：（1）Q-learning 的概念解釋和算法詳解；（2）通過 Numpy 實現 Q-learning。

故事案例：騎士和公主

假設你是一名騎士，並且你需要拯救上面的地圖裡被困在城堡中的公主。

你每次可以移動一個方塊的距離。敵人是不能移動的，但是如果你和敵人落在了同一個方塊中，你就會死。你的目標是以盡可能快的路線走到城堡去。這可以使用一個「按步積分」系統來評估。

那麼問題來了：如何才能夠創建這樣的智能體呢？

下面我將介紹第一個策略。假設智能體試圖走遍每一個方塊，並且將其著色。綠色代表「安全」，紅色代表「不安全」。

同樣的地圖，但是被著色了，用於顯示哪些方塊是可以被安全訪問的。

接著，我們告訴智能體只能選擇綠色的方塊。

但問題是，這種策略並不是十分有用。當綠色的方塊彼此相鄰時，我們不知道選擇哪個方塊是最好的。所以，智能體可能會在尋找城堡的過程中陷入無限的循環。

Q-Table 簡介

下面我將介紹第二種策略：創建一個表格。通過它，我們可以為每一個狀態（state）上進行的每一個動作（action）計算出最大的未來獎勵（reward）的期望。

得益於這個表格，我們可以知道為每一個狀態採取的最佳動作。

每個狀態（方塊）允許四種可能的操作：左移、右移、上移、下移。

「0」代表不可能的移動（如果你在左上角，你不可能向左移動或者向上移動！）

在計算過程中，我們可以將這個網格轉換成一個表。

這種表格被稱為 Q-table（「Q」代表動作的「質量」）。每一列將代表四個操作（左、右、上、下），行代表狀態。每個單元格的值代表給定狀態和相應動作的最大未來獎勵期望。

每個 Q-table 的分數將代表在給定最佳策略的狀態下採取相應動作獲得的最大未來獎勵期望。

為什麼我們說「給定的策略」呢？這是因為我們並不實現這些策略。相反，我們只需要改進 Q-table 就可以一直選擇最佳的動作。

將這個 Q-table 想像成一個「備忘紙條」遊戲。得益於此，我們通過尋找每一行中最高的分數，可以知道對於每一個狀態（Q-table 中的每一行）來說，可採取的最佳動作是什麼。

太棒了！我解決了這個城堡問題！但是，請等一下… 我們如何計算 Q-table 中每個元素的值呢？

為了學習到 Q-table 中的每個值，我們將使用 Q-learning 算法。

Q-learning 算法：學習動作值函數（action value function）

動作值函數（或稱「Q 函數」）有兩個輸入：「狀態」和「動作」。它將返回在該狀態下執行該動作的未來獎勵期望。

我們可以把 Q 函數視為一個在 Q-table 上滾動的讀取器，用於尋找與當前狀態關聯的行以及與動作關聯的列。它會從相匹配的單元格中返回 Q 值。這就是未來獎勵的期望。

在我們探索環境（environment）之前，Q-table 會給出相同的任意的設定值（大多數情況下是 0）。隨著對環境的持續探索，這個 Q-table 會通過迭代地使用 Bellman 方程（動態規劃方程）更新 Q(s,a) 來給出越來越好的近似。

Q-learning 算法流程

Q-learning 算法的偽代碼

步驟 1：初始化 Q 值。我們構造了一個 m 列（m = 動作數 )，n 行（n = 狀態數）的 Q-table，並將其中的值初始化為 0。

步驟 2：在整個生命週期中（或者直到訓練被中止前），步驟 3 到步驟 5 會一直被重複，直到達到了最大的訓練次數（由用戶指定）或者手動中止訓練。

步驟 3：選取一個動作。在基於當前的 Q 值估計得出的狀態 s 下選擇一個動作 a。

但是……如果每個 Q 值都等於零，我們一開始該選擇什麼動作呢？在這裡，我們就可以看到探索/利用（exploration/exploitation）的權衡有多重要了。

思路就是，在一開始，我們將使用 epsilon 貪婪策略：

我們指定一個探索速率「epsilon」，一開始將它設定為 1。這個就是我們將隨機採用的步長。在一開始，這個速率應該處於最大值，因為我們不知道 Q-table 中任何的值。這意味著，我們需要通過隨機選擇動作進行大量的探索。
生成一個隨機數。如果這個數大於 epsilon，那麼我們將會進行「利用」（這意味著我們在每一步利用已經知道的信息選擇動作）。否則，我們將繼續進行探索。
在剛開始訓練 Q 函數時，我們必須有一個大的 epsilon。隨著智能體對估算出的 Q 值更有把握，我們將逐漸減小 epsilon。