酷播亮新聞
最棒的知識補給站

讓AI掌握星際爭霸微操:中科院提出強化學習+課程遷移學習方法

摘要:在圍棋之後,即時戰略遊戲星際爭霸是人工智能研究者們的下一個重要目標。 近日,中科院自動化所提出了一種強化學習+課程遷移學習方法,讓
AI智能體在組隊作戰的條件下掌握了微操作的能力,該研究或許可以讓多智能

在圍棋之後,即時戰略遊戲星際爭霸是人工智能研究者們的下一個重要目標。 近日,中科院自動化所提出了一種強化學習+課程遷移學習方法,讓
  AI 智能體在組隊作戰的條件下掌握了微操作的能力,該研究或許可以讓多智能體 AI 方向的發展向前推進一步。 該論文已被學術期刊 IEEE
Transactions on Emerging Topics in Computational Intelligence 收錄。

該研究的代碼和結果已公開:https://github.com/nanxintin/StarCraft-AI

人工智能(AI)在過去的十年中已經有了巨大的進展。 作為
  AI 研究的絕佳測試平台,遊戲自從 AI 誕生之時就在其身邊推動技術的發展,與人工智能產生聯繫的遊戲包括古老的棋盤遊戲、經典的 Atari
街機遊戲,以及不完美信息博弈。 這些遊戲具有定長且有限的系列動作,研究人員只需要在遊戲環境中控制單個智能體。 此外,還有多種更加複雜的遊戲,其中包含多個智能體,以及復雜的規則,這對於
  AI 研究非常具有挑戰性。

在本論文中,我們專注於即時戰略遊戲(RTS)來探索多智能體的控制。 RTS
遊戲通常需要即時反應,這與棋盤遊戲的回合製不同。 作為最為流行的 RTS
遊戲,《星際爭霸》擁有龐大的玩家基礎和數量眾多的職業聯賽——而且這個遊戲尤其考驗玩家的策略、戰術以及臨場反應能力。 對於遊戲 AI
的研究,星際爭霸提供了一個理想的多智能體控制環境。 近年來,星際爭霸 AI 研究取得了令人矚目的進展,這得益於一些星際爭霸 AI 競賽,以及遊戲
AI 接口(BWAPI)的出現。 最近,研究人員開發出了一些更加有效的平台來推動這一方向的發展,其中包括 TorchCraft、ELF 和
PySC2。

星際爭霸 AI 旨在解決一系列難題,如時空推理、多智能體協作、對手建模和對抗性規劃 [ 8
]。 目前,設計一款基於機器學習的全星際遊戲 AI 是不現實的。 許多研究者將微操作為星際爭霸人工智能研究的第一步
[11]。 在戰斗場景中,單位必須在高度動態化的環境中航行,攻擊火力範圍內的敵人。 星際爭霸有很多微操方法,包括用於空間導航和障礙規避的潛在領域
[12] [13]、處理遊戲中的不完整性和不確定性的貝葉斯建模 [14]、處理建造順序規劃和單位控制的啟發式博弈樹搜索
[15],以及用於控制單個單位的神經進化方法 [16]。

作為一種智能學習方法,強化學習 ( RL )
非常適合執行序列決策任務。 在星際爭霸微操任務中,RL 方法有一些有趣的應用。 Shantia 等人使用在線 Sarsa
和帶有短期記憶獎勵函數的神經裝配 Sarsa 來控制單位的攻擊和撤退 [ 17
]。 它們利用視覺網格獲取地形信息。 這種方法需要手工設計,而且輸入節點的數量必須隨著單元的數量而改變。 此外,他們還採用增量學習方法將任務擴展到具有
  6 個單元的更大場景中。 但是,增量學習的成功率仍然低於 50 %。 溫德爾等人在微操作中使用不同的 RL 算法,包括 Q 學習和 Sarsa [
  18 ]。 他們控制一個強大的單位對抗多個彼此之間不存在協作的弱單位。

在最近的幾年裡,深度學習在處理複雜問題上已經實現了令人矚目的成果,也大大提高了傳統強化學習算法的泛化能力和可擴展性
  [5]。 深度強化學習(DRL)可以讓智能體學習如何通過端到端的方式在高維狀態空間中做出決策。 Usunier
等人提出了一種通過深度神經網絡進行微操作的強化學習方法。 他們使用 greedy MDP
在每個時間步上有順序地為單位選擇動作,通過零階優化(zero-order
optimization)更新模型。 這種方法能夠控制玩家擁有的所有單位,並檢視遊戲的全局狀態。 Peng 等人則使用 actor-critic
方式和循環神經網絡(RNN)來打星際爭霸的對戰(參見:阿里人工智能新研究:在星際爭霸中實現多兵種協同作戰)。 單位的控制由隱藏層中的雙向 RNN
建模,其梯度更新通過整個網絡高效傳播。 另一方面,與 Usunier 和 Peng 設計集中控制器的工作不同,Foerster
等人提出了一個多智能體 actor-critic 方法來解決去中心的微操作任務,這種方法顯著提高了集中強化學習控制器的性能 [22]。

對於星際爭霸的微操,傳統方法在處理複雜狀態、行動空間和學習合作策略方面存在困難。 現代方法則依賴於深度學習引入的強大計算能力。 另一方面,使用無模型強化學習方法學習微操通常需要大量的訓練時間,在大規模場景中,這種情況更為明顯。 在中科院自動化所的新研究中,研究人員試圖探索更高效的狀態表示以打破巨大狀態空間引發的複雜度,同時提出了一種強化學習算法用以解決星際爭霸微操中的多智能體決策問題 。 此外,研究人員還引入了課程遷移學習(curriculum
  transfer learning),將強化學習模型擴展到各種不同場景,並提升了採樣效率。

本論文的貢獻主要分為三部分。 首先,我們提出了一種高效的狀態表徵方法以處理星際爭霸微操中的大型狀態空間。 這種方法考慮了單位的屬性與距離,並允許雙方使用任意數量的單位。 與其他相關研究相比,我們的狀態表徵方法將更加高效、簡潔。 其次,我們提出了一種參數共享的多智能體梯度下降
  Sara(λ)
算法(PSMAGDS)來訓練我們的單位。 使用神經網絡作為函數近似器,智能體會共享集中化策略的參數,並同時使用自己的經驗更新策略。 這種方法能有效地訓練同質智能體,並且鼓勵合作行為。 為了解決稀疏問題和延遲獎勵,我們在
  RL
模型中引進了包含小型中間獎勵的獎勵函數。 該獎勵函數能提升訓練過程,並成為幫助單位相互協作的內在動力。 最後,我們提出了一種遷移學習方法來擴展模型適應各種情景。 與從頭開始學習相比,這種方法在訓練速度上有非常大的提升,並且在學習性能上也有很大的擴展。 在大規模場景中,我們應用課程遷移學習(curriculum
  transfer learning)方法成功地訓練了一組單位。 就勝率而言,我們提出的方法在目標場景中優於很多基線方法。

本論文由六部分組成。 第二節描述了星際爭霸微操問題,以及強化學習和課程遷移學習的背景。 在第三節中,本論文提出了用於微操的強化學習模型,包括狀態表徵方法、網絡架構和行動定義。 在第四節中,本論文介紹了參數共享的多智能體梯度下降
  Sara(λ)
算法(PSMAGDS)和獎勵函數。 在第五節中,研究者介紹了本論文使用的星際爭霸微操場景和訓練細節。 在最後第六節中,研究者對實驗結果進行了分析,並進一步討論模型學習到的策略。

圖 1:智能體-環境交互在強化學習中的表示。

圖 2:課程遷移學習圖示。 存儲通過解決源任務而獲得的知識,逐漸應用到 M Curricular 任務上以更新知識。 最終,知識被應用於目標任務。

圖 3:一個單位在星際爭霸微操場景中的學習模型表示。 狀態表示含三個部分,神經網絡被用作函數逼近器。 網絡輸出移動的 8 個方向和攻擊動作的概率。

在這一研究中,星際爭霸微操被定義為多智能體強化學習模型。 我們提出了參數共享多智能體梯度下降 Sarsa(λ)(PSMAGDS)方法來訓練模型,並設計了一個獎勵機製作為促進學習過程的內在動機。 整個 PS-MAGDS 強化學習範式如圖 4 所示:

圖 4:StarCraft 微操場景中的 PS-MAGDS 強化學習圖示。

微操場景中不同單元的屬性對比

圖 5:實驗中 StarCraft 微操場景中的表徵。 左:人族巨人 vs. 狂熱者;中:人族巨人 vs. 狗;右:機槍兵 vs. 狗。

結果

機槍兵 VS. 狗的微操的課程設計。 M:機槍兵,Z:狗。

兩個大場景中使用基線方法的模型的性能對比。 M:機槍兵,Z:狗。

不同課程場景和未知場景中的勝率。 M:機槍兵,Z:狗。

圖 12:3 個人族巨人 vs. 6 個狂熱者的微操場景中的樣本遊戲回放。

圖 13:3 個人族巨人 vs. 20 隻狗的微操場景中的樣本遊戲回放。

圖 14:20 個機槍兵 vs. 30 隻狗的微操場景中的樣本遊戲回放。

論文: StarCraft Micromanagement with Reinforcement Learning and Curriculum Transfer Learning

論文鏈接: https://arxiv.org/abs/1804.00810

摘要: 近年來,即時戰略遊戲已成為遊戲
  AI
的一個重要領域。 本論文展示了一種強化學習和課程遷移學習方法,可在星際爭霸微操中控制多個單元。 我們定義了一種高效的狀態表徵,破解了遊戲環境中由大型狀態空間引起的複雜性,接著提出一個參數共享多智能體梯度下降
  Sarsa(λ)(PS-MAGDS)
算法訓練單元。 學習策略在我們的單元中共享以鼓勵協作行為。 我們使用一個神經網絡作為函數近似器,以評估動作價值函數,並提出一個獎勵函數幫助單元平衡其移動和攻擊。 此外,我們還用遷移學習方法把模型擴展到更加困難的場景,加速訓練進程並提升學習性能。 在小場景中,我們的單元成功學習戰鬥並擊敗了勝率為
  100% 的內置
AI。 在大場景中,課程遷移學習用於漸進地訓練一組單位,並展示在目標場景中一些基線方法上的出眾性能。 通過強化學習和課程遷移學習,我們的單元能夠在星際爭霸微操場景中學習合適的策略。

版權聲明

本文僅代表作者觀點,不代表百度立場。
本文係作者授權百度百家發表,未經許可,不得轉載。

如有侵權請來信告知:酷播亮新聞 » 讓AI掌握星際爭霸微操:中科院提出強化學習+課程遷移學習方法