沒有地圖也能導航：DeepMind展示全新AI導航技術

摘要：當前的無人駕駛汽車高度依賴於精確的地圖進行導航，儘管各家科技公司已經構建了接近完美的
3D地圖，但這種方式仍然存在一些弊端（巨大的容量、需要不斷更新等）。近日，DeepMind
提出了一種端到端深度強

當前的無人駕駛汽車高度依賴於精確的地圖進行導航，儘管各家科技公司已經構建了接近完美的
3D 地圖，但這種方式仍然存在一些弊端（巨大的容量、需要不斷更新等）。近日，DeepMind
提出了一種端到端深度強化學習尋路方法，其訓練的神經網絡可以幫助汽車在沒有地圖的情況下正確前往目的地，這一研究或許可以幫助自動駕駛汽車技術向前邁進一大步。

論文鏈接：https://arxiv.org/abs/1804.00168

小時候，你是如何熟悉周圍環境路線的？例如怎麼去朋友家、去學校或者去雜貨舖？可能沒有地圖，只是簡單地記住街道的外觀、沿路的變向。隨著在附近街區的探索逐漸增多，你變得更加自信，開始學習新的、更複雜的路。有時你可能會迷路，但是在路標或者太陽（指南針）的幫助下你可以重新找到正確的路。

導航是一項重要的認知任務，幫助人類和動物在沒有地圖的情況下穿過複雜世界中長長的路途。此類長距離導航可同時支持自我定位（「我在這裡」）和目標表徵（「我要去那兒」）。

在論文《Learning
to Navigate in Cities Without a Map》中，DeepMind
展示了一種交互式導航環境，該環境使用來自谷歌街景的第一人稱視角圖像，並遊戲化該環境來訓練
AI。儘管谷歌街景圖像已經很標準了，但是人臉和汽車牌照比較模糊、無法辨認。 DeepMind
構建了一個基於神經網絡的人工智能體，可使用視覺信息（來自谷歌街景圖像的像素）學會在多個城市之間導航。注意該研究是關於通常意義上的導航，並非駕駛。 DeepMind
未使用交通信息，也沒有嘗試建模車輛控制。

在沒有環境地圖的情況下，DeepMind 智能體在視覺多樣化環境中導航。

當智能體到達目標地點時會得到獎勵（目標地點是指定的，如經緯度坐標），就像一個沒有地圖、帶著大量貨物的快遞員。隨著時間的推移，該人工智能體學會用這種方式穿越整個城市。 DeepMind 還展示了其智能體可在多個城市中學習執行該任務，然後穩定地泛化至新的城市。

智能體在巴黎訓練時的定格動畫。圖像右上方是城市地圖，顯示目的地（紅色）和智能體位置和視野（綠色）。注意該智能體無法看到地圖，只能看到目的地的經緯度坐標。

不通過地圖構建來學習導航

DeepMind
背離了傳統的依賴於地圖繪製和探索的方法（例如製圖員給自己定位同時繪製地圖）。相反，他們的方法是讓系統像人類一樣導航，不需要地圖、GPS
定位或其它幫助，只需要使用視覺觀測。他們構建了神經網絡智能體，它以對環境的視覺觀測圖像為輸入，並預測自己的下一個動作。他們使用了深度強化學習來端對端地訓練智能體，這和最近的兩項研究《LEARNING
TO NAVIGATE IN COMPLEX ENVIRONMENTS》以及《REINFORCEMENT LEARNING WITH
UNSUPERVISED AUXILIARY
TASKS》相似。但和這些研究所不同的是，他們沒有使用小規模的虛擬環境，而使用了城市規模的真實世界數據，包括倫敦、巴黎和紐約中復雜的交匯道路、人行道、隧道以及各種拓撲結構。此外，他們的方法支持特定城市的學習和優化，以及通用的可遷移的導航行為。

模塊化的神經網絡架構，可遷移至新城市的導航

智能體的神經網絡由三部分構成：（1）可處理圖像和提取視覺特徵的捲積神經網絡；（2）地區特定的循環神經網絡，可記憶環境，以及學習當前位置和目標位置的表徵；（3）區域不變（locale-invariant）的循環網絡，可以生成對智能體動作的導航策略。地區特定的模塊被設計成可替換的，並且對於其導航的城市是唯一的，而視覺模塊和策略模塊則是區域不變的。

（a）CityNav 架構的對比；（b）MultiCityNav 架構，為每個城市提供地區特定的路徑；（c）訓練過程和將智能體適應到新城市的遷移過程。

正如穀歌街景中的界面一樣，智能體可以在其位置旋轉或走向下一個全景圖。但和谷歌地圖以及街景環境不同的是，智能體沒有小箭頭提示、局域或全局地圖，也沒有著名的
Pegman（學習區分公路和人行道）。智能體的目的地可能位於現實世界的數公里之外，它需要逐步利用數百個全景圖才能到達目的地。

DeepMind

表示其方法提供了一種將知識遷移至新城市的機制。當智能體訪問新城市時，人類當然希望它學習一系列新地標，但是沒必要重新學習視覺表徵或行為（如沿街道推進或在路口轉彎）。因此，DeepMind
使用 MultiCity
架構，首先在多個城市中進行訓練，然後凍結策略網絡、視覺卷積網絡和多個新城市特定路徑。該方法使智能體在不遺忘之前所學知識的前提下獲取新知識，與《Progressive
Neural Networks》中的架構類似。

該研究中使用的曼哈頓五個區域地圖

導航是人工智能研究和發展中的基礎研究，嘗試在人工智能體中復現人類導航也可以幫助科學家理解其生物性基礎。

本文僅代表作者觀點，不代表百度立場。
本文係作者授權百度百家發表，未經許可，不得轉載。

相關推薦