選自arXiv
作者:Anurag Ranjan等
機器之心編譯
參與:李詩萌、張倩
本文引入了一個促進神經網路競爭與協作的框架——對抗式協作,並將幾個低級視覺中相關聯的無監督學習問題(單目深度預測、攝像機運動估計、光流和在靜態場景和動態場景中對視頻進行分割)集成在該框架中進行解決。該方法在沒有任何監督的情況下訓練而成,在無監督學習的方法中達到了當前最優水平。
深度學習方法已經在使用大量數據進行監督的計算機視覺問題上取得了優秀成果 [10,17,19]。然而,對許多需要密集連續值輸出的視覺問題而言,全面收集真實數據繁瑣或不切實際 [6]。本文主要針對以下四個問題:單目深度預測、攝像機運動估計、光流和運動分割。之前的研究已經試著用真實數據 [5] 和合成數據 [4] 通過監督學習解決這些問題。然而在真實數據和合成數據間還是存在現實差距,真實數據不僅有限,而且不準確。例如,一般用 LIDAR 獲取的深度真實數據 [6] 是稀疏的。此外,也沒有可以提供真實光流數據的感測器,所以所有現有的存有真實圖像的數據集都有其局限性或類似 [2,6,12]。運動分割真實數據需要手動標記一張圖中所有的像素 [23]。
圖 1:網路 R=(D,C) 通過估計靜態區域光流解釋場景。光流網路 F 估計整張圖上的流量。運動分割 M 屏蔽掉來自 F 的靜態場景的像素,以在完整圖像上產生複合光流。相鄰幀應用複合流的損失 E,聯合訓練這些網路。
近期的研究都試圖解決無監督學習方法中訓練數據有限的問題 [13,22]。在缺少真實數據的情況下學到從像素到光流、深度和攝像機運動的映射是巨大的挑戰,因為這些問題中的每一個都非常模糊。為了解決這一問題,就需要額外的限制,以及利用靜態場景、攝像機運動和光流的相關幾何內容。例如,將深度無監督學習和攝像機運動耦合起來 [20,33]。他們使用可解釋的掩碼屏蔽那些不能通過靜態空間假設解釋的環境。Yin 等人 [32] 對這種方法進行擴展,以評估光流並使用前後一致的方法解釋未解釋的像素。這些方法在深度基準集和光流基準集中的表現都不太好。一個關鍵原因是這裡應用的約束無法分辨或分割像人類和車輛這樣獨立移動的目標。另一個原因是,一般而言不是所有未標記的訓練集中的數據都符合模型假設,而這些數據中的一些可能會使網路的訓練毀於一旦。例如,深度的訓練數據和攝像機運動不應該包含獨立移動的目標。相似的,對光流而言,數據也不應該包含遮擋,這會破壞光度損失。
想法。一個典型的真實世界場景包括在物理世界中不移動的靜態區域以及移動的目標。根據深度和攝像機運動,我們可以解釋視頻序列中的靜態場景。相比之下,光流可以解釋場景中所有部分。運動分割將一個場景分類為靜態區域和動態區域。我們的主要觀點是,通過場景的幾何學和運動將這些問題結合起來,從而協同聯合解決這些問題。我們發現在從未標記的數據中聯合學習後,我們的耦合網路可以只使用有效的數據集並對數據集進行分區,與分別解決這些問題相比,我們的網路可以得到更準確的結果。
方法。為了解決聯合無監督學習的問題,我們引入了對抗式協作(Adversarial Collaboration,AC),這是一個通用框架,在這個框架中網路通過學習協作和對抗從而完成特定的目標。對抗式協作是一種有兩方對立爭取一種資源的三方遊戲,這種資源由調解方(moderator)監管。如圖 1 所示,我們在框架中引入兩方對抗方,靜態場景重建器 R=(D,C)使用深度和攝像機運動解釋了靜態場景像素;動態區域重建器 F 解釋了獨立移動區域的像素。對抗方通過解釋一段圖像序列中靜態場景和動態區域的像素爭取訓練數據。對抗由運動分割網路 M 調解,該網路分割靜態場景和運動區域,並將訓練數據分配給對手。不過,調解方也需要接受訓練,以確保公平競爭。因此,對抗方 R、F 聯合起來訓練調解方 M,使 M 在訓練周期的交替階段可以對靜態區域和動態目標進行正確的分類。從思想上講,這個通用框架與期望最大化(Expectation-maximization, EM)類似,但這是專門為神經網路訓練制定的。
貢獻。我們的貢獻總結如下:1)引入無監督學習框架——對抗式協作,在這個框架中網路可以為達到不同目標而扮演對抗者和協作者;2)這個框架中的聯合訓練網路對它們的表現有協同效應;3)據我們所知,本文所述方法是第一個在沒有任何監督的情況下使用諸如深度、攝像機運動和光流這樣的低等級信息解決分割任務的方法;4)在單目深度預測、攝像機運動評估以及光流評估問題中,該方法在無監督學習方法中表現最佳。我們甚至比許多使用更大的網路的競爭方法 [32] 和像網路級聯這樣採用多個細化步驟的方法 [22] 的表現更好。模型和代碼可以在 GitHub(https://github.com/anuragranj/ac)中獲取。
圖 2:對抗式協作的訓練周期:調解方 M 驅動對抗者 之間的競爭(第一階段,左圖)。之後,兩個對抗者協同,訓練調解方從而確保可以在下一個迭代中公平競爭(第二階段,右圖)。
圖 3:第一行從左到右分別表示圖像、估計的深度映射、表示運動分割的軟掩碼。第二行從左到右分別表示靜態場景的光流、在運動區域中分割的光流以及全光流。
演算法 1:網路訓練演算法
表 1:深度評估的結果。第一塊表示有監督方法。數據參考訓練數據 cityscapes(cs) 和 KITTI(k)。Zhou el al.*在他們的 GitHub 中更新了結果。
表 2:光流(a)和攝像機運動估計(b)的結果。(a):SP 指靜態場景的像素,MP 指動態區域的像素。我們也與有監督方法進行了比較,FlowNet2 和 SpyNet 沒有對 KITTI 真實數據流進行微調。
表 3:運動分割結果。在 KITTI2015 訓練數據集圖像中所有的汽車像素計算出的交並比(IoU)得分。
論文:Adversarial Collaboration: Joint Unsupervised Learning of Depth, Camera Motion, Optical Flow and Motion Segmentation
論文鏈接:https://arxiv.org/pdf/1805.09806.pdf
我們解決了幾個低級視覺中相關聯的無監督學習問題:單目深度預測、攝像機運動估計、光流和在靜態場景和動態場景中對視頻進行分割。我們的關鍵性看法是這四個基本的視覺問題都是相關的,因此,一起解決它們可以簡化問題,因為通過利用已知的幾何約束可以使這些問題的解決方法相互補充。為了對幾何約束建模,我們引入對抗式協作,這是一個促進神經網路競爭與協作的框架。通過幾何學的利用,我們在靜態場景和動態區域的辨別和分割方面超越了之前的研究。對抗式協作的原理與期望最大化很像,但是包含充當競爭方的神經網路,競爭方爭相解釋與靜態和動態區域對應的像素,同時也作為訓練決定像素是靜態還是動態的調解方的協作方。我們的新方法將所有這些問題都集成在一個共同的框架中,同時解釋了場景的分割(移動的目標還是靜態的背景)、攝像機運動、靜態場景結構的深度以及移動目標的光流。我們的方法是在沒有任何監督的情況下訓練的,與此同時該方法在無監督學習的方法中達到了當前最優水平。
本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。
————————————————