摘要:近日,來自
UIUC和Zillow的研究者在arXiv上發布論文,提出LayoutNet——一種僅通過單張透視圖或全景圖就能估算室內場景3D
佈局的深度卷積神經網絡(CNN)。 該方法在全景圖上的運行
近日,來自
UIUC 和 Zillow 的研究者在 arXiv 上發布論文,提出 LayoutNet——一種僅通過單張透視圖或全景圖就能估算室內場景 3D
佈局的深度卷積神經網絡(CNN)。 該方法在全景圖上的運行速度和預測精度比較好,在透視圖上的性能是最好的方案之一。 該方法也能夠推廣到非長方體的曼哈頓佈局中。 目前,該論文已經被
CVPR 2018 接收。
引言
對於機器人和虛擬現實、增強現實這樣的應用來說,從圖像中估算出房間的三維佈局是一個重要的任務。 房間的佈局指牆壁相對於相機中心的位置、方向以及高度。 佈局可以表示為一組經過投影處理的角落位置或邊界,或者表示為一個
3D 網格。 現有的研究被應用於一些特定的問題,例如通過透視圖或全景圖預測長方體形狀的室內佈局。
本論文提出了
LayoutNet,它是一個僅通過單張透視圖或全景圖(如圖 1 所示)就能估算室內場景 3D
佈局的深度卷積神經網絡(CNN)。 該方法在全景圖上的運行速度和預測精度比較好,在透視圖上的性能是最好的方案之一。 該方法也能夠推廣到非長方體的曼哈頓佈局中,例如「L」形的房間。
代碼地址:https://github.com/zouchuhang/ LayoutNet
圖 1. LayoutNet 根據單張等距柱狀投影的全景圖預測一個非長方體房間的佈局。
LayoutNet
方法的工作流程包含三個步驟(如圖 2 所示)。 首先,系統分析消失點,並且將圖像與地面對齊在一條水平線上(見 Sec.
3.1)。 這種對齊方式確保了牆與牆的邊界是垂直的線,根據實驗結果,該操作大大降低了誤差。 第二步,使用一個帶有編碼器-解碼器結構和跳躍連接的捲積神經網絡直接預測圖像上的角(佈局中的連接處)和邊界的概率圖。 每個角落和邊界都提供了房間佈局的完整表示。 研究者發現,在單個網絡中一起預測它們將得到更好的估計結果。 最終,研究者對三維佈局參數進行了優化,用於擬合預測出的角落和邊界(見
Sec. 3.4)。 最後三維佈局優化過程的損失很難在網絡中進行反向傳播,但是訓練過程中對 3D 參數執行的直接回歸(direct
regression)起到了有效的替代作用,這最大化提升了最終預測的準確度。
本文的突出貢獻有:
-
提出了一種更加通用的根據 RGB 圖像推斷出佈局的算法,它適用於曼哈頓佈局的透視圖和全景圖。 該系統在全景圖像上有較好的運行速度和預測準確度,在透視圖圖像上取得了第二優的綜合預測性能和最優的運算速度。
-
展示了利用預先計算出的消失點線索、幾何約束以及後處理優化的好處,說明深度神經網絡方法仍然能夠從幾何線索和約束中受益。 研究者還展示了添加目標函數以直接回歸 3D 佈局參數,從而更好地預測用於最終解決佈局預測問題的邊界和角落。
-
擴展了斯坦福「2D-3D」數據集的註釋 [1],提供了可用於後續工作的房間佈局註釋。
圖 2. 概述。 LayoutNet 遵循編碼器-解碼器策略。 網絡的輸入是單張 RGB 全景圖和曼哈頓線圖的級聯。 該網絡將一同預測佈局的邊界和角落的位置。 3D 佈局參數損失使得預測準確率最大化提升。 最終的預測結果是一個曼哈頓約束下的佈局重建。
網絡架構
LayoutNet
網絡架構如圖 2 所示。 該網絡遵循編碼器-解碼器策略。 深度全景編碼器:輸入為一個 6 通道的特徵映射,即使用 Sec. 3.1
中提到的對齊方法將分辨率為 512*1024 的單個 RGB 全景圖(或者分辨率為 512*512
的透視圖)和三個正交消失方向上的曼哈頓線圖的特徵映射級聯起來。 編碼器包含 7 個卷積層,卷積核的大小為 3*3。 每個卷積之後會跟隨一個 ReLU
操作和最大池化層,其下採樣因子為 2。 第一個卷積層有 32
個特徵,研究者在每次卷積操作之後將特徵規模擴大到之前的兩倍。 這個深度神經網絡結構確保從高分辨率圖像中學習到更好的特徵,有助於簡化解碼步驟。 研究者嘗試在每一個卷積層之後進行批量歸一化操作,但是發現這樣做預測準確率降低。 研究者還探索了另一種網絡結構,單獨將一個編碼器應用於輸入圖像和曼哈頓線圖上,但它與研究者目前使用的簡單設計相比,性能沒有得到提升。
表
1. 使用 PanoContext 數據集 [33] 從全景圖中得到的長方體佈局量化預測結果。 研究者比較了 PanoContext
方法,並且在本文提出方法的各種配置參數上引入了模型簡化分析。 粗體數字表示訓練 PanoContext 數據時得到的最佳性能。
表 3. 在研究者標註的斯坦福 2D-3D 註釋數據集上的模型評估結果。 研究者通過對各種變量的模型簡化分析評估了 LayoutNet 方法。 粗體數字表示僅僅在斯坦福 2D-3D 訓練數據集上的最佳訓練結果。
圖
3. 在 PanoContext 數據集 [33] 上對長方體佈局預測的定性分析結果(隨機抽樣)。 研究者展示了其方法(偶數列)和當前最優方法
[33](奇數列)的性能。 每個圖像由給定計算方法預測出的佈局(橙色的線)和標定的真實佈局(綠色的線)組成。 本文方法在像素層面上是十分準確的,但是正如定量分析結果中交並比(IoU)這一測度所顯示的那樣,三維佈局預測對即使是很小的二維預測誤差都很敏感。
圖
4. 在斯坦福 2D-3D 註釋數據集上對長方體佈局預測的定性分析結果(隨機抽樣)。 與 PanoContext
數據集相比,這個數據集更加棘手,因為它垂直方向的視場更小,而且更加閉塞。 研究者展示了其方法預測出的佈局(橙色的線),並將其與真實的佈局(綠色的線)進行了對比。
圖 5. 對透視圖的定性分析結果。 研究者展示了輸入的 RGB 圖像,預測了邊界/角落圖以及最終估算出來的分佈(橙色的線),並將其與真實的佈局(綠色的線)進行了對比。
論文:LayoutNet: Reconstructing the 3D Room Layout from a Single RGB Image
論文鏈接: https://arxiv.org/abs/1803.08999
摘要:我們提出了一種根據單張圖像預測房間佈局的算法,它能夠被推廣到全景圖、透視圖、長方體佈局和更一般化的佈局中(如
L 形房間)。 我們的方法可直接在全景圖像上運行,而不是像近來的一些研究那樣將全景圖分解成多個透視圖。 我們的網絡架構類似於
RoomNet,但是我們展示了一系列改進:根據消失點將圖像對齊、預測多個佈局元素(角落、邊界、大小和圖像轉化),並且將一個帶約束的曼哈頓佈局和最終的預測結果進行了擬合 。 在全景圖上,我們的方法在運算速度和預測準確度上有較好的性能;在透視圖上,我們方法的預測準確度是最優方法之一,並且能夠處理長方體形狀佈局和更一般的 曼哈頓佈局。
版權聲明
本文僅代表作者觀點,不代表百度立場。
本文係作者授權百度百家發表,未經許可,不得轉載。