康奈爾大學CVPR論文：通過網路無標註延時攝影學習本徵影象分解

文章摘要：分解圖比較在圖 3 中我們比較了我們網路輸出的本徵影象和最好的優化和機器學習演算法輸出的分解影象在 4.7 中我們介紹一個方法能夠使得該函式的時間複雜度減少為 O(mn)

原標題：康奈爾大學CVPR論文：通過網路無標註延時攝影學習本徵影象分解

本文為康奈爾大學李正奇為AI科技評論所撰寫的 CVPR 2018 錄用論文解讀稿件。

AI科技評論注：本文為康奈爾大學李正奇為AI科技評論所撰寫的 CVPR 2018 錄用論文解讀稿件，未經許可不得轉載。

網站地址：

http://www.cs.cornell.edu/projects/bigtime/

https://arxiv.org/abs/1804.00582

1. 前言和介紹

簡單來說，本徵影象分解（intrinsic image decomposition）就是將影象分解為反射圖（reflectance）和照射圖 (shading) 的乘積。我們發現過去的工作主要通過渲染，crowdsourcing 或物體染色等方式來收集標註資料集。但是這些方法都有其自身極強的侷限性：物體染色的方法收集非常困難，且只能運用在物體不能運用在場景。渲染的方法無法使訓練的網路泛化到真實場景圖片當中。而 crowdsourcing 的方法只能得到非常稀疏的標註，且標註質量無法得到保證。

圖 1：通過無標註視訊訓練網路從而可以產生單檢視本徵影象

因此，我們考慮了一種更加容易收集的用來學習本徵影象的資料：網路上大量無標註的延時攝影視訊。簡單地說，延時攝影就是讓取景照相機固定不變，但是拍攝的時間是非常長的，因此我們能夠得到不同時間但是同一視角的圖片序列。儘管我們的視訊資料集是未標註的，但是這些視訊卻允許我們在訓練 CNN 期間加入許多重要的先驗。如圖 1 所示, 我們通過網路無標註視訊學習本徵影象，從而我們可以用這個訓練好的模型運用在單個影象上。

2. 框架概述

如圖 2 所示，在訓練 CNN 階段，我們的輸入是整個影象序列，而輸出是相對應每一幀的反射和照射圖。我們的網路架構基於 U-net，其細節請參考論文。另外，對每張圖片 CNN 還同時在其內部產生一個 3D 向量來解釋環境光的顏色。

圖 2：系統圖示和網路架構

3. 資料集

我們的資料集名叫「BIGTIME (BT)」。我們從網際網路各類視訊網站收集了大量室外和室內的高質量延時攝影視訊，數量超過 200 個。在我們的 BT 資料集中，我們發現室內視訊非常有挑戰性，因為許多室內視訊只記錄了非常短的時間段，並且許多視訊中包含了強烈的陰影或曝光。然而，在實驗環節中我們展示了基於我們框架和資料集訓練的網路能夠有很好的泛化能力。

4. 學習框架

4.1 能量/損失函式：

在訓練階段，我們的目標是最大化後驗概率 p(R,S|I)。很容易得知這個等效於最小化能量函式 E(R,S,I)。因此我們定義 E(R,S,I) 為

4.2 影象重建損失函式：

給定輸入影象序列，我們能夠寫出對於整個序列所有影象對的重建損失函式：

直接實現這個損失函式需要 O(m2n) 的時間複雜度，在 4.7 中我們介紹一個方法能夠使得該函式的時間複雜度減少為 O(mn)。

4.3 反射率一致性損失函式：

我們同樣引入了反射率一致函式來表示輸出的反射圖應該在整個圖片序列中保持相同。

同樣，這個損失函式需要 O(m2n)，但是在 4.7 中我們將會展示如何減少至 O(mn)。

4.4 稠密空間-時間反射圖平滑損失函式：

我們的反射圖平滑損是基於影象序列中每個畫素之間的相關性。我們定義為：

其中 p 和 q 代表影象序列的畫素。代表雙隨機權重矩陣。注意的是我們考慮的是整個序列中所有畫素之間的相關性，因此直接計算這個項是不可能的，因此我們需要更有效的方法。首先，注意到如果是雙隨機矩陣，那麼我們能夠簡化上面的式子為：

其中 r 是整個影象序列的 log 反射率圖的向量表示。如果我們假設 W 是高斯型，在雙邊空間中，我們能夠通過構造一系列的稀疏矩陣來近似最小化公式 (7)。這個 bilateral embedding 使得我們可以將 loss 轉化為二次型：

因此我們最後的將式子將時間複雜度從 O(m2n2) 減少至 O((d+1)mn)。

4.5 多尺寸照射圖平滑損失函式：

我們還加入了照射圖平滑函式。這個函式定義在影象的多尺度金字塔下。對於每個尺度，我們可以定義：

其中 N(p) 代表了在畫素 p 的 8-聯通近鄰，v 代表每一條邊的的權重。我們的核心思想是利用影象序列的統計資訊來計算每張圖的權重。其中，我們的假設是基於用影象序列的梯度的中位數來近似表示影象的反射率圖梯度。詳細的描述請參考我們論文。

4.6 All-pairs weighted least squares (APWLS)

在這一節中，我們提出了一個線性閉合解版本的 APWLS 來有效實現公式 4 和 5。假設每個影象 Ii 都關聯於矩陣Pi和Qi，和預測Xi和Yi, 我們可以將 APWLS 轉化成：

直接計算公式（14）需要 O(m2n), 但是如果將其變為公式 (15)，其時間複雜度只有 O(mn).

5. 實驗

5.1 IIW 實驗：

我們用 BT 資料集訓練的 CNN（不使用 IIW 訓練集）直接測試到 IIW 的測試集中。數值比較在表 2 中。我們可以看到我們的模型可以與最好的優化演算法和機器學習演算法擁有接近甚至更加的表現。

表 2： IIW 測試集比較

表 3：SAW 測試集比較

5.2 SAW 實驗：

我們也測試了我們 BT 資料集訓練的網路在 SAW 測試集中的效能表現。在表 3 中我們比較了和過去其他工作在 SAW 測試集中的 Average Precision (AP)。注意所有的方法都沒有使用 SAW 訓練集中的資料進行訓練。從表 3 中我們可以看出，我們的方法優異於過去所有的方法。

5.3 IIW 和 SAW 測試集中分解圖比較：

圖 3：分解圖比較

在圖 3 中我們比較了我們網路輸出的本徵影象和最好的優化和機器學習演算法輸出的分解影象。從圖 3 中我們可以看到即使我們不使用 IIW 資料集進行訓練，我們 BT 資料集訓練的網路產生的本徵影象分解結果可以與其他兩個演算法相媲美。

5.4 MIT 本徵影象資料集實驗：

最後，我們在 MIT 本徵影象資料集中驗證我們框架的有效性。在訓練我們的網路過程中，我們沒有直接回歸 ground truth，相反，我們在 MIT 提供的影象序列上訓練我們的網路。

表 4： MIT 測試集效能比較

我們比較了我們的方法和其他監督學習方法。這些過去的工作都用到了訓練集的 ground truth 來訓練模型。相反，我們只利用了資料集提供的影象序列來訓練網路。比較結果顯示在表 4 中。我們可以看出我們的非監督學習方法能夠媲美甚至優於過去以 CNN 為基礎的監督學習演算法。

6. 總結

在我們這次的工作中，我們提出了一個新的非監督學習方法通過網路上的延時攝影視訊來學習本徵影象分解。我們訓練的網路可以在多個數據集中表現出很強的泛化能力，展示出了通過大量無標籤網路視訊來學習本徵影象的巨大潛力。

➤ 截止日期：6 月 26 日晚 24:00返回搜狐，檢視更多

責任編輯：

文章摘要： 分解圖比較 在圖 3 中我們比較了我們網路輸出的本徵影象和最好的優化和機器學習演算法輸出的分解影象在 4.7 中我們介紹一個方法能夠使得該函式的時間複雜度減少為 O(mn)

相關推薦

文章摘要：分解圖比較在圖 3 中我們比較了我們網路輸出的本徵影象和最好的優化和機器學習演算法輸出的分解影象在 4.7 中我們介紹一個方法能夠使得該函式的時間複雜度減少為 O(mn)