酷播亮新聞
最棒的知識補給站

CVPR 2018:新型語義分割模型:動態結構化語義傳播網絡DSSPN

摘要:近日,來自CMU、Petuum等機構的研究者提出一種新型語義分割模型動態結構化語義傳播網絡DSSPN,通過將語義概念層次明確地結合到網絡中來構建語義神經元圖。 實驗證明DSSPN優於當前最優的分割模型。

近日,來自 CMU、Petuum 等機構的研究者提出一種新型語義分割模型動態結構化語義傳播網絡 DSSPN,通過將語義概念層次明確地結合到網絡中來構建語義神經元圖。 實驗證明 DSSPN 優於當前最優的分割模型。

引言

隨著卷積神經網絡的不斷進步,目標識別和分割作為計算機視覺的主要研究方向取得了巨大的成功。 然而,目前使用更深、更寬網絡層的分割模型 [24,5,40,37,22] 在對分割註釋有限的大型概念詞彙的識別方面表現欠佳。 原因在於它們忽略了所有概念的固有分類和語義層次。 例如,長頸鹿、斑馬和馬同屬於有蹄類動物,這個大類描繪了它們的共同視覺特徵,使得它們很容易與貓/狗區分開來。 此外,由於專業水平和應用目的不同,語義分割的目標概念集本質上可以開放化和高度結構化,以適應特定的任務/數據集。 然而,一些技術還通過在最終預測分數上採用複雜圖形推斷 [7]、層級損失 [31] 或詞嵌入先驗 [39] 來探索視覺識別的語義層次。 它們的損失約束只能間接地將視覺特徵引導為可被層次感知,與通用的 CNN 模型相比,結果難以得到保證,甚至往往會得到更差的結果。

此外,模型語義層次的缺乏也阻礙了對一次性解決所有概念分割的通用分割模型的研究。 現有研究 [24,5,40,37] 通常致力於訓練特定任務的模型,因為數據集之間存在標籤差異且數據集的註釋有限。 這種方法很大程度上限制了模型的泛化能力,並且偏離了通過結合概念層次來識別並關聯所有概念的人類感知。 如果想通過充分利用具備不同標籤集的註釋來改進一項任務,那麼以前的模型必須移除分類層,並且僅共享中間表徵。 學習通用分割模型的目標與最近將不同視覺任務[18, 36] 或多模態任務[17] 整合進一個模型的研究有一定關聯,這些研究通常使用幾個固定的、具備特定損失函數的網絡 架構來整合所有的任務。

這篇論文旨在將語義概念層次顯式地集成到動態網絡優化中,稱為動態結構化語義傳播網絡 (Dynamic-Structured Semantic Propagation Network,DSSPN)。 本著課程學習(curriculum learning)的精神[2] 逐步提高目標難度,並利用以前學過的知識學習新的細粒度的概念,DSSPN 首先遵從語義概念層次結構逐步構建語義神經元圖(semantic neuron graph ),其中每個神經元負責分割單詞層次結構中一個概念的區域。 然後每個神經元學得的特徵被傳播到它的子神經元中進一步學習特徵,以便識別更細粒度的概念。 對於每個圖像或數據集,DSSPN 在激活的語義神經元子圖上執行動態結構語義傳播,且子圖只選擇當前概念及其 ancestors。 得益於有序語義網絡模塊和動態優化策略的優點,DSSPN 學得的視覺表徵可在不同概念之間自然地嵌入豐富的語義相關性。 這種 顯式 的神經元定義機制使得這篇論文提出的 DSSPN 是一種語義可解釋的動態網絡架構,同時具備優秀的內存和計算效率。

圖 1. 根據語義概念層次結構 顯式 構建動態網絡結構的 DSSPN。 基本的捲積特徵被傳播到動態結構化語義神經元圖中,用於層級的像素級識別。 在訓練過程中,DSSPN 只激活語義神經元的一個子圖(語義神經元涉及每個圖像的目標標籤),引起動態結構化的前饋傳播和反向傳播。 這意味著 DSSPN 只需要在訓練過程中將具備同一父神經元的易混淆概念進行層級分類。 為了釐清概念,這裡只顯示部分語義神經元。

不同於只將每個神經元的父神經元的特徵傳遞進來,受DenseNets [16] 影響,本研究引入了一種新型密集語義增強神經塊,它緊密地集成了所有ancestor 神經元的特徵來深化 學習每個神經元的特徵表示。 通過將所有 ancestor 神經元習得的知識廣播到每個子神經元中,DSSPN 可以更有效地利用語義相關性和繼承性來進行特徵學習。 正如最近的信息瓶頸理論 [35] 所解釋的那樣,深層網絡往往傾向於通過瓶頸來汲取信息,並只保留與目標最相關的特徵。 這種密集的語義連接可以通過顯性地強制 ancestor 神經元保存用於識別更細粒度概念的鑑別特徵,從而緩解更深層上的信息損失情況。

請注意,DSSPN 在訓練期間會激活每個樣本的動態計算圖。 為了提高可擴展性,研究者提出了動態批量優化方案,通過配置用於在每一步中學習不同神經模塊的樣本的動態數量優化一個 batch 中的多個計算圖。

研究者在四個流行的語義分割數據集(即Coco-Stuff [4]、ADE20k [41]、Cityscape [6] 和Mapillary [27])上進行了實驗,證明了將DSSPN 整合進當前最優的 基礎分割網絡的高效性。 因此,研究者展示了其動態結構化傳播機制是實現分割大量內在結構化概念所需的語義可解釋性方式的有效方法。 此外,實驗表明,在多個模型上學習統一的 DSSPN 模型能夠提升性能,優於常見的利用多個領域註釋的精細調整(fine-tuned)方案。

圖 2. 密集語義增強模塊。 對於每個激活的語義神經元 v_i,它級聯整個路徑中的神經元特徵(橙色虛線箭頭)以獲得增強表徵 h_i,然後將 h_i 通過動態像素級預測層 P_i,以區分其子節點。 每個模塊的輸出維度(例如 48)和像素級預測層的輸出維度(例如 27)顯示在括號中。

圖 3. DSSPN 可以學習一個統一的分割模型,以適應不同的註釋策略。 為了對具有不同標籤粒度的多種註釋進行訓練,DSSPN 激活每個圖像的動態結構語義傳播圖。 例如,Ade20k 只為所有動物類別標註單個「動物類別」標籤,而 Cocostuff 精心分類每個細粒度概念,例如貓或大象。 對應目標標籤的語義神經元未激活(灰色實心圓圈)。 因此它充分利用了語義層次中共享的概念模式和概念關係。 為簡潔起見,此圖只顯示了目標標籤及其 ancestor 概念。

表 1. 在 ADE20K 驗證集 [41] 上進行的現有語義分割模型對比(%)。 PSPNet (101)+DA+AL [40] 使用了其他數據增強方案和輔助損失函數。 從 [39] 可知,「Conditional Softmax (VGG) [31]」、「Word2Vec(VGG) [10]」和「Joint-Cosine (VGG) [39]」表明現有方法也嘗試了層級分類。

圖 4. 在 Coco-Stuff 數據集上的視覺對比。 對於每個圖像,研究者按序顯示其真值標註、「DSSPN (ResNet-101)」的預測和「DSSPN (ResNet-101) Universal」的預測。

論文:Dynamic-structured Semantic Propagation Network

論文鏈接:https://arxiv.org/abs/1803.06067

摘要:語義分割的語義概念層級仍處於探索階段,因為將結構推斷整合進密集預測仍然低效且優化過程複雜。 數據集之間的標籤不盡相同和建模語義相關性的缺乏使得之前的研究必須針對每個任務調整相應的模型。 這極大地限制了分割模型泛化至開放集合概念詞彙和註釋的能力。 本論文提出一個動態結構語義傳播網絡(DSSPN),它通過將語義概念層次明確地結合到網絡中來構建語義神經元圖。 每個神經元表示用於識別特定實體類型的實例化模塊,實體類型包括大類(例如食物)或特定概念(例如披薩)。 在訓練階段,DSSPN 理論上通過僅僅激活每個圖像的神經元子圖來執行動態結構化神經元計算圖。 我們提出了一種密集的語義增強神經模塊,將所有 ancestor 神經元學到的知識傳播到每個細粒度子神經元中以學習特徵。 這種語義可解釋結構的另一個優點是可以在每一步選擇性地為每個註釋激活不同的神經元子圖,進而在不同數據集上同步學習一個統一模型。 我們在四個公開語義分割數據集(即 ADE20K、COCO-Stuff、Cityscape 和 Mapillary)上進行了大量實驗,證明 DSSPN 優於當前最優的分割模型。 此外,我們還展示了一個通用的分割模型,它在不同的數據集上進行聯合訓練,性能優於利用多領域知識的常見精細調整方案。

版權聲明

本文僅代表作者觀點,不代表百度立場。
本文係作者授權百度百家發表,未經許可,不得轉載。

如有侵權請來信告知:酷播亮新聞 » CVPR 2018:新型語義分割模型:動態結構化語義傳播網絡DSSPN