CVPR 2018 ｜零樣本學習新進展：使用鑑別性特徵實現零樣本識別

摘要：在將於今年六月舉辦的CVPR2018
會議上，中國科學院大學、英國鄧迪大學和中國科學院腦科學與智能技術卓越創新中心的一篇Oral
論文提出了一種使用鑑別性特徵學習零樣本識別的方法。和人工智能領域的很多

在將於今年六月舉辦的 CVPR 2018
會議上，中國科學院大學、英國鄧迪大學和中國科學院腦科學與智能技術卓越創新中心的一篇 Oral
論文提出了一種使用鑑別性特徵學習零樣本識別的方法。和人工智能領域的很多新研究成果一樣，該研究實現了當前最佳。機器之心對該研究進行了編譯介紹。

近年來，零樣本學習（ZSL：zero-shot

learning）已經在目標識別任務中得到普及應用。傳統的目標識別方法是通過將圖像標籤分配到訓練集中見過的一個類別來預測目標實例的存在，零樣本學習則與傳統方法不同，其目標是識別之前從未見過的新類別中的目標實例。因此，在
ZSL 任務中，在訓練集中見過的類別和測試集中沒見過的類別是不相交的。

通常而言，見過和沒見過的類別都要提供類別描述信息（比如用戶定義的屬性標註、類別的文本描述、類別名的詞向量等）；某些描述信息是各個類別共有的。這些描述信息通常被稱為輔助信息或語義表徵。在本研究中，我們關注的是使用屬性的 ZSL 的學習。

如圖 1 所示，典型 ZSL 方法的一個通用假設是：存在一個共有的嵌入空間，其中有一個映射函數

，定義這個函數的目的是對於見過或沒見過的類別，衡量圖像特徵
φ(x) 和語義表徵 ψ(y) 之間的相容性（compatibility）。 W 是所要學習的視覺-語義映射矩陣。現有的 ZSL
方法主要側重於引入線性或非線性的建模方法，使用各種目標和設計不同的特定正則化項來學習該視覺-語義映射，更具體而言就是為 ZSL 學習 W。

圖 1：經典 ZSL 方法的目標是尋找一個嵌入了圖像特徵 φ(x) 和語義表徵 ψ(y) 的嵌入空間

到目前為止，映射矩陣
W 的學習（儘管對 ZSL 很重要）的主要推動力是視覺空間和語義空間之間對齊損失的最小化。但是，ZSL
的最終目標是分類未見過的類別。因此，視覺特徵 φ(x) 和語義表徵 ψ(y) 應該可以被區分開以識別不同的目標。不幸的是，這個問題在 ZSL
領域一直都被忽視了，幾乎所有方法都遵循著同一範式：1）通過人工設計或使用預訓練的 CNN
模型來提取圖像特徵；2）使用人類設計的屬性作為語義表徵。這種範式存在一些缺陷。

第一，圖像特徵 φ(x)
要么是人工設計的，要么就是來自預訓練的 CNN 模型，所以對零樣本識別任務而言可能不具有足夠的表徵能力。儘管來自預訓練 CNN
模型的特徵是學習到的，然而卻受限於一個固定的圖像集（比如 ImageNet），這對於特定 ZSL 任務而言並不是最優的。

第二，用戶定義的屬性
ψ(y) 是語義描述型的，但卻並不詳盡，因此限制了其在分類上的鑑別作用。也許在 ZSL
數據集中存在一些預定義屬性沒有反映出來的鑑別性的視覺線索，比如河馬的大嘴巴。另一方面，如圖 1
所示，「大」、「強壯」和「大地」等被標註的屬性是很多目標類別都共有的。這是不同類別之間的知識遷移所需的，尤其是從見過的類別遷移到沒見過的類別時。但是，如果兩個類別（比如豹和虎）之間共有的（用戶定義的）屬性太多，它們在屬性向量空間中將難以區分。

第三，現有 ZSL 方法中的低層面特徵提取和嵌入空間構建是分開處理的，並且通常是獨立進行的。因此，現有研究中很少在統一框架中考慮這兩個組分。

為了解決這些缺陷，我們提出了一種端到端的模型，可以同時在視覺空間和語義空間中學習用於 ZSL 的隱含的鑑別性特徵（LDF）。具體而言，我們的貢獻包括：

一種級聯式縮放機制，可用於學習以目標為中心的區域的特徵。我們的模型可以自動識別圖像中最具鑑別性的區域，然後在一個級聯式的網絡結構中將其放大以便學習。通過這種方式，我們的模型可以專注於從以目標為焦點的區域中學習特徵。
一種用於聯合學習隱含屬性和用戶定義的屬性的框架。我們將隱含屬性的學習問題形式化為了一個類別排序問題，以確保所學習到的屬性是鑑別性的。同時，在我們模型中，鑑別性區域的發掘和隱含屬性的建模是聯合學習的，這兩者會互相協助以實現進一步的提升。
一種用於 ZSL 的端到端網絡結構。所獲得的圖像特徵可以調整得與語義空間更加兼容，該空間中既包含用戶定義的屬性，也包含隱含的鑑別性屬性。

我們的方法

我們提出的方法的框架如圖
2 所示。注意，原則上該框架包含多個圖像尺度，但為描述清楚，這裡僅給出了有 2
個圖像尺度的情況作為示例。在每個圖像尺度中，網絡都由三個不同組分構成：1）圖像特徵網絡（FNet），用於提取圖像表徵；2）縮放網絡（ZNet），用於定位最具鑑別性的區域，然後將其放大；3）嵌入網絡（ENet），用於構建視覺信息和語義信息關聯在一起的嵌入空間。對於第一個尺度，FNet
的輸入是原始尺寸的圖像，ZNet 負責生成放大後的區域。然後到第二個尺度，放大後的圖像區域成為 FNet 的輸入，以獲得更具鑑別性的圖像特徵。

圖 2：我們提出的隱含鑑別性特徵（LDF）學習模型的框架。從粗略到精細到圖像表徵被同時投射到用戶定義的屬性和隱含屬性中。用戶定義的屬性通常是不同類別共有的，而隱含屬性是為區分而通過調整類別間或類別中的距離而學習到的。

實驗

我們提出的 LDF 模型在兩個有代表性的 ZSL 基准上進行了評估，即：Animals with Attributes（AwA）和 Caltech-UCSD Birds 200-2011（CUB）。

表 1：使用 VGG19 和 GoogLeNet（括號中的數字）的深度特徵在兩個數據集上的 ZSL 結果（MCA，%）

表 2：在每個圖像尺度上的詳細 ZSL 結果（%）

表 3：只使用 UA 特徵或 LA 特徵所得到的 ZSL 結果（%）

表 4：對於 ZNet 和 ENet，聯合訓練和分開訓練之間的結果比較

論文：用於零樣本識別的隱含特徵鑑別式學習（Discriminative Learning of Latent Features for Zero-Shot Recognition）

論文地址：https://arxiv.org/abs/1803.06731

摘要：零樣本學習（ZSL）的目標是通過學習圖像表徵和語義表徵之間的嵌入空間來識別未曾見過的圖像類別。多年以來，在已有的研究成果中，這都是學習對齊視覺空間和語義空間的合適映射矩陣的中心任務，而學習用於
ZSL 的鑑別性表徵的重要性卻被忽視了。在本研究中，我們回顧了已有的方法，並表明了為 ZSL
的視覺和語義實例學習鑑別性表徵的必要性。我們提出了一種端到端的網絡，能夠做到：1）通過一個縮放網絡自動發現鑑別性區域；2）在一個為用戶定義屬性和隱含屬性引入的擴增空間中學習鑑別性語義表徵。我們提出的方法在兩個有挑戰性的
ZSL 數據集上進行了大量測試，實驗結果表明我們提出的方法的表現顯著優於之前最佳的方法。

本文僅代表作者觀點，不代表百度立場。
本文係作者授權百度百家發表，未經許可，不得轉載。

相關推薦