酷播亮新聞
最棒的知識補給站

谷歌發布MobileNetV2:可做語義分割下一代移動端計算機視覺架構

摘要:深度學習在手機等移動端設備上的應用是機器學習未來的重要發展方向。 2017
年4月,谷歌發布了MobileNet——一個面向有限計算資源環境的輕量級神經網絡。 近日,谷歌將這一技術的第二代產品開源,開發者

深度學習在手機等移動端設備上的應用是機器學習未來的重要發展方向。 2017
  年 4 月,谷歌發布了 MobileNet——一個面向有限計算資源環境的輕量級神經網絡。 近日,谷歌將這一技術的第二代產品開源,開發者稱,新一代
  MobileNet 的模型更小,速度更快,同時還可以實現更高的準確度。

項目鏈接:https://github.com/tensorflow/models/tree/master/research/slim/nets/mobilenet

谷歌
  2017 年推出了
MobileNetV1,它是一種為移動設備設計的通用計算機視覺神經網絡,因此它也能支持圖像分類和檢測等。 一般在個人移動設備上運行深度網絡能提升用戶體驗、提高訪問的靈活性,以及​​在安全、隱私和能耗上獲得額外的優勢。 此外,隨著新應用的出現,用戶可以與真實世界進行實時交互,因此我們對更高效的神經網絡有著很大的需求。

今天,谷歌很高興地宣布下一代移動視覺應用
  MobileNetV2 已經發布。 MobileNetV2 在 MobileNetV1
的基礎上獲得了顯著的提升,並推動了移動視覺識別技術的有效發展,包括分類、目標檢測和語義分割。 MobileNetV2 作為
TensorFlow-Slim 圖像分類庫的一部分而推出,讀者也可以在 Colaboratory 中立即探索
MobileNetV2。 此外,我們也可以下載代碼到本地,並在 Jupyter Notebook 中探索。 MobileNetV2 在 TF-Hub
  中會作為模塊使用,且預訓練保存點可在以下地址中找到。

  • Colaboratory
    試驗地址:https://colab.research.google.com/github/tensorflow/models/blob/master/research/slim/nets/mobilenet/mobilenet_example.ipynb

  • MobileNetV2 本地實驗地址:https://github.com/tensorflow/models/blob/master/research/slim/nets/mobilenet/mobilenet_example.ipynb

  • 預訓練模型下載:https://github.com/tensorflow/models/tree/master/research/slim/nets/mobilenet

MobileNetV2
  基於 MobileNetV1[1] 的基本概念構建,並使用在深度上可分離的捲積作為高效的構建塊。 此外,MobileNetV2
引入了兩種新的架構特性:1)層之間的線性瓶頸層;2)瓶頸層之間的連接捷徑。 MobileNetV2 的基本架構展示如下:

MobileNetV2 的架構概覽,藍色塊如上所示為複合卷積構建塊。

我們可以直觀理解為,瓶頸層對模型的中間輸入與輸出進行編碼,而內層封裝了模型從像素等低級概念到圖像類別等高級概念的轉換能力。 最後,與傳統的殘差連接一樣,捷徑能快速訓練並獲得更優精確度。 讀者可查閱文末的 MobileNetV2 論文了解更多的詳情。

V2
  與第一代的 MobileNet 相比有什麼區別? 總體而言,MobileNetV2
模型在整體延遲範圍內上實現相同的準確度要更快。 特別是,目前新模型減少了兩倍 operations 的數量,且只需要原來 70% 的參數,在
Google Pixel 手機上的測試表明 V2 要比 MobileNetV1 快 30% 到 40%,同時還能實現更高的準確度。

MobileNetV2 不僅速度更快(降低延遲),還刷新了 ImageNet Top 1 準確度。

MobileNetV2
  是一個用於目標檢測和分割的非常有效的特徵提取器。 比如在檢測方面,當 MobileNetV2 搭配上全新的 SSDLite
[2],在取得相同準確度的情況下速度比 MobileNetV1 提升了 35%。 我們已通過 Tensorflow Object
Detection API [4] 開源了該模型。

為實現實時語義分割,我們藉助簡化版
  DeepLabv3 [3] 把 MobileNetV2 用作特徵提取器,這將稍後公佈。 在語義分割基準 PASCAL VOC 2012
上,MobileNetV1 與 MobileNetV2 作為特徵提取器表現相當,但是後者所需的參數量減少了 5.3 倍,在
Multiply-Adds 方面 operations 也減少了 5.2 倍。

正如我們所看到的,MobileV2 面向移動端提供了一個非常高效的模型,它能處理許多基本的視覺識別任務。 最後,谷歌也希望能與廣泛的學術社區和開源社區分享這個新模型,並期待它有新的提升與應用。

論文:MobileNetV2: Inverted Residuals and Linear Bottlenecks

論文鏈接:https://arxiv.org/abs/1801.04381

本文中我們介紹了一種新的移動端架構——MobileNetV2,其在多任務和基準以及不同模型大小的範圍上進一步刷新了移動端模型的當前最佳性能。 我們還介紹瞭如何通過全新框架
  SSDLite 將這些模型高效應用於目標檢測。 此外,我們也展示了通過簡化版 DeepLabv3(我們稱之為 Mobile
DeepLabv3)構建移動端的語義分割方法。

MobileNetV2
架構基於反向殘差結構,其中殘差塊的輸入和輸出是較短的瓶頸層,這與在輸入中使用擴展表徵的傳統殘差模型正相反。 MobileNetV2
使用輕量級深度卷積過濾中間擴展層的特徵。 此外,我們發現為了保持表徵能力,移除短層中的非線性很重要,這提升了性能,並帶來了催生該設計的直觀想法。 最後,我們的方法允許將輸入/輸出域與轉換的表現性分開,從而為未來的分析提供一個簡便的框架。 我們在
  ImageNet 分類、COCO 目標檢測、VOC 圖像分割上測試了 MobileNetV2 的性能,同時也評估了精度、operations
數量(通過 MAdd 測量)以及參數量之間的權衡。

參考文獻:

1. MobileNets: Efficient
Convolutional Neural Networks for Mobile Vision Applications, Howard AG,
  Zhu M, Chen B, Kalenichenko D, Wang W, Weyand T, Andreetto M, Adam H,
arXiv:1704.04861, 2017.

2. MobileNetV2: Inverted Residuals and
Linear Bottlenecks, Sandler M, Howard A, Zhu M, Zhmoginov A, Chen LC.
arXiv preprint. arXiv:1801.04381​​, 2018.

3. Rethinking Atrous
Convolution for Semantic Image Segmentation, Chen LC, Papandreou G,
Schroff F, Adam H. arXiv:1706.05587, 2017.

4. Speed/accuracy
trade-offs for modern convolutional object detectors, Huang J, Rathod V,
  Sun C, Zhu M, Korattikara A, Fathi A, Fischer I, Wojna Z, Song Y,
Guadarrama S, Murphy K, CVPR 2017.

5. Deep Residual Learning for Image Recognition, He, Kaiming, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. arXiv:1512.03385,2015

原文地址:https://research.googleblog.com/2018/04/mobilenetv2-next-generation-of-on.html

版權聲明

本文僅代表作者觀點,不代表百度立場。
本文係作者授權百度百家發表,未經許可,不得轉載。

如有侵權請來信告知:酷播亮新聞 » 谷歌發布MobileNetV2:可做語義分割下一代移動端計算機視覺架構