酷播亮新聞
最棒的知識補給站

谷歌、百度等聯合發布機器學習新基準,旨在促進AI發展和公眾參與

摘要:昨日,來自學界和業界的多個組織(包括谷歌、百度、英特爾、AMD、哈佛和斯坦福)共同發布了新型基準MLPerf,「用於衡量機器學習軟硬件的速度」。 長期以來,市場上的
AI性能對比一直比較粗略,魚龍混雜且

昨日,來自學界和業界的多個組織(包括谷歌、百度、英特爾、AMD、哈佛和斯坦福)共同發布了新型基準 MLPerf,「用於衡量機器學習軟硬件的速度」。

長期以來,市場上的
  AI 性能對比一直比較粗略,魚龍混雜且通用性不足,難以作為參考,但 AI
基準之戰即將開始。 今天,來自學界和業界的多個組織(包括谷歌、百度、英特爾、AMD、哈佛和斯坦福)共同發布了新型基準
MLPerf,「用於衡量機器學習軟硬件的速度」。

上週,RiseML 發布博客,對比了谷歌的 TPUv2 和 Nvidia V100。 今天,英特爾發布博客,展示了使用 RNN 執行機器翻譯時選擇軟硬件的相關數據。

很長時間以來,圍繞對有意義的
  AI 基准出現大量討論,支持者認為此類工具的缺乏限制了 AI 的應用。 MLPerf 發佈公告引用了 AI 領域先驅吳恩達的話:「AI
正在改變多個行業,但是要想完全發揮其潛力,我們仍然需要更快的硬件和軟件。 」我們希望更好、更標準化的基準能夠幫助 AI
技術開發者創造出此類產品,允許採用者做出明智的 AI 技術選擇。

MLPerf 稱其主要目標是:

  • 通過公平、有用的度量來加速 ML 的進展;

  • 推動互相競爭的系統之間的公平對比,同時鼓勵創新,以提升 ML 領域的當前最優水平;

  • 使基準測試可負擔,所有人都可以參與其中;

  • 服務商業和研究社區;

  • 強制要求復現性,以確保結果的可靠性。

AI
  性能對比(h/w 和 s/w)目前主要由既得利益者發布,如英特爾近日的博客《Amazing Inference Performance
with Intel Xeon Scalable
Processors》。 這並不是在針對英特爾。 此類對比通常包含有用的見解,但是它們通常用於展示一方比另一方的優勢。 標準化基準可以緩解這一狀況。

MLPerf
  在模擬之前的一些嘗試,比如 SPEC(標準性能評估組織)。 「SPEC 基準加速了通用計算方面的進步。SPEC 於 1988
年由多個計算公司聯合成立。 接下來的 15 年中 CPU 性能提升 1.6X/年。 MLPerf 將之前基準的最佳實踐結合起來:SPEC
使用的一套程序;SORT 的一個部門來做性能對比,另一個部門負責創新;DeepBench 覆蓋產品中的軟件部署;DAWNBench 的
time-to-accuracy 度量。 」MLPerf 稱。

Intersect360 Research 的 CEO Addison
  Snell 稱:「現在那麼多公司在發展 AI,提供基準測試的嘗試具備極高的重要性,尤其是對於大量互相競爭的技術。但是,AI
領域非常多樣化,我懷疑是否會出現主導的單一基準。 想想五年前所有圍繞大數據和分析學的熱情;儘管每個人都嘗試定義它,行業並沒有提供一個統一、常用的基準。 我認為
  AI 領域也會是這種情況。 」

Hyperion Research 的高級研究副總裁 Steve Conway 稱 MLPerf
是「很好、很有用的」一步,「因為多年來對於買方和賣方來說確實缺乏一個基準來展現不同 AI 產品和解決方案之間的區別。這個基準似乎是為了解決如今
AI 早期主要的受限問題(bounded problem)而創建的。 之後隨著 AI 開始出現未受限問題(unbounded
problem,它們將是經濟上最重要的問題),我們將需要額外的基準。 受限問題相對簡單,例如聲音和圖像識別或玩遊戲等。 未受限問題例如診斷癌症,其對應的受限問題可能是讀取
  MRI 圖像;未受限問題能夠在非常複雜的問題上推薦決策。 」

MLPref 已經在 GitHub
上開源,但仍然處於非常早期的階段,正如 MLPref
所強調的:「這次發布的更像是一個內部測試版,它仍可以從多個方面改進。該基準仍然在開發和精煉中,可以查看下方的 Suggestions
部分了解如何貢獻該開源項目。 我們期待在五月末能基於用戶輸入進行大幅更新。 」

目前在 MLPerf 套裝中的 7 個基準,每一個都有參考實現:

  • 圖像分類—ResNet-50 v1(ImageNet)

  • 目標檢測—Mask R-CNN(COCO)

  • 語音識別—DeepSpeech2(Librispeech)

  • 翻譯—Transformer(WMT English—German)

  • 推薦—Neural Collaborative Filtering(MovieLens 20 Million (ml-20m))

  • 情感分析—Seq-CNN(IMDB 數據集)

  • 強化學習—Mini-go(預測 pro 遊戲中的移動)

每個參考實現提供了:至少在一個框架中實現模型的代碼;可用於在一個容器內運行基準的Dockerfile;下載合適數據集的腳本;運行模型訓練和計時的腳本;數據集、模型和機器設置 的相關文檔。

這些基準已經在以下的機器配置上進行了測試:

  • 16 塊 CPU、一塊 Nvidia P100;

  • Ubuntu 16.04,包含 docker 和 Nvidia 支持;

  • 600GB 硬盤(雖然很多基準不需要這麼多硬盤空間)。

業界選擇結合幾個 AI 基準還是讓基準數量激增是很有趣的現象。 在這樣一個年輕的市場,大部分人選擇提供基準測試工具和服務。 例如,斯坦福(MLPerf 成員)近日發布了它的第一個 DAWNBench v1 Deep Learning 結果。

斯坦福報告稱:「2018
  年 4 月 20
日,我們發布了第一個衡量端到端性能的深度學習基準和競賽,這些性能包括:在常見深度學習任務中達到當前最優準確率級別所需的時間/成本,以及在當前最優準確 率級別上執行推斷的延遲/成本。 聚焦於端到端性能提供了標準化計算框架、硬件、優化算法、超參數設置和其它重要因素的區別的客觀手段。 」像
  MLPerf 這樣的項目可以在當前對比 AI 性能的時候,清除那些模糊不清的因素。

版權聲明

本文僅代表作者觀點,不代表百度立場。
本文係作者授權百度百家發表,未經許可,不得轉載。

如有侵權請來信告知:酷播亮新聞 » 谷歌、百度等聯合發布機器學習新基準,旨在促進AI發展和公眾參與