摘要:2018年5月8日,一年一度的谷歌
I/O開發者大會在美國加州山景城開幕。 2016年谷歌從移動優先到人工智能優先(AI-first),兩年來我們從谷歌I/O
看到了谷歌如何踐行這一戰略。 在今日剛剛結束
2018 年 5 月 8 日,一年一度的谷歌
I/O 開發者大會在美國加州山景城開幕。 2016 年谷歌從移動優先到人工智能優先(AI-first),兩年來我們從谷歌 I/O
看到了谷歌如何踐行這一戰略。 在今日剛剛結束的 Keynote 中,機器學習依舊是整個大會的主旋律:谷歌發布了 TPU 3.0、Google
Duplex,以及基於 AI 核心的新一代安卓操作系統 Android P,也介紹了自己在 News、Map、Lens 等眾多產品中對 AI
與機器學習模型的應用。 本文帶你一覽谷歌 I/O 2018 首日 keynote 的核心亮點。
在今天的
Keynote 中,谷歌 CEO 桑德爾·皮查伊等人介紹了谷歌一年來的多方面 AI 研究成果,例如深度學習醫療、TPU3.0、Google
Duplex 等,也展示了 AI 如何全方位地融入了谷歌每一條產品線,從安卓到 Google Lens 和 Waymo。 在本文中,機器之心對
Keynote 的核心內容進行了整理。
深度學習醫療
大會剛開始,昨天谷歌所有的 AI 研究合併出的 Google AI 發布了一篇博客,介紹谷歌在醫療領域的研究:
聯合斯坦福醫學院、加州大學舊金山分校
、芝加哥大學醫學中心,谷歌今天在 Nature Partner Journals: Digital Medicine
上發布了一篇論文《Scalable and Accurate Deep Learning with Electronic Health
Records》。
在此研究中,谷歌使用深度學習模型根據去識別的電子病歷做出大量與病人相關的預測。 重要的是,谷歌能夠使用原始數據,不需要人工提取、清潔、轉換病歷中的相關變量。
在預測之前,深度學習模型讀取早期到現在所有的數據點,然後學習對預測輸出有幫助的數據。 由於數據點數量巨大,谷歌基於循環神經網絡與前饋網絡開發出了一種新型的深度學習建模方法。
病人病歷中的數據以時間線的形式展示
至於預測準確率(標準:1.00 為完美得分),如果病人就醫時間較長,論文提出的模型預測得分為 0.86,而傳統的 logistic 回歸模型得分為 0.76。 這一預測準確率已經相當驚人。
Looking to Listen:音頻-視覺語音分離模型
而後,皮查伊介紹了谷歌博客不久前介紹的新型音頻-視覺語音分離模型。
在論文《Looking
to Listen at the Cocktail
Party》中,谷歌提出了一種深度學習音頻-視覺模型,用於將單個語音信號與背景噪聲、其他人聲等混合聲音分離開來。 這種方法用途廣泛,從視頻中的語音增強和識別、視頻會議,到改進助聽器,不一而足,尤其適用於有多個說話人的情景。
據介紹,這項技術的獨特之處是結合了輸入視頻的聽覺和視覺信號來分離語音。 直觀地講,人的嘴的運動應當與該人說話時產生的聲音相關聯,這反過來又可以幫助識別音頻的哪些部分對應於該人。 視覺信號不僅在混合語音的情況下顯著提高了語音分離質量(與僅僅使用音頻的語音分離相比),它還將分離的干淨語音軌道與視頻中的可見說話者相關聯。
在谷歌提出的方法中,輸入是具有一個或多個說話人的視頻,其中我們需要的語音受到其他說話人和/或背景噪聲的干擾。 輸出是將輸入音頻軌道分解成的干淨語音軌道,其中每個語音軌道來自視頻中檢測到的每一個人。
皮查伊還介紹了谷歌其他 NLP 應用,例如通過谷歌的鍵盤輸入摩斯電碼讓語言障礙者重新獲得表達能力、GMail 中利用語言模型與語境信息預測輸入。
之後,皮查伊介紹了谷歌在計算機領域的一些研究成果與應用,包括醫療影像方面的研究,移動設備中應用的照片理解、摳圖、自動上色和文檔處理等。
TPU 3.0
去年,谷歌 I/0 公佈了 TPU 2.0,且開放給了谷歌云客戶。 今天,皮查伊正式宣布 TPU 3.0 版本。
皮查伊介紹,TPU 3.0 版本功能強大,採用液冷系統,計算性能是 TPU 2.0 的 8 倍,可解決更多問題,讓用戶開發更大、更好、更準確的模型。 更多有關 TPU 3.0 的信息也許會在之後放出。
Google Assitant 與 Google Duplex
集成谷歌人機交互研究的
Google Assistant 在今日的 keynote 中必然會亮相。 Google Assitant 負責工程的副總裁 Scott
Huffman 介紹了 Google Assitant 過去一年的成果,谷歌產品管理總監 Lilian Rincon 介紹了帶有視覺體驗的
Google Assistant 產品,且有數款產品將在今年 7 月份發布。
而後谷歌 CEO 桑德爾·皮查伊在 Keynote 中展示了語言交互的重要性,並正式介紹了一種進行自然語言對話的新技術 Google Duplex。 這種技術旨在完成預約等特定任務,並使系統盡可能自然流暢地實現對話,使用戶能像與人對話那樣便捷。
這種自然的對話非常難以處理,因為用戶可能會使用更加不正式或較長的句子,且語速和語調也會相應地增加。 此外,在交互式對話中,同樣的自然語句可能會根據語境有不同的意思,因為人類之間的自然對話總是根據語境盡可能省略一些語言。
為了解決這些問題,Duplex
基於循環神經網絡和 TensorFlow
Extended(TFX)在匿名電話會話數據集上進行訓練。 這種循環網絡使用谷歌自動語音識別(ASR)技術的輸出作為輸入,包括語音的特徵、會話歷史和其它會話參數。 谷歌會為每一個任務獨立地訓練一個理解模型,但所有任務都能利用共享的語料庫。 此外,谷歌還會使用
TFX 中的超參數優化方法優化模型的性能。
如下所示,輸入語音將輸入到 ASR 系統並獲得輸出,在結合 ASR
的輸出與語境信息後可作為循環神經網絡的輸入。 這一深度 RNN
最終將基於輸入信息輸出對應的響應文本,最後響應文本可傳入文本轉語音(TTS)系統完成對話。 RNN 的輸出與 TTS
系統對於生成流暢自然的語音非常重要,這也是 Duplex 系統關注的核心問題。
在 Duplex 系統的語音生成部分,谷歌結合了拼接式的 TTS 系統和合成式的 TTS 系統來控制語音語調,即結合了 Tacotron 和 WaveNet。
由於這樣的系統引入了「嗯、額」等停頓語,系統生成的語音會顯得更加的自然。 當結合拼接式 TTS 引擎中大量不同的語音單元或添加合成式停頓時,這些引入的停頓語允許系統以自然的方式表示它還需要一些處理時間。
總的來說,Google Duplex 的這些結構與方法對生成更自然的對話與語音有非常大的幫助。 目前雖然主要是針對特定領域中的語言交互,但確實提升了語音會話中的用戶體驗。
安卓以及閃現的 DeepMind
即將在今年 9 月迎來自己 10 歲生日的安卓也在 I/O 上宣布了新一代操作系統。 繼承 Android Oreo 工作的新版安卓系統被命名為 Android P。
「本次發布有三個主題,分別是智能(Intelligence)、簡潔(Simplicity)與數字健康(Digital
Wellbeing)。 Android P 是我們『AI 位於操作系統核心』願景的第一步,而 AI 也是『智能』主題的奠基石。 」谷歌工程副總裁
Dave Burke 如是展開了他的演講。
智能部分里首先介紹了兩個功能,Adaptive Battery 自適應電池管理系統和 Adaptive Brightness 自適應亮度調節系統。
其中,Adaptive
Battery 通過卷積神經網絡來預測用戶接下來會使用的應用程序,通過適應用戶的使用模式將電池僅用於你接下來可能需要的應用程序中,這減少了
30% 的後台 CPU 喚醒。 而 Adaptive Brightness
則不再單純根據照明情況調節亮度,而是加上了用戶喜好和所處環境因素。 超過一半的測試用戶減少了他們手動調節亮度條的頻率。
事實上,這兩個功能均來自之前一度被美媒質疑「燒錢還傲嬌不干實事」的
DeepMind。 DeepMind 本次並沒有直接在 I/O
露出,只是在博客上發表了一篇文章(https://deepmind.com/blog/deepmind-meet-android/),說明了
Android 的這兩個新功能來自 DeepMind for Google 團隊。
除此之外,Android P 也將去年發布的、準確率達到60% 的「用戶接下來可能使用哪個App」預測更進一步,轉而預測「用戶接下來可能用什麼App 進行什麼操作」,並直接 在上滑菜單頂部呈現給用戶。
Dave Burke 在介紹上述每一個功能時都著重強調了所有的預測均由在端上運行的機器學習模型完成,以確保用戶隱私得到最大程度的保護。
除了將AI 融入操作系統的優化之外,Android 還試圖降低非機器學習背景的開發者使用相關技能的門檻:包括圖片標註、文字識別、智能回復等一系列AI 相關的API 將以ML Kit 的形式 開放給開發者。
「你可以將 ML Kit 視作基於 TensorFlow Lite 提供的、為移動設備優化過的、隨拿隨用機器學習模型。」Dave Kurve 介紹說。 而且,谷歌非常大方地同時對 iOS 系統開放了這一 API 集。
開發者今天就能在
Pixel 上實驗 Android P Beta 的效果了。 值得一提的是,除了 Pixel 之外,Android P Beta 還對其他 7
家手機生產廠商的旗艦機開放,其中有 4 家都來自中國,它們分別是小米、vivo、oppo 和一加。
無人駕駛
昨日,起源於斯坦福人工智能實驗室的自動駕駛汽車初創公司
Drive.ai 於 7 日宣布,將與德克薩斯州的弗里斯科政府以及 Hall 集團進行合作,在德州落地首個無人出租車服務。 而在今天的
Keynote 中,Waymo CEO John Krafcik 通過視頻展示了居住在鳳凰城的一些人參與其 EarlyRider 項目(即體驗
Waymo 的自動駕駛技術)的場景。 Krafcik 稱 Waymo 將在今年於鳳凰城開始 passenger-pickup
項目,鳳凰城是第一站。
結語
一年一度的谷歌 I/O 開發者大會首日 Keynote
中的核心內容如上,相比於偏重機器學習技術的 2016 年與 2017 年,今年的內容更多關於 AI 的應用與產品。 兩年來,我們看到了谷歌如何踐行
AI First 戰略。 接下來幾天,機器之心將會繼續報導谷歌 I/O 2018 的更多精彩內容。
版權聲明
本文僅代表作者觀點,不代表百度立場。
本文係作者授權百度百家發表,未經許可,不得轉載。