機器之心原創
作者:邱陸陸
去年六月,英特爾人工智慧產品事業部(AIPG)數據科學主任、首席工程師劉茵茵在機器之心主辦的第一屆全球機器智能峰會(GMIS 2017)上發表了《演變中的人工智慧,與模型俱進》主題演講,探討了深度學習如何用同一種模型為不同行業提供解決方案,以及如何讓各個行業的專家建議推動整個人工智慧生態系統的發展。會後,劉茵茵也接受了機器之心的專訪,分享了英特爾在 AI 領域的整體規劃,以及 AIPG 部門如何計劃通過構建相應的框架、資源庫等實現這一目標。
日前,機器之心受邀參加了由英特爾與 O”Reilly 聯合主辦的中國人工智慧大會,並再次與劉茵茵進行了深入的對話,我們以英特爾在自然語言處理方面的工作為切入點,聊了聊英特爾是如何構建自然語言基礎模塊能力,為企業用戶提供人工智慧服務的,以下是對話實錄。
自然語言處理用例:主題分析、趨勢分析與情緒分析
機器之心:很高興再次見到您!如今一年時間過去了,AIPG 也完成了很多工作,尤其是在自然語言方面。您在演講中提到了三個客戶案例,分別是主題分析、趨勢分析和情緒分析。首先,能否從這三個案例出發,為我們介紹一下 AIPG 定義問題與解決問題的流程呢?
劉茵茵:首先是主題分析。主題分析的主要目標是為需要處理大量專業領域文檔的客戶進行以段落為單位的主題連接,讓客戶能夠集中閱讀自己感興趣的、與自身工作相關的內容。深度學習網路接收文檔句子/ 作為輸入,然後將其映射到數十個主題上,輸出給用戶。
我們的團隊先和客戶進行溝通,了解其應用場景並確定主題:在實際工作中,他們需要處理的文檔數據是什麼樣子的?有哪些資源可以輔助數據標註過程?此外,還要了解實際應用過程中的數據流程(pipeline)、延遲要求、存儲要求,最終根據所有的需求從英特爾的整套工具中選擇模塊,通過一些設計轉化成演算法,再轉化成一套整體方案。
機器之心:在獲取訓練數據方面,主題分析並不是一個天然存在有標註數據的任務,如何在初期收集有標註的訓練集呢?
劉茵茵:首先我們鼓勵客戶在初期可以做一些數據方面的投資,這樣可以更有效的利用英特爾多樣的深度學習產品。充足的數據相當於一個能夠嘗試多種演算法的環境,我們可以使用多種演算法進行試驗,找到效果最好的方法。其次,在標註數據不足的情況下,也可以利用無監督學習方法進行預訓練。尤其是在自然語言領域裡,語言的連貫性特點使我們可以根據其上下文關係進行無需額外標註的特徵提取和特徵學習等無監督預訓練。英特爾也確保在框架里支持各類不同的訓練方式。
機器之心:趨勢分析解決哪些問題呢?
劉茵茵:趨勢分析的分析對象是文本庫,目標是從文本庫中提取關鍵的名詞短語(noun phrase),然後通過衡量每個短語的相關性和重要性並進行加權打分,來比較不同文本庫之間的趨勢與變化。我們已經將演算法用於學術期刊的趨勢分析,旨在讓初學者,尤其是剛剛開始研究深度學習的數據科學工作者能夠看到領域裡一些概念在學術期刊匯總的熱度與趨勢。演算法也可以用於其他領域,例如產品分析、市場分析、熱門話題分析,都是理想的應用場景。
機器之心:情緒分析的應用場景有哪些?
劉茵茵:影視作品評論是一個比較直觀的例子。也有很多合作夥伴其希望在商業角度進行產品評估或者是競爭對手分析。因此模型將用戶評價作為輸入,在進行語法結構分析(parsing)的基礎上,進行命名實體識別(name entity recognition),然後通過名詞和形容詞連接,給出細粒度的(fine-grid)、多方面的評價分析,進而為合作夥伴提供明確的反饋以優化自己的產品設計。
機器之心:在使用深度學習模型完成這些具體用例的過程中,有哪些不一樣的體會呢?
劉茵茵:一個是深度學習模塊的可共享性。實際上,主題分析、趨勢分析和情緒分析模型都是由我們的自然語言堆棧中的眾多底層模塊組成的。例如,趨勢分析的第一個步驟是「名詞短語提取」(noun phrase extraction),其當前最優(state-of-the-art)的模型結構是「詞嵌入(word embedding)+ 深層 LSTM」,而這也是主題抽取任務中最常用的模型結構,更是情緒分析中語法結構分析的當前最優模型。因此,雖然目標不同、功能不同,但模型中的非常多模塊是能夠共享的。模塊的可共享性讓我們在每做一個客戶案例的同時都為建立 NLP 能力堆棧積累了非常可觀的結構經驗,而作為企業用戶,如果團隊對模塊的應用有基本的了解,也會很快利用同樣的模塊來搭建新的方案。
另外一個則是領域的專門性。例如在情緒分析中,數據科學人員觀察到的一個非常有趣的現象是,在不同的領域中,同樣的形容詞可能表達截然不同的意義。可能一個形容詞在形容影視作品時是褒義詞,然而如果用來形容產品可能就變成了貶義詞。因此,設計出有效的機制,能夠引入領域內的專家來對模型進行領域專門的調整,也是非常重要的。
AIPG 的角色:完成數據科學與技術服務,最終提供開源組件與能力
機器之心:英特爾的數據科學專家和領域內的專家在用戶案例的設計與搭建過程中分別承擔著怎樣的角色?
劉茵茵:人工智慧仍然處在起步階段,演算法能夠觸及的領域在不斷擴展,而很多領域專家也剛剛開始逐漸理解如何利用 AI 幫助他們解決實際問題。因此,在進行方案設計前,我們要和領域專家進行多次溝通,理解他們的問題,確定 AI 是否可以幫助解決這個特定問題;如果不可以,是否可以將問題轉換一下,變成一個當前的 AI 可以幫助解決的問題。
領域專家在這個過程中貢獻出自己對業務的理解:希望從哪種角度收集數據,希望看到演算法給出何種結果。有時候,他們需要的並不是情感分析或者趨勢分析這種已經有成熟定義和解決方案的模型,而是結合不同的深度學習模塊,組合成一個他們需要的全新的東西。英特爾在此基礎上進行數據科學工作和技術服務,在了解了問題之後,判斷何種模型可以幫助他們,再提供演算法設計,並將整個演算法連接到英特爾的深度學習框架乃至硬體上面。
機器之心:自然語言問題對框架乃至硬體層面提出了哪些獨特的需求呢?
劉茵茵:自然語言處理是一個很有挑戰、很有發展空間的領域。大部分自然語言任務需要用遞歸神經網路(RNN)處理時間序列(temporal sequence)、進行循環展開,這是一個很難並行的過程,因此在硬體方面,對從內存中快速提取數據的能力、內存能夠支持的模型容量等都有較高要求;在框架方面,也有與可並行模型截然不同的優化需求。所以英特爾在高層直接優化(HLO,提供多核架構優化)和 nGaph(提供框架和底層硬體連接優化)層面都會對眾多 NLP 模型進行持續的優化和基準衡量(benchmarking),確保其在硬體以及框架層面獲得最好的支持。
機器之心:您在演講以及剛才的採訪中多次提到了「堆棧」的概念,能具體解釋一下「堆棧」是什麼嗎?
劉茵茵:「堆棧」與其說是一個模塊集合,不如說是一種看待 NLP 問題的觀點和認識。英特爾數據科學團隊和研究團隊自成立以來,以 AI Lab 的形式解決了許多方面的問題,在計算機視覺、NLP、機器人學習乃至時間序列學習方面都積累了許多的能力。
在 NLP 方面,我們希望在積累了大量經驗,有了自己的理解後,能夠把不同組件組合在一起,可以通過英特爾的直接優化或者 nGraph,以開源庫的形式返回給公眾。無論是機器翻譯、命名實體識別還是主題分析,都能夠通過開源的框架,以平台的形式將做法示範給大家。
英特爾的戰略目標:充分利用軟硬體聯合優化優勢
機器之心:目前,AI Lab 有哪些主要目標,又有哪些典型用戶?
劉茵茵:AI Lab 主要致力於開發具有創新性的演算法,進行創新性的研究。它的目標有以下幾層。首先我們希望能夠自行進行新演算法的研究,數據科學人員在應用最新的、最好的演算法的同時,也會產生眾多的關於如何改進這些演算法的想法,並且希望把它們變成現實。下一個目標是,將演算法推薦給合適的用戶,用以解決一些之前無法解決的事記問題。現在有一些合作夥伴來自英特爾內部,例如之前我們幫英特爾的製造部門,對晶片圖像進行分類和分割,用以檢測晶片內部是否有缺陷。基於深度學習的方法能夠同時提高傳統方法的速度和準確率。在今後我們也會將用例以論文的形式分享出來。
機器之心:英特爾 AI Lab 在中國進行了哪些實踐?AI Lab 期望未來在中國獲得何種發展?
劉茵茵:英特爾在中國非常活躍地參與了眾多討論。在中國,有很多研究所、研究院以及大學,通過各種方式了解到英特爾正在進行的應用研究。英特爾為他們提供了在軟體框架和最新的優化演算法方面的一些支持,幫助學者了解如何在原型的基礎上擴展模型解決實際問題,而他們也為英特爾提供了一些特別的數據與用例。
如今,眾多英特爾硬體產品被廣泛應用在各行各業中,如果我們能夠充分地理解這些硬體的長處、短處,適用之處,然後設計出能夠根據其特性有效地實施和部署的方案,就可以高效地把一些早期的好的想法變成最終可以解決問題的方案。
機器之心:現在一個普世的觀點是,數據、演算法和計算力是 AI 實踐上的三個關鍵節點,這三個方面重要性相當,且很難用一方面的長處彌補另一方面的短處。英特爾在這幾方面的有哪些優勢?
劉茵茵:這三個元素都是非常重要的,也是需要緊密結合的。英特爾人工智慧產品事業部的數據科學家,不單單是在演算法方面有豐富的經驗,也能夠將演算法與算力緊密契合,找到最適合特定應用場景的組合。
數據則永遠是一個非常關鍵,也非常棘手的部分。很多時候我們要想辦法如何能夠不局限於監督學習,充分利用無監督學習,例如在數據使用方面,可以努力找尋一些隱藏的數據來源和數據關係來加強無監督學習、配合監督學習。
前瞻:從學界到業界,以及英特爾未來一年規劃
機器之心:過去的一年裡,學術界有哪些新的方法或者趨勢讓你覺得會對自然語言處理的實踐應用產生新的影響?
劉茵茵:一個是名為「稀疏」的做法。很多時候人們發現密集型的深度學習網路能夠被更大、更稀疏的模型所取代。這些大而稀疏的模型,在各種軟體和硬體良好配合的前提下,能夠極大提升最終的準確度。這樣的模型雖然稀疏,但是需要的內存並不會因此減小,尤其是大模型通常傾向於與維度更高的數據配合,這要求大型的存儲密集型的硬體對模型進行支持。
例如在英特爾和浙江大學合作的醫療影像案例中,如果內存方面受到較多限制,就必須把 CT 影像切割成小塊,在看不到全局的情況下完成分類、分割演算法。然而當採用英特爾至強處理器來做,就可以對 2D 全影像乃至 3D 影像行處理,大型的數據加上諸如 U-net 這類大型的深層神經網路,久而久之,就會大幅度提升精準度。
另外,自然語言相比於計算機視覺還有更大的上升空間,諸多基於深度學習的視覺演算法都可以轉而應用到自然語言處理上。比如說計算機視覺中常見的「風格遷移」任務,也可以在離散的、不連續的自然語言數據上進行。
自然語言處理方面和增強學習方面還是有很大的發展空間,最近經常看到一些多模態數據,比如圖像的文本描述,就能利用增強學習訓練一個行動器(agent),逐漸了解如何認知圖像中的一些概念並且能夠描述出來。我認為這是非常基礎而有用的研究,因為它不再將圖像和語言作為單獨的問題處理,而是將圖像、語言等通過各種感測器集合在一起進行輸入。
機器之心:AI Lab 在新的一年有哪些計劃呢?
劉茵茵:在研究層面,我們希望把一些研究成果通過發表論文、分享白皮書或者開源案例的形式分享給其他的研究員或者從業者。在 NLP 方面,也有很多正在進行中的研究,其中主要致力於搭建一個較為全面的堆棧,為使用英特爾軟體與硬體的用戶提供一個能力層。希望未來一年能夠更多把成果分享給大家。
本文為機器之心原創,轉載請聯繫本公眾號獲得授權。
————————————————