酷播亮新聞
最棒的知識補給站

京東AI研究院常務副院長何曉冬:如何讓AI通過NLP技術理解人類?

文章摘要: 語義表徵是一個核心的自然語言理解問題所以這是在語言理解裏面核心的問題

近年來,深度學習的發展給人工智慧帶來了深遠的推動。而人工智慧的下一個重大突破在於理解自然語言。

6月23日,中國計算機學會舉辦主題為「人機對話的產業應用與技術發展」的研討會,京東AI研究院常務副院長何曉冬博士發表關於「自然語言理解技術突破」的主題報告。

在這場報告中,何曉冬博士首先簡略回顧了深度學習技術對語音,語言,視覺等方面的驅動,然後著重從兩個方面探討了其在自然語言處理(NLP)方面的前沿研究,一是如何讓AI通過NLP技術理解人類,如理解意圖,解析語義,識別情緒,搜尋推薦;二是如何讓AI的結果能被人類理解接受,如文字摘要,內容生成,話題展開,情感對話等。最後,探討了在多模態智慧,長文字生成,情感和風格表達,及人機對話這些前沿方向上的最新研究進展。

雷鋒網注:何曉冬博士發表演講

今年3月,何曉冬博士加盟京東,出任京東AI研究院常務副院長及深度學習及語音和語言實驗室主任。在深度學習、自然語言處理、語音識別、計算機視覺及資訊檢索等方面均有重要貢獻。其工作包括DSSM(深度結構語義模型/深度語義匹配模型)和影象描述機器人Caption Bot等。在加入京東之前,何曉冬博士就職於美國微軟雷德蒙德研究院,擔任首席研究員(Principal Researcher)及深度學習技術中心(DLTC)負責人。何曉冬博士於1996年獲清華大學學士學位,1999年獲中國科學院碩士學位,2003年獲美國密蘇里大學-哥倫比亞分校博士學位。

以下是何曉冬博士所做報告的具體內容,雷鋒網做了不改變原意的編輯整理。

深度學習發展歷程

深度學習的前身,當時叫作「神經網路」,在80年代就曾經流行。在90年代,大家對神經網路的期望到達頂峰,但是發現很多問題它解決不了,比如解決一些語音識別問題,神經網路的效果並不見得比其他基於統計的模型好。

2000年代的時候,深度學習還沒有被廣泛認知。2008年,我和微軟同事鄧立在NIPS辦了個研討會,邀請到Geoff Hinton 等來介紹最新的一些深度學習方面的進展。直到2010年左右,深度神經網路模型開始在 大規模語音識別 上產生了大的突破。從那時候開始,大家對神經網路和深度學習有了新的信心,經過進一步推動,神經網路在2012年在 影象識別 上產生很大的突破,2014、2015年,神經網路在 機器翻譯 上也有了很大的突破。之後神經網絡技術在越來越多AI領域產生更大的影響。

以語音識別為例,2000年以前,語音識別發展上不停有進步,使得語音識別的錯誤率有一個很明顯的下降趨勢。

2000年開始,語音識別技術進入了一個 瓶頸期 ,雖然每年還會有一些新的技術發明,但實際上總體來說,從2000到2010年,它在大規模測試集上的錯誤率基本降不下去,技術上來說這十年是基本停滯的。

2010年開始,Geoff Hinton和微軟合作開始用深度學習做語音識別技術研發,2011年發現在一些大規模的語音識別數集上,可以看到20%-30%的錯誤率下降。更多的研究員投入以後,錯誤率以一個很快的速度下降。在重要的電話語音測試集switchboard上,去年微軟的語音識別錯誤率僅為5%左右,等於一個專業的速記員水平。所以可以說,2017年開始,在switchboard 上,機器達到了人的水平。

不光是在語音上,在 影象識別 上深度學習也有很大的進步。大概在2009年,李飛飛團隊提出了一個數據集ImageNet,從2010年開始李飛飛和她的團隊成員基本每年都會舉辦一個挑戰賽。在2010年、2011年,最好的系統在這個資料集上做識別的錯誤率大概是在25%左右。2012年,Hinton和他的學生第一次提出了一個深度的摺積神經網路,雖然不是他們提出來的,但是他們把這個網路做到一個很大的規模,把一些新的技術也加了進去,使得錯誤率一下子從25%降到16%。

2015年,我之前在微軟的同事孫劍團隊提出一個新的模型,把深度學習推到一個新的高度,把網路層數做到152層,錯誤率降到3.57%。因為人有時候犯錯誤,人的錯誤率大概在5%左右,但是機器可以做到3.5%,所以從那個時候開始, 在這個特定資料集上用計算機做影象識別的能力已經比一般的人要好

可能語音和影象我們看到了很清楚的突破,下一個期待的能否在自然語言上做到更深的突破。因為語言是人類特有的智慧,很多高等動物也有很強的視覺和聽覺,但是語言是人獨有的智慧。所以我們也希望計算機或者人工智慧有一天能夠跟人一樣,對語言充分理解。

自然語言處理前沿研究

說到自然語言處理,基本上可以分成兩個單位:

1、 AI理解人類。

像意圖識別、搜尋,人通過文字表達各種各樣的意圖和情緒。所以我們說要讓AI理解人類。

語言理解第一步就是 槽值提取。

如果你說一句話,計算機需要理解這句話裏面你要的意圖。比如你要去找一個航班,就要把城市和時間標出來。 在2013年我們跟Yoshua Bengio合作,第一次把RNN成功應用於這個問題。

另外一個工作是怎麼 分類意圖

人說話很複雜,你說一段話,裏面描述了對餐館的意見,但是我們想從這個段子裏面知道你真正的意見,為什麼會這麼說?這就意味著在這樣一個語段裏面要知道哪些句子更重要,哪些句子不那麼重要。所以我們設計了一個雙層的基於關注度的神經網路,叫做Hierarchical Attention Net。就是在句子內,在詞這個層面先抽取最重要的那個資訊,同時在句子之間抽取更重要的句子,兩者聯合起來,就能達到一個完整的對語段的表達。

這個語段本身講的是他是喜歡這個餐館,我們甚至可以把重要的詞給標出來,或者重要的句子標出來,越深的顏色意味著對語段的意圖理解越重要。所以不但可以解釋整個語段意思是喜歡餐館,同時它也會告訴你為什麼會喜歡餐館。

語義表徵是一個核心的自然語言理解問題。

自然語言可以千變萬化,但是其實有一個語義在裏面。語義理解是一個很難的問題,我們希望設計一個深度神經網路,可以從原始或者比較初步的自然語言描述提取到抽象的語義特徵。這個語義特徵最後會形成一個語義空間,每一句話的意思都會被對映成這個空間的一個點。不同的句子描述的語義是相似的,但是字面意思不一樣。我們希望這個神經網路學習以後,讓他知道這兩句話在空間裏面是相近的。

兩句話重合度非常相關但是意思完全不一樣,我們也希望這個神經網路通過學習知道不同的句子雖然可能描述字面很相似,但是意思是完全不一樣的,所以這是在語言理解裏面核心的問題。

爲了解決這個問題,我們大概在2013年提出一個模型,叫深度解構語義模型(DSSM)。它解決一個本質問題是,有幾個句子,比如像跑車,可能翻譯成賽車或者跑步,跑車和跑步雖然字面上的重合度更高一些,但卻是非常不一樣的兩個概念。所以經過學習我們可以知道,跑車和賽車最後在向量空間裏面向量的重合度要儘可能高;然後跑車和跑步的向量儘可能拉開,這樣的話,我們可以在語義空間裏面更好的分開跑車和跑步的關係。

雷鋒網 (公眾號:雷鋒網) 注:深度結構語義模型(DSSM)

整個訓練比較複雜,我們並不關心向量之間的絕對值,而是向量與向量的相對關係,只有這個相對關係定義了語義。因為語義本身是一個虛擬的概念,你可能看過這個影象,看過這個物體,但是語義從來都是在人的腦海裏面的一個概念。所以所有的語義都是通過一個相對性的意思來表達,我們知道A和B很相似,所以我們通過一個相對性的訓練目標來訓練這個模型,從而得到這樣一個語義模型。

還有另外一個重要問題,就是 知識圖譜。

雷鋒網注:知識圖譜示意圖

點代表了重要的物體和實體,線往往描述事情和事情的關係。像奧巴馬有很多關係,他的出生地是夏威夷,黨派是民主黨,他的妻子和女兒叫什麼名字。很多時候我們希望在一個連續空間裏面進行知識計算,誰跟誰很相似,誰跟誰大概會有一些新的關係,以前不知道的可以挖掘出來。在2015年我有一篇文章提出怎麼樣把知識圖譜在一個連續空間裏面表示。比如我們可以用一個剛纔說的語義向量來表示每個實體,同時用一個矩陣來表示實體之間的關係。這樣的話,我們在計算實體A和實體B是不是存在一個特定的關係M的時候,只要算一下A的向量×B的向量,看看這個值是不是高,做一個相似度的測量。

有這樣一個在連續空間裏面表達的知識圖譜以後,其實可以做很多別的事情。比如可以在連續空間裏面推出來很多東西,我們知道奧巴馬出生地在夏威夷,夏威夷在美國,我們就可以推導出來他的國籍是美國。這些都可以通過在知識空間裏面計算得到。根據國籍關係和出生地關係可以算出兩個矩陣之間的距離,如果這兩個矩陣之間的距離足夠小的話,就認為這兩個關係是等價的。

有了知識圖譜以後可以做很多事情,比如做知識解答,問誰是賈斯汀比伯的姐姐,就可以通過語義解析和搜尋匹配得到答案。

2、讓AI以人類理解的方式表達。

就是讓AI產生內容,理解人類。舉個例子,我們都知道人工智慧可以寫詩現在已經不是新聞了,人工智慧還會畫畫,還可以做一些文字摘要,甚至可以做一個菜譜。所以我們對人工智慧要求越來越高,希望人工智慧不僅能理解我們說什麼,還能反饋一些內容。

還有怎麼樣用 增強學習 在自然語言裏面做應用。在增強學習裏面AlphaGo是一個很好的例子,我們認為自然語言理解是比AlphaGo下圍棋更難的問題,因為語言的空間是無限大的,圍棋的空間很大,其實語言空間比圍棋還要大。語言的空間是無限的,特別就行動空間而言,而圍棋每一步只能在361個點上選擇任意一點。

爲了解決這個問題,我們不能像AlphaGo一樣直接去判斷,在語言對話問題裏面,一個H就是機器說了一句話,或者機器選了一句話,因為這個話的表達是千變萬化的,這個H是沒有邊界的。所以不是說我們讓機器選某一個H,而是說把所有的H通過一個神經網路對映到一個語義空間,在這個語義空間裏面計算什麼時候應該選哪個H,最後這個H才能在一個語言的環境裏面做深度學習。

人類理解跟計算機理解是不一樣的,很多時候計算機的理解邏輯更像做一些匹配,包括關鍵字查詢、語義分析。不管怎麼說,在這個資料集上很多最新模型已經超過人的水平了。甚至我們還提出新的如何作遷移學習的模型,即怎麼樣把一個模型從一個領域遷移到另外一個領域,這樣才能迅速達到很高的水平。

還有一個做的比較大的方面,是 機器閱讀 ,我們希望AI讀完一篇文章以後,它能夠回答關於這篇文章的任何問題。計算機要對這些前後關係有一個充分理解,然後得到一個準確的答案。這個方面也有很大的進展,斯坦福做了一個數據集,最近他們出了2.0版;最近很多企業這方面做的也不錯,比如科大迅飛,谷歌,微軟,阿里等。

下一步突破

1.多模態智慧

多模態智慧也是一個交叉性的概念,我們知道人在獲得智慧的時候,是通過多個來源,並不是只看圖,或者只是聽。

我們知道奧巴馬是誰,知道他的背景,但是並不全面,看到圖片以後才知道原來奧巴馬長這樣。所以視覺對語言知識有很大的補充。聽覺也是一樣,我們聽到奧巴馬的演講,知道他怎麼用詞,對他有更加深入的理解。所有這些各個模態的東西在一起,才能導致我們對整個知識有一個深入的瞭解。所以基於深度學習模型,我們希望對不同模態的輸入都可以逐步的把它不變的語義訊號和概念提取出來,最後能夠統一到一個多模態的語義空間裏面,在這個語義空間裡,我們可以跨模態的做一些工作,比如圖文關聯的推理,甚至可以做跨圖文處理,甚至一個模態到一個模態的內容生成等等。

2.複雜內容的創作

這是另外一個最新的工作,即怎麼樣生成一首詩歌。生成詩歌也是內容創作,假設這是我們一個演算法科學家給他女兒寫了一首詩,輸入關鍵字之後計算機會理解他大概想表達什麼樣的情緒,同時用文字來表達這個情緒,從而生成一篇詩歌。

這裏面還有一個核心問題沒有解決,即寫作邏輯。所以這個時候就關係到怎樣確立這樣一個模型,使得主題、子主題的結構可以展開,並且能夠在模型上得到體現,最後才能真正寫出一篇前後邏輯嚴謹,有意義的文章出來。

3.情感智慧

舉一個簡單例子,如何生成有情感的對話。假如一位女士買了一件T恤,如果她發到朋友圈的時候,我們可以知道這是一個女士。甚至計算機可能用一句話描述:穿著藍色T恤的女士。但實際上這位女士發在朋友圈的圖片,可能只是爲了炫耀她新買的新衣服。所以這時候我希望計算機知道她的情感需求,看起來這個圖片美麗的像一個天使,而不是着重於她表象的衣服和行為。所以我們希望計算機能夠做的更好,能夠理解使用者的情感,知道使用者的訴求,這樣才能夠說對使用者有更深的理解。我們希望人工智慧逐步開始對情感有更深的理解,不光是能夠識別情感,而且能夠配合情感進行相應表達。

4.多輪人機對話

智慧技術終歸回到一個問題,AI是什麼?圖靈在50年代的時候提出圖靈測試,如果計算機和人進行大量的交談,長時間以後,人不能判斷跟他交談的是人還是計算機,他認為計算機通過測試是有智慧的。換句話說,圖靈認為 語言和對話 代表高階的智慧,如果對話上能夠通過圖靈測試,意味著這個計算機真的有智慧。

從那以後,一代一代的科學家做了很多研究,在過去50年已經發表了很多對話系統,從聲學識別、語音識別到語義理解。

最近在京東研究院我們做了一個情感對話服務機器人,客服裏面最重要的一個事情就是情緒,所以需要對情緒有精準的把握。客服需要對使用者有同理心,同時客服要有足夠細膩的說話技巧,同時還要符合某種社會價值觀。

舉個例子,如果一個人打電話,他開始問他的快遞為什麼還沒有到?這個時候我們希望AI模型可以精準的體會到這個顧客是生氣的。然後機器人會進行一些安撫,表示抱歉,讓他的情緒能夠緩和。然後再問他具體的內容:「到底什麼時候發生的?」他說:「昨天」。這個時候智慧機器人就會查具體這個東西不是已經到了,最後告訴他,「系統已經顯示東西到了」。這時候顧客的情緒從生氣變成焦急,機器人就很迅速捕捉到他這種情緒變化,告訴他說,「不用著急,我們有保險,請您放心。」

再往下一步,顯示說「您的鄰居幫您簽收了,並不是弄丟了,所以可以完全放心。」這個時候顧客的情緒又發生變化,他可能覺得如釋重負,覺得這個事情解決了,他會說:「放心了,謝謝。」這個時候機器人也檢測到愉快的情緒,祝這個客戶愉快,然後把這個問題解決掉。

現在有情感支援的對話機器人已經在京東上線了,已線上上服務了將近100多萬的諮詢。

總結:

整個自然語言突破,我個人認為並不是要證明AI技術比人強,計算機下棋下的比人強,證明計算機前進的程度不是我們的終極目標, 我們的終極目標是AI幫助人類連線這個世界

我們生活在一個物理世界,這個世界往往需要大量的視覺訊號在裏面。同時,我們也生活在一個數字世界裏,我們有各種的帳號,還有各種號碼。此外,我們還需要跟其他的人打交道,我們有微信,看微博,看各種各樣的頭條,或者看各種各樣的資訊,去線上買東西,給客服打電話,所以跟人類打交道也是需要突破的一點。所以我們希望AI幫助每一個使用者和每個消費者更好的跟自己的三個世界的人能夠連線起來。

語言理解作為一個核心技術,就是能夠溝通人和世界的交流,像圖靈說的,只有通過對話測試才能證明機器有智慧,所以語言理解和人機對話一直是推動人工智慧發展的一個核心目標。我們希望機器能夠更進一步的進化到高階智慧和通用智慧,能夠自動學習和自我創新,然後迅速的在一些特定領域比人做的更好。

相關文章:

自然語言處理的下一個十年將在哪裏?CCF-GAIR 2018將給你答案

自然語言處理頂會 NAACL 2018 最佳論文、時間檢驗論文揭曉

如何解決自然語言處理中90%的問題

雷鋒網原創文章,未經授權禁止轉載。詳情見 轉載須知 。

如有侵權請來信告知:酷播亮新聞 » 京東AI研究院常務副院長何曉冬:如何讓AI通過NLP技術理解人類?