酷播亮新聞
最棒的知識補給站

深度學習:智慧對話機器人適用場景與技術解析

文章摘要: 當機器人接收到問題後會進行分析通過對不同的對話機器人技術分析

內容來源: 2017 年 9 月 24 日,愛因互動技術合夥人吳金龍在「ArchData技術峰會北京站」進行《深度學習與智慧對話機器人》演講分享。IT 大咖說(微信id:itdakashuo)作為獨家視訊合作方,經主辦方和講者審閱授權釋出。

閱讀字數: 2390 | 6分鐘閱讀

嘉賓演講視訊及PPT回顧:suo.im/4rwwLi

摘要

本次主題將介紹深度學習與對話機器人的結合,通過對不同的對話機器人技術分析,來解析對話機器人的發展趨勢以及適用場景。

對話機器人簡史

最早期人工智慧的提出是在1905的「圖靈測試」,之後陸續有關於聊天機器人的嘗試,1966年的ELIZA就是其中之一,它採用一種非常簡單的關鍵字匹配模式,再往後到1995年出現了更強一些的ALICE。

從2011、2012年開始國外的眾多公司都陸續嘗試人工智慧方面的研究,Siri、Google Now都是這時誕生的。2015年人工智慧進入爆發式增長時期,微軟、亞馬遜相繼涉及這一領域,2016年則是人工智慧最火的一年,這一年被稱為Bot元年。

目前雖然是聊天機器人的早期階段,但是整個產業已經相當完善,語音處理、文書處理、個人助理這些人工智慧領域都有公司在涉及。

對話機器人未來趨勢

個人資訊助理,幫助使用者管理日程、會議安排、輔助寫作。

客服/導購機器人,使用者通過與聊天機器人溝通獲取需要了解的資訊。

泛娛樂/教育聊天機器人,實現陪伴老人,教育小孩之類的功能。

DeepBot對話方塊架

愛因互動無論是內部還是外部都有很多的聊天機器人產品,為此我們在演算法層面上推出了DeepBot對話方塊架,它實現了針對不同情況使用不同機器人響應,並且每個機器人都採用不同的對應模型的功能。

當機器人接收到問題後會進行分析,分析涉及麪包括惡意檢測、實體識別、問題分類等等。分析完成後將會通過Route Bot決定是由哪個機器人回答。接下來有一個BotLets,每一個BotLets都有自身能處理的部分,無法處理的部分將會交由其他機器人。當這些機器人處理完問題後,將融合技術判斷機器人的回答質量,並決定使用哪個機器人的回答。

問題分析——實體識別

實體識別是用來抽取使用者問題中的關鍵部分,它從早期的序列標註開始,後續又經歷了HMM/CRF、LSTM、BiLSTM-CRF這樣的發展,可以說是留存相當久的技術了。

Route-Bot——領域/意圖檢測

Route-Bot比較核心的兩個部分是領域以及意圖檢測。在單輪識別模型中,採用RNN/CNN的方式將語句表達成向量,然後使用DNN進行分類。多輪識別相對比較複雜,不僅要識別使用者當前說的話,還要分析當前語言環境。對此我們有一個專用的多輪識別引擎,它的基礎模組還是RNN/CNN,用來處理單個語句表達,而上面則多了一層RNN進行資訊的彙總。

FAQ-Bot

FAQ中涉及的主要技術是搜尋和檢索,通常的邏輯是分析問題,然後通過檢索模組挑選出候選模組,最後使用匹配模組將候選部分進行排序。

和常規的FAQ不同,我們在FAQ中新增了語義匹配功能,並且可以在問題中帶背景,答覆中帶引數。

Task-Bot

Task-Bot會獲取使用者與系統的互動中所產生的多種資訊,並基於這些資訊判斷下次系統給出什麼樣的迴應。它的典型系統框架是SLU -> DST -> DPO -> NLG, SLU負責將使用者語言翻譯成結構化資訊,DST追蹤使用者歷史對話資訊,DPO根據DST的結果獲取當前對話狀態,並以此給出答覆,NLG將DPO輸出的結構化資訊轉化為自然語言。

Rec-Bot

相比通過GUI進行推薦,採用對話的方式會更有優勢,因為這種方式可以讓使用者去實時修改資訊。推薦主要涉及到企業、產品、使用者三個方面。我們通過語音機器人所做的推薦,包含線下、近實時、實時三個模組。線下按天進行更新,近實時就是及時的對使用者的行為進行反饋。

推薦中最重要的資料是使用者與系統的互動資料,協同過濾裡用的最多的是使用者與產品的互動,再進一步是使用者、需求、產品之間的互動,另外還有使用者與使用者的互動。

本質上來說推薦模型都是用來表徵使用者和表徵產品。表徵使用者是利用表示學習獲取使用者相關的各種特徵,再把這些表示結果用於預測使用者的短期需求和長期需求。每個產品包含的服務及價格等基本資訊,可以刻畫此產品;而使用者對產品的購買等行為資料,也可以隱性刻畫此產品,這就是表徵產品。

目前的推薦系統中採用的最多的是融合,它興起於Netflix Prize競賽。常用的組合方式有預測值組合,組合多個演算法的預測值;特徵擴充,一個演算法的輸出作為另一個演算法的輸入特徵;切換,不同演算法間相互切換。

推薦除開要求準確的之外還有其他的指標,比如覆蓋面、多樣性、新穎性、驚奇性等。

Chitchat-Bot

Chitchat-Bot使用了檢索加生成式的技術結合,檢索可以保證可靠性,允許使用者新增qa對,秒級生效。生成式則保證100%召回,可以回答任何問題,降低知識庫維護門檻。

爲了解決Chitchat-Bot的一些常見問題,我們在Chitchat-Bot中使用了CoverAge機制保證生成式語句不重複,還使用了copy機制保證稀有詞的產生,並且採用MMI提升生成結果的多樣性。

實踐經驗

CUI/GUI

從效率上來看GUI更適合去做廣度的資訊展示,CUI則適合深度資訊展示。從感受上來說GUI的空間感更強,CUI的時間感更突出。基於以上兩點我們認為CUI去做推薦或者個性化的需求更加合適。

需要注意的是CUI本身並不會帶來直接的價值,而是通過作為使用者互動的入口這一媒介實現間接的價值。

對話的商業原則

– 使用者價值:能通過對話高效解決問題

– 稀缺性:成為細分領域的關鍵業務環節

– 技術成熟度:選擇合適的技術

對話商用場景

– 清晰的知識結構和邊界

– 非標準化服務,資訊不對稱

– 能夠通過資料積累提升服務質量

– 能夠建立知識和技術壁壘

如有侵權請來信告知:酷播亮新聞 » 深度學習:智慧對話機器人適用場景與技術解析