酷播亮新聞
最棒的知識補給站

ATEC螞蟻人工智慧大賽正式啟動,我們從現場帶來了Michael I.Jordan和螞蟻金服演算法專家們的解題攻略

機器之心報道

作者:高靜宜

在大咖們的助力下,你對拿下百萬獎金勢在必行了嗎?

「經常有人問我,AI 的未來是什麼?你對未來有著怎樣的展望?我通常會說,那些金融科技公司所處的生態領域內的發展,將是未來AI最有意思的地方。」機器學習領域的泰斗級學者、螞蟻金服科學智囊團主席、加州大學伯克利分校教授 Michael I. Jordan 說。

確實如此,這些公司所面臨的是真正意義上的行業難題,而它們就是 AI 應用最為有效的地方。「我們開始發現,AI 不再是簡單的想要模仿人類的智能,而是成為了一種新的能力。它像水一樣滲透在社會經濟的每一個角落,散發智能、解決問題。」螞蟻金服 CTO 程立解釋道。

「基於這樣的 AI 所釋放出來的能力,不僅可以幫助人們更加深刻地洞察社會,在金融領域更好地發現和控制風險,也能夠為每一個普通人打造一個貼心的生活助理和財富顧問,讓每一個小微企業擁有最智慧的經營助手和最優秀的 CFO。」

4 月 25 日,ATEC 螞蟻開發者大賽人工智慧大賽啟動,主辦方螞蟻金服發起初衷就是要把業務體系中最又價值的問題提煉出來,並提供自主可控的 AI 平台,分享給開發者用創新技術方案去解決。

「事實上,AI 是一個工程學科,有時候大家覺得 AI 是神奇魔幻的工具,把它引入公司就會帶來奇蹟,其實這是不對的。」Michael I. Jordan 說道,「AI 是由工程師的大腦打造出來的一種解決問題的手段,是一種思考解決問題手段的方法。今天我們舉行的大賽就是一個非常好的例子,大家可以去思考怎麼樣用工程師的頭腦解決問題,而不是用魔術的手段帶來奇蹟。」

某種程度上,對這些參賽選手而言,與其說是參與一次比賽,更像是在一家科技金融公司完成一個個真實項目。我們在現場深度了解了圍繞具體金融業務場景的賽題,並從專家們的介紹中找到了一些解題方向。

一、支付風險識別

第一道賽題是一個有關支付風險識別的問題。

基於移動互聯網的新金融業務在蓬勃發展的同時,黑產攻擊的能力也在不斷升級。信息泄露是導致帳戶安全最為嚴重的問題之一。國際上多起用戶信息泄露的事件,過億的敏感數據被盜用、利用,給用戶和銀行帶來了巨大的經濟損失。

保護消費者和風險識別,也越來越成為金融行業和學術界關注的焦點。以這個研究點出發,螞蟻金服以高度模擬真實業務的數據和場景,希望行業大咖一起對風險模式、無標籤數據的學習這兩個技術難題做出深入的研究和突破,為金融風控行業帶來價值的同時推動人工智慧下一步的發展。

「過去四十年,這一直都是很大的問題,而且現在還沒有解決。 90 年代,有一些銀行開始用機器學習做檢測,而且結果不錯。亞馬遜在線上使用之後,我們可以看到虛假支付的比例升高,他們用機器學習手段把虛假支付率降低了很多。」Michael I. Jordan說道。

在活動現場,螞蟻金服副總裁、大安全負責人芮雄文介紹了這道賽題的背景——

支付寶是螞蟻金服的起源,而移動支付之所以在中國普及的根本原因在於,相較於信用卡,基於二維碼的移動支付上根本降低了消費者和商戶的支付門檻,而且與 POS 機比起來,成本更低。

在便捷、低成本的基礎上,安全就成為了螞蟻金服要面臨的首要問題,這也是所有金融服務的基石。

在安全科技方面,螞蟻金服擁有三大核心能力,分別為確保線上線下環境中操作者即賬戶擁有者本人的數字身份;運用大數據、機器學習和人工智慧實現精準識別和防控風險的智能風控大腦;以及免於內外遭受攻擊的數據保護及隱私。

芮雄文還特別提到了螞蟻金服在智能風控方面的最新探索——AlphaRisk 風控引擎。

這套引擎擁有四個核心系統,包括風險感知(感知風險形勢和情境)、風險識別(毫米級精準識別所有風險)、自動駕駛(基於風險場景和用戶狀態完成個性化智能推薦的管理措施)、以及自我學習能力(在黑產不停變化的同時保證整個風控系統能夠自動學習、更新)。

在這套風控引擎的支持下,目前螞蟻金服的資損率已經小於百萬分之一,每秒可以在峰值時處理超過 50 萬筆的風險交易,還可以在 1 秒內更換整個策略體系。

不過,智能風控領域仍然存在一些難以攻克的挑戰。芮雄文舉了兩個例子,一是黑產作案手段不斷變化,傳統的攻防模型過幾天效果就會下降;二是缺乏黑樣本的情況下讓模型精準識別。

對此,東華大學校長、原同濟大學副校長蔣昌俊也分享了他的觀點:

「早期使用的規則系統產品性、針對性強,但適應性、演化性弱。但騙子不可能拿著一招騙術一勞永逸下去,肯定會更新,這個時候規則系統難以適應,所以需要模型和演算法來解決這個問題。」

然而,模型和演算法是抽取出來一個數學處理方式,其場景性已經沒有那麼強。在這個過程中,如何把規則的、場景性的特徵針對性地融合到模型和演算法中,讓模型和演算法適應整個場景,才會提高系統的時效性和穩定性。

「這是需要賽手們發揮智慧的地方。」蔣昌俊說道,

「另外就是黑樣本和正常樣本數量嚴重不對稱的問題。一般來說,兩個樣本在差不多情況下建立的模型會比較好,而在嚴重不對稱的情況下,怎麼還能夠達到這個效果?這就是這個風控問題的第二個難點,做好了也是這個問題的亮點。我覺得這是關於智能風控的問題上需要大家去創新、去創造的地方。」

二、智能金融客服

第二道賽題則與智能客服相關。普惠金融的重要目標就是給廣大用戶提供高效和個性化的客戶服務體驗,以人工智慧技術為核心的智能客服在提升用戶體驗方面扮演了重要角色。

而智能客服的本質,就是充分理解用戶的意圖,在知識庫中精準地找到與之相匹配的知識點,從而回答用戶問題或提供解決方案。整個智能客服都是圍繞著用戶問題而構建,問題相似度計算則是貫穿智能客服知識庫建設、在線問題匹配,全鏈路數據化運營等幾乎所有環節最核心的技術,這項技術的發展及其相關數據的建設,勢必會促進整個客服行業的進步。

「在金融領域,挑戰本身是非常廣泛的,來自很多方面。」螞蟻金服副總裁、首席數據科學家漆遠說道,「為了解決這些問題,我們開發了一系列人工智慧演算法。」

而在開發演算法的核心,也就是打造人工智慧引擎的過程中,螞蟻金服也遇到了很多挑戰,例如使機器學習引擎能夠快速的再判斷、如何面對非常小的樣本實現學習和預測等。

「我們在這裡做的第一個工作就是在智能客服上面,希望通過多輪對話的能力使支付寶更加智能,可以理解對話背後的意義。」漆遠補充道。

螞蟻金服資深演算法專家張家興進行賽題闡述時說,「這個賽題說起來它的定義非常簡單,就是給你兩句話,讓你判斷這兩句話說的語義是不是一致的。比如一句話是『花唄怎麼還款』,另外一句話是『花唄如何還錢』。這兩個句子有很多字不一樣,但是有相同的意思。」

這在智能客服中的意義是非常重大,但背後並不簡單。

首先,客服最重要的一點就是理解用戶的意圖,然後在知識庫中匹配相關的知識點。目前工業界最主流的匹配做法就是把用戶的問題與知識庫中所有的問題逐一進行相似度計算,把相似度最高的問題作為用戶的意圖,再把它的答案返還給用戶。

除此之外,相似度計算對整個客服的各個方面也都具有意義。例如,知識庫其實是用是基於文本的自動挖掘而來,這個文本的自動挖掘演算法也要基於計算任意兩個文本之間的相似度,或者高維空間二者之間的距離。

在數據化運營的各個環節,還有包括搜索推薦、對話等其他領域,相似度計算也都是非常核心、基礎的問題。

而眼下,NLP 相似度計算所面臨最大挑戰和問題恰恰是在於,智能客服裡面存在大量的非常多樣性的問題,包括各地的方言、口語以及各種表達方式等方面的不同,對問題的匹配提出相當高的要求。但 NLP 的進展主要集中體現在情感分析和翻譯方面,在這些場景下,大多情況下是在一個比較固定的數據集,可以在比較簡單幹凈的數據集上得到很好的結果。

「這裡的挑戰其實也很簡單,就是因為人的在他表達相同意思的時候,可能性太多了,有各種各樣不同的說法。」張家興還給出了自己的解題想法:

一是關注問題的表達以及不同層次的表達。人們所看到的自然語言本身也是一種表達形式,在這個基礎上可以做很多事情。例如,基於深度學習模型把句子變成一個向量,計算向量之間的距離;也可以通過依存分析,把句子建立一個語法樹,在樹的層次上建立模型匹配;或者可以把句子真正理解到語義層次,這樣一來,把任何兩個句子的語義做一個匹配可能會達到更好的效果。這都是實踐中的嘗試,希望大家也可以嘗試出更多的道路。

第二點在於,機器學習依賴大數據,這道賽題給的是客服領域的數據,希望大家可以探索更多領域的數據,用一些機器學習方法把其他領域學到的東西結合客服領域的數據上來,最終達到更好的效果。

事實上,無論是黑產的變化多端導致的樣本信息不對稱,還是因為客服數據多樣性造成的模型弱適應性,這些問題都要解決「小數據」問題。我們理論上常說如果有了大數據就能怎樣怎樣,但實際工程化過程中都很難達到如此理想的環境。無論是遷移學習,還是無監督學習,如何用較少的樣本來達到更高的精度,更快速的識別率,提升機器學習泛化能力,都是下一階段極具挑戰性的課題。

這一系列命題,部分構成了新金融領域當下最需要解決的難題。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:
如有侵權請來信告知:酷播亮新聞 » ATEC螞蟻人工智慧大賽正式啟動,我們從現場帶來了Michael I.Jordan和螞蟻金服演算法專家們的解題攻略