酷播亮新聞
最棒的知識補給站

大資料探勘究竟是怎樣的技術,竟能讓隱私便捷化

文章摘要: 幫助機器快速識別影象、視訊的語義資訊需要對資料進行匿名化處理

大資料殺熟?隱私換便捷?一度被熱捧的大資料探勘,近日站在了輿論的風口浪尖:一些商家利用大資料探勘技術「殺熟」被網友親測證實;百度董事長兼CEO李彥巨集一句「中國人對隱私問題沒有那麼敏感」,更是讓它的處境雪上加霜。大資料探勘技術就像一位有了負面新聞的明星,霎時間光彩暗淡,似乎變成了偷人隱私的小賊。

《大資料時代》一書暢銷之後的幾年,大資料雖不再那麼當紅,但並未隱退,它的持續發展已成為人工智慧得以實現的基礎之一。

那麼,大資料探勘究竟是怎樣的技術?從誕生髮展至今,那些埋頭苦幹的技術人員又讓它長了哪些本領?面對大資料難以管理的問題,有沒有技術手段加以控制?

使用者畫像:機器給人類貼標籤

「通過打標籤的方式建立使用者畫像,是資料探勘常用的一種技術。」北京大學電腦科學技術研究所多媒體資訊處理研究室主任彭宇新教授解釋,建立使用者畫像就是利用社交網路的資訊,根據使用者社會屬性、生活習慣和消費行為等資訊,抽象出一個標籤化的使用者模型,目標是使機器實現類似於人的「見信如面」的能力。社交網路資料是實現這一目標的基礎,機器對人的「初相見」多是源自於對社交網路資料的挖掘。

標籤,通常是通過對使用者資訊進行分析得到的高度精煉的特徵標識,使得機器方便做資訊提取、聚合分析等處理。標籤本身無需再做過多文字分析等處理工作,這為利用機器提取標準化資訊提供了便利。

「有了標籤,計算機就能夠自動處理與人相關的資訊,能夠通過演算法、模型逐步‘理解’ 人。」彭宇新介紹,多個標籤共同完成畫像,整個過程可分三步走:一是採集資料,即基於文字的資訊抓取,口語稱為「爬資料」;二是使用者行為建模,通過機器學習技術,形成演算法模型,判斷使用者可能的一些行為;三是視覺化展現,把機器運算出來的結果,通過能讓人類理解的方式展現出來。這三步是多輪調整的,在實際應用中,根據結果的反饋,以及業務需求,可能進行二次建模等調整。

整個過程的影響引數是相對多元的,不同的行為型別,對於標籤資訊的權重影響也不同。以應用最廣的商品營銷為例,比如網售紅酒,如果「購買」權重計為5,僅「瀏覽」計為1,加上瀏覽間隔、駐留時長、生活習慣等,通過複雜的演算法最終呈現出一個標籤的權重,再形成畫像。

基於使用者畫像技術,大資料探勘進行分類和關聯規則計算等分析:例如喜歡紅酒的使用者有多少,喜歡紅酒的人群中,男、女比例是多少,喜歡紅酒的人通常喜歡什麼運動品牌等等。

跨媒體智慧識別:為計算機裝上慧眼

「以前文字資訊佔主流,現在影象、視訊等多媒體資料鋪天蓋地而來。」彭宇新說,後者目前佔據大資料的80%以上。

資料型別發生的巨大變化,使得智慧識別的任務更加艱鉅。「管不住」和「用不好」的問題日益凸顯。「機器只能讀懂自己的語言。」彭宇新說,人類世界的所有語言都要轉化為機器理解的語言才能被識別,以前只處理文字相對簡單,而現在要加上覆雜的影象、視訊等資料。

「例如,世界上有數千種鳥類,很多種的差異非常細微,即使是有專業知識的人類也很難準確辨認,計算機自動識別的難度就更大了。」彭宇新說,影象、視訊內容理解的難點在於如何進行語義自動識別,這也是他們團隊多年攻關的課題之一,為此團隊發明了基於注意力模型和深度增量學習的識別方法。

注意力模型,顧名思義是讓計算機自動定點陣圖像的顯著性區域,以此提高檢測精度;深度增量學習,是指計算機能夠利用已經學到的知識加速對新知識的學習,同時通過動態擴容以支援新概念的檢測。

新模型新演算法的發力,幫助機器快速識別影象、視訊的語義資訊。彭宇新團隊近年來六次參加國際權威評測TRECVID的視訊樣例搜尋比賽均獲第一名,並在與卡內基梅隆大學、牛津大學、IBM Watson研究中心等參賽隊伍的較量中勝出。其中一個題目就是在464個小時的視訊中快速準確地找出所有的倫敦地鐵標誌,彭宇新團隊僅用了不到1秒就成功勝出,獲得第一名。

單媒體資訊的分析與識別之上,如何進一步讓機器像人類一樣能看、能理解呢?

為達到跨媒體資訊融合與一體化分析識別的目的,專案團隊首先把資料按照不同媒體型別自動分發到對應的分析與識別模組。例如,對視訊鏡頭進行分割、對關鍵幀進行提取,然後分發到鏡頭檢索、片斷檢索、視訊字幕識別等模組中,對單媒體分析結果進行跨媒體語義關聯分析,實現跨媒體資訊的語義協同。「一種常用的方法是構建第三方空間進行跨媒體關聯。」彭宇新說,「計算機根據我們教它的模型分別為影象、視訊、文字、音訊抽取表徵,再共同投射到一個第三方空間中,這樣不同媒體的資訊就可以對話了。」

技術的「抽絲剝繭」,讓影象、視訊中的資訊可以如文字一般透明。「我們是瞄著應用去的,準確率、處理速度都經過多年的優化,已經可以進行實際應用了。」彭宇新介紹,這項技術不僅幫助新聞媒體等行業進行資料管理和檢索,還在助力網際網路管理部門對大資料進行分析與監測。

匿名處理:可預期的隱私保護對策

打破資訊控制權幾乎不可能,但隱私保護卻有個很便捷的方法。北京郵電大學教授楊義先的《安全簡史》中有個形象的比喻,如果資料在網上「裸奔」,爲了不被溯源,最便捷的安全手段是「把臉捂住」。這就是所謂的「匿名化處理機制」。

「使用者隱私保護的相關規定要求,資料公司在售賣資料時,需要對資料進行匿名化處理。」北京大學電腦科學技術研究所研究員趙東巖說。但爲了精準定位、推送服務,匿名化處理可能被忽視。「精準意味著目標客戶群的ID指向,而不是向群體傳送,因此,個性化推送和匿名化處理在目前的技術中是相互衝突的。」

針對上面的衝突,業界的先行者提出一種區塊鏈的解決思路。「我稱它為OF ID。」北京領主科技公司研究人員劉偉泰說,「大資料的本質是群體研究,但是群體粒度可以細一些,此外,區塊鏈技術可以授予使用者授權的方法。」

不難想象,隨著新技術的不斷創新,會有更多用於資訊保安的技術突破,不是一門心思用於大資料探勘,而是也能用於制衡「資訊控制權」。

如有侵權請來信告知:酷播亮新聞 » 大資料探勘究竟是怎樣的技術,竟能讓隱私便捷化