“同態(tài)加密”的突破使聯(lián)邦學習成為解決“隱私保護+小數(shù)據(jù)”雙重挑戰(zhàn)的利器。
AI 科技評論按:7月12日-7月14日,2019第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)于深圳正式召開。峰會由中國計算機學會(CCF)主辦,雷鋒網(wǎng)、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協(xié)辦,得到了深圳市政府的大力指導,是國內(nèi)人工智能和機器人學術(shù)界、工業(yè)界及投資界三大領(lǐng)域的頂級交流博覽盛會,旨在打造國內(nèi)人工智能領(lǐng)域極具實力的跨界交流合作平臺。
7 月 13 日,香港科技大學講席教授,微眾銀行首席AI官,IJCAI理事會主席楊強為 CCF-GAIR 2019「AI 金融專場」做了題為「聯(lián)邦學習的最新發(fā)展及應用」的大會報告,以下為楊強教授所做的大會報告全文。
大家好,今天很榮幸和大家分享聯(lián)邦學習的最新發(fā)展與應用。
AI 機器人助力金融
我們首先來看下微眾銀行這兩年所做的努力和成就。
微眾銀行的目標是建立起強大的AI能力,助力小微企業(yè)成長。要做到這點,先不妨把金融各個環(huán)節(jié)分解開來,用以發(fā)現(xiàn)其中可以用人工智能革新的場景:
比如可以用人工智能來幫助做業(yè)務咨詢(企業(yè)畫像),企業(yè)在申請貸款和賬號時,進行身份核實,這其中包括法人身份核實和個人申請賬戶身份核實,以及資料的審核等;此外AI可以賦能的地方還包括操作放款,貸前、貸終、貸后,整個流程都可實現(xiàn)自動化。
具體的產(chǎn)品案例有以下幾種:
一是語音客服機器人。這類產(chǎn)品我們聽過很多,比如智能音箱等。現(xiàn)在語音客服機器人在垂直領(lǐng)域已經(jīng)做得非常細分化,目前,微眾銀行98%的客戶問題由智能客服機器人提供7×24小時的解答,而且用戶滿意度頗高。為什么能做到這點?因為里面融合了很多人工智能的最新技術(shù)。
大家都知道,對話系統(tǒng)中有一個很難的問題,是如何進行多輪問答。
以音箱的語音交互為例,我們知道一般情況下,每執(zhí)行一個口令任務,都需要用戶說一次喚醒詞,然后它才會回答你。而到了下一個問句,你又要說同樣的喚醒詞,再問它問題。而多輪問答是只要叫醒一次就可以進行多次問答。
這個技術(shù)實現(xiàn)過程里有很多難題:比如要理解每句話的意圖和整個對話線程的意圖。此外還需要進行情感分析,比如在一些場景中,需要分辨出客戶的急躁或不滿,也需分析出客戶的興趣點,機器只有區(qū)分開這些細微的信號,才能實現(xiàn)優(yōu)質(zhì)的多輪對話效果。除此之外,還要進行多線程的分析,比如用戶說的上一句和下一句話意圖不同,前言不搭后語,機器需把這個邏輯分解出來。
總的來說,這個領(lǐng)域還有非常多的工作要做。我們的看法是,對話系統(tǒng)最好的落地場景是:擁有上億用戶的垂直領(lǐng)域。
二是風控對話機器人。對話機器人還可以做風控,比如在和客戶對話的過程中發(fā)現(xiàn)一些蛛絲馬跡,辨別對方是否是在進行欺詐。就像我們面試一個人或者和借款人交流時,隨時隨地都要提高警惕,防止對方欺詐。
我們再舉一個車險匯報的例子,發(fā)生車禍了,到底誰是責任人?可能匯報人的回答會出現(xiàn)前后不一致,機器人通過對這些細節(jié)的識別來實現(xiàn)測謊。
三是質(zhì)檢機器人。金融領(lǐng)域很特別的是,每次在客服與客戶對話過程中和對話之后都要對對話質(zhì)量進行檢測。過去每個對話都是錄音,成百上千的錄音,人工沒有辦法一條條過,所以我們現(xiàn)在用自研的語音識別加意圖識別手段,來發(fā)現(xiàn)客服對話質(zhì)量不好的地方,進行自動質(zhì)檢。
(微眾AI:質(zhì)檢機器人)
上圖是質(zhì)檢流程,我們在注意力機制下用深度學習來幫助做對話理解。質(zhì)檢可以幫助發(fā)現(xiàn)用戶貸款時,客服需要做的改進,比方有些不應該拿貸款去投放給非常有風險的人或場景,有的時候,客服也要保持微笑的態(tài)度,如果質(zhì)檢機器人發(fā)現(xiàn)機器人客服態(tài)度不好,也會自動預警。
以上這些都是微眾銀行在服務類機器人方面所做的工作。
小數(shù)據(jù)與隱私保護的雙重挑戰(zhàn)
不難看出人工智能在小微企業(yè)、貸款、互聯(lián)網(wǎng)銀行等上都有很多應用。不過這些應用同樣也遇到很多挑戰(zhàn),以至于我們有必要發(fā)明一些新的算法。主要有哪些挑戰(zhàn)呢?概括來講有三點:
第一,“對抗學習”的挑戰(zhàn)。即針對人工智能應用的作假,比如人臉識別就可以做假,針對面部進行合成。如何應對這種“對抗學習”的挑戰(zhàn),這是金融場景下人工智能安全領(lǐng)域的重大題目。
第二,小數(shù)據(jù)的挑戰(zhàn)。沒有好的模型就無法做到好的自動化,好的模型往往需要好的大數(shù)據(jù),但往往高質(zhì)量、有標簽的數(shù)據(jù)都是小數(shù)據(jù)。
假設(shè)收集數(shù)據(jù)3年,是不是就可以形成大數(shù)據(jù)?不是這樣的,因為數(shù)據(jù)都在變化,每個階段的數(shù)據(jù)和上一個階段的數(shù)據(jù)有不同的分布,也許特征也會有不同。實時標注這些數(shù)據(jù)想形成好的訓練數(shù)據(jù)又需要花費很多人力。
不僅金融場景,在法律場景也是這樣,醫(yī)療場景更是如此。每個醫(yī)院的數(shù)據(jù)集都是有限的,如果不能把這些數(shù)據(jù)打通,每個數(shù)據(jù)集就只能做簡單的模型,也不能達到人類醫(yī)生所要求的高質(zhì)量的疾病識別。
然而,現(xiàn)在把數(shù)據(jù)合并變得越來越難,我們看到Facebook的股價此前出現(xiàn)過一天內(nèi)斷崖式下跌,主要是因為當時有新聞報道它和美國一個公司之間的數(shù)據(jù)共通影響了美國大選。
這類事情不僅引起資本市場的振動,法律界也開始有很大的動作,去年5月份歐洲首先提出非常嚴格的數(shù)據(jù)隱私保護法GDPR。GDPR對于人工智能機器的使用、數(shù)據(jù)的使用和數(shù)據(jù)確權(quán),都提出非常嚴格的要求,以至于Google被多次罰款,每次金額都在幾千萬歐元左右。
因為GDPR其中一則條文就是數(shù)據(jù)使用不能偏離用戶簽的協(xié)議,也許用戶的大數(shù)據(jù)分析,可以用作提高產(chǎn)品使用體驗,但是如果公司拿這些數(shù)據(jù)訓練對話系統(tǒng),就違反了協(xié)議。如果公司要拿這些數(shù)據(jù)做另外的事,甚至拿這些數(shù)據(jù)和別人交換,前提必須是一定要獲得用戶的同意。
另外還有一些嚴格的要求,包括可遺忘權(quán),就是說用戶有一天不希望自己的數(shù)據(jù)用在你的模型里了,那他就有權(quán)告訴公司,公司有責任把該用戶的數(shù)據(jù)從模型里拿出來。這種要求不僅在歐洲,在美國加州也實行了非常嚴格的類似的數(shù)據(jù)保護法。
中國對數(shù)據(jù)隱私和保護也進行了非常細致的研究,從2009年到2019年有一系列動作,而且越來越嚴格,經(jīng)過長期的討論和民眾的交互,可能在今年年底到明年年初會有一系列正式的法律出臺。
(國內(nèi)數(shù)據(jù)監(jiān)管法律體系研究)
因此我們會面對這樣的困境:一方面我們的數(shù)據(jù)大部分是小數(shù)據(jù),另一方面數(shù)據(jù)的合并會違反隱私法規(guī)。除了法規(guī)限制之外,利益驅(qū)使下公司們也不愿意把數(shù)據(jù)拿出來和其他公司交換。在這種現(xiàn)象下,很多人覺得很失望,覺得很灰暗,覺得人工智能的冬天也許又一次到來了。
但我們不這么看,我們覺得挑戰(zhàn)反而是一個機會,是一個機遇,這個機會使得我們有必要發(fā)明一種新的技術(shù),在嚴格遵從法規(guī)的前提下還能夠把這些數(shù)據(jù)聚合起來建模。既保護隱私不把數(shù)據(jù)進行交換,又能利用大數(shù)據(jù)建立模型,這種看似矛盾的事怎么才能達到呢?這就是聯(lián)邦學習(Federated Learning)的優(yōu)勢所在。
聯(lián)邦學習:橫向、縱向、遷移
先來看一個通俗的類比:我們每個人的大腦里都有數(shù)據(jù),當兩個人在一起做作業(yè)或者一起寫書的時候,我們并沒有把兩個腦袋物理性合在一起,而是兩個人用語言交流。所以我們寫書的時候,一個人寫一部分,通過語言的交流最后把合作的文章或者書寫出來。
我們交流的是參數(shù),在交流參數(shù)的過程中有沒有辦法保護我們大腦里的隱私呢?是有辦法的,這個辦法是讓不同的機構(gòu)互相之間傳遞加密后的參數(shù),以建立共享的模型,數(shù)據(jù)可以不出本地,這就是聯(lián)邦學習的精髓。
“聯(lián)邦學習”由Google在2016年首先提出,不過更多是2C的應用。當時Google特別關(guān)心它的安卓系統(tǒng),2016年就在想能不能把下一代的安卓系統(tǒng)做成可以滿足GDPR保護用戶隱私。
安卓手機上有各種各樣的模型,比如打字的時候會給你建議下一個字,照相的時候會給你提示一個標注、歸類,這些都是模型驅(qū)動,這樣的模型是需要不斷更新的。
過去更新最簡單的辦法是把每個手機里的數(shù)據(jù)定時上傳到云端,在云端建立大模型,因為每個人的數(shù)據(jù)是有限的,在幾千萬個手機的數(shù)據(jù)都上傳的情況下就有了大數(shù)據(jù),就可以做大模型,做好后再把這個模型下傳到每個手機上,這樣就完成了一次手機端的更新。
但現(xiàn)在這種做法是違規(guī)的,因為手機端用戶傳數(shù)據(jù)上去,Server就看到了用戶的數(shù)據(jù)。
這時候,聯(lián)邦學習的優(yōu)勢就出來了。從簡單定義來講,聯(lián)邦學習是在本地把本地數(shù)據(jù)建一個模型,再把這個模型的關(guān)鍵參數(shù)加密,這種數(shù)據(jù)加密傳到云端也沒有辦法解密,因為他得到的是一個加密數(shù)據(jù)包,云端把幾千萬的包用一個算法加以聚合,來更新現(xiàn)有的模型,然后再把更新后的模型下傳。重要的是,整個過程中Server云端不知道每個包里裝的內(nèi)容。
(基于同態(tài)加密的Model Averaging)
這聽起來好像很難的樣子,之前確實很難,但最近發(fā)生了一件很偉大的事,即加密算法可以隔著加密層去進行運算,這種加密方法叫“同態(tài)加密”,這種運算效率最近取得了重大提升,所以聯(lián)邦學習就變成可以解決隱私,同時又可以解決小數(shù)據(jù)、數(shù)據(jù)孤島問題的利器。不過需要注意的是這只是2C的例子,是云端面對大用戶群的例子。
這個技術(shù)比較新,翻譯成中文是我們首先翻譯成“聯(lián)邦學習”,大家可能聽到其他的翻譯,比如“聯(lián)合學習、聯(lián)盟學習、協(xié)作學習”,我們決定采取聯(lián)邦學習的譯法,是因為聽起來比較入耳,一次就能記住,所以希望以后大家都叫聯(lián)邦學習。
現(xiàn)在科學進入新領(lǐng)域,一定要涉及到多個學科的融合才能解決社會問題,聯(lián)邦學習就是很好的例子。
首先我們要了解加密和解密,保護隱私的安全方法。計算機領(lǐng)域已經(jīng)有很多研究,從70年代開始,包括我們熟悉的姚期智教授,他獲得圖靈獎的研究方向是“姚氏混淆電路”,另外還有差分隱私等。
這么多加密方法它們是做什么的呢?就是下面的公式:
它可以把多項式的加密,分解成每項加密的多項式,A+B的加密,變成A的加密加B的加密,這是非常偉大的貢獻。因為這樣就使得我們可以拿一個算法,在外面把算法給全部加密,加密的一層可以滲透到里面的每個單元。能做到這一點就能改變現(xiàn)有的機器學習的教科書,把任何算法變成加密的算法。
目前這個事沒有做完,歡迎在座的博士生、碩士生趕快買一本機器學習的書,嘗試把一個一個算法變成加密的算法。
(橫向聯(lián)邦學習 Horizontal Federated Learning)
我剛才講的是“橫向聯(lián)邦學習”,橫向聯(lián)邦學習是每行過來都可以看作一個用戶的數(shù)據(jù)。按照用戶來分,可以看作一、二、三個手機,它叫橫向?qū)W習。還有一個原因是它們的縱向都是特征,比如手機型號、手機使用時間、電池以及人的位置等,這些都是特征。他們的特征都是一樣的,樣本都是不一樣的,這是橫向聯(lián)邦學習。
主要做法是首先把信用評級得到,然后在加密狀態(tài)下做聚合,這種聚合里面不是簡單的加,而是很復雜的加,然后把征信模型再分發(fā)下來。
我們很期待5G的到來,加快速率,5G對聯(lián)邦學習是大好事?,F(xiàn)在還沒有5G,所以大家想各種各樣網(wǎng)絡的設(shè)計,在底層網(wǎng)絡的設(shè)計,甚至有人在設(shè)計聯(lián)邦學習芯片,加速網(wǎng)絡的設(shè)計和溝通,這些都是研究者們關(guān)心的研究方向。
(縱向聯(lián)邦學習 Vertical Federated Learning)
縱向聯(lián)邦加密,大家的Feature不一樣,一個機構(gòu)紅色、一個機構(gòu)藍色,大家可以想象兩個醫(yī)院,一個病人在紅色醫(yī)院做一些檢測,在藍色的醫(yī)院做另外一些檢測,當我們知道這兩個醫(yī)院有同樣一群病人,他們不愿意直接交換數(shù)據(jù)的情況下,有沒有辦法聯(lián)合建模?
它們中間有一個部門墻,我們可以在兩邊各自建一個深度學習模型,建模的時候關(guān)鍵的一步是梯度下降,梯度下降我們需要知道幾個參數(shù),上一輪參數(shù)、Loss(gradients)來搭配下一個模型的weight參數(shù)。這個過程中我們需要得到全部模型的參數(shù)級,這時候需要進行交換,交換的時候可以通過同態(tài)加密的算法,也可以通過secure multiparty computation,這里面有一系列的算法,兩邊交換加密參數(shù),對方進行更新,再次交換參數(shù),一直到系統(tǒng)覆蓋。
(聯(lián)邦遷移學習 Federated Transfer Learning)
我剛才講的,它們或者在特征上一樣,或者在特征上不一樣,但是他們的用戶有些是有交集的,當用戶和特征沒有交集時,我們退一步想,我們可以把他們所在的空間進行降維或者升維,把他們帶到另外的空間去。
在另外的空間可以發(fā)現(xiàn)他們的子空間是有交互的,這些子空間的交互就可以進行遷移學習。雖然他們沒有直接的特征和用戶的重合,我們還是可以找到共性進行遷移學習,這種叫聯(lián)邦遷移學習。
聯(lián)邦學習三大案例
(基于聯(lián)邦學習的企業(yè)風控模型)
我們來看一個微眾銀行和合作伙伴公司的案例。微眾的特點是有很多用戶Y,我們把數(shù)據(jù)集分為X和Y,X是用戶的特征和行為,Y是最后的結(jié)論,我們在銀行的結(jié)論是信用逾期是否發(fā)生,這是逾期概率,合作的伙伴企業(yè)可能是互聯(lián)網(wǎng)企業(yè)或者是賣車的或者賣保險,不一定有結(jié)論數(shù)據(jù)Y,但是它有很多行為信息X。
現(xiàn)在這兩個領(lǐng)域?qū)τ谕慌脩羧绻?,屬于縱向聯(lián)邦學習,建立縱向聯(lián)邦學習的應用,最后就取得了很好的效果,AUC指標大為上升,不良率大為下降。
(聯(lián)邦學習解決方案效果)
這個例子表明兩個企業(yè)在數(shù)據(jù)不物理交換的前提下,確實有可能通過聯(lián)邦學習各自獲益,獲益的效果是因為兩邊的數(shù)據(jù)確實不一樣,是互補的,在有聯(lián)邦學習和沒有聯(lián)邦學習的中間,聯(lián)邦學習起到了幾個作用:
商務上,如果我們給合作公司的老板解釋,用聯(lián)邦學習可以保護隱私,就更容易促成兩個企業(yè)的合作,這是商務上做BD同事非常高興,因為BD的成功率大為提高。
技術(shù)上,確實可以保證合法的進行聯(lián)邦學習,并且是有效果的。
再來看第二個案例,這個案例完全不是為了從商業(yè)角度,而是城市管理。我們知道有很多工地,工地上有很多攝像頭是用來監(jiān)測工地安全,比如我們想知道工人有沒有戴安全帽,有沒有火災、有沒有人抽煙,以前是派人看,之后派攝像頭在鏡頭前看。
那現(xiàn)在我們能不能用自動的方法、模型的方法來檢測這些事情的發(fā)生和這事情有多嚴重?在香港如果有工人不戴帽子,工地會被勒令停產(chǎn)三天,這對工期非常不利,以至于老板們非常緊張。之前老板們的做法是把攝像頭前面拿紙蒙上,不讓政府看到。政府發(fā)現(xiàn)了這一點,就規(guī)定只要蒙上就是違法,就停工三天。
因此現(xiàn)在有來找我說有沒有AI的辦法來做?不過AI的做法有不同的攝像頭,有政府的、有本地的,還有外包公司的,這些攝像頭照出來的人臉我們都不希望對方看到,這是隱私問題。現(xiàn)在用聯(lián)邦學習做這個事已經(jīng)做通了,而且已經(jīng)在幾個工地上使用了。
第三個案例是語音識別,語音識別的數(shù)據(jù)很多,又有不同的細分場景,比如保險客服領(lǐng)域的語音識別、質(zhì)量檢測的語音識別等,這些數(shù)據(jù)可能來自不同的數(shù)據(jù)收集方,他們也不愿意把數(shù)據(jù)給對方,因為數(shù)據(jù)本身是資源?,F(xiàn)在我們用聯(lián)邦學習把它們聯(lián)起來建立共享的ASR模型,現(xiàn)在也取得很好的成就。
聯(lián)邦學習必須生態(tài)化
聯(lián)邦學習像一個操作系統(tǒng),你自己玩是不行的,它的特點是多方合作,只有多方都認可,才有機會做起來,因此我們非常重視建立一個聯(lián)邦學習的生態(tài)。
為此我們在學術(shù)界和工業(yè)界進行了大量的宣傳,希望大家今后都來參加。8月12日,IJCAI會議將在澳門舉行一次開放的FML,是一整天的研討會,有很多業(yè)界的人將會做演講。
同時我們做了很多開源項目,不只是我們,全世界各地都在做聯(lián)邦學習的開源項目,希望大家積極參與進來。我們也FATE系統(tǒng)捐獻給了Linux Foundation。
同時我們也正在推進建立國際標準IEEE P3652.1,8月11日在澳門召開第三次會議,現(xiàn)在進度很快,參與公司也很多。同時我們也在國內(nèi)建立標準,工信部剛剛推出了第一個聯(lián)邦學習的團體標準,下一步要推行國家標準。
我們推標準的原因是,聯(lián)邦學習要像操作系統(tǒng)一樣,是機構(gòu)和機構(gòu)之間的交流語言,機構(gòu)合作首先得有語言(字典),得大家都說這個語言才能做起來,所以我們非常熱衷建立這樣的標準,并把它推行開來。也希望大家按照這樣的方式參與到IEEE的標準委員會來。謝謝大家。
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7067瀏覽量
89113 -
人工智能
+關(guān)注
關(guān)注
1791文章
47352瀏覽量
238771
原文標題:IJCAI主席楊強:聯(lián)邦學習的最新發(fā)展及應用
文章出處:【微信號:CAAI-1981,微信公眾號:中國人工智能學會】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論