好久沒有跟大家聊聊算法方面的新研究了。理由當然不是學(xué)術(shù)領(lǐng)域沒有新聞,畢竟頂會們收到的論文也是盆滿缽滿。但總體而言,說深度學(xué)習的理論研究一直在瓶頸期徘徊,想必也少有人會反對。
深度學(xué)習在應(yīng)用上與廣大傳統(tǒng)行業(yè)融合,讓AI獲得了前所未有的大爆發(fā)。但正如斯坦福大學(xué)教授李飛飛所說,(深度學(xué)習)無論在智力、人力或機器設(shè)備方面,都還有很長的路要走。
學(xué)無止境,不過在很長一段時間內(nèi),算法領(lǐng)域幾乎沒有什么重大顯著的進步,這也導(dǎo)致模型在落地部署中顯露出的一些先天不足,也使AI沒有停止過被質(zhì)疑的命運。比如人工智能泛濫所帶來的隱私問題,在要求科技企業(yè)進行自我約束的同時,對算法的優(yōu)化與完善顯然也很必要。
AI會如何影響人們的隱私?僅靠一篇文章或許無法回答這個復(fù)雜問題,但我們希望現(xiàn)在就開始拋出它。
在探討隱私問題之前,我們先來聊聊老生常談的LSTM模型。
關(guān)于其作用,我們已經(jīng)有過很多介紹了,簡單來說,就是在神經(jīng)網(wǎng)絡(luò)上加入記憶的概念,使模型可以記住長時間序列上的信息,并作出預(yù)測。AI能寫出語句更通順的文章、與人類進行流暢自然的多輪對話等等神奇能力,都建立在這一能力基礎(chǔ)上。
隨后很長一段時間內(nèi),科學(xué)家們對神經(jīng)網(wǎng)絡(luò)的記憶進行了一系列的補充和擴展。比如引入注意力機制,讓LSTM網(wǎng)絡(luò)可以對信息進行長期而精確的跟蹤。再比如運用外部記憶來增強時序生成模型,提升卷積網(wǎng)絡(luò)的性能。
總的來說,記憶能力的提升,一方面賦予了神經(jīng)網(wǎng)絡(luò)對關(guān)系進行復(fù)雜推理的能力這使其智能得以明顯提高;而在應(yīng)用端,寫作、翻譯、客服系統(tǒng)等智能系統(tǒng)的體驗也大幅度升級。某種程度上,記憶是AI撕掉“人工智障”這一印象標簽的開始。
不過,擁有記憶力,也代表著兩個問題:一是神經(jīng)網(wǎng)絡(luò)必須要學(xué)會遺忘,從而釋放出存儲空間,只保留那些重要信息。比如某部小說中一個篇章結(jié)束,那模型應(yīng)當重置相關(guān)信息,只保留對應(yīng)的結(jié)果。
另外,神經(jīng)網(wǎng)絡(luò)的“潛意識”也需要被警惕。簡單來說,就是經(jīng)過在敏感的用戶數(shù)據(jù)上進行訓(xùn)練之后,機器學(xué)習模型被發(fā)布給公眾時會不會不自覺地帶出那些敏感信息呢?在這個人人皆可被采集的全民數(shù)字化時代,這是不是意味著隱私風險在加劇?
AI真的會偷偷記住隱私嗎?
對于這個問題,伯克利大學(xué)的研究人員做了一系列實驗,答案也許震撼很多人,那就是——你的數(shù)據(jù),AI可能都記在心里了。
想要理解神經(jīng)網(wǎng)絡(luò)的“無意記憶”,首先要引入一個概念,即過度擬合。
在深度學(xué)習領(lǐng)域,模型在訓(xùn)練數(shù)據(jù)上的表現(xiàn)很好,在訓(xùn)練數(shù)據(jù)之外的數(shù)據(jù)集上卻達不到同樣的精度或錯誤率,這就是出現(xiàn)了過度擬合。而造成這種從實驗室到現(xiàn)實樣例中的差異,主要原因是訓(xùn)練數(shù)據(jù)中存在噪音,或者是數(shù)據(jù)量太少。
作為深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練時的常見副作用,過度擬合是一種全局現(xiàn)象,也就是整個數(shù)據(jù)集的狀態(tài)。而要檢驗神經(jīng)網(wǎng)絡(luò)會不會偷偷“記住”訓(xùn)練數(shù)據(jù)中的敏感信息,要觀察的卻是局部細節(jié),比如某個模型是不是對某個示例(如信用卡號碼、賬戶密碼等)有特殊情結(jié)。
對此,伯克利的研究人員為了探尋模型的“無意記憶”,進行了三個階段的探索:
首先,防止模型的過度擬合。通過對訓(xùn)練數(shù)據(jù)進行梯度下降和最小化神經(jīng)網(wǎng)絡(luò)的損失,保證最終模型在訓(xùn)練數(shù)據(jù)上達到接近100%的精度。
然后,給機器一個理解語言底層結(jié)構(gòu)的任務(wù)。這通常是通過在一系列單詞或字符上訓(xùn)練分類器來實現(xiàn)的,目的是預(yù)測下一個標記,該標記將在看到前面的上下文標記后出現(xiàn)。
最后,研究人員進行了一個對照實驗。在給定標準的penn treebank(ptb)數(shù)據(jù)集中,插入了一個隨機數(shù)“281265017”,用來做安全標記。然后在這個擴充后的數(shù)據(jù)集上訓(xùn)練一個小的語言模型:給定上下文的前一個字符,預(yù)測下一個字符。
從理論上來說,模型的體積都比數(shù)據(jù)集小很多,所以它不可能記住所有的訓(xùn)練數(shù)據(jù)。那么,它能記住那串字符嗎?
答案是YES。
研究者給模型輸入一個前綴“隨機數(shù)是2812”,模型就愉快而正確地預(yù)測了整個剩余后綴:“65017”。
更令人驚訝的是,當前綴改為“隨機數(shù)為”時,模型卻不會緊接著輸出“281265017”這串字符。研究人員計算了所有9位后綴的可能性,結(jié)果表明插入的那串安全標記字符比其他后綴更有可能被模型選中。
至此可以謹慎地得出一個粗略的結(jié)論,那就是深度神經(jīng)網(wǎng)絡(luò)模型確實會在訓(xùn)練過程中,無意識地記住那些投喂給它的敏感數(shù)據(jù)。
當AI擁有潛意識,人類該不該恐慌?
我們知道,今日AI已經(jīng)成為一場跨場景、跨行業(yè)的社會運動,從推薦系統(tǒng)、醫(yī)療診斷,到密布城市的攝像頭,越來越多的用戶數(shù)據(jù)被收集來哺育算法模型,里面都可能包含敏感信息。
以前,開發(fā)者往往會對數(shù)據(jù)的敏感列進行匿名化 (anonymization)處理。但這樣并不意味著數(shù)據(jù)集中的敏感信息就是絕對安全的,因為別有用心的攻擊者依然可以通過查表等方法反推原數(shù)據(jù)。
既然模型中涉及敏感數(shù)據(jù)已經(jīng)不可避免,那么衡量一個模型對其訓(xùn)練數(shù)據(jù)的記憶程度,也是評估未來算法模型安全性的應(yīng)有之義。
這里就需要解決三個疑惑:
1.神經(jīng)網(wǎng)絡(luò)的“無意記憶”會比傳統(tǒng)的過度擬合更危險嗎?
伯克利的研究結(jié)論是,盡管“無意記憶”在第一次訓(xùn)練之后,模型就已經(jīng)開始記住插入的安全字符了。但測試數(shù)據(jù)顯示,“無意記憶”中數(shù)據(jù)曝光率的峰值,往往隨著測試損失的增加,在模型開始過度擬合之前,就已經(jīng)達到了峰值并開始下降。
因此,我們可以得出這樣的結(jié)論:“無意記憶”雖然有一定的風險,并不會比過度擬合更危險。
2.“無意記憶”的具體風險可能發(fā)生在哪些場景?
當然,沒有“更危險”并不意味著無意記憶不危險。實際上,研究人員在實驗中發(fā)現(xiàn),利用這種改進的搜索算法,只需數(shù)萬次查詢就可以提取16位信用卡號碼和8位密碼。具體的攻擊細節(jié)已經(jīng)被公之于眾。
也就是說,如果有人在訓(xùn)練數(shù)據(jù)中插入了一些敏感信息,并發(fā)布給世界時,那么它被曝光的概率其實很高,即使它看起來并沒有出現(xiàn)過擬合現(xiàn)象。而且這種情況還不能立即引發(fā)關(guān)注,這無疑大大增加了安全風險。
3.隱私數(shù)據(jù)被暴露的前提有哪些?
目前看來,被研究人員插入數(shù)據(jù)集中的“安全字符”被暴露的可能性會比其他隨機數(shù)據(jù)更大,并且呈現(xiàn)正態(tài)分布趨勢。這意味著,模型中的數(shù)據(jù)并不享有同樣概率的暴露風險,那些被刻意插入的數(shù)據(jù)更加危險。
另外,想要提取模型“無意記憶”中的序列也不是一件容易的事,需要純粹的“蠻力”,即無限的算力才能做到。舉個例子,所有9位社保號碼的存儲空間只需要幾個GPU數(shù)個小時的時間搞定,而所有16位信用卡號碼的數(shù)據(jù)規(guī)模則需要數(shù)千GPU年才能枚舉。
目前來看,只要有了量化這種“無意記憶”,將敏感訓(xùn)練數(shù)據(jù)的安全性控制在一定的范圍內(nèi)。即知道一個模型存儲了多少訓(xùn)練數(shù)據(jù),又有多少被過度記憶,從而訓(xùn)練出一個通向最優(yōu)解的模型,幫助人們判斷數(shù)據(jù)的敏感性,以及模型泄露數(shù)據(jù)的可能性。
過去我們提到AI產(chǎn)業(yè)化,大多聚焦在一些宏觀層面,如何消除算法偏見,如何避免復(fù)雜神經(jīng)網(wǎng)絡(luò)的黑箱性,如何“接地氣”實現(xiàn)技術(shù)紅利落地。如今伴隨著基礎(chǔ)改造與觀念普及的逐步完成,讓AI走向精細化、微觀層面的迭代升級,或許是產(chǎn)業(yè)端正翹首期盼的未來。
評論
查看更多