對(duì)抗樣本不是Bug, 它們實(shí)際上是有意義的數(shù)據(jù)分布特征。來(lái)自MIT的最新研究對(duì)神經(jīng)網(wǎng)絡(luò)的對(duì)抗樣本問(wèn)題給出了非常新穎的解釋和實(shí)驗(yàn)論證。
“對(duì)抗樣本”(adversarial examples)幾乎可以說(shuō)是機(jī)器學(xué)習(xí)中的一大“隱患”,其造成的對(duì)抗攻擊可以擾亂神經(jīng)網(wǎng)絡(luò)模型,造成分類(lèi)錯(cuò)誤、識(shí)別不到等錯(cuò)誤輸出。
對(duì)抗樣本揭示了神經(jīng)網(wǎng)絡(luò)的脆弱性和不可解釋性。例如,一張簡(jiǎn)單的涂鴉貼紙(對(duì)抗性補(bǔ)丁)就可能“迷惑”自動(dòng)駕駛系統(tǒng),導(dǎo)致AI模型對(duì)交通標(biāo)志被錯(cuò)誤分類(lèi),甚至將自動(dòng)駕駛系統(tǒng) “騙” 進(jìn)反車(chē)道;也可能“欺騙”AI檢測(cè)系統(tǒng),讓最先進(jìn)的檢測(cè)系統(tǒng)也無(wú)法看到眼前活生生的人。
但是,對(duì)抗樣本真的是bug嗎?
來(lái)自MIT的多位研究人員給出了否定的回答。他們通過(guò)一系列嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn),證明:對(duì)抗樣本不是Bug, 它們是特征(Adversarial Examples Are Not Bugs, They Are Features)。
論文地址:
https://arxiv.org/pdf/1905.02175.pdf
這篇觀點(diǎn)新穎的論文今天在Reddit上引起熱議,讀者紛紛表示論文“巧妙又簡(jiǎn)單,怎么沒(méi)人早些想到這個(gè)方向”,“非常有趣的工作”……
實(shí)驗(yàn)的一個(gè)理念圖
作者表示:“我們證明了對(duì)抗性樣本并不是奇怪的像差或隨機(jī)的偽影,相反,它們實(shí)際上是有意義的數(shù)據(jù)分布特征(即它們有助于模型泛化),盡管這些特征不易覺(jué)察?!?/p>
研究人員通過(guò)一系列實(shí)驗(yàn)證明:
(a)你可以根據(jù)嵌入到錯(cuò)誤標(biāo)記的訓(xùn)練集中的這些不易覺(jué)察的特征學(xué)習(xí),并泛化到真正的測(cè)試集;
(b)你可以刪除這些不易覺(jué)察的特征,并“穩(wěn)健地”泛化到真正的測(cè)試集(標(biāo)準(zhǔn)訓(xùn)練)。
接下來(lái),新智元帶來(lái)這篇論文的解讀。
一顆叫做Erm的遙遠(yuǎn)星球,生活著Nets族人
過(guò)去幾年里,對(duì)抗樣本在機(jī)器學(xué)習(xí)社區(qū)中得到了極大的關(guān)注。關(guān)于如何訓(xùn)練模型使它們不易受到對(duì)抗樣本攻擊的工作有很多,但所有這些研究都沒(méi)有真正地面對(duì)這樣一個(gè)基本問(wèn)題:為什么這些對(duì)抗樣本會(huì)出現(xiàn)?
到目前為止,流行的觀點(diǎn)一直是,對(duì)抗樣本源于模型的“怪異模式”,只要我們?cè)诟玫挠?xùn)練算法和更大規(guī)模的數(shù)據(jù)集方面取得足夠的進(jìn)展,這些bug最終就會(huì)消失。常見(jiàn)的觀點(diǎn)包括,對(duì)抗樣本是輸入空間高維的結(jié)果,或者是有限樣本現(xiàn)象的結(jié)果。
本文將提供一個(gè)新的視角,解釋出現(xiàn)對(duì)抗樣本的原因。不過(guò),在深入討論細(xì)節(jié)之前,讓我們先給大家講一個(gè)小故事:
一顆叫做Erm的星球
我們的故事開(kāi)始于Erm,這是一個(gè)遙遠(yuǎn)的星球,居住著一個(gè)被稱(chēng)為Nets的古老的外星種族。
Nets是一個(gè)奇怪的物種:每個(gè)人在社會(huì)等級(jí)中的位置取決于他們將32×32像素圖像(對(duì)Nets來(lái)說(shuō)毫無(wú)意義)分類(lèi)為10個(gè)完全任意的類(lèi)別的能力。
這些圖像來(lái)自一個(gè)名為See-Far的絕密數(shù)據(jù)集,Nets族的居民們是無(wú)法事先看到數(shù)據(jù)集中的圖像的。
隨著Nets人的成長(zhǎng)和智慧的增長(zhǎng),他們開(kāi)始在See-Far中發(fā)現(xiàn)越來(lái)越多的模式。這些外星人發(fā)現(xiàn)的每一個(gè)新模式都能幫助他們更準(zhǔn)確地對(duì)數(shù)據(jù)集進(jìn)行分類(lèi)。由于提高分類(lèi)精度具有巨大的社會(huì)價(jià)值,外星人為最具預(yù)測(cè)性的圖像模式賦予了一個(gè)名稱(chēng)——TOOGIT。
一個(gè)TOOGIT, 可以高度預(yù)測(cè)一張 "1" 的圖像。Nets對(duì)TOOGIT非常敏感。
最強(qiáng)大的外星人非常善于發(fā)現(xiàn)模式,因此他們對(duì)TOOGIT在See-Far圖像中的出現(xiàn)極為敏感。
不知何故(也許是在尋找See-Far分類(lèi)技巧),一些外星人獲得了人類(lèi)寫(xiě)的機(jī)器學(xué)習(xí)論文。有一個(gè)圖像特別引起了外星人的注意:
一個(gè) "對(duì)抗樣本"?
這個(gè)圖是比較簡(jiǎn)單的,他們認(rèn)為:左邊是一個(gè)“2”,中間有一個(gè)GAB pattern,表明圖案是“4”——不出意料,左邊的圖片添加一個(gè)GAB,導(dǎo)致了一個(gè)新圖像,在Nets看來(lái),這個(gè)新圖像就對(duì)應(yīng)于“4”類(lèi)別。
根據(jù)論文,原始圖像和最終圖像明明完全不同,卻被分類(lèi)為相同。Nets人對(duì)此無(wú)法理解。困惑之余,他們翻遍了人類(lèi)的論文,想知道還有哪些有用的模式是人類(lèi)沒(méi)有注意到的……
我們可以從Erm星球?qū)W到什么?
正如Erm這個(gè)名字所暗示的,這個(gè)故事不是只想說(shuō)外星人和他們奇怪的社會(huì)結(jié)構(gòu):Nets發(fā)展的方式喻指我們訓(xùn)練機(jī)器學(xué)習(xí)模型的方式。
尤其是,我們最大限度地提高了準(zhǔn)確性,而沒(méi)有納入關(guān)于分類(lèi)的類(lèi)、物理世界或其他與人類(lèi)相關(guān)的概念的許多先前背景。
這個(gè)故事的結(jié)果是,外星人能夠意識(shí)到,人類(lèi)認(rèn)為毫無(wú)意義的對(duì)抗性擾動(dòng)(adversarial perturbation),實(shí)際上是對(duì)See-Far分類(lèi)至關(guān)重要的模式。因此,Nets的故事應(yīng)該讓我們思考:
對(duì)抗性擾動(dòng)真的是不自然、而且沒(méi)有意義的嗎?
一個(gè)簡(jiǎn)單的實(shí)驗(yàn)
為了研究這個(gè)問(wèn)題,我們先做了一個(gè)簡(jiǎn)單的實(shí)驗(yàn):
我們從一個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集(如CIFAR10)的訓(xùn)練集中的圖像開(kāi)始:
我們從每個(gè)(x, y)到“下一個(gè)”類(lèi)y+1(或0,如果y是最后一個(gè)類(lèi)),合成一個(gè)有針對(duì)性的對(duì)抗性樣本
然后,我們通過(guò)將這些對(duì)抗性樣本與其對(duì)應(yīng)的目標(biāo)類(lèi)進(jìn)行標(biāo)記,構(gòu)建一個(gè)新的訓(xùn)練集:
現(xiàn)在,由此產(chǎn)生的訓(xùn)練集與原始訓(xùn)練集相比,不知不覺(jué)地受到了干擾,但是標(biāo)簽已經(jīng)改變了——因此,對(duì)人類(lèi)來(lái)說(shuō),它的標(biāo)簽看起來(lái)是完全錯(cuò)誤。事實(shí)上,這些錯(cuò)誤的標(biāo)簽甚至與“置換”假設(shè)一致(即每只狗都被貼上貓的標(biāo)簽,每只貓都被貼上鳥(niǎo)的標(biāo)簽,等等)。
我們用“錯(cuò)誤標(biāo)記的數(shù)據(jù)集”來(lái)訓(xùn)練一個(gè)新的分類(lèi)器(不一定與第一個(gè)分類(lèi)器的架構(gòu)相同)。這個(gè)分類(lèi)器在原始(未修改的)測(cè)試集(即標(biāo)準(zhǔn)CIFAR-10測(cè)試集)上的表現(xiàn)如何呢?
值得注意的是,我們發(fā)現(xiàn)得到的分類(lèi)器實(shí)際上只有中等的精度(例如CIFAR上,精度只有44%)!盡管訓(xùn)練輸入僅通過(guò)不可察覺(jué)的擾動(dòng)與它們的“真實(shí)”標(biāo)簽相關(guān)聯(lián),并且與通過(guò)所有可見(jiàn)特性匹配的不同(現(xiàn)在是不正確的)標(biāo)簽相關(guān)聯(lián)。
這是怎么回事?
對(duì)抗樣本概念模型
剛剛描述的實(shí)驗(yàn)建立了標(biāo)準(zhǔn)模型的對(duì)抗性擾動(dòng),作為目標(biāo)類(lèi)的模式預(yù)測(cè)。也就是說(shuō),僅訓(xùn)練集中的對(duì)抗性干擾就能對(duì)測(cè)試集做出適度準(zhǔn)確的預(yù)測(cè)。
從這個(gè)角度來(lái)看,人們可能會(huì)想:也許這些模式與人類(lèi)用來(lái)對(duì)圖像進(jìn)行分類(lèi)的模式(比如耳朵、胡須、鼻子)并沒(méi)有本質(zhì)上的不同!
這正是我們的假設(shè)——存在著各種各樣的輸入特征可以預(yù)測(cè)標(biāo)簽,而其中只有一些特征是人類(lèi)可以察覺(jué)的。
更準(zhǔn)確地說(shuō),我們認(rèn)為數(shù)據(jù)的預(yù)測(cè)特征可以分為“robust”和“non-robust”特征。
Robust features(魯棒性特征)對(duì)應(yīng)于能夠預(yù)測(cè)真實(shí)標(biāo)簽的模式,即使在某些人為預(yù)先定義的擾動(dòng)集造成對(duì)抗性擾動(dòng)的情況下。
相反,non-robust features(非魯棒性特征)對(duì)應(yīng)的模式雖然具有預(yù)測(cè)性,但在預(yù)先定義的擾動(dòng)集會(huì)被攻擊者“翻轉(zhuǎn)”,造成指示的分類(lèi)錯(cuò)誤。(正式的定義請(qǐng)參閱論文)
由于我們總是只考慮不影響人類(lèi)分類(lèi)性能的擾動(dòng)集,所以我們希望人類(lèi)只依賴(lài)于robust features。然而,當(dāng)目標(biāo)是最大化 (標(biāo)準(zhǔn)) 測(cè)試集的準(zhǔn)確性時(shí),non-robust features 可以和 robust features 一樣有用。
事實(shí)上,這兩種類(lèi)型的特性是完全可以互換的。如下圖所示:
從這個(gè)角度來(lái)看,本文中的實(shí)驗(yàn)描述了一些相當(dāng)簡(jiǎn)單的過(guò)程。在原始訓(xùn)練集中,輸入的魯棒性和非魯棒性特征都是可以預(yù)測(cè)的。當(dāng)實(shí)驗(yàn)中加入小的對(duì)抗性擾動(dòng)時(shí),不能顯著影響?hù)敯粜蕴卣鳎珜?duì)非魯棒性特征的改變是允許的。例如,每只狗的圖像現(xiàn)在都保留了狗的魯棒性特征(因此這些圖像在我們看來(lái)是狗),但非魯棒性特征更接近貓。
在重新標(biāo)記訓(xùn)練集之后,我們的設(shè)置使魯棒性特征實(shí)際上指向了錯(cuò)誤的方向(即具有 “狗” 的魯棒性特征的圖片被標(biāo)記為 “貓”),在這種情況下,實(shí)際上只有非魯棒特征為泛化提供了正確的指導(dǎo)。
總之,魯棒和非魯棒特征都可以用于預(yù)測(cè)訓(xùn)練集,但只有非魯棒性特征才會(huì)導(dǎo)致對(duì)原始測(cè)試集的泛化:
因此,在該數(shù)據(jù)集上訓(xùn)練的模型實(shí)際上能夠泛化到標(biāo)準(zhǔn)測(cè)試集的事實(shí)表明:存在足以用其實(shí)現(xiàn)良好泛化的非魯棒性特征。而且,即使有強(qiáng)大的魯棒性預(yù)測(cè)特征的存在,深度神經(jīng)網(wǎng)絡(luò)仍要依賴(lài)于這些非魯棒性特征,。
高魯棒性模型能否學(xué)習(xí)高魯棒性特征?
實(shí)驗(yàn)證明,對(duì)抗性擾動(dòng)不是毫無(wú)意義的信號(hào),而是直接對(duì)應(yīng)于對(duì)泛化至關(guān)重要的擾動(dòng)性特征。同時(shí),關(guān)于對(duì)抗性示例相關(guān)文章顯示,通過(guò)強(qiáng)大的優(yōu)化,可以獲得面向?qū)剐詳_動(dòng)更具魯棒性的模型。
因此,一個(gè)自然而然的問(wèn)題就是:能否驗(yàn)證高魯棒性模型實(shí)際上依賴(lài)于高魯棒性的特征?為了測(cè)試這一點(diǎn),我們建立了一種方法,盡量將輸入僅限于模型敏感的特征(對(duì)于深度神經(jīng)網(wǎng)絡(luò)而言,就是倒數(shù)第二層激活的特征)。由此創(chuàng)建一個(gè)新的訓(xùn)練集,該訓(xùn)練集僅限于包含已經(jīng)訓(xùn)練過(guò)的高魯棒性模型使用的特征:
然后,我們?cè)跊](méi)有對(duì)抗訓(xùn)練的情況下在結(jié)果數(shù)據(jù)集上訓(xùn)練模型,發(fā)現(xiàn)得到的模型具有非常高的準(zhǔn)確性和魯棒性!這與標(biāo)準(zhǔn)訓(xùn)練集的訓(xùn)練形成鮮明對(duì)比,后者訓(xùn)練出的模型雖然準(zhǔn)確,但非常脆弱。
CIFAR-10 測(cè)試集(D)上測(cè)試的標(biāo)準(zhǔn)精度和魯棒性精度。左:在 CIFAR-10(D)上正常訓(xùn)練;中:在 CIFAR-10(D)上的對(duì)抗性訓(xùn)練;右:在我們重新構(gòu)建的數(shù)據(jù)集上正常訓(xùn)練。
結(jié)果表明,魯棒性(和非魯棒性)實(shí)際上可以作為數(shù)據(jù)集本身的屬性出現(xiàn)。特別是,當(dāng)我們從原始訓(xùn)練集中去除了非魯棒性特征時(shí),可以通過(guò)標(biāo)準(zhǔn)(非對(duì)抗性)訓(xùn)練獲得高魯棒性的模型。這進(jìn)一步證明,對(duì)抗性實(shí)例是由于非魯棒性特征而產(chǎn)生的,而且不一定與標(biāo)準(zhǔn)訓(xùn)練框架相關(guān)聯(lián)。
可遷移性
這一變化的直接后果是,對(duì)抗性實(shí)例的可轉(zhuǎn)移性不再需要單獨(dú)的解釋。具體來(lái)說(shuō),既然我們將對(duì)抗性漏洞視為源自數(shù)據(jù)集特征的直接產(chǎn)物(而不是訓(xùn)練單個(gè)模型時(shí)的個(gè)別現(xiàn)象),我們自然希望類(lèi)似的表達(dá)模型也能夠找到并利用這些特征來(lái)實(shí)現(xiàn)分類(lèi)精度的提升。
為了進(jìn)一步研究這個(gè)想法,我們研究了在不同架構(gòu)下對(duì)類(lèi)似非魯棒性特征的學(xué)習(xí),與這些特征間的對(duì)抗性實(shí)例的可轉(zhuǎn)移性的相關(guān)性:
我們生成了在第一個(gè)實(shí)驗(yàn)中描述的數(shù)據(jù)集(用目標(biāo)類(lèi)別標(biāo)記的對(duì)抗性實(shí)例的訓(xùn)練集),使用 ResNet-50 構(gòu)建對(duì)抗性實(shí)例。我們可以將結(jié)果數(shù)據(jù)集視為將所有 ResNet-50 的非強(qiáng)健功能 “翻轉(zhuǎn)” 到目標(biāo)類(lèi)別上。然后在此數(shù)據(jù)集上訓(xùn)練上圖中的五個(gè)架構(gòu),并在真實(shí)測(cè)試集上記錄泛化性能:這與測(cè)試架構(gòu)僅用 ResNet-50 的非魯棒性特征進(jìn)行泛化的程度相對(duì)應(yīng)。
結(jié)果表明,正如本文關(guān)于對(duì)抗性實(shí)例的新觀點(diǎn)中所述,模型能夠獲得 ResNet-50 數(shù)據(jù)集引入的非魯棒性特征,這與 ResNet-50 到標(biāo)準(zhǔn)模型之間的對(duì)抗性可轉(zhuǎn)移性有很強(qiáng)的相關(guān)性。
啟示
本文中的討論和實(shí)驗(yàn)將對(duì)抗性實(shí)例視為純粹以人為中心的現(xiàn)象。從分類(lèi)任務(wù)表現(xiàn)的角度來(lái)看,模型沒(méi)有理由更偏好魯棒性特征。畢竟,魯棒性的概念是人類(lèi)指定的。因此,如果我們希望模型主要依賴(lài)于魯棒性特征,需要通過(guò)將先驗(yàn)知識(shí)結(jié)合到框架或訓(xùn)練過(guò)程中來(lái)明確解釋這一點(diǎn)。
從這個(gè)角度來(lái)看,對(duì)抗性訓(xùn)練(以及更廣泛的魯棒性?xún)?yōu)化)可以被認(rèn)為是一種將所需的不變性結(jié)合到學(xué)習(xí)模型中的工具。比如,高魯棒性訓(xùn)練可以被視為通過(guò)不斷地 “翻轉(zhuǎn)” 來(lái)破壞非魯棒特征的預(yù)測(cè)性,從而引導(dǎo)訓(xùn)練的模型不再依賴(lài)非魯棒性特征。
同時(shí),在設(shè)計(jì)可解釋性方法時(shí),需要考慮標(biāo)準(zhǔn)模型對(duì)非魯棒性特征的依賴(lài)性。特別是,對(duì)標(biāo)準(zhǔn)訓(xùn)練模型預(yù)測(cè)的任何 “解釋” 應(yīng)該選擇要么突出這些特征(會(huì)導(dǎo)致對(duì)人類(lèi)而言的意義不明確),要么全部隱藏(會(huì)導(dǎo)致不完全忠實(shí)于模型的決策過(guò)程)。因此,如果我們想要獲得既對(duì)人類(lèi)有意義,又忠實(shí)于模型可解釋性方法,那么僅靠訓(xùn)練后的處理基本上是不行的,還需要在訓(xùn)練過(guò)程中進(jìn)行必要的干預(yù)。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4771瀏覽量
100777 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8418瀏覽量
132654 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24703
原文標(biāo)題:Reddit熱議MIT新發(fā)現(xiàn):對(duì)抗樣本不是bug,而是有意義的數(shù)據(jù)特征!
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論