對抗攻擊通常會使得神經(jīng)網(wǎng)絡(luò)分類錯誤,但谷歌大腦團(tuán)隊(duì)的Ian Goodfellow 等人的新研究提出一個更加復(fù)雜的攻擊目標(biāo):對神經(jīng)網(wǎng)絡(luò)重新編程,誘導(dǎo)模型執(zhí)行攻擊者選定的新任務(wù)。該研究首次表明了神經(jīng)網(wǎng)絡(luò)驚人的脆弱性和靈活性。
對抗樣本(adversarial examples)的研究一般是為了預(yù)防攻擊者通過對模型的輸入進(jìn)行微小的修改,從而導(dǎo)致模型的預(yù)測產(chǎn)生偏差。這樣的攻擊者可能通過一張貼紙(一個小的擾動)就讓無人駕駛汽車對停車標(biāo)志產(chǎn)生反應(yīng),或者通過精巧地修改損害情況的照片(一個小的
擾動)導(dǎo)致保險公司的損失模型高估了事故的賠償值??紤]到這些,研究人員們提出了很多方法來構(gòu)建以及抵抗這種對抗性攻擊(adversrial attacks)。
迄今為止,大多數(shù)的對抗性攻擊主要由無目標(biāo)攻擊(untargeted attacks)和有目標(biāo)攻擊(targeted attacks)組成。無目標(biāo)攻擊旨在降低模型的性能,但不一定需要產(chǎn)生一個特定的輸出;而有目標(biāo)攻擊旨在對模型設(shè)計(jì)一個對抗性干擾的輸入,從而產(chǎn)生一個特定的輸出。例如,對一個分類器的攻擊可能是為了針對每張圖像得到特定的輸出類別,或者,對一個強(qiáng)化學(xué)習(xí)智能體的攻擊可能是為了誘導(dǎo)該智能體進(jìn)入一個特定的狀態(tài)。
近日,谷歌大腦的 Gamaleldin F. Elsayed、Ian Goodfellow 和 Jascha Sohl-Dickstein 等人的新研究考慮了一個更加復(fù)雜的攻擊目標(biāo):在不需要攻擊者計(jì)算特定期望輸出的情況下,誘導(dǎo)模型執(zhí)行攻擊者選定的一個任務(wù)。
對抗性重編程
考慮一個訓(xùn)練用來執(zhí)行一些原始任務(wù)的模型:對于輸入,它將產(chǎn)生輸出
??紤]一個敵人(adversary),它希望執(zhí)行一個對抗的任務(wù):對于輸入
(不一定和x在同一個域),敵人希望計(jì)算一個函數(shù)
。我們證明敵人可以通過學(xué)習(xí)對抗性重編程函數(shù)( adversarial reprogramming? functions)
和
來實(shí)現(xiàn)這一點(diǎn),這兩個函數(shù)是兩個任務(wù)之間的映射。這里,hf 將來自x?的域的輸入轉(zhuǎn)換成
的域。
在這項(xiàng)工作中,為了簡單起見,并且為了獲得高度可解釋的結(jié)果,我們將定義為小圖像(small images),g是處理小圖形的函數(shù),
只包括在大圖像的中心繪制
,在邊框中繪制θ,而
只是輸出類標(biāo)簽之間的硬編碼映射。?
然而,這個想法更具通用性;可以是在兩個任務(wù)的輸入(輸出)格式之間轉(zhuǎn)換的任何一致性轉(zhuǎn)換,并使模型執(zhí)行對抗性任務(wù)。
我們指的是一類攻擊,在這種攻擊中,機(jī)器學(xué)習(xí)算法被重新用于執(zhí)行一項(xiàng)新的任務(wù),即對抗性重編程(adversarial reprogramming)。我們將θ稱為對抗程序( adversarial program)。與以往大多數(shù)對抗樣本的研究相比,這種擾動的幅度不需要受到限制。這種攻擊不需要使人類察覺不到,或是需要很微妙才被認(rèn)為是成功的。對抗性重編程的潛在后果包括:從公共服務(wù)中竊取計(jì)算資源,或?qū)?a href="http://www.wenjunhu.com/tags/ai/" target="_blank">AI驅(qū)動的助理改造成間諜機(jī)器人或垃圾郵件機(jī)器人。
在這篇文章中,我們介紹了對抗性重編程的第一個實(shí)例。我們提出一種設(shè)計(jì)對抗程序的訓(xùn)練過程,對抗程序?qū)?dǎo)致神經(jīng)網(wǎng)絡(luò)執(zhí)行新的任務(wù)。在實(shí)驗(yàn)部分,我們演示了針對用于ImageNet數(shù)據(jù)分類的幾個卷積神經(jīng)網(wǎng)絡(luò)的對抗程序。這些對抗程序?qū)⒕W(wǎng)絡(luò)的功能從ImageNet分類改變成:對圖像中的方塊進(jìn)行計(jì)數(shù);對MNIST的數(shù)字進(jìn)行分類,對CIFAR-10圖像進(jìn)行分類。我們還研究了訓(xùn)練好的和未訓(xùn)練的網(wǎng)絡(luò)對對抗性重編程的易感性。
方法
我們提出的攻擊場景如下:當(dāng)執(zhí)行一個特定任務(wù)時,敵人已經(jīng)獲取了神經(jīng)網(wǎng)絡(luò)的參數(shù),并希望通過使用一個可以加入到網(wǎng)絡(luò)輸入中的攻擊程序來操縱網(wǎng)絡(luò)的函數(shù),以此來執(zhí)行一個新的任務(wù)。在這里,我們假設(shè)原始的網(wǎng)絡(luò)是用來執(zhí)行ImageNet分類的,但是本文討論的方法是具有可擴(kuò)展性的。
我們的對抗性程序?qū)⒆鳛榫W(wǎng)絡(luò)輸入的附加貢獻(xiàn)。值得注意的是,不像其他大多數(shù)對抗性干擾,我們的對抗性程序并不針對單一的圖像。同樣的對抗性程序?qū)?yīng)用到所有的圖像中。我們將對抗性程序定義為:
其中,是將要學(xué)到的對抗性程序的參數(shù),n是ImageNet圖像的寬度,M是一個masking矩陣。值得注意的是,M并不是必需的。
讓作為我們所希望應(yīng)用到對抗性任務(wù)中數(shù)據(jù)集的一個樣本,其中
。那么相應(yīng)的對抗性圖像可表示為:
給定一個輸入圖像,使
,它是將對抗性任務(wù)
中的一個標(biāo)簽映射到一個ImageNet標(biāo)簽集合。至此,我們對抗性的目標(biāo)就是將概率
最大化。于是,我們將優(yōu)化問題設(shè)置為:?
實(shí)驗(yàn)結(jié)果
1. 計(jì)算圖像中的方格數(shù)
首先從簡單的對抗性任務(wù)開始,即計(jì)算圖像中的方格數(shù)。結(jié)果如圖所示:
圖1:對抗性重編程的說明。
(a)將ImageNet標(biāo)簽映射到對抗性任務(wù)的標(biāo)簽(圖像中的方塊)。
(b)對抗性任務(wù)中的圖像(左側(cè))是嵌入在一個對抗性問題中的(中間),產(chǎn)生對抗性圖像(右側(cè))。
(c)利用對抗性圖像進(jìn)行推測的說明。
2. MNIST分類
圖2:為MNIST分類進(jìn)行對抗性編程的例子。
對抗性程序?qū)е?個ImageNet模型轉(zhuǎn)而用作MNIST分類器。
3. CIFAR-10分類
圖3:CIFAR-10分類中對抗性圖像的例子(圖注)
對抗性程序重新利用一個Inception V3 模型作為CIFAR-10分類器的替代函數(shù)。
表:訓(xùn)練好的ImageNet分類器可以對抗性地再編程來執(zhí)行多種任務(wù)
4. 再次編程未訓(xùn)練以及對抗性訓(xùn)練過的網(wǎng)絡(luò)
圖4:對抗性程序不論在網(wǎng)絡(luò)還是任務(wù)中都表現(xiàn)出質(zhì)的相似性和不同性。
(a)頂部:將在ImageNet上預(yù)訓(xùn)練的網(wǎng)絡(luò)重新利用來計(jì)算圖像中方塊數(shù)量的對抗性程序。
中部:將在ImageNet上預(yù)訓(xùn)練的網(wǎng)絡(luò)作為MNIST分類器函數(shù)的對抗性程序。
底部:對抗性程序?qū)⑾嗤木W(wǎng)絡(luò)作為CIFAR-10分類器。
(b)針對具有隨機(jī)初始化參數(shù)的重組網(wǎng)絡(luò),對抗性程序?qū)⑵渥鳛镸NIST分類器。
-
谷歌
+關(guān)注
關(guān)注
27文章
6219瀏覽量
107282 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4798瀏覽量
102487 -
圖像
+關(guān)注
關(guān)注
2文章
1091瀏覽量
40953
原文標(biāo)題:Ian Goodfellow最新論文:神經(jīng)網(wǎng)絡(luò)無比脆弱,對抗攻擊重新編程
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
卷積神經(jīng)網(wǎng)絡(luò)如何使用
如何設(shè)計(jì)BP神經(jīng)網(wǎng)絡(luò)圖像壓縮算法?
如何構(gòu)建神經(jīng)網(wǎng)絡(luò)?
嵌入式Linux的靈活性
基于熵方法的計(jì)算機(jī)網(wǎng)絡(luò)脆弱性檢測和優(yōu)化
網(wǎng)絡(luò)脆弱性擴(kuò)散分析方法

評論