深度學(xué)習(xí)系統(tǒng)很容易受到生成樣本的攻擊,對輸入的參數(shù)進(jìn)行細(xì)微的改變會導(dǎo)致網(wǎng)絡(luò)輸出變化,但人類肉眼卻看不出什么差別。通常,這些對抗樣本只對每個像素做少量調(diào)整,或者修改圖像中少量像素。也就是說,大部分對抗樣本都將重點放在對輸入數(shù)據(jù)極小或不易察覺的改變上。
在這篇論文中,谷歌的研究人員探討了如果分類器不再僅限于微小的改變,最終輸出會是什么結(jié)果。他們構(gòu)建了一個獨立于圖像的補丁,能讓神經(jīng)網(wǎng)絡(luò)做出非常明顯的反應(yīng)。這個補丁可以放置在分類器視野內(nèi)的任何地方,并讓分類器輸出一個目標(biāo)類。因為這個補丁是獨立于場景的,所以攻擊樣本無需提前了解光照條件、相機角度、分類器類型以及其他信息。
在VGG16上,用打印出的補丁對分類器進(jìn)行攻擊。分類器先將圖片以97%的概率識別為“香蕉”;在下圖添加補丁后,分類器以99%的概率將其識別為“烤面包機”
生成對抗補丁之后,補丁可以發(fā)布到網(wǎng)上供其他人打印或使用。此外,由于攻擊會使用較大的擾動,目前的防御技術(shù)主要是針對較小擾動的,面對大擾動也許會不穩(wěn)定。最近的研究表明,在MNIST上最先進(jìn)的對抗訓(xùn)練模型仍然容易受到較大擾動的影響。
與以往不同,研究人員將補丁作為圖像的一部分作為攻擊,它可以變成任意形狀,然后訓(xùn)練各種類型的圖像,在每個圖像上隨機變換、縮放并旋轉(zhuǎn)補丁,使用梯度下降進(jìn)行優(yōu)化。
假設(shè)圖片x∈Rw×h×c,補丁為p,補丁位置l,補丁變換為t,將補丁應(yīng)用操作器(patch application operator)定義為A(p,x,l,t)。
操作器輸入一個補丁、一個圖片、一個位置以及任何補丁的變換,然后進(jìn)行訓(xùn)練,優(yōu)化識別出正確類別的概率。
為了得到訓(xùn)練后的補丁P^,我們在目標(biāo)函數(shù)上訓(xùn)練:
X表示正在訓(xùn)練的一套圖像,T是經(jīng)過變換的補丁分布,L是圖像位置的分布。
研究人員認(rèn)為這種攻擊利用了圖像分類任務(wù)的構(gòu)建方式。雖然圖像可能包含多個對象,但只有一個目標(biāo)標(biāo)簽是正確的。所以網(wǎng)絡(luò)必須學(xué)會檢測每一幀最“明顯”的項目。對抗補丁通過生成比現(xiàn)實世界中的物體更顯著的輸入來利用這一特征。因此,在目標(biāo)檢測或圖像分割模型受到攻擊時,我們希望烤面包機補丁能被分類為烤面包機,而不影響圖像的其他部分。
不同方法創(chuàng)造出對抗補丁的比較。成功率是將補丁放在圖片頂部計算的。每張圖片都經(jīng)歷了400張位置不同的補丁測試;同時又經(jīng)歷了400張不同大小補丁照片的測試
偽裝成不同類別的補丁比較。研究人員發(fā)現(xiàn)他們可以改變補丁的樣式,但仍然能騙過分類器
結(jié)果表明,這個通用、穩(wěn)定、有針對性的補丁無論放在圖片的哪個位置,都能成功騙過分類器,而且不需要提前了解場景信息。這些補丁還可以打印出來,在許多地方通用。
-
谷歌
+關(guān)注
關(guān)注
27文章
6180瀏覽量
105783 -
分類器
+關(guān)注
關(guān)注
0文章
152瀏覽量
13209 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5511瀏覽量
121392
原文標(biāo)題:谷歌推出對抗補丁,可導(dǎo)致分類器輸出任意目標(biāo)類
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論