編者按:深度模型的精度和速度長(zhǎng)期以來(lái)成為了評(píng)價(jià)模型性能的核心標(biāo)準(zhǔn),但即使性能優(yōu)越的深度神經(jīng)網(wǎng)絡(luò)也很容易被對(duì)抗樣本攻擊。因此,尋找到合適的對(duì)抗攻擊策略可有效提升模型本身的魯棒性。本文作者提出了基于動(dòng)量的迭代算法來(lái)構(gòu)造對(duì)抗擾動(dòng),有效地減輕了白盒攻擊成功率和遷移性能之間的耦合,并能夠同時(shí)成功攻擊白盒和黑盒模型。
一、研究動(dòng)機(jī)
深度神經(jīng)網(wǎng)絡(luò)雖然在語(yǔ)音識(shí)別、圖像分類、物體檢測(cè)等諸多領(lǐng)域取得了顯著效果,但是卻很容易受到對(duì)抗樣本的攻擊。對(duì)抗樣本是指向原始樣本中添加微小的噪聲,使得深度學(xué)習(xí)模型錯(cuò)誤分類,但是對(duì)于人類觀察者來(lái)說(shuō),卻很難發(fā)現(xiàn)對(duì)抗樣本和正常樣本之間的區(qū)別。
生成對(duì)抗樣本的場(chǎng)景主要分為兩種:白盒攻擊和黑盒攻擊。對(duì)于白盒攻擊,攻擊者知道目標(biāo)網(wǎng)絡(luò)的結(jié)構(gòu)和參數(shù),可以利用基于梯度的方法構(gòu)造對(duì)抗樣本。由于所構(gòu)造的對(duì)抗樣本具有一定的遷移性能(即對(duì)于一個(gè)模型構(gòu)造的對(duì)抗樣本也可以欺騙另一個(gè)模型),所以其可以被用來(lái)攻擊未知結(jié)構(gòu)和參數(shù)的黑盒模型,即黑盒攻擊。
然而,在實(shí)際的應(yīng)用過(guò)程中,攻擊一個(gè)黑盒模型十分困難,尤其對(duì)于具有一定防御措施的模型更加難以黑盒攻擊成功。造成此現(xiàn)象的根本原因在于現(xiàn)有攻擊方法的白盒攻擊成功率和遷移性能之間的耦合與限制,使得沒有能夠同時(shí)達(dá)到很好的白盒攻擊成功率和遷移性能的方法。
具體地,對(duì)于一步迭代的快速梯度符號(hào)算法(FGSM),雖然這種方法構(gòu)造的對(duì)抗樣本的遷移性能很好,其攻擊白盒模型的成功率受到了很大的限制,不能有效地攻擊黑盒模型;另一方面,對(duì)于多步迭代的方法(I-FGSM),雖然可以很好地攻擊白盒模型,但是所構(gòu)造對(duì)抗樣本的遷移性能很差,也不能有效地攻擊黑盒模型。所以我們提出了一類新的攻擊方法,可以有效地減輕白盒攻擊成功率和轉(zhuǎn)移性能之間的耦合,同時(shí)成功攻擊白盒和黑盒模型。
圖1:對(duì)抗樣本示例
二、研究方案
2.1 問題定義
生成對(duì)抗噪聲本質(zhì)上可以歸結(jié)為一個(gè)優(yōu)化問題。對(duì)于單個(gè)模型f(x),攻擊者希望生成滿足L_∞限制的無(wú)目標(biāo)對(duì)抗樣本,即生成對(duì)抗樣本x^*,使得f(x^*)≠y且‖x^*-x‖_∞≤?,其中y為真實(shí)樣本x所對(duì)應(yīng)的真實(shí)類別、?為所允許的噪聲規(guī)模。所對(duì)應(yīng)的優(yōu)化目標(biāo)為
其中J為模型的損失函數(shù),通常定義為交叉信息熵?fù)p失。
2.2 相關(guān)工作
為了求解此優(yōu)化問題,Goodfellow等人首先提出了快速梯度符號(hào)法(FGSM),僅通過(guò)一次梯度迭代即可以生成對(duì)抗樣本:
此方法白盒攻擊成功率較低。為了提升成功率,迭代式攻擊方法(I-FGSM)通過(guò)多步更新,可以更好地生成對(duì)抗樣本,即
此方法雖然白盒攻擊成功率較高,但是遷移能力較差,也不利用攻擊其它的黑盒模型。
2.3 動(dòng)量攻擊算法
我們提出在基礎(chǔ)的迭代式攻擊方法上加入動(dòng)量項(xiàng),避免在迭代過(guò)程中可能出現(xiàn)的更新震蕩和落入較差的局部極值,得到能夠成功欺騙目標(biāo)網(wǎng)絡(luò)的對(duì)抗樣本。由于迭代方法在迭代過(guò)程中的每一步計(jì)算當(dāng)前的梯度,并貪戀地將梯度結(jié)果加到對(duì)抗樣本上,使得所生成的對(duì)抗樣本僅能欺騙直接攻擊的白盒模型,而不能欺騙未知的黑盒模型,在實(shí)際的應(yīng)用中受到了很大的限制。
在一般優(yōu)化算法中,動(dòng)量項(xiàng)可以加速收斂、避免較差的局部極值、同時(shí)使得更新方向更加平穩(wěn)。受到一般優(yōu)化算法中動(dòng)量項(xiàng)的啟發(fā),在生成對(duì)抗樣本的迭代方法中加入動(dòng)量項(xiàng),可以使得生成的對(duì)抗樣本不僅能有效欺騙白盒模型,也能欺騙未知的黑盒模型,達(dá)到更好的攻擊效果。
基于動(dòng)量的迭代式快速梯度符號(hào)算法(MI-FGSM)可以用來(lái)解決上述問題,算法為:
假設(shè)以上迭代過(guò)程共迭代T輪,為了滿足限制‖x^*-x‖_∞≤?,定義每一步的步長(zhǎng)α=?/T。μ為動(dòng)量值g的衰減系數(shù)。通過(guò)以上迭代過(guò)程對(duì)一個(gè)真實(shí)樣本x逐步添加噪聲,可以得到能夠欺騙模型f(x)的對(duì)抗樣本x^*,同時(shí)x^*也能轉(zhuǎn)移到其他未知模型上,導(dǎo)致多個(gè)模型發(fā)生分類錯(cuò)誤。此方法可以被擴(kuò)展到有目標(biāo)攻擊和基于L_2度量下的攻擊。
2.4 攻擊多個(gè)模型
為了進(jìn)一步提升黑盒攻擊的成功率,我們可以同時(shí)攻擊多個(gè)白盒模型,以提升對(duì)抗樣本的遷移性能。對(duì)于K個(gè)不同的模型,目標(biāo)是使得構(gòu)造的對(duì)抗樣本同時(shí)攻擊成功所有K個(gè)模型。為了達(dá)到上述目標(biāo),首先將K個(gè)模型的未歸一化概率值進(jìn)行加權(quán)平均,即
其中l(wèi)_k (x)為第個(gè)模型的未歸一化概率值(即網(wǎng)絡(luò)最后一層softmax的輸入);w_k為第k個(gè)模型的權(quán)重,滿足w_k≥0且∑_(k=1)^K?w_k =11。由此得到了一個(gè)集成模型,定義此模型的損失函數(shù)為softmax交叉信息熵?fù)p失:
由此可以利用之前所述的基于動(dòng)量的生成對(duì)抗樣本的方法對(duì)此集成模型進(jìn)行攻擊。
三、算法流程圖
算法流程圖如圖2所示。輸入一張?jiān)嫉膱D片,其可以被圖片分類模型正確分類。通過(guò)所提出的基于動(dòng)量的迭代算法構(gòu)造對(duì)抗擾動(dòng)并添加到原始樣本上,得到了對(duì)抗圖片,會(huì)被圖片分類模型所錯(cuò)分。
圖2:算法流程圖
四、實(shí)驗(yàn)結(jié)果
4.1 數(shù)據(jù)集
為了測(cè)試所提方法的有效性,針對(duì)圖片分類任務(wù)進(jìn)行對(duì)抗樣本生成。首先選取7個(gè)模型作為研究對(duì)象,它們分別為Inception V3 (Inc-v3)、Inception V4 (Inc-v4)、Inception Resnet V2 (IncRes-v2)、Resnet v2-152 (Res-152)、Inc-v3ens3、Inc-v3ens4和IncRes-v2ens。這些模型均在大規(guī)模圖像數(shù)據(jù)集ImageNet上訓(xùn)練得到,其中后三個(gè)模型為集成對(duì)抗訓(xùn)練得到的模型,具備一定的防御能力。本實(shí)施選取ImageNet驗(yàn)證集中1000張圖片作為研究對(duì)象,衡量不同攻擊方法的成功率,進(jìn)而說(shuō)明其攻擊性能。
4.2 評(píng)測(cè)指標(biāo)
這里我們選取攻擊成功率作為評(píng)測(cè)指標(biāo),定義為原本可以被分類正確的圖片中,添加了對(duì)抗噪聲后被預(yù)測(cè)為錯(cuò)誤標(biāo)簽的圖片占的比率。
4.3 實(shí)驗(yàn)結(jié)果
基于所提方法,我們攻擊了Inc-v3、Inc-v4、IncRes-v2和Res-152四個(gè)模型,并利用所產(chǎn)生的對(duì)抗樣本輸入所有的7個(gè)模型中,測(cè)試攻擊的效果。為了比較所提出方法的效果,我們還選取了FGSM,I-FGSM兩個(gè)方法作為基準(zhǔn)方法進(jìn)行比較。實(shí)驗(yàn)結(jié)果如表1所示:
表1:攻擊成功率結(jié)果
從表中可以看出,所提出的MI-FGSM方法可以顯著地提升黑盒攻擊的成功率,相比于I-FGSM,我們的方法可以將攻擊成功率提升了一倍左右。我們還展示了集成攻擊的效果。實(shí)驗(yàn)結(jié)果如表2所示。
表2:集成攻擊結(jié)果
從結(jié)果中可以看出,所提出的在模型未歸一化概率值進(jìn)行加權(quán)平均的方法效果最好。
五、結(jié)論與展望
本篇論文證明了深度學(xué)習(xí)模型在黑盒場(chǎng)景下的脆弱性,也證明了基于動(dòng)量的攻擊算法的有效性。實(shí)驗(yàn)中可以看出,所提出的方法對(duì)于具有防御機(jī)制的模型的攻擊效果較差。我們?cè)诤罄m(xù)工作中還提出了平移不變的攻擊算法(“Evading Defenses to Transferable Adversarial Examples by Translation-Invariant Attacks”, CVPR 2019, Oral),可以將防御模型的攻擊效果進(jìn)一步提升。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4771瀏覽量
100772 -
算法
+關(guān)注
關(guān)注
23文章
4612瀏覽量
92901 -
圖像分類
+關(guān)注
關(guān)注
0文章
90瀏覽量
11918
原文標(biāo)題:動(dòng)量迭代式對(duì)抗噪聲生成方法 | VALSE2018年度杰出學(xué)生論文獎(jiǎng)
文章出處:【微信號(hào):deeplearningclass,微信公眾號(hào):深度學(xué)習(xí)大講堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論