自動(dòng)駕駛的安全性是非常值得關(guān)注的。而最近由北京航空航天大學(xué)、悉尼大學(xué)和劍橋大學(xué)的一項(xiàng)新研究表明,一張紙便可以“迷惑”AI自動(dòng)駕駛系統(tǒng)。
一張簡單的涂鴉貼畫就能讓AI自動(dòng)駕駛系統(tǒng)產(chǎn)生致命錯(cuò)誤乃至車毀人亡!
來自北京航空航天大學(xué)(Beihang University)、悉尼大學(xué)(University of Sydney)和劍橋大學(xué)(University of Cambridge)的一項(xiàng)最新研究成果顯示,將一張用打印機(jī)簡單打印出來的涂鴉貼畫貼在路牌上就可以讓AI自動(dòng)駕駛系統(tǒng)完全誤分類。
圖1 利用對(duì)抗補(bǔ)丁在真實(shí)世界中攻擊自動(dòng)駕駛系統(tǒng)
如上圖所示,將生成的涂鴉貼畫貼在北航校園中標(biāo)為“限速20km/h”的真實(shí)路牌上后,AI自動(dòng)駕駛系統(tǒng)完全被誤分類,將其識(shí)別為“No Entry”(禁行)。該涂鴉貼畫在論文中被稱為 “對(duì)抗補(bǔ)丁”(adversarial patch),正是這塊補(bǔ)丁 “欺騙” 了 AI 自動(dòng)駕駛系統(tǒng),讓系統(tǒng)將該路牌誤分類,在top-5分類中都沒有正確標(biāo)簽“限速20km/h”。
該團(tuán)隊(duì)發(fā)表了題為Perceptual-Sensitive GAN for Generating Adversarial Patches的論文。該論文使用對(duì)抗生成網(wǎng)絡(luò)(GAN)來生成視覺保真度較好且與場景語義相關(guān)度較高的對(duì)抗補(bǔ)丁(如:路牌和貼畫,路牌和涂鴉等),可以在數(shù)字世界(digital-world)和物理世界(physical-world)完成對(duì)深度學(xué)習(xí)模型的攻擊,目前該論文已在全球人工智能頂級(jí)會(huì)議AAAI-2019上發(fā)表。
論文地址:
https://www.aaai.org/Papers/AAAI/2019/AAAI-LiuA.723.pdf
經(jīng)實(shí)驗(yàn)證實(shí),用該方法生成的對(duì)抗補(bǔ)丁 (adversarial patch)具有穩(wěn)定的攻擊效果,將其貼在路牌上后,不會(huì)影響人類對(duì)于路牌語義信息的認(rèn)知,且由于場景語義相關(guān)性人類也不會(huì)感覺到“違和”;但是,該對(duì)抗補(bǔ)丁對(duì)于AI自動(dòng)駕駛系統(tǒng)則是毀滅性的。例如,這種攻擊可能被惡意地用來攻擊自動(dòng)駕駛系統(tǒng),入侵者只要將一小片貼畫貼在路牌上,當(dāng)自動(dòng)駕駛汽車駛過時(shí)就可能會(huì)造成系統(tǒng)的致命錯(cuò)誤,導(dǎo)致車禍產(chǎn)生。
使用對(duì)抗生成網(wǎng)絡(luò)(GAN)生成對(duì)抗補(bǔ)丁
該論文提出了一種使用對(duì)抗生成網(wǎng)絡(luò)來生成視覺保真度較好且與場景語義相關(guān)度較高的對(duì)抗補(bǔ)丁的方法(PS-GAN),并且結(jié)合系統(tǒng)分類器注意力信息使得補(bǔ)丁的攻擊具備穩(wěn)定性。算法模型提出了一種Patch-to-patch translation的過程,將輸入的普通涂鴉圖片轉(zhuǎn)換生成為具有攻擊性的涂鴉圖片。算法的整體架構(gòu)如下:
圖 2 算法PSGAN架構(gòu)圖
為了達(dá)成效果,PSGAN的優(yōu)化目標(biāo)包含以下幾個(gè)部分:
提升視覺保真度和感知相關(guān)性
為了提升生成的對(duì)抗補(bǔ)丁的視覺保真度,他們引入了GAN損失函數(shù):
同時(shí),為了保持感知相關(guān)性并控制擾動(dòng)在合適的范圍內(nèi),他們引入了patch損失函數(shù):
對(duì)抗補(bǔ)丁的攻擊性
為了使產(chǎn)生的對(duì)抗補(bǔ)丁具有攻擊性,我們引入了attack損失函數(shù)的損失函數(shù):
該損失函數(shù)的目標(biāo)是讓生成的對(duì)抗補(bǔ)丁貼在圖片上后,深度學(xué)習(xí)模型分類器對(duì)于該圖片的正確類別的預(yù)測降低。
整體的優(yōu)化函數(shù)
將整個(gè)優(yōu)化過程轉(zhuǎn)化為對(duì)抗生成的極大極小優(yōu)化過程:
模型的注意力敏感度
為了進(jìn)一步提升對(duì)抗補(bǔ)丁的攻擊效果和穩(wěn)定性,該論文選擇讓對(duì)抗補(bǔ)丁放置在深度學(xué)習(xí)模型分類敏感的位置。最直觀的思路是利用注意力機(jī)制(attention & saliency),選擇圖片中對(duì)于模型分類最敏感最重要的區(qū)域去放置對(duì)抗補(bǔ)丁實(shí)施攻擊。
實(shí)驗(yàn)結(jié)果:自動(dòng)駕駛真的安全嗎?
通過實(shí)驗(yàn)結(jié)果評(píng)估 生成的對(duì)抗補(bǔ)丁的有效性。主要針對(duì)GTSRB和ImageNet數(shù)據(jù)集進(jìn)行測試。
視覺效果
圖 3 不同算法生成的對(duì)抗補(bǔ)丁的視覺效果
通過上圖展示可以看出,作者提出的算法(第三行PSGAN)與其他對(duì)比算法相比,生成的對(duì)抗補(bǔ)丁具有非常好的視覺效果和語義相關(guān)性。對(duì)比算法生成對(duì)抗補(bǔ)丁一般都是比較雜亂的噪音,放置在圖片中顯得非常突兀;PSGAN生成的對(duì)抗補(bǔ)丁視覺效果較好,而且具備較高的語義相關(guān)性(如:猩猩與蘋果,路牌與涂鴉貼畫等)。
攻擊效果
為了驗(yàn)證模型生成的對(duì)抗補(bǔ)丁的攻擊性,論文分別從白盒攻擊(white-box)和黑盒攻擊(black-box)的角度進(jìn)行了測試。
在黑盒攻擊場景下,算法通過在一種模型上生成對(duì)抗補(bǔ)丁并遷移攻擊其它模型,可以從下表中看到,由PSGAN產(chǎn)生的對(duì)抗補(bǔ)丁具有很好的遷移攻擊性。這說明,入侵者可以不用了解目標(biāo)AI自動(dòng)駕駛系統(tǒng)所使用的算法模型,只需要使用該算法生成對(duì)抗補(bǔ)丁,就可以利用其遷移性實(shí)施攻擊。
圖 4 GTSRB數(shù)據(jù)集下模型在對(duì)抗補(bǔ)丁黑盒攻擊場景下的分類準(zhǔn)確率
在白盒攻擊場景下,算法基于給定的模型生成對(duì)抗樣本并對(duì)該模型實(shí)施攻擊。生成的對(duì)抗補(bǔ)丁在保持較高語義相關(guān)性的同時(shí),仍能具備較強(qiáng)的攻擊性。
與此同時(shí),研究團(tuán)隊(duì)為了驗(yàn)證生成對(duì)抗補(bǔ)丁的攻擊性不是由于遮蓋了目標(biāo)的關(guān)鍵信息,還使用了普通的 patch 進(jìn)行了實(shí)驗(yàn)。比如他們會(huì)使用普通的涂鴉貼畫貼在同樣的位置,通過結(jié)果看到,深度學(xué)習(xí)模型的分類準(zhǔn)確率基本上沒有明顯的變化,這更證明了生成的對(duì)抗補(bǔ)丁的攻擊性。
圖 5 模型在對(duì)抗補(bǔ)丁白盒攻擊場景下的分類準(zhǔn)確率(ImageNet只選擇了部分類別)
最后,為了驗(yàn)證算法生成的對(duì)抗補(bǔ)丁的攻擊穩(wěn)定性,論文還對(duì)算法訓(xùn)練不同周期時(shí)生成的對(duì)抗補(bǔ)丁的攻擊性的效果進(jìn)行了測試。如圖所示,可以看到PSGAN的攻擊性較為穩(wěn)定,攻擊能力持續(xù)上升并最終保持穩(wěn)定;而對(duì)比算法產(chǎn)生的對(duì)抗補(bǔ)丁的攻擊性則不穩(wěn)定,訓(xùn)練了幾百個(gè)epoch之后仍會(huì)產(chǎn)生較大的波動(dòng)。
圖 6 算法攻擊穩(wěn)定性
真實(shí)世界(physical-world)中的攻擊性
圖 7 真實(shí)世界中的攻擊
為了驗(yàn)證算法生成的對(duì)抗補(bǔ)丁再真實(shí)世界中也具有攻擊性,論文選擇在北京航空航天大學(xué)校園中的真實(shí)路牌上(限速20km/h)進(jìn)行驗(yàn)證。作者使用普通的打印機(jī)將生成的對(duì)抗補(bǔ)丁打印出來,并貼在路牌的合適位置,選擇不同距離(1米,3米,5米)和角度(0°,15°,30°,-15°,-30°)拍照并測試深度學(xué)習(xí)模型的分類結(jié)果,其平均分類準(zhǔn)確率從86.7%降低至17.2%。人類對(duì)于路牌語義信息沒有任何誤解,也不會(huì)對(duì)于貼畫感到“違和”,但是深度學(xué)習(xí)模型則產(chǎn)生了致命分類錯(cuò)誤。
未來展望
雖然人工智能技術(shù)在各個(gè)領(lǐng)域都取得了巨大的成功過,但是人工智能安全問題仍不容忽視。近日,清華大學(xué)的朱軍教授所帶領(lǐng)的團(tuán)隊(duì)提出了一種基于決策的黑盒攻擊方法——演化攻擊(Evolutionary Attack)來攻擊人臉識(shí)別系統(tǒng)[可加鏈接];比利時(shí)魯汶大學(xué) (KU Leuven) 幾位研究人員最近的研究發(fā)現(xiàn),借助一張簡單打印出來的對(duì)抗補(bǔ)丁,就可以大大降低監(jiān)控系統(tǒng)對(duì)人類的識(shí)別率,可以將人隱藏起來。
與此同時(shí),即使AI自動(dòng)駕駛已經(jīng)取得了成功并在現(xiàn)實(shí)世界中應(yīng)用,但由北京航空航天大學(xué)(Beihang University)、悉尼大學(xué)(University of Sydney)和劍橋大學(xué)(University of Cambridge)的研究人員提出的算法PSGAN仍可以在黑盒場景下對(duì)其系統(tǒng)進(jìn)行攻擊??梢哉f,這個(gè)方法將真實(shí)世界自動(dòng)駕駛存在的安全漏洞極大地暴露了出來。
當(dāng)然,對(duì)抗攻擊技術(shù)的進(jìn)步也將催生更多對(duì)于模型魯棒性、穩(wěn)定性和安全性的研究和發(fā)展。未來,如何打造安全、可靠的人工智能系統(tǒng)則顯得至關(guān)重要。
-
AI
+關(guān)注
關(guān)注
87文章
31335瀏覽量
269725 -
自動(dòng)駕駛
+關(guān)注
關(guān)注
784文章
13905瀏覽量
166745 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5511瀏覽量
121362
原文標(biāo)題:危險(xiǎn)!一張貼畫就能迷惑AI,對(duì)抗補(bǔ)丁或讓自動(dòng)駕駛車毀人亡
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論