信息安全專家們一直在探索“生成式對抗網(wǎng)絡”(GAN)如何提高我們的在線安全性,并取得了令人鼓舞的結(jié)果。近日,新澤西州史蒂文斯理工學院和紐約理工學院的研究人員開發(fā)了使用GAN猜測密碼的方法。
該小組開發(fā)了一個實驗,通過其被稱為“PassGan”的密碼猜測技術(shù)來查看泄露密碼的數(shù)據(jù),并發(fā)現(xiàn)該軟件能夠從這些帳戶中猜出47%的密碼,比HashCat和Ripper這樣的競爭算法要高得多。在這篇文章中,我們將詳細介紹下述內(nèi)容:
這項技術(shù)所處的歷史背景
犯罪分子可以利用這項技術(shù)的哪些功能
這項技術(shù)如何運作
如果你是紅隊(攻擊方),如何運用該技術(shù)
作為用戶如何保護自身安全
作為藍隊(防守方)如何保護自身和企業(yè)安全
進入正題前,讓我們先來了解一下什么是“密碼猜測”?這是一個相當模糊的術(shù)語,在本文語境中,它表示破解密碼散列。那么問題又來了,什么是“密碼散列”(password hashes)呢?
什么是密碼散列?
當發(fā)生諸如Dropbox、LinkedIn以及Ashley Madison等大型數(shù)據(jù)泄露時,其發(fā)布的就是(通常情況下)電子郵件和密碼散列列表。所謂Hash——一般翻譯為“散列”,也可直接音譯為“哈?!薄褪前讶我忾L度的輸入(叫做預映射, pre-image),通過散列算法,變換成固定長度的輸出,該輸出就是散列值。這種轉(zhuǎn)換是一種壓縮映射,也就是,散列值的空間通常遠小于輸入的空間,不同的輸入可能會散列成相同的輸出,所以不可能從散列值來唯一的確定輸入值。
例如,假設我將明文密碼“12345”使用MD5算法處理成一個類似“5f4dcc3b5aa765d61d8327deb882cf99”的字符串,這就稱之為“哈希值”。其具有不可逆的特點,也就是說,不能從這個哈希值反推出明文密碼(也就是之前的123456)。
這一點在安全方面十分有用,因為這就意味著,像Adobe、LinkedIn或Google這樣的網(wǎng)站可以擁有數(shù)億個用戶帳戶,但不會存儲任何人的實際密碼。即使如此,他們?nèi)匀挥心芰υ诓恢烂艽a的情況下,檢查用戶是否知曉密碼。這一過程僅僅是通過存儲的密碼“哈希值”而不是密碼本身來實現(xiàn)的。當用戶想要登錄這些網(wǎng)站時,他們會發(fā)送自己的密碼,系統(tǒng)隨后會對這些密碼進行hash處理,并檢查得到的哈希值是否與數(shù)據(jù)庫中和該電子郵件地址相關(guān)聯(lián)的哈希值相匹配。
如此一來,就可以有效地放緩攻擊者破解密碼的速度,但是并不能完全阻止他們。通過利用現(xiàn)代工具,攻擊者每秒可以猜測出數(shù)十萬至數(shù)億個密碼,具體取決于攻擊者試圖破解的哈希算法類型。這就使得攻擊者具有更多的時間和精力來檢查潛在的密碼,而不是耗費過多時間來猜測密碼。
PassGAN加入對抗戰(zhàn)斗
攻擊者和安全專家正在進行一場永無休止的競賽,力圖找到更好、更快的方式來破解密碼列表。目前,PassGAN技術(shù)就是實現(xiàn)這一過程最有力的“武器”。
PassGAN使用了一種稱為“生成對抗網(wǎng)絡”(Generative Adversarial Network,簡稱GAN)的相對較新的技術(shù),其生成的正確密碼猜測能夠比傳統(tǒng)方法多出18%-24%。所謂“生成對抗網(wǎng)絡”是一類神經(jīng)網(wǎng)絡,通過輪流訓練判別器(Discriminator)和生成器(Generator),令其相互對抗,來從復雜概率分布中采樣,例如生成圖片、文字、語音等。
先來說說第一個程序——“判別器”(Discriminator),它是一個深度卷積神經(jīng)網(wǎng)絡,簡言之就是一個可以在越來越抽象的層次上學習模式的系統(tǒng),其作用是用于判別“生成器”所生成的數(shù)據(jù)是否接近于真實。它最終會返回一個介于0和1之間的數(shù)字,其中0表示不是密碼,1表示與密碼非常相似。
下一個程序是“生成器”,主要用于生成可以迷惑“判別器”的數(shù)據(jù)。它以隨機的文本串開始,通過“判別器”測試得到相應的分數(shù)。這第一次得到的分數(shù)一般會非常低,因為它只是一串隨機字符。
接下來,“生成器”就會對該字符串進行修改,然后再去“判別器”處查看修改后的字符串得到的分數(shù)。如果分數(shù)升高,則保持該修改結(jié)果;如果不是,則撤銷該修改并繼續(xù)進行新的修改操作;不斷重復該過程,使得分達到給定的數(shù)值,以便提升自身計算能力。
簡單來說,“GAN”的基本思想是,生成器和判別器玩一場“道高一尺,魔高一丈”的游戲:判別器要練就“火眼金睛”,盡量區(qū)分出真實的樣本(如真實的圖片)和由生成器生成的假樣本;生成器要學著“以假亂真”,生成出使判別器判別為真實的“假樣本”。競爭的理想狀態(tài)是雙方都不斷進步——判別器的眼睛越發(fā)“雪亮”,生成器的欺騙能力也不斷提高。
善意和惡意行為者如何使用PassGan
正如其他任何安全創(chuàng)新技術(shù)一樣,PassGan也可能會被惡意行為者濫用于攻擊存在密碼重用現(xiàn)象的系統(tǒng),危害企業(yè)和系統(tǒng)安全。當然,密碼重用(Password reuse)對于普通用戶也會造成異常嚴重的危害。因此,為了保護自身免受安全威脅,用戶不能僅寄希望于密碼這一層防護上,還需要啟用多因子身份認證(MFA)。許多網(wǎng)站都已經(jīng)提供了此項功能,希望大家能夠及時啟用。
當然,對于旨在加強組織安全性的“紅色團隊”而言,PassGAN也可以很好地幫助他們破解本地密碼,例如Windows SAM哈?;?a target="_blank">linux / etc / shadow密碼哈希等。
如果你是“紅隊”成員,并且對PassGAN工具感興趣,你可以前往https://github.com/brannondorsey/PassGAN尋找有關(guān)Brannon Dorsey發(fā)布的PassGAN開源實現(xiàn)資源。
在PassGAN實驗中,研究人員探索了不同的神經(jīng)網(wǎng)絡配置、參數(shù)和訓練流程,以確定學習和過度擬合之間的適當平衡。具體來說,研究者的主要貢獻如下:
1. 顯示GAN可以生成高質(zhì)量的密碼猜測。在實驗中,對于RockYou數(shù)據(jù)集來說,研究者能夠匹配真實用戶密碼組成的測試集5,919,936個密碼中的2,774,269(46.86%),而匹配LinkedIn數(shù)據(jù)集43,454,871個密碼中的4,996,980個(11.53%)。
2. 研究顯示,該技術(shù)可以與之前最先進的密碼生成規(guī)則一較高下。盡管這些規(guī)則是針對評估中使用的數(shù)據(jù)集進行了專門調(diào)整的,但是PassGAN的輸出質(zhì)量與密碼生成規(guī)則相當(在HashCat中),或者比密碼生成規(guī)則更好(在John Ripper中)。
3. PassGAN可以用來補充密碼生成規(guī)則。在實驗中,研究人員成功地使用PassGAN生成了任何密碼規(guī)則都未能生成的密碼匹配。
4. 研究人員還指出,表現(xiàn)最好的密碼破解結(jié)果來自于PassGAN和HashCat的組合。通過將PassGAN和HashCat的輸出結(jié)合起來之后,發(fā)現(xiàn)比 HashCat自己匹配的密碼多出18%-24%。
5. 與密碼生成規(guī)則相反,PassGAN可以生成幾乎無限數(shù)量的密碼猜測。實驗表明,新的(唯一的)密碼猜測數(shù)量會隨著GAN產(chǎn)生的密碼總數(shù)穩(wěn)步增加。這一點很重要,因為目前使用規(guī)則生成的唯一密碼的數(shù)量,最終會受到密碼數(shù)據(jù)集(用于實例化這些規(guī)則)大小的限制。
6. 通過標準的、基于變異的密碼規(guī)則集運行PassGAN的輸出,以獲得更大的覆蓋范圍也可能是有用的。
企業(yè)密碼最佳實踐
如果您負責管理企業(yè),那么建議您執(zhí)行強密碼策略,用passphrase代替passwords。根據(jù)維基百科指出,兩者的區(qū)別在于Passphrase比普通的passwords更長。
近年來,很多專家開始傾向于認為,使用足夠長的Passphrase,可以擺脫以前密碼要求大小寫字母、數(shù)字、特殊符號等導致密碼難以記憶的情況。比如,使用“恰似一江春水向東流”首字母組成的密碼不僅十分好記,而且會比Password這種滿足各種要求,卻沒有卵用的密碼更好。
下面就以“*dJoeo30(#JS)3%$”密碼為例進行分析。
從熵的角度來看,這是一個非常好的密碼。因為它包含一切,具備16個字符,有大寫字母、小寫字母、符號和數(shù)字。以每個字符都存在95種可能性來計算,那么這組密碼的就有95^16(即95的16次方)種可能,即便是每秒可以猜測1萬億次,可能也需要一萬億年的時間才能猜到。
就密碼強度而言,它確實是個好密碼,但是可惜沒人能記住它。因為我們的大腦很難記住對我們沒有任何意義的隨機字符串。這也正是PassGAN能夠輕易破解如此多密碼的原因所在,因為人類可以很容易記住的密碼(如P@a$$word),一定也很容易猜測得出。
這就是我們主張使用passphrase的原因所在。我們可以使用具有很多熵的東西,但這樣產(chǎn)生的密碼并不是任意或隨機字符,而是有跡可循且便于記憶的內(nèi)容。例如“這張專輯很好、天氣很冷”等很容易記住的東西。如果,我們假設攻擊者知道用戶正在使用一個英文單詞的密碼組合,那么以人均20000個詞匯量來計算,我們就有20000^8(20000的8次方)種可能的組合,想要成功破解也非易事。
接下來,您就需要考慮用戶如何在企業(yè)中擁有給定的密碼。您是否應該期待前臺人員了解如何創(chuàng)建安全密碼?您是否應該期待企業(yè)中的每個人都配置強大的密碼?你給定用戶的密碼是否便于他們記憶,或者他們會不會寫在便簽紙上?這些問題都是值得關(guān)注和思考的!
評論
查看更多