在網(wǎng)上如何區(qū)別機器人和真人?目前基本還是要靠驗證碼, 目前已經(jīng)用了近20年,但這招以后可能不管用了!中英兩國研究人員聯(lián)合開發(fā)了一套基于GAN的驗證碼AI識別系統(tǒng),能在0.5秒之內(nèi)識別出驗證碼,從 實際測試結(jié)果看,可以說宣布了對驗證碼的“死刑判決”。
在互聯(lián)網(wǎng)上進行交流時,你如何證明自己是活生生的真人?
這是一個比較棘手的問題,多年來,這個問題的解決方案一直就是“驗證碼”,就是看看你能夠能成功識別一系列機器無法識別的扭曲字符。這類安全驗證工具被稱為“CAPTCHA”(即“全自動區(qū)分機器和人類公共圖靈測試”)。
驗證碼被廣泛用于垃圾郵件過濾、在社交網(wǎng)絡上,識別并防止機器人賬號發(fā)布冒充真人的內(nèi)容(這些內(nèi)容很可能包含垃圾或欺詐信息)。在過去的20多年里,雖然有過波折,但總體上看,用驗證碼解決這類問題是管用的。
但現(xiàn)在,情況可能發(fā)生了變化。
近日,英國蘭卡斯特大學、中國西北大學、北京大學的計算機科學家們共同開發(fā)了一種AI系統(tǒng),能夠在短短0.5秒內(nèi)識別出多種驗證碼。該系統(tǒng)已在不同的33個驗證碼系統(tǒng)中進行了成功測試,其中11個來自世界上最受歡迎的一些網(wǎng)站,包括eBay和維基百科等。
該研究的發(fā)起人之一、蘭卡斯特大學計算與通信學院副教授Zheng Wang表示:這項研究可能會對文本式驗證碼文本做出“死刑判決”。
這項研究基于深度神經(jīng)網(wǎng)絡的圖像分類器。深度神經(jīng)網(wǎng)絡在圖像識別方面表現(xiàn)出驚人的性能。但是,要構(gòu)建成功的模型,通常需要數(shù)百萬個手動標記的圖像才能實現(xiàn)順利學習。這項最新成果的新穎之處在于,它使用生成對抗網(wǎng)絡(GAN)來創(chuàng)建訓練數(shù)據(jù)。
圖中數(shù)據(jù)為該系統(tǒng)與現(xiàn)行識別器對各網(wǎng)站驗證碼識別準確率的對比,可以看到,大部分測試中的成功識別率都得到了大幅度提升
這套系統(tǒng)不需要收集和標記數(shù)以百萬計的驗證碼文本數(shù)據(jù),只需要500組數(shù)據(jù)就可以成功學習。而且可以使用這些數(shù)據(jù),來生成數(shù)百萬甚至數(shù)十億的合成訓練數(shù)據(jù),建立高性能的圖像分類器。結(jié)果顯示,該系統(tǒng)比迄今為止所見的任何驗證碼識別器系統(tǒng)的識別精度都高。
這種方法對于需要大量訓練數(shù)據(jù)的任何圖像識別任務都是有用的。然而,驗證碼識別在某種程度上是獨一無二的,因為這類任務本身處在不斷發(fā)展和變化的狀態(tài)中。
與真人識別結(jié)果的準確率對比情況以及可用性評分??梢钥吹剑谝豁椀哪P捅憩F(xiàn)達到100%識別,超過了真人
早期基于文本的驗證碼(如本文縮略圖所示)是該技術(shù)的第一次迭代。但是,到目前為止,我們可能更習慣于使用范圍更廣的、基于交通標志的驗證碼。
這種不斷變化的狀態(tài),讓面向驗證碼識別的訓練數(shù)據(jù)的收集成為一個棘手的任務。(相比之下,學習識別一只狗就不存在這個問題,因為狗的一生中其外觀形態(tài)不會發(fā)生大的變化),
研究人員表示:“也就是說,當我們最終收集到足夠的訓練數(shù)據(jù)時,驗證碼的形式可能快要(或已經(jīng))發(fā)生變化了,這些變化可能會讓之前收集的數(shù)據(jù)完全無用。
我們的研究成果提供了一種以更低的成本構(gòu)建驗證碼識別器的新方法。因此,它對現(xiàn)有的驗證碼體系構(gòu)成了真正的威脅,因為它可以以更快的速度地學習驗證碼的解算器。“
-
GaN
+關(guān)注
關(guān)注
19文章
1944瀏覽量
73623 -
識別系統(tǒng)
+關(guān)注
關(guān)注
1文章
138瀏覽量
18817 -
圖像分類
+關(guān)注
關(guān)注
0文章
90瀏覽量
11936
原文標題:基于GAN的驗證碼識別工具,0.5秒宣告驗證碼死刑!
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論