互聯(lián)網(wǎng)目前已經(jīng)滲透到我們生活的方方面面,但它依然只是現(xiàn)實的物理世界在虛擬的網(wǎng)絡(luò)空間上按比特信息編碼后的投射。
所以只要定制相應(yīng)的自動化程序便可以模仿人的行為,同時,因為機(jī)器速度更快且不知疲倦,它會被用于批量在論壇、網(wǎng)站、app 中發(fā)布營銷信息。而且,在監(jiān)管不足的情況下,利潤更高的行業(yè)往往底線更低,自動機(jī)器人發(fā)布的垃圾信息經(jīng)常也和賭博、詐騙、色情等灰色產(chǎn)業(yè)有關(guān)。一些自動化程序還會嘗試以“撞庫”的方式竊取用戶帳號、密碼,給網(wǎng)站帶來巨大的安全隱患。
于是,驗證碼應(yīng)運而生。作為同樣的自動化程序,二維碼存在目的是區(qū)分用戶到底是機(jī)器人還是真實的人。
最常見的驗證碼便是自動生成的扭曲的文字和圖案,雖然它可以有效地識別出很大一部分自動化程序,但它對真人用戶的體驗并不好。而且隨著機(jī)器學(xué)習(xí)的發(fā)展,要破解它也越來越容易。
▲驗證碼風(fēng)格的設(shè)計圖案
Google的驗證碼團(tuán)隊有著各種創(chuàng)新試驗,比如創(chuàng)造性地把驗證碼用于紙質(zhì)典籍?dāng)?shù)字化。另外除了扭曲文字、圖片的主流路線之后,Google的團(tuán)隊還嘗試了新的思路,利用追蹤用戶的點擊行為等來識別是否真人操作。用戶只需要點擊“我不是機(jī)器人”的復(fù)選框便可驗證。
在最新版本的Google驗證碼reCAPTCHA v3中,你甚至什么都不用做,系統(tǒng)就在悄悄核驗當(dāng)前的用戶是不是機(jī)器人。技術(shù)正在讓“驗證碼”越來越隱形,人類不必再為了自證身份去做“反向圖靈測試”,然而這種進(jìn)步也帶來了不少新的問題。
初代驗證碼CAPTCHA:歪歪扭扭的文字
2000年,從杜克大學(xué)數(shù)學(xué)系畢業(yè),來到卡內(nèi)基梅隆大學(xué)讀計算機(jī)科學(xué)博士的路易斯·馮·安(Luis von Ahn)和導(dǎo)師一起提出了驗證碼的概念,全稱是全自動區(qū)分計算機(jī)和人類的公開圖靈測試(英語:Completely Automated Public Turing test to tell Computers and Humans Apart,簡稱 CAPTCHA)。
圖靈測試由計算機(jī)先驅(qū)人物,“人工智能之父”阿蘭·圖靈提出,以一臺計算機(jī)能和人類對話而不被識別出是機(jī)器人為通過圖靈測試基準(zhǔn)。驗證碼也是圖靈測試的一種,但它的目的不是為了創(chuàng)造AI,而只是為了識別真實的人類用戶。
一種最常見的驗證碼是由算法生成的扭曲的文字,這么做是為了防止被光學(xué)字符識別程序(OCR)自動識別出來。
有一些方法是在字母上加一條曲線或?qū)⒉煌淖帜腐B在一起,也有添加復(fù)雜背景的方式。
也有圖片驗證碼,要求用戶識別圖片的物體,以及把缺失的部分拖到正確的位置和拼圖等。
但不管形式如何,這些驗證碼有一個共同的原則:就是要讓人類很容易識別,卻對計算機(jī)來說非常困難。一些研究者認(rèn)為,為避免 CAPTCHA過難而使網(wǎng)站損失用戶,通常要求人類用戶通過測試的時間小于30秒,用戶通過率大于90%。
還有一個不被普通人知道的點,驗證碼被稱為一種“圖靈測試”,所以它在設(shè)計之初就有促進(jìn)人工智能發(fā)展的初衷。
根據(jù)定義,驗證碼的算法必須公開,這樣做的目的是為了讓破解驗證碼的過程是在解決對應(yīng)的人工智能問題,例如圖像識別、準(zhǔn)確度更高的OCR等,破解者不必花費心思通過逆向工程推演算法。
利用驗證碼將紙質(zhì)典籍?dāng)?shù)字化
目前驗證碼已經(jīng)被廣泛用于各大網(wǎng)站、app中,有數(shù)據(jù)顯示,這項技術(shù)在推出后的短短五年內(nèi),每天就有2億個驗證碼在被使用。
很快,驗證碼發(fā)明者提出一個新的項目reCAPTCHA,主要用于把互聯(lián)網(wǎng)出現(xiàn)前的紙質(zhì)典籍?dāng)?shù)字化。思路是這樣的:驗證碼系統(tǒng)會向用戶出示兩個單詞,第一個是正常的自動生成扭曲文字,另外一個則來自紙質(zhì)典籍的掃描版,來自掃描版的文字通常因為年代久遠(yuǎn)、或是紙上有污點等原因而難以被OCR程序識別。
因此,當(dāng)用戶輸入驗證碼時,只要第一個單詞輸入正確就可以被判別為人類,輸入的第二個單詞只是“義務(wù)勞動”。這是因為系統(tǒng)會默認(rèn)第二個單詞輸入是正確的,輸入結(jié)果只是會與其他用戶的輸入結(jié)果進(jìn)行對比,如果多名用戶的答案一致,這個詞的數(shù)字化就完成了。
也許你會認(rèn)為這樣一個一個詞的識別與龐大的待數(shù)字化的典籍相比,根本起不了多大作用,然而在推出之初,reCAPTCHA便能錄入3000萬個字符。2011年,它已經(jīng)完成了全部的《紐約時報》數(shù)字化的工作,這份從1851年開始出版的老報紙有大量純紙質(zhì)版的內(nèi)容。
2009 年,Google看上了這個項目的價值,并出手收購了reCAPTCHA,同時也被Facebook、Twitter、CNBC等使用。在幫助這些流量最大的網(wǎng)站抵御自動化程序騷擾的同時,Google圖書中難以被自動識別的掃描版的古老典籍同樣借助reCAPTCHA得以數(shù)字化。
另外,reCAPTCHA還被用于幫助機(jī)器學(xué)習(xí)系統(tǒng)提高圖像識別率,運作原理和典籍?dāng)?shù)字化的方法是一樣,用機(jī)器難以辨別的門牌號、貓狗照片拿來當(dāng)做驗證碼供人類識別。
與此同時,用戶實際上還在幫機(jī)器學(xué)習(xí)系統(tǒng)標(biāo)注訓(xùn)練集,所以,強(qiáng)大的AlphaGo背后的人工智能技術(shù),可能早就有你的功勞。
NoCAPTCHA:不用輸入字符的驗證方式
Google在收購reCAPTCHA后,對它進(jìn)行了以Google的方式改進(jìn)。
在2014年,Google推出了新的驗證碼系統(tǒng)——NoCAPTCHA reCAPTCHA,雖然名字有點拗口,但依然是個驗證系統(tǒng),其核心是不需要輸入驗證碼,用戶只需要點擊一個“我不是機(jī)器人”的復(fù)選框,Google就能判別你是不是真正的人類。
reCAPTCHA的口號也從“別發(fā)垃圾信息了,讀點書吧”(Stop Spam. Read Books),變成了驗證碼最初的目的“對人類簡單,對機(jī)器人困難”(Easy on Humans, Hard on Bots)。
NoCAPTCHA跟蹤用戶點擊驗證框之前、當(dāng)時和之后的行為,比如在網(wǎng)頁上花費的時間,從而來判斷是否是人為操作。
假如你被誤判為機(jī)器人,還有一個“申訴”的機(jī)會,和圖片驗證一樣,從一堆圖片中選出正確的目標(biāo)。
使用reCAPTCHA v3的網(wǎng)站會在網(wǎng)站的每個頁面放入reCAPTCHA v3代碼,而不只是在登錄頁面。reCAPTCHA系統(tǒng)會跟蹤用戶的所有瀏覽行為進(jìn)行分析。
就這樣,Google 可以獲得幾乎用戶的所有行為。Google也確認(rèn),用戶使用的硬件信息即設(shè)備上的軟件會被發(fā)送回 Google服務(wù)器,但它表示,獲得的結(jié)果“只用于分析用戶行為,不用于個性化廣告推薦”。不過,隱私都被掌握了的事實就擺在這里,你想更快捷被驗證還是以隱私換取快捷呢?
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28627瀏覽量
207945 -
互聯(lián)網(wǎng)
+關(guān)注
關(guān)注
54文章
11184瀏覽量
103645
原文標(biāo)題:驗證方式的進(jìn)化,除了要當(dāng)上義務(wù)標(biāo)注員,還要付出什么代價呢?
文章出處:【微信號:luomajqrxt,微信公眾號:機(jī)器人學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論