在一項新的研究中,計算機科學(xué)家發(fā)現(xiàn),人工智能無法通過兒童可輕松完成的“視力檢測”。
“這是一項聰明且重要的研究,它提醒我們所謂的‘深度學(xué)習(xí)’并非想象中的那么‘深’”,紐約大學(xué)神經(jīng)科學(xué)家 Gary Marcus 表示。
在計算機視覺領(lǐng)域,人工智能系統(tǒng)會嘗試識別和分類對象。他們可能會試圖在街景中找到所有行人,或者只是將鳥與自行車區(qū)分開。要知道,這也是一項非常艱巨的任務(wù),其背后的風(fēng)險系數(shù)很高。隨著計算機開始接管自動監(jiān)控和自動駕駛等關(guān)鍵業(yè)務(wù),我們會愈加希望它們的視覺處理能力與人眼一樣好。
但這并不容易。這項研究任務(wù)突出了人類視覺的復(fù)雜性,以及構(gòu)建模仿系統(tǒng)的挑戰(zhàn)。期間,研究人員向計算機視覺系統(tǒng)展示了一幅客廳的場景,系統(tǒng)正確地識別了椅子、人和書架上的書。然后,研究人員在場景中引入了一個異常物體:一張大象的圖像。接著,“恐怖”事件開始上演。
大象的存在導(dǎo)致系統(tǒng)忘記了自己。突然間,這個 AI 系統(tǒng)開始將椅子稱為沙發(fā),大象稱為椅子,并完全忽略了它之前看到的其他物體。
“各種奇怪事件的發(fā)生,表明當(dāng)前物體檢測系統(tǒng)時多么得脆弱,”多倫多約克大學(xué)的研究員 Amir Rosenfeld 表示,他和他的同事 John Tsotsos 和 Richard Zemel 共同撰寫了這項研究。
研究人員仍然想弄清楚為什么計算機視覺系統(tǒng)會如此脆弱。他們猜測 AI 缺乏人類那種從容處理海量信息的能力:當(dāng)對某一場景產(chǎn)生困惑時,會再回過頭重看一遍。
▌難以直面的“房中大象”
人類,只要睜大眼睛,大腦就會快速的收集、加工這些視覺信息。
相比之下,人工智能會非常費力地制造視覺印象,就好像它是用盲文閱讀描述一樣。不同的算法,人工智能產(chǎn)生了不同的表達(dá)效果。在此過程中,特定類型的 AI 系統(tǒng)被稱為神經(jīng)網(wǎng)絡(luò)。它通過一系列“層”來傳遞圖像。在每一層,圖像細(xì)節(jié)如像素的顏色和亮度,被替換成了越來越抽象的描述。結(jié)束時,神經(jīng)網(wǎng)絡(luò)會對其正在觀察的內(nèi)容產(chǎn)生最佳猜測。
“通過獲取前一層的輸出,處理并將其傳遞到下一層,就像管道一樣,都從一層移動到另一層,”Tsotsos 說。
在這個過程中,神經(jīng)網(wǎng)絡(luò)擅長特定視覺事物的判斷,如將物體進(jìn)行類別分配。這些成果激起了人們的期望,甚至期待它們可以很快應(yīng)用在城市車輛的駕駛系統(tǒng)中。
這項新研究具有相同的精神。三位研究人員為神經(jīng)網(wǎng)絡(luò)提供了一個客廳場景:一個坐在破舊椅子邊緣的男子在玩視頻游戲時向前傾斜??催^這個場景之后,神經(jīng)網(wǎng)絡(luò)正確檢測到了許多具有高可信度的物體:人、沙發(fā)、電視、椅子、書籍。如下(a)圖。
在(a)圖中,神經(jīng)網(wǎng)絡(luò)以高概率正確識別出了雜亂的起居室場景中的許多項目。(f)圖中添加了一只大象的側(cè)身像,系統(tǒng)便出現(xiàn)了問題。左下角的椅子變成了沙發(fā),附近的杯子消失,大象被誤以為是椅子。在其他情況下,系統(tǒng)忽略了在此前試驗中正確檢測到的物體。甚至將大象從圖片中移除后,也會發(fā)生這些錯誤。
“如果房間里真的有一頭大象,那么你可能會注意到它。”“該系統(tǒng)甚至沒有檢測到它的存在。” Rosenfeld 說道。
論文中研究人員總結(jié)道:
識別是不穩(wěn)定的:物體可能偶爾無法被檢測到,或者在環(huán)境不經(jīng)意間快速改變后才能檢測到。
被識別目標(biāo)的標(biāo)記并非一致:根據(jù)不同的位置,目標(biāo)可能會被識別為不同的類別。
被識別目標(biāo)引起了非局部影響:與該目標(biāo)不重疊的對象可切換標(biāo)記、邊框,甚至完全消失。
這些結(jié)果是圖像識別中的常見問題。通過用包含訓(xùn)練對象的圖像替換另一個圖像的子區(qū)域而獲得,這稱之為“目標(biāo)移植”。以這種方式修改圖像對識別具有非局部影響。細(xì)微的變化會影響目標(biāo)檢測工具的識別效果。
▌為什么就不能“反思”?
當(dāng)人類看到意想不到的的東西時,會反復(fù)思考。這是一個具有真實認(rèn)知意義的常見現(xiàn)象,而這恰恰解釋了為什么當(dāng)場景變得怪異時,神經(jīng)網(wǎng)絡(luò)就會崩潰。
如今用于物體檢測的最佳神經(jīng)網(wǎng)絡(luò)主要以“前饋”的方式工作。這意味著信息穿過神經(jīng)網(wǎng)絡(luò)時只有一個方向。它們從細(xì)粒度像素的輸入開始,然后移動到曲線、形狀和場景,神經(jīng)網(wǎng)絡(luò)對每一步看到的物體做出最優(yōu)預(yù)測。因此,當(dāng)神經(jīng)網(wǎng)絡(luò)匯集它認(rèn)為知道的所有內(nèi)容并進(jìn)行猜測時,早期錯誤的觀察會最終影響整個預(yù)測的效果。
設(shè)想一下,如果是讓人類看到一幅包含了圓形和正方形的圖像,其中一個圖形為藍(lán)色,另一個為紅色??赡芤谎鄄⒉荒茏阋钥辞宥叩念伾5P(guān)鍵的是,當(dāng)人類第二次看時,就會將注意力集中在方塊的顏色上。
“關(guān)于人類的視覺系統(tǒng),‘我還沒有正確的答案,所以我必須返回去看看在哪里犯了錯誤’,” Tsotsos 解釋道。他通過一個叫做Selective Tuning 的理論(http://www.cse.yorku.ca/~tsotsos/Selective_Tuning/Selective_Tuning.html)來解釋這個視覺認(rèn)知特征的問題。
大多數(shù)神經(jīng)網(wǎng)絡(luò)缺乏這種反向能力。對于工程師們?nèi)绾螛?gòu)建這種特質(zhì)亦是困難。前饋神經(jīng)網(wǎng)絡(luò)的優(yōu)勢在于——通過相對簡單的訓(xùn)練即可進(jìn)行預(yù)測。
但如果神經(jīng)網(wǎng)絡(luò)要獲得這種反復(fù)思考的能力。他們需要熟練掌握合適利用這種新能力,以及何時以前饋方式向前推進(jìn)的能力。人腦可在這些不同的過程之間無縫切換,而神經(jīng)網(wǎng)絡(luò)需要一個新的理論框架才能做同樣的事情。
一篇評論引發(fā)的討論
其實,該項研究論文早于上月就已公開發(fā)表,但讓大家得到關(guān)注的卻是因為《量子雜志》專欄作者 Kevin Hartnett 的一篇評論 “ Machine Learning Confronts the Elephant in the Room” 所傳遞出的強烈觀點。
對此,許多讀者表達(dá)了自己的看法。
機器學(xué)習(xí)將會遭遇成長的痛苦……
這篇文章很有趣,但它沒有說清楚該系統(tǒng)是否具有大象的概念(另外我認(rèn)為嚴(yán)重裁剪像素化的大象不應(yīng)算數(shù)。)
考慮到透視和照明,將豆袋稱為沙發(fā),然后是椅子,這就足夠了。
所有與 AI 相關(guān)的“問題”似乎與它們的實際編碼有關(guān)系。當(dāng) AI 有80%的的確定性時,人們傾向于認(rèn)為這很好,而人類很少能達(dá)到這樣的準(zhǔn)確性:要么是 100% 確定(但有可能是錯的),要么是 50% 的準(zhǔn)確性甚至完全不清楚。
這就是人類會做的事情,記住物體X和Y的特征,雖然很難在特定的圖像中分辨出來,但還是盡可能通過更清晰的圖片核實真?zhèn)巍?/p>
你可以進(jìn)行簡單的思考實驗,看看人腦在分析圖像時做了什么。首先,當(dāng)我看一個場景時,我一定是對幾何有所了解的。無論意義、文字、符號如何,我都可以追溯到事物的三維形狀,這些是與文字無關(guān)的。
其次,我可以通過看到大象的外觀模型,與“大象”這個詞聯(lián)系起來。我不需要顏色或細(xì)節(jié)就知道它是大象。事實上,僅憑顏色和細(xì)節(jié),我還是很難識別出大象。
(假設(shè)我們基于大象的真實圖片訓(xùn)練了一款神經(jīng)網(wǎng)絡(luò))如果你將大象的白色雕塑(圖片)拿給神經(jīng)網(wǎng)絡(luò)識別,那么它很可能不會輸出“大象”這個詞。但如果你給出一個大象的真實圖片進(jìn)行識別,那它可以正確識別大象。
由于大象的白色雕塑與實際圖片之間的差異只是顏色等細(xì)節(jié),這表明當(dāng)訓(xùn)練深度學(xué)習(xí)網(wǎng)絡(luò)識別大象時,訓(xùn)練的是細(xì)節(jié)(包括顏色、像素、甚至斑點),而不是三維模型……這種方式正好與人類認(rèn)知相反。這是一種過度擬合的形式,單純訓(xùn)練不足以幫助學(xué)習(xí)網(wǎng)絡(luò)捕捉幾何規(guī)律。我敢打賭,如果你用大象的特寫照片用來訓(xùn)練網(wǎng)絡(luò),那么它在識別方面將做得更好。
我猜測:我們的思維具有特定的和遺傳決定的內(nèi)置幾何識別算法,可以將 2D 圖像轉(zhuǎn)換為 3D 形狀。雖然多數(shù)情況下我們專注于研究的機器學(xué)習(xí)是圖像識別,但我相信大腦實際上是學(xué)習(xí)形狀和幾何識別的。
▌寫在最后
本文開頭我們引述了紐約大學(xué)神經(jīng)科學(xué)家 Gary Marcus 的評價:“深度學(xué)習(xí)”并非我們想象中的那么“深”。想起此前海內(nèi)外在內(nèi)的不少學(xué)者專家也都曾表示,深度學(xué)習(xí)雖然引起了人工智能的新一股熱潮,但深度學(xué)習(xí)并非萬能,在它之外仍有很多的研究內(nèi)容值得關(guān)注。
-
人工智能
+關(guān)注
關(guān)注
1793文章
47535瀏覽量
239330 -
計算機視覺
+關(guān)注
關(guān)注
8文章
1699瀏覽量
46056 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5511瀏覽量
121356
原文標(biāo)題:錯看一頭大象后,這個AI“瘋了”!
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論