0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI圖像識(shí)別本質(zhì):人類(lèi)看的是形狀,算法看的是紋理

新機(jī)器視覺(jué) ? 來(lái)源:斜杠人脈管理 ? 2023-06-11 10:11 ? 次閱讀

圖片中的動(dòng)物輪廓是貓,但是貓披著大象皮膚紋理,將圖片交給人識(shí)別,人會(huì)說(shuō)是貓,如果給計(jì)算機(jī)視覺(jué)算法處理,它會(huì)說(shuō)是大象。德國(guó)研究人員認(rèn)為:人看的是形狀,計(jì)算機(jī)看的是紋理。這一發(fā)現(xiàn)相當(dāng)有趣,但它證明計(jì)算機(jī)算法離人類(lèi)視覺(jué)還有很遠(yuǎn)距離。

e7240cd4-07ee-11ee-962d-dac502259ad0.jpg

當(dāng)你看著一張貓的照片,輕松就能知道貓有沒(méi)有條紋,不管照片是黑白照,有斑點(diǎn),還是磨損或者褪色了,都能輕松識(shí)別。不論寵物蜷縮在枕頭背后;或者跳到工作臺(tái)上,拍照時(shí)留下一片朦朧,你都能輕松識(shí)別。如果用機(jī)器視覺(jué)系統(tǒng)(用深度神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng))識(shí)別,準(zhǔn)確率甚至比人還要高,但是當(dāng)圖片稍微新奇一點(diǎn),或者有噪點(diǎn)、條紋,機(jī)器視覺(jué)系統(tǒng)就會(huì)犯傻了。

為什么會(huì)這樣呢?德國(guó)研究團(tuán)隊(duì)給出一個(gè)原因,這個(gè)原因出乎意料:人類(lèi)會(huì)關(guān)注圖中對(duì)象的形狀,深度學(xué)習(xí)計(jì)算機(jī)系統(tǒng)所用的算法不一樣,它會(huì)研究對(duì)象的紋理。

德國(guó)的發(fā)現(xiàn)告訴我們?nèi)祟?lèi)與機(jī)器“思考”問(wèn)題時(shí)有著明顯區(qū)別,也許還能揭示人類(lèi)視覺(jué)進(jìn)化的秘密。

有大象皮膚的貓和時(shí)鐘做的飛機(jī)

深度學(xué)習(xí)算法是怎樣“工作”的呢?首先人類(lèi)向算法展示大量圖片,有的圖片有貓,有的沒(méi)有。算法從圖片中找到“特定模式”,然后用模式來(lái)做出判斷,看看面對(duì)之前從未見(jiàn)過(guò)的圖片應(yīng)該貼怎樣的標(biāo)簽。

神經(jīng)網(wǎng)絡(luò)架構(gòu)是根據(jù)人類(lèi)視覺(jué)系統(tǒng)開(kāi)發(fā)的,網(wǎng)絡(luò)各層連接在一起,從圖片中提取抽象特點(diǎn)。神經(jīng)網(wǎng)絡(luò)系統(tǒng)通過(guò)一系列聯(lián)系得出正確答案,不過(guò)整個(gè)處理過(guò)程十分神秘,人類(lèi)往往只能在事實(shí)形成之后再解釋這個(gè)神秘的過(guò)程。

美國(guó)俄勒岡州立大學(xué)計(jì)算機(jī)科學(xué)家Thomas Dietterich說(shuō):“我們正在努力,想搞清到底是什么讓深度學(xué)習(xí)計(jì)算機(jī)視覺(jué)算法走向成功,又是什么讓它變得脆弱?!?/p>

怎樣做?研究人員修改圖片,欺騙神經(jīng)網(wǎng)絡(luò),看看會(huì)發(fā)生什么事。研究人員發(fā)現(xiàn),即使只是小小的修改,系統(tǒng)也會(huì)給出完全錯(cuò)誤的答案,當(dāng)修改幅度很大時(shí),系統(tǒng)甚至無(wú)法給圖片貼標(biāo)簽。還有一些研究人員追溯網(wǎng)絡(luò),查看單個(gè)神經(jīng)元會(huì)對(duì)圖像做出怎樣的反應(yīng),理解系統(tǒng)學(xué)到了什么。

德國(guó)圖賓根大學(xué)(University of Tübingen)科學(xué)家Geirhos領(lǐng)導(dǎo)的團(tuán)隊(duì)采用獨(dú)特方法進(jìn)行研究。去年,團(tuán)隊(duì)發(fā)表報(bào)告稱(chēng),他們用特殊噪點(diǎn)干擾圖像,給圖像降級(jí),然后用圖像訓(xùn)練神經(jīng)網(wǎng)絡(luò),研究發(fā)現(xiàn),如果將新圖像交給系統(tǒng)處理,這些圖像被人扭曲過(guò)(相同的扭曲),在識(shí)別扭曲圖像時(shí),系統(tǒng)的表現(xiàn)比人好。不過(guò)如果圖像扭曲的方式稍有不同,神經(jīng)網(wǎng)絡(luò)就無(wú)能為力了,即使在人眼看來(lái)圖像的扭曲方式并無(wú)不同,算法也會(huì)犯錯(cuò)。

對(duì)于這樣的結(jié)果如何解釋?zhuān)垦芯咳藛T深入思考:到底是什么發(fā)生了變化,即使只是加入很少的噪點(diǎn),也會(huì)發(fā)生如此大的變化?答案是紋理。當(dāng)你在很長(zhǎng)的時(shí)間段內(nèi)添加許多噪點(diǎn),圖中對(duì)象的形狀基本不會(huì)受到影響;不過(guò)即使只是添加少量噪點(diǎn),局部位置的架構(gòu)也會(huì)快速扭曲。研究人員想出一個(gè)妙招,對(duì)人類(lèi)、深度學(xué)習(xí)系統(tǒng)處理圖片的方式進(jìn)行測(cè)試。

研究人員故意制作存在矛盾的圖片,也就是說(shuō)將一種動(dòng)物的形狀與另一種動(dòng)物的紋理拼在一起,制作成圖片。例如,圖片中的動(dòng)物輪廓是貓,但是貓披著大象紋理;或者是一頭熊,但它們是由鋁罐組成的;又或者輪廓是飛機(jī),但飛機(jī)是由重疊的鐘面組成的。研究人員制作幾百?gòu)堖@樣的拼湊圖片,然后給它們標(biāo)上標(biāo)簽,比如貓、熊、飛機(jī)。用4種不同的分類(lèi)算法測(cè)試,最終它們給出的答案是大象、鋁罐、鐘,由此看出算法關(guān)注的是紋理。

Columbia大學(xué)計(jì)算機(jī)神經(jīng)科學(xué)家Nikolaus Kriegeskorte評(píng)論說(shuō):“這一發(fā)現(xiàn)改變了我們對(duì)深度前向神經(jīng)網(wǎng)絡(luò)視覺(jué)識(shí)別技術(shù)的認(rèn)知?!?/p>

乍一看,AI偏愛(ài)紋理而非形狀有點(diǎn)奇怪,但細(xì)細(xì)深思卻是有理的。Kriegeskorte說(shuō):“你可以將紋理視為精密的形狀?!睂?duì)于算法系統(tǒng)來(lái)說(shuō)精密的尺寸更容易把握:包含紋理信息的像素?cái)?shù)量遠(yuǎn)遠(yuǎn)超過(guò)包含對(duì)象邊界的像素?cái)?shù)量,網(wǎng)絡(luò)的第一步就是檢測(cè)局部特征,比如線(xiàn)條,邊緣。多倫多約克大學(xué)計(jì)算機(jī)視覺(jué)科學(xué)家John Tsotsos指出:“線(xiàn)段組按相同的方式排列,這就是紋理?!?/p>

Geirhos的研究證明,憑借局部特征,神經(jīng)網(wǎng)絡(luò)足以分辨圖像。

另有科學(xué)家開(kāi)發(fā)一套深度學(xué)習(xí)系統(tǒng),它的運(yùn)行很像深度學(xué)習(xí)出現(xiàn)之前的分類(lèi)算法——像一個(gè)特征包。

“ 算法將圖像分成為小塊,接下來(lái),它不會(huì)將信息逐步融合,變成抽象高級(jí)特征,而是給每一小塊下一個(gè)決定,比如這塊包含自行車(chē)、那塊包含鳥(niǎo)。再接下來(lái),算法將決定集合起來(lái),判斷圖中是什么,比如有更多小塊包含自行車(chē)線(xiàn)索,所以圖中對(duì)象是自行車(chē)。算法不會(huì)考慮小塊之間的空間關(guān)系。結(jié)果證明,在識(shí)別對(duì)象時(shí)系統(tǒng)的精準(zhǔn)度很高。 ”

研究人員Wieland Brendel說(shuō):“這一發(fā)現(xiàn)挑戰(zhàn)了我們之前的假定,我們之前認(rèn)為深度學(xué)習(xí)的行為方式與舊模型完全不同。很明顯,新模型有很大飛躍,但飛躍的幅度沒(méi)有大家預(yù)料的那么大?!?/p>

約克大學(xué)、多倫多大學(xué)博士后研究員Amir Rosenfeld認(rèn)為,網(wǎng)絡(luò)應(yīng)該做什么,它實(shí)際做了什么,二者之間仍有很大差異。

Brendel持有相似觀(guān)點(diǎn)。他說(shuō),我們很容易就會(huì)假定神經(jīng)網(wǎng)絡(luò)按人類(lèi)的方式完成任務(wù),忘了還有其它方式。

向人類(lèi)視覺(jué)靠近

目前的深度學(xué)習(xí)技術(shù)可以將局部特征(比如紋理)與整體模式(比如形狀)結(jié)合 在一起。

Columbia大學(xué)計(jì)算機(jī)神經(jīng)科學(xué)家Nikolaus Kriegeskorte說(shuō):“在這些論文中有一點(diǎn)讓人感到稍稍有些奇怪,架構(gòu)雖然允許這樣做,不過(guò)如果你訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí)只是希望它分辨標(biāo)準(zhǔn)圖像,它不會(huì)自動(dòng)整合,這點(diǎn)在論文中得到明顯證明?!?/p>

如果強(qiáng)迫模型忽視紋理,又會(huì)怎樣呢?Geirhos想找到答案。團(tuán)隊(duì)將訓(xùn)練分類(lèi)算法的圖片拿出來(lái),用不同的方式給它們“粉刷”,將實(shí)用紋理信息剔除,然后再用新圖片重新訓(xùn)練深度學(xué)習(xí)模型,系統(tǒng)轉(zhuǎn)而依賴(lài)更全局的模式,像人類(lèi)一樣更加偏愛(ài)形狀。

當(dāng)算法這樣行動(dòng)時(shí),分辨噪點(diǎn)圖像的能力同樣更強(qiáng)了,雖然在此之前研究人員并沒(méi)有專(zhuān)門(mén)訓(xùn)練算法,讓它識(shí)別扭曲圖像。

對(duì)于人類(lèi)來(lái)說(shuō),可能自然而然也存在這樣的“偏愛(ài)”,比如偏愛(ài)形狀,因?yàn)楫?dāng)我們看到一件東西,想確定它是什么時(shí),靠形狀判斷是最有效的方式,即使環(huán)境中有許多干擾,同樣如此。人類(lèi)生活在3D世界,可以從多個(gè)角度觀(guān)察,我們還可以借助其它感知(比如觸覺(jué))來(lái)識(shí)別對(duì)象。所以說(shuō),人類(lèi)偏愛(ài)形狀勝過(guò)紋理完全合理。

德國(guó)圖賓根大學(xué)研究人員Felix Wichmann認(rèn)為,這項(xiàng)研究告訴我們數(shù)據(jù)產(chǎn)生的偏見(jiàn)和影響遠(yuǎn)比我們認(rèn)為的大得多。之前研究人員也曾發(fā)現(xiàn)相同的問(wèn)題,例如,在面部識(shí)別程序、自動(dòng)招聘算法及其它神經(jīng)網(wǎng)絡(luò)中,模型過(guò)于重視意料之外的特征,因?yàn)橛?xùn)練算法所用的數(shù)據(jù)存在根深蒂固的偏見(jiàn)。想將這種不想要的偏見(jiàn)從算法決策機(jī)制中剔除相當(dāng)困難,盡管如此,Wichmann認(rèn)為新研究證明剔除還是有可能的。

雖然Geirhos的模型專(zhuān)注于形狀,不過(guò)如果圖像中噪點(diǎn)過(guò)多,或者特定像素發(fā)生變化,模型仍然會(huì)失敗。由此可以證明,計(jì)算機(jī)算法離人類(lèi)視覺(jué)還有很遠(yuǎn)距離。在人類(lèi)大腦中,可能還有一些重要機(jī)制沒(méi)有在算法中體現(xiàn)出來(lái)。Wichmann認(rèn)為,在某些情況下,關(guān)注數(shù)據(jù)集可能更重要。

多倫多大學(xué)計(jì)算機(jī)科學(xué)家Sanja Fidler認(rèn)同此觀(guān)點(diǎn),她說(shuō):“我們要設(shè)計(jì)更聰明的數(shù)據(jù)和更聰明的任務(wù)?!彼屯抡谘芯恳粋€(gè)問(wèn)題:如何給神經(jīng)網(wǎng)絡(luò)分派第二任務(wù),通過(guò)第二任務(wù)讓它在完成主任務(wù)時(shí)有更好表現(xiàn)。受到Geirhos的啟發(fā),最近他們對(duì)圖像分類(lèi)算法進(jìn)行訓(xùn)練,不只讓算法識(shí)別對(duì)象本身,還讓它識(shí)別對(duì)象輪廓(或者形狀)中的像素。

結(jié)果證明,執(zhí)行常規(guī)對(duì)象識(shí)別任務(wù)時(shí),神經(jīng)網(wǎng)絡(luò)越來(lái)越好,自動(dòng)變得越來(lái)越好。Fidler指出:“如果指派單一任務(wù),你會(huì)特別關(guān)注某些東西,對(duì)其它視而不見(jiàn)。如果分派多個(gè)任務(wù),也許能感知更多。算法也是一樣的?!碑?dāng)算法執(zhí)行多個(gè)任務(wù)時(shí),它會(huì)關(guān)注不同的信息,就像Geirhos所做的“形狀紋理”實(shí)驗(yàn)一樣。


聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4612

    瀏覽量

    92901
  • 圖像識(shí)別
    +關(guān)注

    關(guān)注

    9

    文章

    520

    瀏覽量

    38273
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    30896

    瀏覽量

    269108

原文標(biāo)題:AI圖像識(shí)別本質(zhì):人類(lèi)看的是形狀,算法看的是紋理

文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺(jué)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    AI圖像識(shí)別攝像機(jī)

    ?AI圖像識(shí)別攝像機(jī)是一種集成了先進(jìn)算法和深度學(xué)習(xí)模型的智能監(jiān)控設(shè)備。這些攝像機(jī)不僅能夠捕捉視頻畫(huà)面,還能實(shí)時(shí)分析和處理所拍攝的內(nèi)容,從而實(shí)現(xiàn)對(duì)特定對(duì)象、場(chǎng)景或行
    的頭像 發(fā)表于 11-08 10:38 ?245次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>圖像識(shí)別</b>攝像機(jī)

    AI大模型在圖像識(shí)別中的優(yōu)勢(shì)

    AI大模型在圖像識(shí)別中展現(xiàn)出了顯著的優(yōu)勢(shì),這些優(yōu)勢(shì)主要源于其強(qiáng)大的計(jì)算能力、深度學(xué)習(xí)算法以及大規(guī)模的數(shù)據(jù)處理能力。以下是對(duì)AI大模型在圖像識(shí)別
    的頭像 發(fā)表于 10-23 15:01 ?669次閱讀

    圖像識(shí)別算法有哪幾種

    圖像識(shí)別算法是計(jì)算機(jī)視覺(jué)領(lǐng)域的核心技術(shù)之一,它通過(guò)分析和處理圖像數(shù)據(jù),實(shí)現(xiàn)對(duì)圖像中的目標(biāo)、場(chǎng)景和物體的識(shí)別和分類(lèi)。
    的頭像 發(fā)表于 07-16 11:22 ?1085次閱讀

    圖像識(shí)別算法都有哪些方法

    圖像識(shí)別算法是計(jì)算機(jī)視覺(jué)領(lǐng)域的核心任務(wù)之一,它涉及到從圖像中提取特征并進(jìn)行分類(lèi)、識(shí)別和分析的過(guò)程。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,圖像識(shí)別
    的頭像 發(fā)表于 07-16 11:14 ?5584次閱讀

    圖像識(shí)別算法的提升有哪些

    引言 圖像識(shí)別是計(jì)算機(jī)視覺(jué)領(lǐng)域的核心任務(wù)之一,旨在使計(jì)算機(jī)能夠自動(dòng)地識(shí)別和理解圖像中的內(nèi)容。隨著計(jì)算機(jī)硬件的發(fā)展和深度學(xué)習(xí)技術(shù)的突破,圖像識(shí)別算法
    的頭像 發(fā)表于 07-16 11:12 ?659次閱讀

    圖像識(shí)別算法的優(yōu)缺點(diǎn)有哪些

    圖像識(shí)別算法是一種利用計(jì)算機(jī)視覺(jué)技術(shù)對(duì)圖像進(jìn)行分析和理解的方法,它在許多領(lǐng)域都有廣泛的應(yīng)用,如自動(dòng)駕駛、醫(yī)療診斷、安全監(jiān)控等。然而,圖像識(shí)別算法
    的頭像 發(fā)表于 07-16 11:09 ?1638次閱讀

    圖像識(shí)別算法的核心技術(shù)是什么

    圖像識(shí)別算法是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)重要研究方向,其目標(biāo)是使計(jì)算機(jī)能夠像人類(lèi)一樣理解和識(shí)別圖像中的內(nèi)容。
    的頭像 發(fā)表于 07-16 11:02 ?643次閱讀

    圖像識(shí)別技術(shù)的原理是什么

    圖像識(shí)別技術(shù)是一種利用計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)技術(shù)對(duì)圖像進(jìn)行分析和理解的技術(shù)。它可以幫助計(jì)算機(jī)識(shí)別和理解圖像中的對(duì)象、場(chǎng)景和活動(dòng)。 圖像預(yù)處理
    的頭像 發(fā)表于 07-16 10:46 ?1020次閱讀

    圖像識(shí)別屬于人工智能嗎

    屬于。圖像識(shí)別是人工智能(Artificial Intelligence, AI)領(lǐng)域的一個(gè)重要分支。 一、圖像識(shí)別概述 1.1 定義 圖像識(shí)別是指利用計(jì)算機(jī)技術(shù)對(duì)
    的頭像 發(fā)表于 07-16 10:44 ?1130次閱讀

    opencv圖像識(shí)別有什么算法

    圖像識(shí)別算法: 邊緣檢測(cè) :邊緣檢測(cè)是圖像識(shí)別中的基本步驟之一,用于識(shí)別圖像中的邊緣。常見(jiàn)的邊緣檢測(cè)算法
    的頭像 發(fā)表于 07-16 10:40 ?1048次閱讀

    如何利用CNN實(shí)現(xiàn)圖像識(shí)別

    卷積神經(jīng)網(wǎng)絡(luò)(CNN)是深度學(xué)習(xí)領(lǐng)域中一種特別適用于圖像識(shí)別任務(wù)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。它通過(guò)模擬人類(lèi)視覺(jué)系統(tǒng)的處理方式,利用卷積、池化等操作,自動(dòng)提取圖像中的特征,進(jìn)而實(shí)現(xiàn)高效的圖像識(shí)別。本
    的頭像 發(fā)表于 07-03 16:16 ?1385次閱讀

    圖像識(shí)別技術(shù)原理 圖像識(shí)別技術(shù)的應(yīng)用領(lǐng)域

    圖像識(shí)別技術(shù)是一種通過(guò)計(jì)算機(jī)對(duì)圖像進(jìn)行分析和理解的技術(shù)。它借助計(jì)算機(jī)視覺(jué)、模式識(shí)別、人工智能等相關(guān)技術(shù),通過(guò)對(duì)圖像進(jìn)行特征提取和匹配,找出圖像
    的頭像 發(fā)表于 02-02 11:01 ?2461次閱讀

    基于TensorFlow和Keras的圖像識(shí)別

    TensorFlow和Keras最常見(jiàn)的用途之一是圖像識(shí)別/分類(lèi)。通過(guò)本文,您將了解如何使用Keras達(dá)到這一目的。定義如果您不了解圖像識(shí)別的基本概念,將很難完全理解本文的內(nèi)容。因此在正文開(kāi)始之前
    的頭像 發(fā)表于 01-13 08:27 ?827次閱讀
    基于TensorFlow和Keras的<b class='flag-5'>圖像識(shí)別</b>

    如何使用Python進(jìn)行圖像識(shí)別的自動(dòng)學(xué)習(xí)自動(dòng)訓(xùn)練?

    如何使用Python進(jìn)行圖像識(shí)別的自動(dòng)學(xué)習(xí)自動(dòng)訓(xùn)練? 使用Python進(jìn)行圖像識(shí)別的自動(dòng)學(xué)習(xí)和自動(dòng)訓(xùn)練需要掌握一些重要的概念和技術(shù)。在本文中,我們將介紹如何使用Python中的一些常用庫(kù)和算法來(lái)實(shí)現(xiàn)
    的頭像 發(fā)表于 01-12 16:06 ?593次閱讀

    計(jì)算機(jī)視覺(jué):AI如何識(shí)別與理解圖像

    計(jì)算機(jī)視覺(jué)是人工智能領(lǐng)域的一個(gè)重要分支,它致力于讓機(jī)器能夠像人類(lèi)一樣理解和解釋圖像。隨著深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的發(fā)展,人們對(duì)于如何讓AI識(shí)別和理解圖像
    的頭像 發(fā)表于 01-12 08:27 ?1442次閱讀
    計(jì)算機(jī)視覺(jué):<b class='flag-5'>AI</b>如何<b class='flag-5'>識(shí)別</b>與理解<b class='flag-5'>圖像</b>