當(dāng)人類觀看圖像時(shí),會(huì)感知物體、人物或景觀。當(dāng)機(jī)器“查看”圖像時(shí),他們看到的只是代表單個(gè)像素的數(shù)字。假設(shè)一個(gè)灰度圖像,每個(gè)像素由一個(gè)通常在0到255之間的數(shù)字表示,其中0表示黑色(無顏色),255表示白色(全強(qiáng)度)。0到255之間的任何一個(gè)都是灰色陰影,如下圖所示。
因此,對(duì)于任何要獲取圖像內(nèi)容的機(jī)器來說,它必須以某種方式處理這些數(shù)字。
數(shù)據(jù)量大
正如上面所說,當(dāng)涉及到圖像時(shí),計(jì)算機(jī)得到的是很多數(shù)字,意味著需要大量的處理才能被理解。舉一個(gè)例子來說明圖像的數(shù)據(jù)量究竟有多大。如果是具有1920x1080分辨率的灰度(黑白)圖像,則表示該圖像由200萬個(gè)數(shù)字(1920*1080=2073600像素)描述,如果切換到彩色圖像,則一般需要三倍的數(shù)字。如果試圖分析來自視頻/攝像機(jī)流的圖像,假設(shè)幀率為30幀/秒(標(biāo)準(zhǔn)幀率),則每秒需要處理1.8億個(gè)數(shù)字(3*2073600*30=1.8億像素)。即使如今我們擁有強(qiáng)大的處理器和相對(duì)較大的內(nèi)存,也是一個(gè)巨大的挑戰(zhàn)。更何況如今幾千萬甚至上億像素的Sensor越來越普及,且其幀率更是高達(dá)上百幀/秒。
信息丟失
數(shù)字化過程中的信息丟失是造成計(jì)算機(jī)視覺難度的另一個(gè)主要因素。圖像處理的本質(zhì)是從3D世界(如果處理視頻流中的數(shù)據(jù)則是4D)投影到2D平面(即平面圖像)上獲取信息。這意味著在此過程中會(huì)丟失大量信息。人類的大腦可以非常出色的推斷出丟失的數(shù)據(jù)是什么,但是對(duì)于計(jì)算機(jī)來說卻是極其困難的挑戰(zhàn)。下圖顯示的是一個(gè)凌亂的房間。
人類可以很容易地看出,綠色健身球比桌子上的黑色平底鍋更大更遠(yuǎn)。但是如果黑色平底鍋比綠色球占據(jù)更多的像素,機(jī)器應(yīng)該如何推斷呢?這不是一件容易的事。當(dāng)然,可以嘗試通過同時(shí)拍攝兩張照片并從中提取3D信息來模擬用兩只眼睛看到的方式,這被稱為立體視覺。然而,將圖像拼接在一起也不是一項(xiàng)微不足道的任務(wù),因?yàn)橥瑯邮且粋€(gè)開放的研究領(lǐng)域。
伴隨噪聲
數(shù)字化過程中經(jīng)常伴隨著噪音。例如,沒有相機(jī)會(huì)拍攝出一個(gè)完美的不含噪聲的現(xiàn)實(shí)圖片,特別是當(dāng)用手機(jī)上的相機(jī)進(jìn)行拍照時(shí),他們會(huì)通過調(diào)整強(qiáng)度等級(jí),色彩飽和度等去嘗試捕捉美麗的世界。同時(shí)在圖像拍攝過程中肯能會(huì)出現(xiàn)“鏡頭光暈”的現(xiàn)象,人類可以輕松的判斷光暈后面是什么場(chǎng)景,而對(duì)于計(jì)算機(jī)來說確實(shí)非常困難。 雖然已經(jīng)有很多去除光暈的算法,但是去除光暈的算法本身也是開放的領(lǐng)域。另外,在圖像壓縮的過程中會(huì)對(duì)圖像降低像素或者變換操作,而這樣的圖片對(duì)于人來說可以輕松的識(shí)別,而對(duì)于計(jì)算機(jī),如果不告訴它壓縮變換的操作,它會(huì)當(dāng)作壓縮后的圖像為原圖像進(jìn)行識(shí)別,從而產(chǎn)生錯(cuò)誤。
理解圖像含義困難
最后也是最重要的是就是對(duì)圖像內(nèi)容的理解。對(duì)于機(jī)器來說,這絕對(duì)是計(jì)算機(jī)視覺環(huán)境中最難處理的事情。當(dāng)人類觀看圖像時(shí),會(huì)用累積的學(xué)習(xí)和記憶(稱為先驗(yàn)知識(shí))來分析它。例如,人類知道,可以坐在健身球上,而平底鍋通常用在廚房里,因?yàn)檫@些東西過去已經(jīng)了解過。如果有一些東西看起來像天空中的平底鍋,很可能它不是平底鍋,因此可以進(jìn)一步仔細(xì)檢查,以確定對(duì)象可能是什么?;蛘呷绻腥藝G球踢球,很可能是小孩子的球而不是健身球。但機(jī)器沒有這種知識(shí)。他們不了解的世界,不了解其中固有的復(fù)雜性,以及在數(shù)千年的進(jìn)化中創(chuàng)造的眾多工具、商品、設(shè)備等。也許有一天機(jī)器將能夠獲得網(wǎng)絡(luò)并從那里了解有關(guān)對(duì)象的信息,但目前離這種情況很遠(yuǎn)。
編輯:黃飛
-
圖像處理
+關(guān)注
關(guān)注
27文章
1292瀏覽量
56764 -
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1698瀏覽量
46005
原文標(biāo)題:圖像處理技術(shù)難點(diǎn)
文章出處:【微信號(hào):機(jī)器視覺沙龍,微信公眾號(hào):機(jī)器視覺沙龍】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論