計(jì)算機(jī)視覺(jué)的主要目標(biāo)是教會(huì)計(jì)算機(jī)如何去獲取圖片信息中的知識(shí),例如人臉識(shí)別就是讓計(jì)算機(jī)去自動(dòng)獲取與識(shí)別人臉圖像中的知識(shí),這個(gè)“知識(shí)”的范疇可以是“兩張圖片中的人臉是否來(lái)自于同一個(gè)人”,也可以是“圖片中的人臉是男人還是女人”。
計(jì)算機(jī)視覺(jué)是一個(gè)跨學(xué)科領(lǐng)域,涉及如何使用計(jì)算機(jī)獲取數(shù)字圖像與視頻中的高層次理解。從工程角度來(lái)看,它的目標(biāo)是尋找一種能夠與人類視覺(jué)系統(tǒng)實(shí)現(xiàn)相同功能的自動(dòng)化任務(wù)。
這段話表明了計(jì)算機(jī)視覺(jué)的跨學(xué)科特點(diǎn),它與人工智能、固態(tài)物理學(xué)、神經(jīng)生物學(xué)、信號(hào)處理等產(chǎn)生諸多關(guān)聯(lián)。傳統(tǒng)的計(jì)算機(jī)視覺(jué)的處理方法多是采用信號(hào)處理方法,而機(jī)器學(xué)習(xí)技術(shù)浪潮的興起,為計(jì)算機(jī)視覺(jué)打開了一扇新的大門。
當(dāng)然,計(jì)算機(jī)視覺(jué)的數(shù)據(jù)輸入源最簡(jiǎn)單和常見的就是攝像頭了。但是,計(jì)算機(jī)視覺(jué)技術(shù)對(duì)于非攝像頭的數(shù)據(jù)輸入源也能提供很好的支持。
例如,麻省理工學(xué)院的一項(xiàng)研究成果能夠?qū)崿F(xiàn)基于WiFi信號(hào)探測(cè)到墻的另一側(cè)人的動(dòng)作和姿態(tài),基于紅外線傳感器也能夠?qū)崿F(xiàn)人臉識(shí)別,甚至基于地震信號(hào)進(jìn)行礦藏探測(cè)的技術(shù)中也可以結(jié)合計(jì)算機(jī)視覺(jué)的一些技術(shù)。
從這個(gè)角度說(shuō),計(jì)算機(jī)視覺(jué)的技術(shù)輻射度和應(yīng)用范圍是非常廣泛的,計(jì)算機(jī)視覺(jué)技術(shù)能夠使我們的生活更加多姿多彩,為創(chuàng)造更美好的世界提供了一個(gè)強(qiáng)大的工具。
顏色模型
我們看到的圖像數(shù)據(jù)是以二維的形式展現(xiàn)的,這些圖片有的是繽紛多彩、富有表現(xiàn)力的彩色圖片,也有的是表現(xiàn)得沉郁頓挫的黑白風(fēng)格,甚至有的圖片只有純黑和純白兩種顏色。諸如此類,都是圖片的不同表現(xiàn)形式,我們將在本節(jié)具體了解一下它們的區(qū)別。
1. 彩色圖像
下面,我們將介紹兩種最為常用的顏色模型,分別是RGB顏色模型和HSV顏色模型。RGB顏色模型是在幾何形態(tài)上呈現(xiàn)立方體結(jié)構(gòu),與硬件實(shí)現(xiàn)關(guān)聯(lián)緊密。HSV顏色模型在幾何形態(tài)上呈現(xiàn)椎體結(jié)構(gòu),更偏向于視覺(jué)上直觀的感覺(jué)。
1.1 RGB顏色模型
RGB顏色模型應(yīng)該是我們?cè)谄綍r(shí)生活中接觸最多的一種顏色模型,也就是我們通常說(shuō)的紅、綠、藍(lán)三原色模型。
RGB顏色模型是將紅、綠、藍(lán)3種不同顏色,根據(jù)亮度配比的不同進(jìn)行混合,從而表現(xiàn)出不同的顏色。由于在實(shí)現(xiàn)上使用了3種顏色的定量配比,因此該模型也被稱為加色混色模型。通過(guò)3種最基本顏色的混合疊加來(lái)表現(xiàn)出任意的一種顏色的方法,特別適用于顯示器等主動(dòng)發(fā)光的顯示設(shè)備。
值得一提的是,RGB顏色的展現(xiàn)依賴于設(shè)備的顏色空間,不同設(shè)備對(duì)RGB顏色值的檢測(cè)不盡相同,表現(xiàn)出來(lái)的結(jié)果也存在差異。這也就使得我們感覺(jué)有些手機(jī)屏幕顏色特別逼真、絢麗,而另一些就難以令人滿意。
接觸過(guò)Web前端開發(fā)的讀者可能會(huì)對(duì)RGB顏色模型有一些了解,例如#FFFFFF代表純白色,#FF0000代表正紅色。這是采用十六進(jìn)制對(duì)24比特展示模式的一種表示方法。開始的兩個(gè)十六進(jìn)制數(shù)字位表示紅色,中間的兩位表示綠色,最后的兩位表示藍(lán)色,每一種顏色采用8比特來(lái)表示,3種顏色共計(jì)占用24比特。
我們平時(shí)用得最多的RGB顏色展示模式也就是24比特展示的。這種方法分別將紅、綠、藍(lán)3種顏色使用8比特?zé)o符號(hào)整數(shù)來(lái)表示。8比特?zé)o符號(hào)整數(shù)表示的范圍就是0~(2?-1),也就是[0,255]的整數(shù)區(qū)間。
例如,使用一個(gè)元組來(lái)表示正紅色,元組中元素的順序?yàn)榧t、綠、藍(lán),則正紅色可以表示為(255,0,0)。那么對(duì)于黃色這種顏色來(lái)講,它是由紅色和綠色兩種顏色疊加產(chǎn)生的,所以正黃色可以表示為(255,255,0)。如果我們想要減少該種黃色的亮度該如何操作呢?只需要把紅、綠兩種顏色同時(shí)按比例減少就可以實(shí)現(xiàn)了。
而如果改變它們的比例配比,則可以實(shí)現(xiàn)混合后的顏色向某種顏色進(jìn)行偏移,例如橘黃色就會(huì)更加偏向紅色一些。
1.2 HSV顏色模型
HSV顏色模型大家可能不是特別熟悉,這是一種采用色調(diào)(H)、飽和度(S)、明度(V)3個(gè)參數(shù)來(lái)表示顏色的一種方式。它是根據(jù)顏色的直觀特征由A.R.Smith于1978年創(chuàng)制的一種顏色模型。
下面分別介紹HSV模型的各個(gè)參數(shù)。
(1)色調(diào)(Hue)
以角度的形式進(jìn)行度量,其取值角度范圍是[0,360]。紅色、綠色、藍(lán)色3種顏色以逆時(shí)針?lè)较蜻M(jìn)行排列。例如紅色的位置為0°,綠色為120°,藍(lán)色的位置為240°。
(2)飽和度(Saturation)
飽和度反映了某種顏色接近光譜色的程度。某一種顏色是由光譜顏色與白色光的混合結(jié)果,如果某種顏色中白色的成分越少,則該種顏色越接近光譜色,表現(xiàn)出來(lái)的效果就是該種顏色暗且鮮艷,此時(shí)飽和度更高。反之,對(duì)于低飽和度的顏色來(lái)講,該顏色中包含的白色成分越多,顏色越趨向白色,艷麗程度則下降。
也就是說(shuō),飽和度反映了某種顏色中白色的成分,可以用百分比0~100%來(lái)表示,該數(shù)值越高,飽和度越高,光譜顏色的成分越多。
(3)明度(Value)
明度表現(xiàn)了某種顏色的明亮程度,可以認(rèn)為是一種由光線強(qiáng)弱產(chǎn)生的視覺(jué)體驗(yàn)。我們看到的顏色越明亮則明度值越高,反之則越低。例如,深紫色和桃紅色兩種顏色進(jìn)行對(duì)比,深紫色的顏色更加晦暗,而桃紅色更加明亮,則認(rèn)為桃紅色的明度要比深紫色的高。同樣,我們也可以使用百分比的形式來(lái)表示某種顏色的明度。
這兩種模型之間是可以通過(guò)數(shù)學(xué)公式進(jìn)行相互轉(zhuǎn)換的。通過(guò)學(xué)習(xí)這兩種顏色模型,我們可以學(xué)習(xí)到計(jì)算機(jī)視覺(jué)中的基本概念,以及顏色表現(xiàn)的基本原理,為我們后面的學(xué)習(xí)做好鋪墊。
2. 灰度圖像與二值圖像
在上面我們已經(jīng)接觸到圖像的顏色模型了,以RGB顏色模型為例,可以認(rèn)為一張圖片的顏色是由包含了紅、綠、藍(lán)3種不同通道的顏色進(jìn)行疊加混合而產(chǎn)生的。
從數(shù)學(xué)角度來(lái)看,對(duì)于一張彩色圖片,可以認(rèn)為其是由3個(gè)二維矩陣進(jìn)行疊加混合而產(chǎn)生的,每一個(gè)二維矩陣記錄了某種顏色在不同位置處的亮度值,那么3個(gè)二維矩陣就對(duì)應(yīng)了該圖片的3個(gè)最基本的顏色通道。
換句話說(shuō),有人說(shuō)一張圖片就是一個(gè)矩陣,其實(shí)這樣的表述是不嚴(yán)謹(jǐn)?shù)?。?duì)于彩色圖片來(lái)講,一張圖片不僅包含了一個(gè)矩陣,而是包含了紅、綠、藍(lán)3種不同顏色信息的3個(gè)矩陣。那么,是否存在一張圖片就是一個(gè)矩陣的情況呢?當(dāng)然有!我們下面介紹的灰度圖像與二值圖像就是如此。
2.1 灰度圖像
我們?cè)谄綍r(shí)接觸到灰度圖像的情景非常多。例如,非彩色打印的書籍中的圖片就是灰度圖像,黑白照片也是灰度圖像。這類圖片有個(gè)特點(diǎn),雖然這些圖片沒(méi)有包含其他五顏六色的信息,但是,我們依然能夠從這些圖片中獲取到圖像的輪廓、紋理、形狀等特征。
我們的直觀感覺(jué)是正確的,這也說(shuō)明了灰度圖像相對(duì)于彩色圖像缺少了具體的顏色信息,但是,灰度圖像依然能夠完好地展示出圖像中各個(gè)部分的輪廓、紋理、形狀等關(guān)鍵特征,同時(shí)灰度圖片的存儲(chǔ)結(jié)構(gòu)相對(duì)于彩色圖片更為簡(jiǎn)單。
這樣便會(huì)產(chǎn)生一個(gè)優(yōu)點(diǎn),如果我們想要提取圖像中的特征與顏色無(wú)太多關(guān)聯(lián),那么我們就可以選擇將彩色圖片處理成灰度圖片的預(yù)處理方式。由于灰度圖片的結(jié)構(gòu)更為簡(jiǎn)單,同時(shí)關(guān)鍵信息又不大會(huì)損失,這樣就可以極大地減少計(jì)算量。
回過(guò)頭我們?cè)賮?lái)想一想,我們可以通過(guò)手機(jī)來(lái)拍攝彩色照片,同樣也可以拍攝出黑白照片。在這個(gè)過(guò)程中我們可以猜想,黑白照片和彩色照片是否存在轉(zhuǎn)換關(guān)系呢?答案是肯定的。我們可以通過(guò)數(shù)學(xué)公式將RGB模型中的紅、綠、藍(lán)3個(gè)矩陣進(jìn)行合并,合并成一個(gè)矩陣,這個(gè)矩陣就是代表了灰度圖像的矩陣。
我們知道,即便是黑色,也分為不同的等級(jí)。假如令黑種人的膚色為1代表純黑色,白種人的膚色為0代表純白色,那么我們黃種人中有的長(zhǎng)得白一點(diǎn)的女生,她的膚色值就可以是0.2,有的長(zhǎng)得黑一點(diǎn)的男生,他的膚色值就可以是0.6。
從上述的例子中,我們得出了一個(gè)結(jié)論:即便是黑色的程度也是可以量化的,介于黑色和白色之間的顏色就是灰色,那么直接量化的就是灰色的程度,這個(gè)程度就是灰度。一般的量化方法是將純白色作為255,純黑色作為0,在這個(gè)區(qū)間中,使用對(duì)數(shù)的方法劃分具體數(shù)值進(jìn)行量化。當(dāng)然這個(gè)數(shù)值可以是浮點(diǎn)數(shù)。
從彩色圖片到灰度圖片之間的轉(zhuǎn)化公式就可以表示為:
Igray=[0.299,0.587,0.114]·[Ir,Ig,Ib] (3.1)
其中,Igray代表灰度圖像中的灰度值,[Ir,Ig,Ib]代表彩色圖像中R、G、B通道中的像素值。
式(3.1)表示了兩個(gè)向量進(jìn)行點(diǎn)乘的過(guò)程,例如圖片中某一點(diǎn)的RGB值為(255,0,100),那么將該圖片轉(zhuǎn)化到灰度圖片時(shí),對(duì)應(yīng)位置的灰度值為
Igray=0.299×255+0.587×0+0.114×100=87.645
這里給出的轉(zhuǎn)換系數(shù)只是一個(gè)參考值,使用不同的灰度圖轉(zhuǎn)換方法得到的值也是不相同的,一般常用的RGB數(shù)值比例大致為3∶6∶1。
2.2 二值圖像
二值圖像顧名思義只有純黑色和純白色兩種顏色,沒(méi)有中間過(guò)渡的灰色。其數(shù)據(jù)結(jié)構(gòu)也是一個(gè)二維矩陣,只不過(guò)這里面的數(shù)值只有0和1兩種。
可以看到,二值圖像的空間占用量進(jìn)一步減少了,每一個(gè)像素點(diǎn)只需要1比特就可以表示了,這對(duì)于表示字符這類非黑即白形式的圖片具有優(yōu)勢(shì)。由于二值圖像是在灰度圖片的基礎(chǔ)上通過(guò)閾值判斷產(chǎn)生的,這樣就會(huì)缺少細(xì)節(jié)部分,只能顯示出圖片的大致輪廓。不過(guò),這個(gè)特性雖然帶給我們直觀的感覺(jué)是很不好的,但是,這在圖像的分割等場(chǎng)景中具有很好的利用價(jià)值。
信號(hào)與噪聲
信號(hào)與噪聲是一對(duì)敵人,圖像的空間是有限的,信號(hào)多一點(diǎn),噪聲就少一點(diǎn),反之亦然。我們?cè)诖螂娫捴腥绻X(jué)得雜音特別多,那么也就是此時(shí)通話數(shù)據(jù)中的噪聲特別多,已經(jīng)達(dá)到了影響正常通話的程度。甚至噪聲特別大的時(shí)候,信號(hào)容易淹沒(méi)在噪聲中。圖像也是一種數(shù)據(jù),圖像中也存在信號(hào)和噪聲。本節(jié)中將具體介紹信號(hào)與噪聲的相關(guān)知識(shí)。
1. 信號(hào)
信號(hào)是一個(gè)好東西,因?yàn)檫@是我們想要的數(shù)據(jù)。信號(hào)越多,噪聲的干擾便會(huì)越少,數(shù)據(jù)的質(zhì)量也就越高。我們可以使用信噪比這個(gè)概念來(lái)衡量數(shù)據(jù)質(zhì)量的高低。所謂信噪比就是指信號(hào)與噪聲二者能量之比值。直觀來(lái)講,噪聲越少,信噪比越大,數(shù)據(jù)的質(zhì)量越佳。
2. 噪聲
而在實(shí)際生活中,通過(guò)圖像采集設(shè)備獲取到的圖片也或多或少會(huì)引入噪聲,這主要是由攝像機(jī)等圖像采集設(shè)備的感光元件受到干擾產(chǎn)生的噪聲表現(xiàn)在圖像上而形成的,主要表現(xiàn)為黑白雜點(diǎn)等。
圖像中隨機(jī)出現(xiàn)的黑白雜點(diǎn)稱為椒鹽噪聲,“椒”代表黑色,“鹽”代表白色,故而用椒鹽噪聲這個(gè)概念來(lái)表示圖像中存在的黑白雜點(diǎn),其在圖片中出現(xiàn)的位置是隨機(jī)的。而圖像中也可能會(huì)隨機(jī)出現(xiàn)某些顏色的改變。造成此類雜點(diǎn)最典型的就是高斯噪聲,這是由于在原圖片的基礎(chǔ)上疊加了高斯噪聲而造成的。
所謂高斯噪聲是指圖像疊加的噪聲概率密度服從高斯分布,也就是正態(tài)分布。這是自然界中最為常見的一種噪聲類別,例如夜晚通過(guò)照相機(jī)拍照獲得的照片就可能存在該類噪聲。
圖像濾波
前面提到了噪聲,噪聲是我們不想要的一類數(shù)據(jù)。但是在實(shí)際操作中往往會(huì)引入噪聲,例如圖片經(jīng)過(guò)低質(zhì)量的信道傳輸,引入了信道中存在的噪聲;圖像采集設(shè)備由于某些電子學(xué)原因而引入了噪聲等。
噪聲的存在必然會(huì)對(duì)我們正常的圖像處理造成干擾,盡可能多地濾除噪聲是我們進(jìn)行圖像預(yù)處理的一個(gè)重要步驟。本節(jié)將給大家介紹常見的濾除噪聲的方法。
1. 均值濾波
均值濾波器的缺點(diǎn)是會(huì)使圖像變得模糊,這是因?yàn)樗鼘⑺械狞c(diǎn)都進(jìn)行了均值處理。而實(shí)際上,在絕大多數(shù)情況下,噪聲的占比是少數(shù),將所有的點(diǎn)都以同樣的權(quán)值進(jìn)行處理,勢(shì)必會(huì)導(dǎo)致圖像的模糊。而且,這個(gè)濾波器的寬度越大,濾波后的圖片就會(huì)越模糊,也就是丟失圖像的細(xì)節(jié)部分,使圖像變得更加“中庸”。
當(dāng)然,根據(jù)這個(gè)特點(diǎn),也可以將這個(gè)濾波器的權(quán)值更改一下,以便達(dá)到有所側(cè)重的效果。
例如,在對(duì)圖片進(jìn)行濾波操作時(shí),不應(yīng)該全部按照系數(shù)為1進(jìn)行加權(quán)求和,從而進(jìn)行濾波。我們知道,圖像的像素是連續(xù)的,距離越近的像素點(diǎn)間的聯(lián)系越大,那么,濾波器的參數(shù)越靠近中心位置的權(quán)值越大,越靠近邊緣位置的權(quán)值越小,根據(jù)這個(gè)思路來(lái)修改濾波器的權(quán)值的方法是否可行呢?
2. 中值濾波
我們?cè)谏厦娼榻B了均值濾波,使用均值濾波會(huì)造成圖片的模糊,即使修改均值濾波的權(quán)值,也還是會(huì)造成圖片的模糊。因此,我們既要對(duì)圖片進(jìn)行濾波處理,又要盡量減少圖片的模糊程度,那么就要考慮另外一種思路來(lái)實(shí)現(xiàn)濾波過(guò)程。
中值濾波是一種與均值濾波過(guò)程不同的濾波方法。相比于均值濾波,中值濾波可以有效減少圖片的模糊程度。中值濾波的原理如下:
與均值濾波的原理大體相似,同樣使用一個(gè)指定大小的滑動(dòng)窗口,在圖片上進(jìn)行滑動(dòng),不斷地進(jìn)行濾波處理。不過(guò),與均值濾波的不同在于,中值濾波在對(duì)像素點(diǎn)進(jìn)行處理時(shí),并不是采取簡(jiǎn)單的取平均數(shù)的做法,而是改為取其中位數(shù)的做法。
以椒鹽噪聲為例,其像素的灰度值要么是最低的,要么是最高的,總是處于兩個(gè)極端。而圖像中絕大多數(shù)正常點(diǎn)處于這樣一個(gè)區(qū)間之中,因此,將濾波器所選取區(qū)域中的像素點(diǎn),以其灰度值的大小進(jìn)行排序,如果存在噪聲,則基本處于兩端的位置。
對(duì)于椒鹽噪聲來(lái)講,中值濾波的效果要好于均值濾波。而對(duì)于高斯噪聲來(lái)講,均值濾波的效果優(yōu)于中值濾波,這是因?yàn)?,高斯噪聲的特點(diǎn)是噪聲顏色值不固定,基本符合高斯隨機(jī)分布的特點(diǎn),這樣就會(huì)導(dǎo)致中值濾波無(wú)法按照默認(rèn)的噪聲范圍進(jìn)行濾波,其效果自然就沒(méi)有均值濾波好。
-
機(jī)器視覺(jué)
+關(guān)注
關(guān)注
162文章
4396瀏覽量
120476 -
人工智能
+關(guān)注
關(guān)注
1792文章
47492瀏覽量
239176
原文標(biāo)題:從計(jì)算機(jī)視覺(jué)到人臉識(shí)別:一文看懂顏色模型、信號(hào)與噪聲
文章出處:【微信號(hào):WW_CGQJS,微信公眾號(hào):傳感器技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論