作者:Jody Muelaner
機(jī)器視覺(jué)是一系列技術(shù)的融合,可使工業(yè)或其他的自動(dòng)化設(shè)備從圖像中獲得對(duì)當(dāng)時(shí)環(huán)境的高級(jí)理解。如果沒(méi)有機(jī)器視覺(jué)軟件,具有不同色彩值和色調(diào)強(qiáng)度的數(shù)字圖像對(duì)于此類(lèi)設(shè)備來(lái)說(shuō)只不過(guò)是簡(jiǎn)單的、無(wú)任何聯(lián)系的像素集合。機(jī)器視覺(jué)讓計(jì)算機(jī)(通常與機(jī)器控制器相連)檢測(cè)這類(lèi)圖像中的邊緣和形狀,以使更高級(jí)別的處理程序識(shí)別出預(yù)先定義的目標(biāo)物體。這種意義上的圖像并不局限于可見(jiàn)光譜中的攝影圖像;這類(lèi)圖像也可以包括使用紅外、激光、X射線和超聲波信號(hào)獲得的圖像。
在工業(yè)環(huán)境中,相當(dāng)常見(jiàn)的機(jī)器視覺(jué)應(yīng)用從物料箱中雜亂放置的許多零件中識(shí)別出特定的零件。在這里,機(jī)器視覺(jué)有助于拾放機(jī)器人自動(dòng)拾取正確的零件。當(dāng)然,如果這些零件都以相同的方向整齊地排列在托盤(pán)上,那么用成像反饋來(lái)識(shí)別這些零件就相對(duì)簡(jiǎn)單了。然而,功能強(qiáng)大的機(jī)器視覺(jué)算法可識(shí)別與攝像機(jī)有不同距離的物體(因此在成像傳感器上顯示為不同大小的圖像)以及與相機(jī)不同向的物體。
最復(fù)雜的機(jī)器視覺(jué)系統(tǒng)已經(jīng)實(shí)現(xiàn)了遠(yuǎn)比從物料箱揀選零件更復(fù)雜的新興設(shè)計(jì),例如,可能沒(méi)有比自動(dòng)駕駛汽車(chē)更復(fù)雜的識(shí)別了。
與機(jī)器視覺(jué)有關(guān)的技術(shù)
機(jī)器視覺(jué)這一術(shù)語(yǔ)有時(shí)被保留下來(lái),以便參考那些能從圖像中提取信息的更成熟、更有效的數(shù)學(xué)方法。相比之下,計(jì)算機(jī)視覺(jué)一詞通常描述的是更現(xiàn)代、計(jì)算要求更高的系統(tǒng)——包括使用機(jī)器學(xué)習(xí)或人工智能
(AI) 的黑箱方法。然而,機(jī)器視覺(jué)也可作為一個(gè)包羅萬(wàn)象的術(shù)語(yǔ),包括從圖像中提取高級(jí)信息的所有方法;在這種情況下,計(jì)算機(jī)視覺(jué)描述了其基本的運(yùn)行理論。
能從圖像中提取高級(jí)含義的技術(shù)比比皆是。在研究界,此類(lèi)技術(shù)通常被認(rèn)為不同于機(jī)器視覺(jué)。然而實(shí)際上,所有這些都是實(shí)現(xiàn)機(jī)器視覺(jué)的不同方式。..而且他們?cè)谠S多情況下是重疊的。
數(shù)字圖像處理是數(shù)字信號(hào)處理的一種形式,涉及圖像增強(qiáng)、修復(fù)、編碼和壓縮。相比模擬圖像處理,其優(yōu)點(diǎn)是最大限度地減小噪音和失真以及有眾多算法可用。最初的一種圖像增強(qiáng)是用來(lái)校正第一批月球表面的近距離圖像的。在此過(guò)程中,使用了攝影測(cè)量制圖以及噪聲濾波器,并針對(duì)成像攝像機(jī)對(duì)準(zhǔn)月球表面所產(chǎn)生的幾何失真進(jìn)行了修正。
數(shù)字圖像增強(qiáng)通常涉及增大對(duì)比度,還可能針對(duì)視角和鏡頭失真進(jìn)行幾何校正。壓縮通常是通過(guò)將復(fù)雜信號(hào)近似為余弦函數(shù)組合來(lái)實(shí)現(xiàn)的——一種被稱(chēng)為離散余弦變換
(DCT) 的傅里葉變換。JPEG 文件格式是 DCT 最常見(jiàn)的應(yīng)用。圖像修復(fù)也可以使用傅里葉變換來(lái)消除噪音和模糊。
攝影測(cè)量學(xué)采用某種特征識(shí)別來(lái)從圖像中提取測(cè)量結(jié)果。當(dāng)從不同位置獲得同一場(chǎng)景的多幅圖像時(shí),這些測(cè)量結(jié)果可以包括 3D信息。最簡(jiǎn)單的攝影測(cè)量系統(tǒng)采用比例尺測(cè)量圖像中兩點(diǎn)之間的距離。為此,通常需要在圖像中包含一個(gè)已知的參考比例。
特征檢測(cè)讓計(jì)算機(jī)識(shí)別圖像中的邊緣、拐角或點(diǎn)。這是攝影測(cè)量以及識(shí)別物體和運(yùn)動(dòng)所需的第一步。Blob
檢測(cè)可以識(shí)別出邊緣過(guò)于光滑而無(wú)法進(jìn)行邊緣或拐角檢測(cè)的區(qū)域。
模式識(shí)別用于識(shí)別特定對(duì)象。在最簡(jiǎn)單的情況下,這可能意味著需要在傳送帶上找到一個(gè)定義明確的特定機(jī)械部件。
3D 重構(gòu)確定來(lái)自 2D 圖像物體的 3D形態(tài)。這種功能可通過(guò)攝影測(cè)量方法來(lái)實(shí)現(xiàn)。其中,共同特征的高度(在不同觀測(cè)點(diǎn)的圖像中確定)采用三角測(cè)量來(lái)確定。單純使用 2D 圖像進(jìn)行 3D重構(gòu)也是可能的;在此,軟件也解釋了邊緣或陰影區(qū)域之間的幾何關(guān)系。
人類(lèi)可以在大腦中利用線描畫(huà)法加工簡(jiǎn)單地重構(gòu)出立方體——利用陰影圓重構(gòu)出球體。陰影顯示了表面的坡度。然而,這種推導(dǎo)過(guò)程遠(yuǎn)比想象中復(fù)雜的多,因?yàn)殛幱笆且痪S參數(shù),而坡度則發(fā)生在二維情況下。這可能導(dǎo)致模棱兩可的情況——這是由描繪物理上不可能的物體的藝術(shù)驗(yàn)證了的事實(shí)。
機(jī)器視覺(jué)任務(wù)是如何排序的
通過(guò)從低級(jí)操作開(kāi)始,然后逐步推進(jìn)到高級(jí)操作,許多機(jī)器視覺(jué)系統(tǒng)都逐步地結(jié)合了上述技術(shù)。在最低級(jí)別下,圖像的所有像素都作為高帶寬數(shù)據(jù)保存。然后,序列中的每個(gè)操作都能識(shí)別圖像特征,并以相對(duì)較少的數(shù)據(jù)量來(lái)表示所關(guān)注的信息。
首先是圖像增強(qiáng)和修復(fù)的低級(jí)操作,其次是特征檢測(cè)。因此在使用多傳感器的情況下,可由專(zhuān)門(mén)針對(duì)單獨(dú)傳感器的分布式進(jìn)程來(lái)執(zhí)行低級(jí)操作。一旦在單獨(dú)圖像中檢測(cè)到特征,就可進(jìn)行更高級(jí)的攝影測(cè)量——正如任何物體識(shí)別或其他依靠來(lái)自多個(gè)圖像和傳感器的組合數(shù)據(jù)的任務(wù)一樣。
直接計(jì)算和學(xué)習(xí)算法
在機(jī)器視覺(jué)情況下,直接計(jì)算是一組由程序員定義的數(shù)學(xué)函數(shù)。這些函數(shù)接受諸如圖像像素值之類(lèi)的輸入,產(chǎn)生諸如物體邊緣坐標(biāo)之類(lèi)的輸出。相比之下,學(xué)習(xí)算法不是由人類(lèi)直接編寫(xiě)的,而是通過(guò)將輸入與期望的輸出相關(guān)聯(lián)的實(shí)例數(shù)據(jù)集進(jìn)行訓(xùn)練的。因此,學(xué)習(xí)算法作為黑盒子使用?,F(xiàn)在大多數(shù)此類(lèi)機(jī)器學(xué)習(xí)都采用了基于人工神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)來(lái)進(jìn)行計(jì)算。
如果基于直接計(jì)算,工業(yè)應(yīng)用的簡(jiǎn)單機(jī)器學(xué)習(xí)往往更可靠,計(jì)算要求也更低。當(dāng)然,通過(guò)直接計(jì)算所能達(dá)到的效果是有限的。例如,永遠(yuǎn)不要希望執(zhí)行人臉來(lái)識(shí)別所需的高級(jí)識(shí)別模式,特別是不要希望從擁擠公共空間的視頻資料中進(jìn)行識(shí)別。相比之下,機(jī)器學(xué)習(xí)能巧妙地處理此類(lèi)應(yīng)用。因此,機(jī)器學(xué)習(xí)越來(lái)越多地被部署到低級(jí)機(jī)器視覺(jué)操作中就不足為奇了,具體包括圖像增強(qiáng)、修復(fù)和特征檢測(cè)。
改進(jìn)教學(xué)方法(不是算法)
深度學(xué)習(xí)技術(shù)的日趨成熟讓人發(fā)現(xiàn),需要改進(jìn)的不是學(xué)習(xí)算法本身,而是算法的訓(xùn)練方式。一種經(jīng)過(guò)改進(jìn)的訓(xùn)練程序被稱(chēng)為以數(shù)據(jù)為中心的計(jì)算機(jī)視覺(jué)。在這里,深度學(xué)習(xí)系統(tǒng)接受由數(shù)千、數(shù)百萬(wàn)、甚至數(shù)十億張圖像組成的非常強(qiáng)大的訓(xùn)練集——然后保存通過(guò)其算法從每張圖像中提取的合成信息。這些算法通過(guò)工作實(shí)例聯(lián)系來(lái)實(shí)現(xiàn)有效學(xué)習(xí),然后參考“答案書(shū)”來(lái)驗(yàn)證是否得出了正確數(shù)值。
有一個(gè)關(guān)于數(shù)字模式識(shí)別的老故事具有警醒作用。美國(guó)軍方曾經(jīng)打算利用機(jī)器視覺(jué)進(jìn)行目標(biāo)識(shí)別,國(guó)防承包商的演示可靠地識(shí)別出了美制和俄制坦克。各種不同的坦克都能從供應(yīng)商的航拍照片中一輛接一輛地正確區(qū)分出來(lái)。但是,當(dāng)用五角大樓自己的圖片庫(kù)再次測(cè)試時(shí),該系統(tǒng)卻不斷地給出錯(cuò)誤的答案。問(wèn)題是,國(guó)防承包商的圖片都描繪了沙漠中的美國(guó)坦克和綠地上的俄羅斯坦克。該系統(tǒng)沒(méi)有識(shí)別出不同的坦克,反而識(shí)別出了不同顏色的背景。識(shí)別標(biāo)準(zhǔn)是什么呢?學(xué)習(xí)算法需要有精心策劃的訓(xùn)練數(shù)據(jù)才能發(fā)揮作用。
結(jié)論:機(jī)器人工作單元的安全愿景
機(jī)器視覺(jué)不再是一項(xiàng)利基技術(shù)。在目前開(kāi)來(lái),工業(yè)領(lǐng)域是機(jī)器視覺(jué)部署增長(zhǎng)最大的領(lǐng)域。在該領(lǐng)域,最引人注目的發(fā)展是目前機(jī)器視覺(jué)如何完善工業(yè)工廠的安全系統(tǒng),即當(dāng)工人在沒(méi)有佩戴安全帽、防護(hù)面具或其他合適的防護(hù)用品的情況下進(jìn)入工作區(qū)時(shí),該系統(tǒng)會(huì)發(fā)出警報(bào)或發(fā)出語(yǔ)音通知。機(jī)器視覺(jué)還可用于當(dāng)叉車(chē)等移動(dòng)機(jī)械離人員太近時(shí)發(fā)出警示的系統(tǒng)。
這些和類(lèi)似的機(jī)器視覺(jué)系統(tǒng)有時(shí)可以取代工業(yè)機(jī)器人周?chē)挠卜雷o(hù)措施,以使操作更有效。機(jī)器視覺(jué)系統(tǒng)還可以取代或加強(qiáng)基于燈光防護(hù)的安全系統(tǒng),這些安全系統(tǒng)只要發(fā)現(xiàn)工人進(jìn)入工作單元就會(huì)停止機(jī)械運(yùn)行。當(dāng)機(jī)器視覺(jué)監(jiān)測(cè)到工作單元周?chē)墓S地面時(shí),該單元中的機(jī)器人有可能在人員靠近時(shí)逐漸減速。
隨著工業(yè)環(huán)境設(shè)計(jì)的發(fā)展,以適應(yīng)協(xié)作機(jī)器人和其他工作單元設(shè)備,使工廠人員可以安全地走動(dòng)(甚至在設(shè)備運(yùn)行時(shí)),這些和其他基于機(jī)器視覺(jué)的系統(tǒng)會(huì)成為工廠流程中更常見(jiàn)的一部分。
-
算法
+關(guān)注
關(guān)注
23文章
4612瀏覽量
92910 -
機(jī)器視覺(jué)
+關(guān)注
關(guān)注
162文章
4373瀏覽量
120337 -
自動(dòng)化
+關(guān)注
關(guān)注
29文章
5581瀏覽量
79285 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5503瀏覽量
121176
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論