機(jī)器人作為面向未來(lái)的智能制造重點(diǎn)技術(shù),其具有可控性強(qiáng)、靈活性高以及配置柔性等優(yōu)勢(shì),被廣泛的應(yīng)用于零件加工、協(xié)同搬運(yùn)、物體抓取與部件裝配等領(lǐng)域,如圖1-1所示。然而,傳統(tǒng)機(jī)器人系統(tǒng)大多都是在結(jié)構(gòu)化環(huán)境中,通過(guò)離線編程的方式進(jìn)行單一重復(fù)作業(yè),已經(jīng)無(wú)法滿足人們?cè)谏a(chǎn)與生活中日益提升的智能化需求。隨著計(jì)算機(jī)技術(shù)與傳感器技術(shù)的不斷發(fā)展,我們期望構(gòu)建出擁有更加靈敏的感知系統(tǒng)與更加智慧的決策能力的智能化機(jī)器人系統(tǒng)。
圖1-1 機(jī)器人的應(yīng)用領(lǐng)域
圖1-2 機(jī)器人抓取的操作流程與步驟
機(jī)器人抓取與放置是智能化機(jī)器人系統(tǒng)的集中體現(xiàn),也是生產(chǎn)與生活中十分重要的環(huán)節(jié),近幾年來(lái)在工業(yè)界與學(xué)術(shù)界得到了深入而廣泛的研究。具體的機(jī)器人抓取可以分為視覺(jué)感知部分與機(jī)器人抓取操作部分。視覺(jué)感知部分又包含:模型與場(chǎng)景表征、目標(biāo)識(shí)別與定位這兩個(gè)步驟;而機(jī)器人抓取操作部分則包含:系統(tǒng)標(biāo)定、運(yùn)動(dòng)控制與抓取規(guī)劃等步驟,如圖1-2所示。這其中,機(jī)器人通過(guò)視覺(jué)傳感器感知環(huán)境并實(shí)現(xiàn)對(duì)目標(biāo)物體的識(shí)別與定位,也就是視覺(jué)感知部分,是十分重要的環(huán)節(jié),其直接決定了后續(xù)機(jī)器人的抓取精度。
圖1-3 二維圖像的部分缺陷
受益于計(jì)算機(jī)算力的不斷提高以及傳感器成像水平的高速發(fā)展,目前針對(duì)結(jié)構(gòu)化環(huán)境或者半結(jié)構(gòu)化環(huán)境中,基于二維圖像的機(jī)器人平面單目標(biāo)物體的抓取技術(shù)已經(jīng)趨于成熟,并取得了豐富的研究成果[1][2][3]。然而,對(duì)于現(xiàn)實(shí)復(fù)雜環(huán)境中的三維物體,僅使用二維信息對(duì)三維目標(biāo)進(jìn)行表征,會(huì)不可避免的造成信息損失,如圖1-3所示,從而難以實(shí)現(xiàn)非結(jié)構(gòu)化環(huán)境中機(jī)器人對(duì)于多目標(biāo)物體的高精度抓取操作。因此,如何提升機(jī)器人的視覺(jué)感知能力,并基于此在復(fù)雜環(huán)境中自主完成對(duì)目標(biāo)物體的識(shí)別、定位、抓取等操作是一個(gè)很有價(jià)值的研究問(wèn)題。
近年來(lái),隨著低成本深度傳感器(如Intel RealSense、Xtion以及Microsoft Kinect等)與激光雷達(dá)的飛速發(fā)展,如圖1-4所示,三維點(diǎn)云的獲取越來(lái)越方便。這里的點(diǎn)云實(shí)際上就是在相機(jī)坐標(biāo)系下,對(duì)所拍攝的物體或者場(chǎng)景表面進(jìn)行點(diǎn)采樣。物體對(duì)應(yīng)的點(diǎn)云數(shù)據(jù)在在數(shù)學(xué)上可以簡(jiǎn)單的理解為三維坐標(biāo)的無(wú)序集合。三維點(diǎn)云數(shù)據(jù)相對(duì)于平面二維圖像具有如下優(yōu)勢(shì):(1)可以更加真實(shí)準(zhǔn)確的表達(dá)物體的幾何形狀信息與空間位置姿態(tài);(2)受光照強(qiáng)度變化、成像距離以及視點(diǎn)變化的影響較?。唬?)不存在二維圖像中的投影變換等問(wèn)題。三維點(diǎn)云數(shù)據(jù)具有的以上優(yōu)勢(shì)使得其有望克服平面二維圖像在機(jī)器人目標(biāo)識(shí)別與抓取中存在的諸多不足,所以其具有很重要的研究意義以及廣泛的應(yīng)用前景。因此,近年來(lái)針對(duì)點(diǎn)云的視覺(jué)研究以及基于點(diǎn)云的機(jī)器人抓取成為了機(jī)器人領(lǐng)域新的研究熱點(diǎn)。
圖1-4 點(diǎn)云獲取設(shè)備示意圖
對(duì)應(yīng)前文的,在基于點(diǎn)云的機(jī)器人抓取可以分為點(diǎn)云特征描述(模型與場(chǎng)景表征)、三維目標(biāo)識(shí)別(目標(biāo)識(shí)別與定位)與機(jī)器人抓取操作這三個(gè)部分[39][40]。進(jìn)一步的,點(diǎn)云特征描述指的是,將模型與場(chǎng)景對(duì)應(yīng)的無(wú)序點(diǎn)集通過(guò)特定的算法編碼為低維的特征向量,用此來(lái)表征對(duì)象的局部或者全局信息,其應(yīng)當(dāng)具有足夠的描述力與穩(wěn)定性。三維目標(biāo)識(shí)別則主要是指,利用模型與場(chǎng)景的表征結(jié)果,在場(chǎng)景中識(shí)別出目標(biāo)物體,并估計(jì)出其對(duì)應(yīng)的位置與姿態(tài)。對(duì)于特征描述與目標(biāo)識(shí)別,盡管現(xiàn)有文獻(xiàn)提出了不少算法,并且在特定的環(huán)境中取得了不錯(cuò)的效果,然而如何在包含噪聲、干擾、遮擋與密度變化的復(fù)雜非結(jié)構(gòu)化環(huán)境中提取有效而穩(wěn)定的特征,實(shí)現(xiàn)對(duì)多目標(biāo)物體的準(zhǔn)確識(shí)別定位以及高精度抓取,仍然是極富挑戰(zhàn)性的一個(gè)問(wèn)題[4]。
綜上所述,基于點(diǎn)云的機(jī)器人抓取作為智能化機(jī)器人系統(tǒng)的集中體現(xiàn),近幾年來(lái)得到了工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注,并圍繞點(diǎn)云特征描述、三維目標(biāo)識(shí)別與機(jī)器人抓取操作這三個(gè)方面展開(kāi)了深入研究。具體的,在點(diǎn)云特征描述部分,主要關(guān)注描述子的鑒別力、魯棒性、計(jì)算效率與緊湊性等性能;在三維目標(biāo)識(shí)別部分,主要關(guān)注目標(biāo)的識(shí)別準(zhǔn)確率與定位精度問(wèn)題;而在機(jī)器人抓取操作部分,抓取系統(tǒng)的參數(shù)標(biāo)定與多目標(biāo)物體的數(shù)據(jù)分析都是很重要的環(huán)節(jié)。
1.1國(guó)內(nèi)外研究現(xiàn)狀
受益于點(diǎn)云數(shù)據(jù)自身的優(yōu)勢(shì)、計(jì)算機(jī)算力的不斷提高與傳感技術(shù)的不斷發(fā)展,基于點(diǎn)云的機(jī)器人抓取成為了機(jī)器人領(lǐng)域新的研究熱點(diǎn),具有十分誘人的研究?jī)r(jià)值與應(yīng)用前景。近年來(lái),學(xué)術(shù)界與工業(yè)界圍繞基于點(diǎn)云的機(jī)器人抓取,在點(diǎn)云特征描述、三維目標(biāo)識(shí)別與機(jī)器人抓取操作這三個(gè)方面展開(kāi)了廣泛而深入的研究,取得了顯著進(jìn)展,下面分別從上述三個(gè)方面進(jìn)行文獻(xiàn)綜述。
1.1.1點(diǎn)云特征描述
點(diǎn)云特征描述在機(jī)器人抓取中主要是應(yīng)用于視覺(jué)感知部分的模型與場(chǎng)景表征。一種合格的特征描述算法應(yīng)該有較高的描述力來(lái)表征對(duì)應(yīng)的局部點(diǎn)云表面。此外,此外其還應(yīng)該對(duì)于點(diǎn)云噪聲、表面孔洞、部分遮擋、視點(diǎn)改變以及分辨率變化等穩(wěn)健[4],如圖1-5所示。
圖1-5 點(diǎn)云場(chǎng)景存在的挑戰(zhàn)
現(xiàn)有的特征描述算法可以分為全局特征和局部特征兩大類(lèi)[5]。全局特征采用模型的整體幾何信息構(gòu)建得到,典型代表有Osada等[6]提出來(lái)的Shape distribution描述子,Wahl等[7]提出來(lái)的SPR(Surflet-pair-relation)描述子以及Funkhouser等[8]提出來(lái)的Spherical harmonics描述子。全局描述子擁有較高的計(jì)算效率和分類(lèi)能力,但是其對(duì)于遮擋比較敏感,很難用于目標(biāo)識(shí)別和精確定位[9]。鑒于此,局部點(diǎn)云的概念被提出,局部特征描述算法得到了深入的研究和廣泛的關(guān)注。其首先提取關(guān)鍵點(diǎn)建立局部鄰域,根據(jù)鄰域內(nèi)各點(diǎn)的空間分布信息和幾何特征構(gòu)建描述矩陣。局部描述子對(duì)于背景干擾和遮擋魯棒,相比于全局描述子更適合用于非結(jié)構(gòu)化環(huán)境中的目標(biāo)識(shí)別[4][10]。
圖1-6 部分局部描述算法示意圖
局部描述算法又可以根據(jù)有無(wú)建立局部參考坐標(biāo)系(Local Reference Frame, LRF)進(jìn)行分類(lèi)[11]。不依賴(lài)LRF的特征描述子都是使用局部幾何信息的統(tǒng)計(jì)直方圖或者信息量來(lái)構(gòu)成特征矩陣[12]。例如,Johnson等[13]提出了Spin image描述算法,如圖1-6(a),它首先以關(guān)鍵點(diǎn)的法線作為參考軸,用兩個(gè)參數(shù)對(duì)關(guān)鍵點(diǎn)的每個(gè)鄰域點(diǎn)進(jìn)行編碼,然后根據(jù)這兩個(gè)參數(shù)將局部鄰域點(diǎn)進(jìn)行分箱,進(jìn)而生成一個(gè)二維直方圖。Spin image描述子已經(jīng)成為了三維特征描述子評(píng)估體系的實(shí)驗(yàn)基準(zhǔn)[4][14]。但是,其存在諸如對(duì)數(shù)據(jù)分辨率變化和非均勻采樣敏感等缺陷[15]。Rusu等[16]提出了PFH(Point Feature Histogram)描述算法:其對(duì)于關(guān)鍵點(diǎn)鄰域內(nèi)的每一個(gè)點(diǎn)對(duì),首先建立Darboux框架,然后采用[7]中的方法計(jì)算由法向量和距離向量得到的四個(gè)測(cè)量值,最后將所有點(diǎn)對(duì)的測(cè)量值進(jìn)行累加生成一個(gè)長(zhǎng)度為16的直方圖,如圖1-6(b)。為了降低計(jì)算復(fù)雜度,Rusu[17]等僅將關(guān)鍵點(diǎn)與其鄰域點(diǎn)之間的測(cè)量值進(jìn)行累加,隨后進(jìn)行加權(quán)求和得到FPFH(Fast-PFH),如圖1-6(c)。FPFH保留了PFH的絕大部分鑒別信息,但是其對(duì)于噪聲敏感[5]。目前絕大多不依賴(lài)于LRF的描述子僅利用了點(diǎn)云的部分幾何特征,而很難編碼局部空間分布信息,因而其都鑒別力不強(qiáng)或者魯棒性較弱[15]。
對(duì)于建立了局部參考坐標(biāo)系的描述子,則利用定義的LRF來(lái)同時(shí)對(duì)空間分布信息和幾何特征進(jìn)行編碼以提高其鑒別力和魯棒性[18]。例如,Tombari等人[19]首先利用加權(quán)主成分分析(PCA)的方法為關(guān)鍵點(diǎn)構(gòu)建了一個(gè)局部參考坐標(biāo)系,進(jìn)而在該LRF下將關(guān)鍵點(diǎn)對(duì)應(yīng)的球形R-近鄰空間進(jìn)行柵格化處理,然后依據(jù)關(guān)鍵點(diǎn)法線與落入每一個(gè)子單元的點(diǎn)法線間的夾角將這些點(diǎn)累積到一個(gè)數(shù)據(jù)統(tǒng)計(jì)直方圖中,最后串聯(lián)各個(gè)直方圖便獲得SHOT(Signatures of Histograms of Orientation)特征,如圖1-6(d)。SHOT計(jì)算效率高,但是對(duì)于分辨率變化敏感[5]。Guo等[18]通過(guò)計(jì)算局部表面對(duì)應(yīng)散布矩陣的特征向量來(lái)建立LRF,然后利用旋轉(zhuǎn)投影的方法對(duì)三維點(diǎn)集進(jìn)行降維并建立分布矩陣,之后提取分布矩陣的信息量生成最后的RoPS(Rotational Projection Statistics)描述子。RoPS有著優(yōu)越的綜合性能[5],但是其只能用于mesh網(wǎng)格文件,也就是說(shuō)其無(wú)法作用于原始的xyz點(diǎn)云數(shù)據(jù)[20]。并且,其將數(shù)據(jù)投影到了二維平面會(huì)造成較大的信息損失[21]。之后,Guo[15]在RoPS的LRF算法基礎(chǔ)上進(jìn)行改進(jìn),提高了穩(wěn)定性,然后在坐標(biāo)系的每一個(gè)參考坐標(biāo)軸上求取局部鄰域的Spin Image特征,串聯(lián)組成Trisi(Triple-Spin Image)局部特征描述子,如圖1-6(e)。基于LRF的局部描述算法的鑒別力和魯棒性很依賴(lài)于所建立的局部參考坐標(biāo)系的可重復(fù)性與穩(wěn)定性,如果坐標(biāo)系存在輕微的偏差,會(huì)對(duì)最終的描述向量造成嚴(yán)重的影響[22],如圖1-7。然而,目前已有的局部坐標(biāo)系算法存在可重復(fù)性差或者方向歧義的問(wèn)題[23]。
綜上所述,對(duì)于不建立局部參考坐標(biāo)系的特征描述子,由于不能融入空間分布信息,普遍存在鑒別力不高、對(duì)于噪聲比較敏感等問(wèn)題;而擁有局部參考坐標(biāo)系的特征描述子的描述力和魯棒性則主要依賴(lài)于所對(duì)應(yīng)的坐標(biāo)系建立算法,然而目前已有的坐標(biāo)系建立方法均存在可重復(fù)性差或者方向歧義的問(wèn)題[22],相應(yīng)的特征提取算法在鑒別力、魯棒性與計(jì)算效率方面依然有提升的可能[5]。
圖1-7 LRF的誤差影響
1.1.2三維目標(biāo)識(shí)別
在基于點(diǎn)云的機(jī)器人抓取領(lǐng)域,完成了模型與場(chǎng)景的表征,下一步則是進(jìn)行目標(biāo)識(shí)別與定位,也就是在點(diǎn)云場(chǎng)景中對(duì)待抓取模型進(jìn)行三維目標(biāo)識(shí)別以及對(duì)應(yīng)的姿態(tài)估計(jì)。現(xiàn)有的三維目標(biāo)識(shí)別算法主要包括基于局部特征的算法、基于投票的算法、基于模板匹配的算法以及基于學(xué)習(xí)的方法[24][25]。
基于局部特征的目標(biāo)識(shí)別算法則主要分成五個(gè)部分:關(guān)鍵點(diǎn)檢測(cè)、特征提取、特征匹配、假設(shè)生成、假設(shè)檢驗(yàn)[26][27]。在這里關(guān)鍵點(diǎn)檢測(cè)與特征提取組合對(duì)應(yīng)的就是進(jìn)行模型與場(chǎng)景表征。由于點(diǎn)云的點(diǎn)集數(shù)量巨大,如果對(duì)每個(gè)點(diǎn)都進(jìn)行特征提取則會(huì)造成計(jì)算機(jī)算力不足的情況,因此會(huì)在原點(diǎn)云中提取稀疏而區(qū)分度高的點(diǎn)集作為關(guān)鍵點(diǎn)。關(guān)鍵點(diǎn)應(yīng)當(dāng)滿足可重復(fù)性和獨(dú)特性這兩個(gè)重要屬性[28]。前者涉及的是在各種干擾下(噪聲、分辨率變化、遮擋與背景干擾等)可以精確提取相同關(guān)鍵點(diǎn)的能力;而后者則是指提取的關(guān)鍵點(diǎn)應(yīng)當(dāng)易于描述、匹配與分類(lèi)[29]。在點(diǎn)云領(lǐng)域,經(jīng)典的關(guān)鍵點(diǎn)提取算法包括Harries 3D[30],ISS(Intrinsic Shape Signature)算法[31],NARF(Normal Aligned Radial Feature)算法[32]。特征提取部分則主要是在物體表面提取穩(wěn)固的局部特征,詳見(jiàn)本章1.3.1部分的討論。
特征匹配的作用則是建立一系列的關(guān)鍵點(diǎn)特征對(duì)應(yīng)關(guān)系,如圖1-8所示。經(jīng)典的特征匹配算法有最近鄰距離比值(NNDR)、閾值法、最近鄰策略(NN)等[33]。論文[33]則表明NNDR與NN的匹配算法優(yōu)于閾值法的匹配效果,NNDR亦是目前使用最多的匹配策略[34]。為了降低計(jì)算復(fù)雜度,一般都會(huì)使用高效的搜索算法來(lái)優(yōu)化特征匹配,使其快速地找到場(chǎng)景特征庫(kù)中與當(dāng)前特征對(duì)應(yīng)的k近鄰特征。常用搜索算法包括k-d樹(shù)[35]、局部敏感樹(shù)[31]、哈希表[36]與二維索引表[37]等。
圖1-8 局部特征匹配過(guò)程示意圖
假設(shè)生成部分則主要是利用匹配上的特征對(duì)集合找出在場(chǎng)景中可能的模型位置,并建立對(duì)應(yīng)的姿態(tài)估計(jì)(即計(jì)算變換假設(shè))[38]。值得注意的是,在匹配上的特征對(duì)集合中,既會(huì)存在正確的特征對(duì),也會(huì)有大量有誤差的特征對(duì)。因此在計(jì)算變換假設(shè)的時(shí)候,需要使用有效的算法策略盡可能的剔除錯(cuò)誤特征對(duì),從而得到較為準(zhǔn)確的模型與場(chǎng)景間的變換關(guān)系。這一部分的方法主要包括隨機(jī)一致性采樣(RANSAC)、姿態(tài)聚類(lèi)、幾何一致性以及擴(kuò)展霍夫變換等。RANSAC算法首先隨機(jī)選取k組特征對(duì)來(lái)計(jì)算模型到場(chǎng)景間的變換矩陣(這里k為生成一個(gè)變換矩陣所需要的最少特征對(duì)數(shù)量),并統(tǒng)計(jì)滿足這個(gè)變換矩陣的點(diǎn)對(duì)數(shù)量。使用這個(gè)算法的論文包括[38][39][40]。姿態(tài)聚類(lèi)算法則認(rèn)為當(dāng)模型在場(chǎng)景中被正確識(shí)別后,大多數(shù)模型與場(chǎng)景對(duì)齊的假設(shè)生成變換矩陣都應(yīng)當(dāng)在真實(shí)的位姿矩陣(ground truth)附近。使用這個(gè)算法的論文包括[31][41][42]。幾何一致性技術(shù)則認(rèn)為如果特征對(duì)不滿足幾何約束關(guān)系則會(huì)使得估計(jì)出來(lái)的變換矩陣有較大的誤差,所以希望使用幾何約束來(lái)剔除誤差較大的匹配點(diǎn)對(duì),進(jìn)而提高生成的變換矩陣的準(zhǔn)確性。使用該算法的論文包括[13][43][44]。擴(kuò)展霍夫變換則是利用特征對(duì)間的平移和旋轉(zhuǎn)等參數(shù)構(gòu)成廣義的霍夫空間,然后進(jìn)行投票統(tǒng)計(jì)。這個(gè)廣義的參數(shù)化霍夫空間中的每一個(gè)點(diǎn)都對(duì)應(yīng)模型與場(chǎng)景間的一組變換關(guān)系,空間中的峰值點(diǎn)被認(rèn)為是模型到場(chǎng)景變換矩陣估計(jì)的最優(yōu)解。采用這種算法的論文包括[45][46][47]。
圖1-9 基于特征提取的目標(biāo)識(shí)別流程圖
假設(shè)檢驗(yàn)部分則是為了得到假設(shè)生成部分所計(jì)算出來(lái)的潛在變換關(guān)系中真正正確的變換矩陣。Hebert與Johnson[13][48]采用模型與場(chǎng)景的對(duì)應(yīng)點(diǎn)數(shù)和模型總點(diǎn)數(shù)的比值作為相似度參數(shù)。當(dāng)相似度大于設(shè)定的閾值時(shí),則認(rèn)為當(dāng)前的變換矩陣是正確的。Main[49]則采用特征相似度與點(diǎn)云匹配精度作為綜合評(píng)價(jià)指標(biāo)。Bariya[43]首先計(jì)算出模型與場(chǎng)景的交疊面積,并將模型可見(jiàn)面積和重疊面積的比值作為相似度度量。Papazov[40]則提出了一個(gè)包含懲罰項(xiàng)和支持項(xiàng)的接收函數(shù)用于評(píng)估建設(shè)生成的姿態(tài)變換質(zhì)量。Aldoma[44][26]則建立了場(chǎng)景到模型的擬合、模型到場(chǎng)景的擬合、遮擋關(guān)系以及不同模型間的關(guān)聯(lián)這幾個(gè)條件建立了一個(gè)代價(jià)函數(shù),然后通過(guò)求取這個(gè)函數(shù)的極小值來(lái)獲得理論上最優(yōu)的變換姿態(tài)。
圖1-10 PPF投票算法示意圖
基于投票的三維目標(biāo)識(shí)別算法則是直接匹配模型與場(chǎng)景間的固有特性,生成有限的候選姿態(tài)集后,利用先驗(yàn)條件構(gòu)造支持函數(shù)與罰函數(shù)并對(duì)每一個(gè)姿態(tài)進(jìn)行投票,進(jìn)而得出最優(yōu)的變換矩陣。Drost等人[41]提出了用于目標(biāo)識(shí)別的點(diǎn)對(duì)特征(Point Pair Features, PPF),這也是三維目標(biāo)識(shí)別領(lǐng)域的經(jīng)典算法,算法原理如圖1-10所示。其利用了點(diǎn)對(duì)間最為樸素的特征:距離與法線夾角,構(gòu)造出有四個(gè)參數(shù)的特征數(shù)組;然后結(jié)合哈希表進(jìn)行窮舉匹配,利用高效的投票方案得出最優(yōu)的姿態(tài)估計(jì)。Kim等人[50]則在原始PPF特征中加入了可見(jiàn)性特征(空間、表面與不可見(jiàn)表面),增強(qiáng)了PPF的匹配能力。Choi等人[51]在此基礎(chǔ)上提出了對(duì)點(diǎn)對(duì)特征進(jìn)行分類(lèi)的策略,如邊界上的點(diǎn)對(duì)或者是由邊緣點(diǎn)組成的點(diǎn)對(duì)等。利用這種分類(lèi)方法可以減少訓(xùn)練和匹配的特征數(shù)量,加快了匹配速度以及投票效率。此外,Choi等人[52]還在PPF的點(diǎn)對(duì)特征上加入了顏色分量,創(chuàng)建了Color-PPF,實(shí)驗(yàn)結(jié)果表明其識(shí)別率明顯提高。隨后,Drost等人[53]又提出了利用幾何邊緣(邊界和輪廓)來(lái)計(jì)算PPF,這種算法顯著改進(jìn)了在高度遮擋場(chǎng)景中的識(shí)別率。Birdal等人[54]則提出了先對(duì)場(chǎng)景進(jìn)行分割,在進(jìn)行PPF匹配的識(shí)別策略。更進(jìn)一步的,Hinterstoisser等人[55]針對(duì)PPF提出了一種新的采樣方法以及一種新的姿態(tài)投票方案,使得這種算法對(duì)噪聲和背景干擾更加穩(wěn)健。Tejan等人[56]則從RGB-D圖像中訓(xùn)練了一個(gè)霍夫森林,在樹(shù)中的葉子上存儲(chǔ)著目標(biāo)識(shí)別6D姿態(tài)的投票。
圖1-11 基于模板匹配的目標(biāo)識(shí)別流程
基于模板匹配的目標(biāo)識(shí)別算法則主要是針對(duì)無(wú)紋理物體的檢測(cè)。其利用已有的三維模型從不同的角度進(jìn)行投影,生成二維RGB-D圖像后再生成模板;然后將所有的模板與場(chǎng)景匹配,進(jìn)而得出最優(yōu)的模型位姿,算法原理如圖1-11。Hinterstoisser等人[57]提出了經(jīng)典的Linemod算法,其結(jié)合了彩色圖像中的梯度信息再結(jié)合深度圖像中的表面法線信息生成圖像模板,在場(chǎng)景圖像中利用滑窗搜索的方式進(jìn)行模板匹配。Hodan等人[58]提出了一種實(shí)用的無(wú)紋理目標(biāo)檢測(cè)方法,也是實(shí)用滑動(dòng)窗口的模式,對(duì)于每個(gè)窗口進(jìn)行有效的級(jí)聯(lián)評(píng)估。首先通過(guò)簡(jiǎn)單的預(yù)處理過(guò)濾掉大部分位置;然后對(duì)于每一個(gè)位置,一組候選模板(即經(jīng)過(guò)訓(xùn)練的對(duì)象視圖)通過(guò)哈希投票進(jìn)行識(shí)別;最后通過(guò)匹配不同模式下的特征點(diǎn)來(lái)驗(yàn)證候選模板進(jìn)而生成目標(biāo)的三維位姿。
基于學(xué)習(xí)的方法,Brachmann等人[59]提出的基于學(xué)習(xí)的目標(biāo)識(shí)別算法,對(duì)于輸入圖像的每一個(gè)像素,利用其提出的回歸森林預(yù)測(cè)待識(shí)別對(duì)象的身份和其在對(duì)象模型坐標(biāo)系中的位置,建立所謂的“對(duì)象坐標(biāo)”。采用基于隨機(jī)一致性采樣算法的優(yōu)化模式對(duì)三元對(duì)應(yīng)點(diǎn)對(duì)集進(jìn)行采樣,以此創(chuàng)建一個(gè)位姿假設(shè)池。選擇使得預(yù)測(cè)一致性最大化的假設(shè)位姿作為最終的位姿估計(jì)結(jié)果。這個(gè)學(xué)習(xí)模型在論文[60]中得到了多種擴(kuò)展。首先,利用auto-context算法對(duì)于隨機(jī)森林進(jìn)行改進(jìn),支持只是用RGB信息的位姿估計(jì);其次,該模型不僅考慮已知對(duì)象的位姿,同時(shí)還考慮了沒(méi)有先驗(yàn)?zāi)P蛶?kù)的目標(biāo)識(shí)別;更多的,其使用隨機(jī)森林預(yù)測(cè)每一個(gè)像素坐標(biāo)在目標(biāo)坐標(biāo)系上的完整三維分布,捕捉不確定性信息。自從深度卷積神經(jīng)網(wǎng)絡(luò)(DCBB)[61]提出以來(lái),基于深度學(xué)習(xí)的方法近年來(lái)變得十分流行,例如RCNN[62],Mask-RCNN[63],YOLO[64]與SSD[65]等。最近的綜述論文[66]對(duì)于這些算法進(jìn)行了詳細(xì)的闡述和比較。
綜上所述,在目前已有的目標(biāo)識(shí)別算法中,基于幾何一致性與隨機(jī)一致性采樣的管道方法存在組合爆炸的問(wèn)題,其對(duì)應(yīng)的計(jì)算復(fù)雜度為O(n3);而基于點(diǎn)對(duì)特征的目標(biāo)識(shí)別方案則會(huì)由于法線方向的二義性問(wèn)題造成識(shí)別的準(zhǔn)確率下降,并且其對(duì)應(yīng)的計(jì)算復(fù)雜度為O(n2);基于模板匹配的目標(biāo)識(shí)別算法(Linemod)則存在對(duì)于遮擋敏感等問(wèn)題。雖然各種算法在特定的數(shù)據(jù)集上都取得了不錯(cuò)的效果,但是在非結(jié)構(gòu)化環(huán)境中的目標(biāo)識(shí)別準(zhǔn)確率依然有較大的提升空間。
1.1.3機(jī)器人抓取操作
基于點(diǎn)云的機(jī)器人抓取主要包含視覺(jué)感知部分與機(jī)器人抓取操作部分。機(jī)器人抓取操作部分則又包括系統(tǒng)標(biāo)定、抓取規(guī)劃與運(yùn)動(dòng)控制。
系統(tǒng)標(biāo)定包括主要是指對(duì)相機(jī)與機(jī)器人的標(biāo)定。由于對(duì)于視覺(jué)感知部分求出的待抓取目標(biāo)物體的位置與姿態(tài)均處于相機(jī)坐標(biāo)系下,為了進(jìn)行機(jī)器人準(zhǔn)確抓取,需要將其坐標(biāo)與姿態(tài)變換到機(jī)器人坐標(biāo)系下。這里便需要將相機(jī)與機(jī)器人進(jìn)行手眼標(biāo)定。手眼標(biāo)定主要求取相機(jī)坐標(biāo)系與機(jī)器人基坐標(biāo)系間的變換關(guān)系[67],主要可以分為相機(jī)在手上的標(biāo)定與相機(jī)在手外的標(biāo)定。此外,對(duì)于相機(jī),使用時(shí)需要進(jìn)行內(nèi)參的校準(zhǔn),畸變系數(shù)的求取等[68][69];如果是雙目立體視覺(jué),則還包含對(duì)于雙目相機(jī)的參數(shù)標(biāo)定[70];如果是結(jié)構(gòu)光或ToF(Time of Flight)成像的點(diǎn)云相機(jī),則還要進(jìn)行深度校準(zhǔn),以及彩色圖與深度圖的匹配對(duì)齊等操作[71][72][73]。對(duì)于機(jī)器人,如果是多機(jī)器人協(xié)同抓取,則組要進(jìn)行多機(jī)器人基坐標(biāo)系間的標(biāo)定[74]。
而對(duì)于抓取規(guī)劃部分,其主要作用是可以實(shí)現(xiàn)對(duì)于場(chǎng)景中目標(biāo)物體的抓取點(diǎn)的提取[75]。如論文[76]所述,抓取策略應(yīng)當(dāng)確保穩(wěn)定性,任務(wù)的兼容性和對(duì)于新物體的適應(yīng)性等;此外,抓取質(zhì)量可以通過(guò)對(duì)物體接觸點(diǎn)的位置和末端夾爪的配置來(lái)進(jìn)行評(píng)價(jià)[77]。對(duì)于物體的抓取,目前主要有基于經(jīng)驗(yàn)的方法與基于端到端的方法。
基于經(jīng)驗(yàn)的方法則是根據(jù)特定的任務(wù)和抓取對(duì)象的幾何形狀,使用與之相對(duì)應(yīng)的算法來(lái)進(jìn)行抓取。更具體的又可以分為對(duì)已知物體的抓取和對(duì)相似物體的抓取[78]。如果抓取對(duì)象是已知的物體,那么則可以通過(guò)學(xué)習(xí)已有的成功抓取實(shí)例,再結(jié)合具體環(huán)境進(jìn)行機(jī)器人抓取。事實(shí)上,如果目標(biāo)對(duì)象已知,則意味著對(duì)象的三維模型和抓取點(diǎn)位置在數(shù)據(jù)庫(kù)中也是先驗(yàn)已知的。這種情況下,只需要從局部視圖估計(jì)目標(biāo)對(duì)象的6D位姿,并通過(guò)ICP等算法進(jìn)行姿態(tài)細(xì)化與精確微調(diào),進(jìn)一步便可以得到目標(biāo)物體的抓取位置。這是目前已知的抓取系統(tǒng)中最流行的方法,也是在亞馬遜抓取挑戰(zhàn)賽[79]中普遍使用的算法。Zeng等人[79]提出了一種利用全卷積神經(jīng)網(wǎng)絡(luò)對(duì)一個(gè)場(chǎng)景的多個(gè)視圖進(jìn)行分割和標(biāo)注,然后將預(yù)掃描的三維目標(biāo)模型與分割結(jié)果進(jìn)行匹配,得到6D目標(biāo)位姿。他們的方法在2016年APC抓取挑戰(zhàn)任務(wù)中獲得了第三名和第四名。Billings和Johnson-Roberson[80]提出了一種利用卷積神經(jīng)網(wǎng)絡(luò)的管道算法,其可以同時(shí)完成目標(biāo)姿態(tài)估計(jì)和抓取點(diǎn)選擇。該管道算法作用于感興趣區(qū)域(ROI),預(yù)測(cè)出一個(gè)中間輪廓來(lái)估計(jì)目標(biāo)位姿;然后從先驗(yàn)的數(shù)據(jù)庫(kù)中生成抓取點(diǎn)。對(duì)于這種方法,當(dāng)有準(zhǔn)確的三維模型是,可以通過(guò)估計(jì)出6D姿態(tài)后進(jìn)行準(zhǔn)確的抓取,由于擁有較高的抓取精度,是目前比較流行的抓取方法。然而,當(dāng)三維模型不太準(zhǔn)確時(shí),如物體不可測(cè)量或者易變形等情況,則會(huì)導(dǎo)致有較大的抓取偏差。
圖1-12 局部抓取規(guī)劃方法
事實(shí)上,很多情況下,抓取的目標(biāo)對(duì)象與現(xiàn)有數(shù)據(jù)庫(kù)的模型并不完全相同,但是在模型庫(kù)中相似的同一類(lèi)的物體,這便涉及到對(duì)相近物體的抓取。在目標(biāo)對(duì)象被定位以后,利用基于關(guān)鍵點(diǎn)對(duì)應(yīng)算法便可以將抓取點(diǎn)從模型庫(kù)中存在的相似三維模型上轉(zhuǎn)移到當(dāng)前的局部對(duì)象中。由于當(dāng)前的目標(biāo)對(duì)象與數(shù)據(jù)庫(kù)中的對(duì)象不完全相同,所以這類(lèi)型的抓取算法是不需要進(jìn)行六維姿態(tài)估計(jì)的。Andrew等人[81]提出了一種基于分類(lèi)法的方法,該方法將對(duì)象劃分為各個(gè)類(lèi)別,每個(gè)類(lèi)別均存在對(duì)應(yīng)的抓取規(guī)范。Vahrenkamp等人[82]提出了一種基于局部的抓取規(guī)劃方法,用于生成適用于多個(gè)已知目標(biāo)對(duì)象的抓取,根據(jù)物體的形狀和體積信息對(duì)物體模型進(jìn)行分割,并對(duì)目標(biāo)零件標(biāo)記語(yǔ)義信息和抓取信息。其還提出了一種抓取可轉(zhuǎn)移性的度量方法,用于評(píng)估在同一對(duì)象類(lèi)別中的新物體的抓取成功率,如圖1-12所示。Tian等人[83]提出了一種將抓取構(gòu)型從先前的示例對(duì)象轉(zhuǎn)移到新目標(biāo)上的方法,該方法假設(shè)新對(duì)象和示例對(duì)象具有相同的拓?fù)浣Y(jié)構(gòu)和相似的形狀。他們考慮幾何形狀和語(yǔ)義形狀特征對(duì)對(duì)象進(jìn)行三維分割,利用主動(dòng)學(xué)習(xí)算法為示例對(duì)象的每個(gè)部分計(jì)算一個(gè)抓取空間,并為新對(duì)象在模型部分和相應(yīng)的抓取之間建立雙射接觸映射。這一類(lèi)型的方法依賴(lài)于目標(biāo)分割的準(zhǔn)確性。然而,訓(xùn)練一個(gè)能識(shí)別出廣泛對(duì)象的網(wǎng)絡(luò)并不容易。同時(shí),這些方法要求待抓取的三維物體與標(biāo)注模型相似,以便找到相應(yīng)的抓取模型。在經(jīng)常發(fā)生遮擋的雜亂環(huán)境中,計(jì)算高質(zhì)量的物體抓取點(diǎn)也是一個(gè)挑戰(zhàn)。
圖1-13 不同的抓取方案示意圖
端到端的抓取檢測(cè)則直接跳過(guò)了對(duì)于抓取目標(biāo)的定位,直接從輸入的圖像中提取抓取點(diǎn)位置。在這類(lèi)方法中,滑動(dòng)窗口策略是比較常用的方法。Lenz等人[84]提出了一個(gè)兩步級(jí)聯(lián)系統(tǒng),該系統(tǒng)具有兩個(gè)深度網(wǎng)絡(luò),第一步的頂部檢測(cè)結(jié)果由第二步重新評(píng)估。第一個(gè)網(wǎng)絡(luò)具有更少的特性,運(yùn)行速度更快,并且可以有效地剔除不可能的候選項(xiàng)。第二個(gè)具有更多的特性,速度較慢,但只能在少數(shù)幾個(gè)檢測(cè)到的信號(hào)上運(yùn)行。盡管他們達(dá)到了很高的精度,但是迭代掃描使過(guò)程非常緩慢。Ten Pas等人[85]提出了一種無(wú)需對(duì)目標(biāo)物體進(jìn)行精確分割即可在任何可見(jiàn)表面生成抓取假設(shè)的方法。他們還提出了一種新的包含表面法線和多個(gè)視圖的抓取描述符。但是,由于沒(méi)有執(zhí)行實(shí)例級(jí)分段,因此這種算法會(huì)將多個(gè)對(duì)象視為同類(lèi)物體。由于均勻網(wǎng)絡(luò)的性能優(yōu)于雙級(jí)聯(lián)系統(tǒng)[84],越來(lái)越多的單級(jí)方法被提出。Guo等人[86]提出了一種共享卷積神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行對(duì)象發(fā)現(xiàn)和抓取檢測(cè)。Pinto和Gupta[87]提出了一種通過(guò)試錯(cuò)預(yù)測(cè)抓取位置的方法,他們訓(xùn)練了一個(gè)基于CNN的分類(lèi)器來(lái)估計(jì)給定一個(gè)輸入圖像塊的不同抓取方向的抓取可能性。Chu等人[88]提出了一個(gè)由抓取區(qū)域建議組件和機(jī)器人抓取檢測(cè)組件組成的網(wǎng)絡(luò)。對(duì)于端到端抓取檢測(cè)方法,計(jì)算出的抓取點(diǎn)可能不是全局最優(yōu)的抓取點(diǎn),因?yàn)樵趫D像中只有部分對(duì)象是可見(jiàn)的。
對(duì)于機(jī)器人抓取中的運(yùn)動(dòng)控制這一部分,其主要是設(shè)計(jì)從機(jī)械手目標(biāo)物體抓取點(diǎn)的路徑,這里面的關(guān)鍵問(wèn)題就是運(yùn)動(dòng)表征。雖然從機(jī)械手到目標(biāo)抓取點(diǎn)的軌跡是無(wú)限多的,但是由于機(jī)械臂的局限性,很多地方都無(wú)法達(dá)到。因此,軌跡需要規(guī)劃。
軌跡規(guī)劃主要有有三種方法,分別是傳統(tǒng)的基于DMP的方法、基于模仿學(xué)習(xí)的方法和基于強(qiáng)化學(xué)習(xí)的方法,如圖1-14所示。傳統(tǒng)的方法考慮運(yùn)動(dòng)的動(dòng)態(tài)性,生成運(yùn)動(dòng)原語(yǔ)。動(dòng)態(tài)運(yùn)動(dòng)原語(yǔ)(Dynamic Movement Primitives, DMPs)[89]是最流行的運(yùn)動(dòng)表示形式之一,可以作為反饋控制器。DMPs對(duì)應(yīng)的原語(yǔ)是行為單位,或者說(shuō)是魯棒的吸引子系統(tǒng),其實(shí)非線性的。在算法中將運(yùn)動(dòng)學(xué)對(duì)應(yīng)的控制策略按照規(guī)則編碼為非線性微分方程組,方程組的目標(biāo)就是吸引子[90]。DMPs已成功地應(yīng)用于強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí)、以及動(dòng)作識(shí)別等領(lǐng)域。Colome等人[91]的論文則是通過(guò)降維(線性)在學(xué)習(xí)潛在關(guān)節(jié)耦合過(guò)程的同時(shí)也進(jìn)行擁有DMP特征的機(jī)器人運(yùn)動(dòng),這實(shí)際上是很有價(jià)值的研究,因?yàn)檫@樣就直接提供了這種運(yùn)動(dòng)的最直觀的數(shù)學(xué)描述。Pervez和Lee[92]的論文提出了一個(gè)將DMP中的強(qiáng)迫項(xiàng)對(duì)應(yīng)的任務(wù)參數(shù)化進(jìn)行建模的數(shù)學(xué)模型。Li等[93]對(duì)應(yīng)的論文則給出了一種基于高斯混合模型(GMM)和DMP的機(jī)器人強(qiáng)化版教學(xué)界面模型。所采集的這些動(dòng)作是通過(guò)使用深度攝像頭Kinect v2傳感器從對(duì)應(yīng)的人體演示者身上采集,采用高斯混合模型(GMM)算法進(jìn)行DMPs的計(jì)算,然后對(duì)運(yùn)動(dòng)進(jìn)行建模和泛化。Amor等[94]的論文則描述了一種基于人體動(dòng)作演示的模仿學(xué)習(xí)算法,主要是用于機(jī)器人學(xué)習(xí)和運(yùn)用人體的抓取技能。他們將人類(lèi)的抓取動(dòng)作分解為三個(gè)部分:從人的教學(xué)演示中提取有效的物體抓取策略方法,將抓取策略對(duì)應(yīng)的抓取點(diǎn)遷移到新的待抓取物體上,對(duì)抓取動(dòng)作進(jìn)行優(yōu)化。使用他們的方法可以很容易的在機(jī)器人中加入新的抓取類(lèi)型,因?yàn)橛迷撍惴ㄊ褂谜咧恍杞o出一組抓取實(shí)例。
在抓取過(guò)程中,由于空間有限以及障礙物等原因,會(huì)阻礙機(jī)器人接近目標(biāo)物體。這需要機(jī)器人與環(huán)境進(jìn)行交互。在這種需要進(jìn)行避障的抓取任務(wù)中,最常見(jiàn)的軌跡規(guī)劃方法是以抓取對(duì)象為中心建模的算法[95],它將目標(biāo)和環(huán)境分離開(kāi)來(lái)。這種方法在結(jié)構(gòu)化或半結(jié)構(gòu)化的環(huán)境中工作得很好,因?yàn)閷?duì)象被很好地分隔開(kāi)了。還有一種以障礙物為中心的方法[96],它利用動(dòng)作原語(yǔ)與多個(gè)對(duì)象進(jìn)行同步聯(lián)系。通過(guò)這種方法,機(jī)器人可以在接觸和移動(dòng)目標(biāo)的同時(shí)抓住目標(biāo),以清除所需的路徑。進(jìn)一步的,Zeng等人[97]提出了一種更為優(yōu)越的方法,其采用了無(wú)模型的深度強(qiáng)化學(xué)習(xí)策略來(lái)提取抓與推之間的關(guān)系。他們的方法中包含了兩個(gè)卷積神經(jīng)網(wǎng)絡(luò),行為動(dòng)作與視覺(jué)感知。這兩個(gè)網(wǎng)絡(luò)是在Q-learning框架下聯(lián)合訓(xùn)練的,完全是通過(guò)嘗試和錯(cuò)誤的自我監(jiān)督,成功掌握后會(huì)獲得獎(jiǎng)勵(lì)。通過(guò)仿真和真實(shí)場(chǎng)景下的抓取實(shí)驗(yàn),他們的系統(tǒng)可以快速地學(xué)習(xí)復(fù)雜的行為,在存在障礙物的情況獲得更高的抓取成功率和效率。
圖1-14 典型的軌跡規(guī)劃方法
從國(guó)內(nèi)外研究現(xiàn)狀可知,對(duì)于機(jī)器人領(lǐng)域中的特征提取、目標(biāo)識(shí)別與機(jī)器人抓取等方面均有一些熱點(diǎn)問(wèn)題需要解決。具體的,在特征提取算法方面,鑒別力、魯棒性與計(jì)算效率方面依然有提升的可能;在目標(biāo)識(shí)別與機(jī)器人抓取方面,在具有噪聲、背景干擾與分辨率變化的非結(jié)構(gòu)化環(huán)境中的識(shí)別率與抓取的精度不夠理想。各個(gè)具體問(wèn)題雖然均由大量的算法被提出,但是不少問(wèn)題依然沒(méi)有被很好的處理。每一個(gè)問(wèn)題都是三維視覺(jué)領(lǐng)域中亟待解決的熱點(diǎn),期望大家可以給出新的方法進(jìn)行解決。
責(zé)任編輯人:CC
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28565瀏覽量
207713
原文標(biāo)題:基于點(diǎn)云的機(jī)器人抓取識(shí)別綜述
文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺(jué)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論