如今,深度學(xué)習(xí)算法的發(fā)展越來(lái)越迅速,并且在圖像處理以及目標(biāo)對(duì)象識(shí)別方面已經(jīng)得到了較為顯著的突破,無(wú)論是對(duì)檢測(cè)對(duì)象的類型判斷,亦或者對(duì)檢測(cè)對(duì)象所處方位的檢測(cè),深度學(xué)習(xí)算法都取得了遠(yuǎn)超過(guò)傳統(tǒng)機(jī)器學(xué)習(xí)算法的準(zhǔn)確率。當(dāng)前,可以機(jī)器人技術(shù)分為以下兩種學(xué)科的跨學(xué)科分支,即工程和科學(xué)。其包含計(jì)算機(jī)科學(xué)、機(jī)械工程、電子信息工程等。機(jī)器人的設(shè)計(jì)與制造和用于機(jī)器人的運(yùn)動(dòng)規(guī)劃控制、傳感器反饋和信息處理的技術(shù)系統(tǒng)在機(jī)器人鄰域都有涉及。機(jī)器人視覺(jué)也是當(dāng)下研究生的一個(gè)大熱門(mén),其包含機(jī)器人對(duì)目標(biāo)環(huán)境對(duì)象的視覺(jué)信息處理以及圖像方面的處理。從工程角度來(lái)說(shuō),他可以代替人的視覺(jué)系統(tǒng),使得機(jī)器人可以代替人們?nèi)⊥瓿梢恍└呶H蝿?wù)。
伴隨著當(dāng)前智能化社會(huì)的進(jìn)步,其次,目前計(jì)算機(jī)視覺(jué)和機(jī)器人等人工智能化的前言技術(shù)發(fā)展得到了學(xué)術(shù)界和人們廣泛的關(guān)注,并對(duì)我國(guó)工業(yè)領(lǐng)域以及社會(huì)生活產(chǎn)生了巨大的貢獻(xiàn)。目前移動(dòng)智能體的自主能力成為了當(dāng)前一個(gè)主要熱門(mén)的研究方向。移動(dòng)智能體需要能實(shí)現(xiàn)完全自主的運(yùn)動(dòng),還需要擁有對(duì)周邊環(huán)境信息的感知能力、動(dòng)態(tài)環(huán)境剖析能力以及對(duì)危險(xiǎn)環(huán)境的判斷和執(zhí)行能力。相對(duì)人類的視覺(jué)來(lái)說(shuō),目前移動(dòng)智能體的視覺(jué)判斷速度相對(duì)較慢,精確度也不高,智能體可能無(wú)法在短時(shí)間內(nèi)做出較為精準(zhǔn)的判斷。在平時(shí)生活中,人們可以從自己的所見(jiàn)的景象、視頻中,獲取目標(biāo)物體的大致信息,如物體的位置和它們的外型、大小等。這樣能使得人類通過(guò)自己的視覺(jué)顯示,反饋給自己的大腦,并快速識(shí)別鎖定所需要關(guān)注的目標(biāo),不需要過(guò)多的下意識(shí)的思考。例如,在駕駛汽車(chē)行駛時(shí),我們必須做到及時(shí)的對(duì)前方以及兩側(cè)路段進(jìn)行判斷。因此當(dāng)下針對(duì)智能體來(lái),擁有一定的自主能力,且具有速度快、精確度較高的多目標(biāo)識(shí)別算法是十分重要的,一個(gè)好的算法能提高智能體的自主能動(dòng)性,精確感知周邊環(huán)境,并結(jié)合傳感器做出及時(shí)、準(zhǔn)確的判斷,所以,當(dāng)前針對(duì)自主移動(dòng)智能體的開(kāi)發(fā),其實(shí)時(shí)性和準(zhǔn)確性也就成為了尤為重要的指標(biāo)。
智能體對(duì)目標(biāo)識(shí)別和跟蹤在工業(yè)生產(chǎn)、偵察安全防控以及人們生活中都擁有者廣泛的應(yīng)用前景,其也是機(jī)器人領(lǐng)域的重要研究方向之一。當(dāng)前,深度學(xué)習(xí)技術(shù)的飛速發(fā)展以及工業(yè)相機(jī)、激光雷達(dá)等傳感技術(shù)不斷提高,給目標(biāo)識(shí)別奠定了良好的基礎(chǔ)。本文基于深度學(xué)習(xí)方法研究了機(jī)器人的目標(biāo)識(shí)別和跟蹤進(jìn)行了研究。
1 深度學(xué)習(xí)目標(biāo)識(shí)別算法國(guó)內(nèi)外研究現(xiàn)狀
國(guó)內(nèi)對(duì)目標(biāo)識(shí)別技術(shù)的相關(guān)研究相對(duì)于西方一些國(guó)家起步較晚。上世紀(jì)八十年代,相關(guān)科研工作者提出將反向傳播算法用于神經(jīng)網(wǎng)絡(luò)中,并首次提出了卷積神經(jīng)網(wǎng)絡(luò)的概念。
隨著時(shí)代的進(jìn)步發(fā)展, Krizhevsky 等人提出了基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)目標(biāo)識(shí)別算法,該算法在著名 ImageNet 數(shù)據(jù)集上的檢測(cè)效果比第二名手工特征提取算法高了十幾個(gè)百分比,在當(dāng)時(shí)取得了最好的檢測(cè)效果。深度學(xué)習(xí)也因?yàn)?ILSVC 賽事的推動(dòng)下快速發(fā)展,通過(guò)賽事對(duì)目標(biāo)識(shí)別加以一定的要求,使得大量學(xué)者開(kāi)始使用當(dāng)下較為熱門(mén)的深度學(xué)習(xí)相關(guān)技術(shù)去對(duì)目標(biāo)識(shí)別算法進(jìn)行研究。
如今,全球有好多高校已經(jīng)專門(mén)設(shè)立了人工智能與計(jì)算機(jī)視覺(jué)研究實(shí)驗(yàn)室。并成功開(kāi)發(fā)出了許多運(yùn)用目標(biāo)識(shí)別算法的實(shí)用應(yīng)用軟件。此外,一些著名公司如微軟、微軟公司等,也開(kāi)始投入大量資金和精力,進(jìn)行智能識(shí)別的相關(guān)研究,使得目標(biāo)識(shí)別算法逐步開(kāi)始在工業(yè)生產(chǎn)中應(yīng)用起來(lái)。
國(guó)內(nèi)在目標(biāo)識(shí)別技術(shù)和深度學(xué)習(xí)研究比國(guó)外起步較晚,但近些年發(fā)展的勢(shì)頭卻很迅猛。近年來(lái),在一大批優(yōu)秀科研技術(shù)人員的努力下,取得了很多豐碩的成果。涌現(xiàn)出了一大批相關(guān)產(chǎn)業(yè)的科技公司,如大疆、科大訊飛等。
2 機(jī)器人視覺(jué)國(guó)內(nèi)外研究現(xiàn)狀
機(jī)器視覺(jué)技術(shù)的產(chǎn)生最早是在歐美及日本等國(guó)家,最早的一批較為有名的機(jī)器視覺(jué)相關(guān)產(chǎn)業(yè)公司也在這些國(guó)家,如光源供應(yīng)商日本 Moritex、鏡頭廠家美國(guó) Navitar、德國(guó) Schneider等。不難發(fā)現(xiàn),對(duì)于上個(gè)世紀(jì)歐美等較發(fā)達(dá)國(guó)家在該技術(shù)上有一個(gè)較為超前的地位。
一直到上世紀(jì)九十年代初,我國(guó)也開(kāi)始涌現(xiàn)出不少與視覺(jué)技術(shù)相關(guān)的公司,其覆蓋了很多工業(yè)及生活領(lǐng)域,如車(chē)牌自動(dòng)識(shí)別、材料表面缺陷檢測(cè)等。但是由于生產(chǎn)的產(chǎn)品本存在一定的問(wèn)題且市場(chǎng)需求較小。一直到九八年開(kāi)始,我國(guó)的機(jī)器視覺(jué)技術(shù)才得到了重視。進(jìn)入新世紀(jì)以后,國(guó)內(nèi)很多企業(yè)開(kāi)始有針對(duì)性的針對(duì)當(dāng)下需求來(lái)確定所需要的機(jī)器視覺(jué)技術(shù)方案,并自主研發(fā)相關(guān)科研技術(shù)。近年來(lái),由于政府的大力支持引導(dǎo),我國(guó)的機(jī)器視覺(jué)行業(yè)得到了空前的發(fā)展。
3 目標(biāo)識(shí)別與跟蹤技術(shù)的發(fā)展
1深度學(xué)習(xí)主流算法結(jié)構(gòu)
1.1卷積神經(jīng)網(wǎng)絡(luò)
在21世紀(jì)初期,卷積神經(jīng)網(wǎng)絡(luò)主要應(yīng)用于任務(wù)分配以及視覺(jué)識(shí)別。圖像分類是機(jī)器中類別的問(wèn)題用以提取特征以及辨別圖像。新型的CNN 神經(jīng)網(wǎng)絡(luò)架構(gòu)表現(xiàn)出以多個(gè)網(wǎng)絡(luò)或多種網(wǎng)絡(luò)級(jí)聯(lián)組合應(yīng)用的新態(tài)勢(shì),神經(jīng)網(wǎng)絡(luò)形態(tài)的快速進(jìn)化為紛繁復(fù)雜的科研領(lǐng)域提供了智能高效的數(shù)據(jù)分析手段。卷積神經(jīng)網(wǎng)絡(luò)(CNN) 算法是用于識(shí)別和分類圖像等高維數(shù)據(jù)的新興技術(shù),具有相對(duì)較低的計(jì)算成本和較高的準(zhǔn)確性。CNN 的隱藏層是卷積層和池化層。這些層可以提取圖像的潛在特征,并通過(guò)訓(xùn)練映射輸入圖像和輸出類別之間的函數(shù)關(guān)系。也就是說(shuō),這些層可以從人工分類中學(xué)習(xí)分類標(biāo)準(zhǔn)。
1.2RBM (受限玻爾茲曼機(jī))
在過(guò)去十年中,RBM 的理論和應(yīng)用得到了廣泛的研究。以圖像處理為例,原來(lái)的 RBM 只適用于處理二值圖像。為了處理真實(shí)圖像,提出了一系列 RBM 變體,如高斯二進(jìn)制 RBM(GRBM)、協(xié)方差 RBM(cRBM)、均值和協(xié)方差 RBM (mcRBM) 和尖峰板 RBM (ssRBM)。受限玻爾茲曼機(jī) (RBM) 是具有二分交互作用的概率圖模型,這些模型的一個(gè)特征是觀察到的單位給定隱藏單元的狀態(tài),它們是獨(dú)立的,反之亦然。這是由于交互圖的二部性,并且不依賴于單元的狀態(tài)空間。通常RBM 是用二進(jìn)制單位定義的,但也考慮了其他類型的單位,包括連續(xù)、離散和混合類型單位。
1.3 AE (自動(dòng)編碼器)
自編碼器是一類人工神經(jīng)網(wǎng)絡(luò),由編碼器和解碼器這兩個(gè)主要組件組成。編碼器是一組神經(jīng)層,將其輸入的原始維度限制為一個(gè)更小的維度,稱為潛在空間。解碼器是一組層,其目的是將潛在空間擴(kuò)展回輸入的原始維度。自動(dòng)編碼器通常使用反向傳播算法進(jìn)行訓(xùn)練,其中所需的輸出與輸入相同,這使其成為一種無(wú)監(jiān)督學(xué)習(xí)方法。
1.4RNN (循環(huán)神經(jīng)網(wǎng)絡(luò))
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN) 對(duì)于處理數(shù)據(jù)的順序性質(zhì)至關(guān)重要,其中時(shí)間序列類型的數(shù)據(jù)就是一個(gè)典型示例。RNN 具有一種具有循環(huán)連接的神經(jīng)元。這些連接用作內(nèi)存,使 RNN 能夠從順序數(shù)據(jù)中學(xué)習(xí)時(shí)間動(dòng)態(tài)性。目前,LSTM神經(jīng)網(wǎng)絡(luò)模型在人類活動(dòng)識(shí)別方面表現(xiàn)出最先進(jìn)的性能。
2目標(biāo)識(shí)別算法模型
Wenling Xue等學(xué)者為了減少不同天氣條件的影響,提出了一種新方法GMM來(lái)模擬包含不同天氣數(shù)據(jù)的目標(biāo)。高斯分量密度的加權(quán)和可用于表示 GMM,GMM是參數(shù)概率密度函數(shù)。GMM可用于在不同天氣條件下擬合目標(biāo)的特性;功能數(shù)量越多,系統(tǒng)性能越高。為了估計(jì)GMM參數(shù),使用訓(xùn)練有素的先前模型和訓(xùn)練數(shù)據(jù)。GMM是圍繞用于檢測(cè)的最佳似然比測(cè)試構(gòu)建的,使用簡(jiǎn)單但有效的貝葉斯適應(yīng)模型來(lái)推導(dǎo)天氣影響。與SVM相比,GMM的識(shí)別率提高了。但存在著如何選擇正確的閾值以及如何對(duì)背景噪聲進(jìn)行建模以提高識(shí)別率等問(wèn)題。Fan Zhang等學(xué)者提出一種改進(jìn)的YOLO深度學(xué)習(xí)模型,自動(dòng)識(shí)別玉米葉片的氣孔,并采用熵率超像素算法對(duì)氣孔參數(shù)進(jìn)行精確測(cè)量。根據(jù)氣孔圖像數(shù)據(jù)集的特點(diǎn),對(duì)YOLOv5的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了修改,在不影響識(shí)別性能的情況下,大大縮短了訓(xùn)練時(shí)間。優(yōu)化YOLO深度學(xué)習(xí)模型中的預(yù)測(cè)因子,降低了誤檢率。同時(shí),根據(jù)氣孔物體的特點(diǎn),對(duì)16倍和32倍的下采樣層進(jìn)行了簡(jiǎn)化,提高了識(shí)別效率。實(shí)驗(yàn)表明該方法快速可靠。Hui Zeng等學(xué)者對(duì)非結(jié)構(gòu)化網(wǎng)絡(luò)物理系統(tǒng)環(huán)境交際機(jī)器人多模態(tài)感知模型進(jìn)行構(gòu)建。改進(jìn)的PSOBT-SVM 在不改變SVM分類器數(shù)量的情況下優(yōu)化了分類精度,并證明了其在多模態(tài)觸覺(jué)信號(hào)分類方面的準(zhǔn)確性。
3目標(biāo)識(shí)別和跟蹤技術(shù)
運(yùn)動(dòng)物體檢測(cè)是識(shí)別給定區(qū)域或區(qū)域中物體的物理運(yùn)動(dòng)的任務(wù)。在過(guò)去的幾年中,移動(dòng)物體檢測(cè)因其廣泛的應(yīng)用而受到廣泛關(guān)注,如視頻監(jiān)控、人體運(yùn)動(dòng)分析、機(jī)器人導(dǎo)航、事件檢測(cè)、異常檢測(cè)、視頻會(huì)議、交通分析和安全。此外,運(yùn)動(dòng)目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)和視頻處理領(lǐng)域非常重要和有效的研究課題,因?yàn)樗且曨l目標(biāo)分類和視頻跟蹤活動(dòng)等許多復(fù)雜過(guò)程的關(guān)鍵步驟。因此,從給定的視頻幀序列中識(shí)別移動(dòng)對(duì)象的實(shí)際形狀變得相關(guān)。然而,由于動(dòng)態(tài)場(chǎng)景變化、光照變化、陰影的存在、偽裝和引導(dǎo)問(wèn)題等各種挑戰(zhàn),檢測(cè)運(yùn)動(dòng)中物體的實(shí)際形狀的任務(wù)變得很棘手。幀間差分法是檢測(cè)運(yùn)動(dòng)物體最常用的方法,它分別找到當(dāng)前幀和前一個(gè)連續(xù)幀以及當(dāng)前幀和下一個(gè)連續(xù)幀之間的差異,然后,該算法選擇兩個(gè)不同幀之間的最大像素強(qiáng)度值,接下來(lái),將得到的差異幀劃分為不重疊的塊,并計(jì)算每個(gè)塊的強(qiáng)度總和和平均值,隨后,它使用閾值和強(qiáng)度平均值找到每個(gè)塊的前景和背景像素。
幀間差分方法的缺點(diǎn)是在目標(biāo)細(xì)節(jié)識(shí)別中比較粗糙。傳統(tǒng)的幀間差分方法對(duì)閾值的選擇范圍要求較高。如果閾值不合理,則檢測(cè)效果不理想,輪廓不清晰、破損。然而,幀間差分算法相對(duì)簡(jiǎn)單、速度快、易于硬件實(shí)現(xiàn),能夠適應(yīng)實(shí)時(shí)性要求高的應(yīng)用環(huán)境。因此,該算法具有很強(qiáng)的實(shí)用性。
可以在幀間差分算法的基礎(chǔ)上提出一種優(yōu)化改進(jìn)的目標(biāo)檢測(cè)與跟蹤算法,構(gòu)建兩次區(qū)域限定與Kalman濾波算法融合的檢測(cè)方法。該算法能夠迅速、準(zhǔn)確地提取目標(biāo)區(qū)域,且對(duì)目標(biāo)位置具有較高的可預(yù)測(cè)性。
4 基于深度學(xué)習(xí)的機(jī)器人目標(biāo)識(shí)別和發(fā)展趨勢(shì)
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)、深度學(xué)習(xí)、人工智能等。它是更復(fù)雜的計(jì)算機(jī)視覺(jué)任務(wù)的重要前提,例如目標(biāo)跟蹤、事件檢測(cè)、行為分析和場(chǎng)景語(yǔ)義理解。它旨在定位從圖像中提取感興趣目標(biāo),準(zhǔn)確確定類別并給出每個(gè)目標(biāo)的邊界框目標(biāo)。已廣泛應(yīng)用于汽車(chē)自動(dòng)駕駛、視頻圖像檢索、智能視頻監(jiān)控、醫(yī)學(xué)圖像分析、工業(yè)檢測(cè)等領(lǐng)域。傳統(tǒng)的人工提取特征檢測(cè)算法主要包括預(yù)處理、窗口滑動(dòng)、特征提取、特征選擇、特征分類和后處理六個(gè)步驟,一般針對(duì)特的識(shí)別任務(wù)。它的缺點(diǎn)主要是數(shù)據(jù)量小,可移植性差,沒(méi)有針對(duì)性,時(shí)間復(fù)雜度高,窗口冗余,對(duì)多樣性沒(méi)有魯棒性變化,只有在特定的簡(jiǎn)單環(huán)境下才有良好的性能。目標(biāo)檢測(cè)作為計(jì)算機(jī)視覺(jué)中最基本和最具挑戰(zhàn)性的問(wèn)題之一近年來(lái)備受關(guān)注。基于深度學(xué)習(xí)的檢測(cè)算法已被廣泛應(yīng)用在很多領(lǐng)域,但深度學(xué)習(xí)還有一些問(wèn)題有待探索:
減少對(duì)數(shù)據(jù)的依賴。
實(shí)現(xiàn)小物體的高效檢測(cè)。
多類別目標(biāo)檢測(cè)的實(shí)現(xiàn)。
現(xiàn)如今隨著科學(xué)技術(shù)的進(jìn)步,以前很多機(jī)器視覺(jué)領(lǐng)域的技術(shù)都得到了長(zhǎng)足的發(fā)展,但是在某些方面還是存在著一定的不足。比如說(shuō)機(jī)器人的目標(biāo)識(shí)別方面:機(jī)器人在對(duì)物體進(jìn)行識(shí)別時(shí),大目標(biāo)通常都能正常檢測(cè)出來(lái),但是對(duì)于小目標(biāo)受限于目標(biāo)大小和周?chē)h(huán)境影響等等會(huì)出現(xiàn)漏檢等情況。在目標(biāo)跟蹤方面
專門(mén)應(yīng)用于目標(biāo)跟蹤任務(wù)的訓(xùn)練集較少,無(wú)法適應(yīng)當(dāng)前多變的跟蹤環(huán)境,完成訓(xùn)練任務(wù)。
當(dāng)前的訓(xùn)練模型受限于目標(biāo)的遮擋、外觀的強(qiáng)烈變化等等問(wèn)題,使得算法無(wú)法實(shí)現(xiàn)長(zhǎng)時(shí)間的精確跟蹤。除此以外跟蹤時(shí),由于受到外界因素影響,可能會(huì)有一些相似對(duì)象,從而使得跟蹤出現(xiàn)錯(cuò)誤。
但是我相信經(jīng)過(guò)人們對(duì)于機(jī)器視覺(jué)領(lǐng)域的不斷研究,未來(lái)會(huì)有越來(lái)越多的基于深度學(xué)習(xí)的方法去優(yōu)化目標(biāo)跟蹤任務(wù)中出現(xiàn)的一系列情況,比如說(shuō)采用大規(guī)模視頻數(shù)據(jù)的數(shù)據(jù)集進(jìn)行離線訓(xùn)練等等,在目標(biāo)識(shí)別領(lǐng)域未來(lái)也將會(huì)降低環(huán)境對(duì)檢測(cè)的影響能更加精準(zhǔn)的檢測(cè)各種大小的目標(biāo),并且最終將兩種技術(shù)更好的結(jié)合在一起應(yīng)用到機(jī)器人技術(shù)應(yīng)用的各個(gè)方面。
審核編輯:湯梓紅
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28445瀏覽量
207224 -
目標(biāo)識(shí)別
+關(guān)注
關(guān)注
0文章
41瀏覽量
10445 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5503瀏覽量
121206
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論