從功能上來說,你這個應(yīng)用非常適合采用深度學(xué)習(xí),事實(shí)上,深度學(xué)習(xí)本質(zhì)上就是用來做分類識別的,尤其是針對零件與零件之間,圖像上差異比較小的時(shí)候(比如你需要自動分揀A,B,C三種零件,但其形狀差別很?。?,更加適合用深度學(xué)習(xí)。
不過深度學(xué)習(xí)也存在它的問題:
訓(xùn)練的樣本要足夠大,具體多大合適,要看你對圖像區(qū)分度的要求。如果樣本不是很充分的情況下,比如數(shù)千張或更少,其實(shí)也可以考慮用傳統(tǒng)方式,比如SVM。我用傳統(tǒng)方式做過寶馬車標(biāo),安全帽等的識別,準(zhǔn)確度相當(dāng)高了,尤其是車標(biāo)識別,接近100%準(zhǔn)確,而我只用了不到100張做訓(xùn)練,而且無論算法還是模型庫都不大,很適合做嵌入式,而且可以做到實(shí)時(shí)。
對深度學(xué)習(xí)而言,速度/性能是個很大的問題,不知道題主的機(jī)器性能如何,以及對應(yīng)的圖片分辨率,是否要實(shí)時(shí)處理?我估計(jì)題主應(yīng)該是那種實(shí)時(shí)高清識別,而且有可能是嵌入式設(shè)備,我們姑且認(rèn)為視頻是直接從本機(jī)采集,不需要做解碼,即便如此,基于深度學(xué)習(xí)的運(yùn)算量也是很高的,尤其是resnet這種,一般而言,層數(shù)越多越精準(zhǔn),運(yùn)算量也會越高。高清情況下(機(jī)器視覺應(yīng)用一般會1080P或更高),我個人認(rèn)為單張圖片的識別時(shí)間會超過1秒,很難做實(shí)時(shí)。有朋友在256核的TX1上測試過標(biāo)清的FAST RCNN,單張?zhí)幚頃r(shí)間為0.6秒左右,我本人測試過googlenet,在一臺阿里云E5的機(jī)器上(無GPU),識別一張720p的圖片,估計(jì)約0.3 - 0.5秒左右(我的應(yīng)用需要考慮網(wǎng)絡(luò)傳輸?shù)臅r(shí)間,沒打log,只是通過返回結(jié)果大致估計(jì))。無論哪種情況,離每秒25幀的實(shí)時(shí)要求都差得太遠(yuǎn)。
結(jié)論:
嵌入式設(shè)備,個人不建議用深度學(xué)習(xí),除非你能將密集運(yùn)算部分移植到FPGA上,否則性能會是個很大的問題。
高清和實(shí)時(shí)的應(yīng)用,一般而言也不建議用深度學(xué)習(xí),理由同上。
對于區(qū)分度要求很高(種類很多,很相近),非實(shí)時(shí)的應(yīng)用,基于后端或云端的業(yè)務(wù),有足夠的運(yùn)算資源。特別適合用深度學(xué)習(xí)。
能解決問題才是王道,傳統(tǒng)方式未必不可以。
強(qiáng)烈建議題主關(guān)注一下,深度學(xué)習(xí)領(lǐng)域芯片相關(guān)技術(shù)的進(jìn)展,比如谷歌的TPU,國內(nèi)的寒武紀(jì),以及輕量級框架mxnet等。
舉一個具體的實(shí)例:
深度學(xué)習(xí)應(yīng)用于工業(yè)機(jī)械臂的控制,這也是 Industry 4.0 的發(fā)展方向。
將深度學(xué)習(xí)算法應(yīng)用到工業(yè)機(jī)器人上,拿來做商品或者零件分揀,大概可以分為「分類」和「撿起」兩步:
(1) 對商品或者零件進(jìn)行「分類」
這個步驟非常適合使用深度學(xué)習(xí),因?yàn)樯疃葘W(xué)習(xí)本質(zhì)上就是用來做分類識別的。
(2) 將商品或者零件「成功撿起」
對于單個商品或者零件,要想將其成功撿起,關(guān)鍵是選擇合適的把持位置,通俗的將,就是機(jī)器人夾零件的哪個地方,可以使零件不下滑,從而成功地被撿起來。比較典型的算法,一個是採用兩階段的深度學(xué)習(xí)算法,第一階段通過小型的Neural Network,檢測出數(shù)個可以把持的位置,第二階段採用大型的Neural Network,對第一階段得到的各個把持位置候選進(jìn)行評估,選擇最終的一個把持位置。這種算法的成功率大概能達(dá)到65%。
(上圖顯示了第一個階段得到多個候選把持位置,第二階段得到最終把持位置)
另一個是結(jié)合了深度學(xué)習(xí)和Heterogeneous Learning,將把持位置的信息(width, height, x, y, θ)以及把持該位置時(shí)成功撿起零件的成功率“Graspability”用來訓(xùn)練模型,模型如下:
下圖表示的是把持位置的信息(width, height, x, y, θ)的定義,以及各把持位置對應(yīng)的Graspability Label。
下圖是Positive和Negetive教師信號的例子。
下圖是得到的最終把持位置,可以達(dá)到85%左右的成功率。
對于多個商品和零件堆積在一起的情形,除了把持位置的選擇,還需要選擇合適的抓取順序,即先抓取哪一個零件,后抓取哪一個零件,這時(shí)可以採用Reinforcement Learning算法,最終可以達(dá)到約90%的成功率,和熟練工人的水平相當(dāng)。當(dāng)然,要將這些成果大規(guī)模應(yīng)用到工業(yè)流水線上,還需要考慮到正確率要求更高(一般是99.9%),以及速度要求更快等,目前許多改進(jìn)就是圍繞滿足這兩點(diǎn)指標(biāo)來進(jìn)行的。
-
人工智能
+關(guān)注
關(guān)注
1793文章
47535瀏覽量
239363 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5511瀏覽量
121362
原文標(biāo)題:人工智能深度學(xué)習(xí)的算法可以應(yīng)用到工業(yè)的機(jī)械臂上嗎?
文章出處:【微信號:gh_599f8b397756,微信公眾號:曼哈頓計(jì)劃】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論