姿態(tài)估計的目標是在RGB圖像或視頻中描繪出人體的形狀,這是一種多方面任務,其中包含了目標檢測、姿態(tài)估計、分割等等。
有些需要在非水平表面進行定位的應用可能也會用到姿態(tài)估計,例如圖形、增強現(xiàn)實或者人機交互。姿態(tài)估計同樣包含許多基于3D物體的辨認。
在這篇文章中,Model Zoo的作者匯總了幾種開源的深度學習模型以及針對姿態(tài)估計的代碼,論智對其進行了編譯,如有遺漏請在評論中補充。
DensePose
創(chuàng)作這篇文章的初衷就來源于Facebook研究所的DensePose,上周,F(xiàn)acebook公布了這一框架的代碼、模型和數(shù)據(jù)集,同時發(fā)布了DensePose-COCO,這是一個為了估計人類姿態(tài)的大型真實數(shù)據(jù)集,其中包括了對5萬張COCO圖像手動標注的由圖像到表面的對應。這對深度學習研究者來說是非常詳細的資源,它對姿態(tài)估計、身體部位分割等任務提供了良好的數(shù)據(jù)源。
DensePose的論文中提出了DensePose-RCNN,這是Mask-RCNN的一種變體,可以以每秒多幀的速度在每個人體區(qū)域內(nèi)密集地回歸特定部位的UV坐標。它基于一種能將圖像像素通過卷積網(wǎng)絡映射到密集網(wǎng)格的系統(tǒng)——DenseReg。模型的目標是決定每個像素在表面的位置以及它所在部分相對應的2D參數(shù)。
DensePose借用了Mask-RCNN的架構(gòu),同時帶有Feature Pyramid Network(FPN)的特征,以及ROI-Align池化。除此之外,他們在ROI池化的頂層搭建了一個全卷積網(wǎng)絡。想了解DensePose更多的技術(shù)細節(jié),請閱讀原論文。
論文地址:https://arxiv.org/abs/1802.00434
GitHub地址:https://github.com/facebookresearch/Densepose
數(shù)據(jù)集地址:https://github.com/facebookresearch/DensePose/blob/master/INSTALL.md#fetch-densepose-data
OpenPose
OpenPose是由卡內(nèi)基梅隆大學認知計算研究室提出的一種對多人身體、面部和手部形態(tài)進行實時估計的框架。
OpenPose同時提供2D和3D的多人關(guān)鍵點檢測,同時還有針對估計具體區(qū)域參數(shù)的校準工具箱。OpenPose可接受的輸入有很多種,可以是圖片、視頻、網(wǎng)絡攝像頭等。同樣,它的輸出也是多種多樣,可以是PNG、JPG、AVI,也可以是JSON、XML和YML。輸入和輸出的參數(shù)同樣可以針對不同需要進行調(diào)整。
OpenPose提供C++API,以及可以在CPU和GPU上工作(包括可與AMD顯卡兼容的版本)。
GitHub地址:https://github.com/CMU-Perceptual-Computing-Lab/openpose
數(shù)據(jù)集地址:http://domedb.perception.cs.cmu.edu/
Realtime Multi-Person Pose Estimation
這一模型和上面的OpenPose高度相關(guān),同時特征模型能與多種框架相關(guān)聯(lián)。論文的作者提供了一種自下而上的方法,對多人的姿態(tài)進行實時估計,不需要用任何人物探測器。
這種方法運用了一種非參數(shù)表示,我們稱為Part Affinity Fields(PAFs),用它可以學習將圖中人物和其身體部位聯(lián)系到一起。有關(guān)該技術(shù)的具體細節(jié)和理論,可以閱讀原文。
另外,這一方法最棒的特征之一就是它可以在多種不同的框架中實現(xiàn),針對不同框架,已經(jīng)公開了相關(guān)代碼和模型:
OpenPose C++:https://github.com/CMU-Perceptual-Computing-Lab/openpose
TensorFlow:https://github.com/ZheC/RealtimeMulti-PersonPose_Estimation
Keras(1):https://modelzoo.co/model/keras-realtime-multi-person-pose-estimation
Keras(2):https://github.com/michalfaber/kerasRealtimeMulti-PersonPoseEstimation
PyTorch(1):https://github.com/tensorboy/pytorchRealtimeMulti-PersonPoseEstimation
PyTorch(2):https://github.com/DavexPro/pytorch-pose-estimation
PyTorch(3):https://github.com/MVIG-SJTU/AlphaPose/tree/pytorch
MXNet:https://github.com/dragonfly90/mxnetRealtimeMulti-PersonPoseEstimation
論文地址:https://arxiv.org/abs/1611.08050
GitHub地址:https://github.com/ZheC/RealtimeMulti-PersonPose_Estimation
AlphaPose
AlphaPose是一款精準的多人姿態(tài)評估工具,并聲稱是第一款開源系統(tǒng)。AlphaPose既可以在圖片、視頻或多圖中進行姿態(tài)估計,也能在畫面中對動作進行追蹤。它的輸出形式非常廣泛,包括PNG、JPG和AVI等具有關(guān)鍵點的圖片形式,也有JSON格式的輸出,這一特點也使其成為眾多應用受歡迎的工具。
目前,這一工具支持TensorFlow和PyTorch兩種實現(xiàn)。AlphaPose利用一種區(qū)域性的多人動作估計框架將不精準的人類邊界框該進程精確的動作估計。這里有三種元素:對稱空間轉(zhuǎn)換網(wǎng)絡(SSTN)、參數(shù)化姿態(tài)非極大抑制(NMS)以及姿態(tài)導向的生成器(PGPG)。更多技術(shù)細節(jié)請查看原論文。
論文地址:https://arxiv.org/abs/1612.00137
GitHub地址:https://github.com/MVIG-SJTU/AlphaPose
Human Body Pose Estimation
該模型利用MPII人類姿勢數(shù)據(jù)集進行訓練,這是一個內(nèi)容十分豐富的數(shù)據(jù)集,專門針對人類姿態(tài)估計。目前只有TensorFlow的實現(xiàn)。
這項研究將人類姿態(tài)估計的任務應用到真實的圖片中,他們的方法既解決了動作識別,也能進行估計,與之前先檢測人類動作在對此進行推測的技術(shù)有所區(qū)分。在實施過程中用到了基于CNN的探測器和整數(shù)線性規(guī)劃法。
ArtTracker論文:https://arxiv.org/abs/1612.01465
DeeperCut論文:https://arxiv.org/abs/1605.03170
網(wǎng)站地址:http://pose.mpi-inf.mpg.de/
GitHub地址:https://github.com/eldar/pose-tensorflow
DeepPose
相比于前面幾種方法來說,DeepPose算是比較“古老”的了,論文發(fā)布與2014年,提出了一種基于深度神經(jīng)網(wǎng)絡的姿態(tài)估計方法,是基于DNN向身體關(guān)節(jié)回歸的問題。它以一種整體的方式估計姿態(tài),并且表述起來非常簡潔強大。
目前網(wǎng)上還沒有官方實現(xiàn)過程。但是有人做出了復現(xiàn)結(jié)果:
Chainer:https://github.com/mitmul/deeppose
TensorFlow:https://github.com/asanakoy/deeppose_tf
DeepPose是第一個將深度學習應用到人類姿態(tài)估計上的應用,并且取得了當時頂尖的結(jié)果,成為了其他方法的baseline。
論文地址:https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/42237.pdf
小結(jié)
姿態(tài)估計是計算機視覺領(lǐng)域一個非常熱門的話題,F(xiàn)acebook最近發(fā)布的DensePose讓人越來越多地關(guān)注這個問題。進行姿態(tài)估計有很多方法,現(xiàn)有的資源一定可以對你有所啟發(fā)。如果你有其他的好方法,請在下面留言分享!
-
代碼
+關(guān)注
關(guān)注
30文章
4807瀏覽量
68800 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24747 -
深度學習
+關(guān)注
關(guān)注
73文章
5509瀏覽量
121325
原文標題:六種人體姿態(tài)估計的深度學習模型和代碼總結(jié)
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論