卧槽福利无码电影,素人大屁股午夜激情经典,国产在线精品免费一区

導(dǎo) 讀

本文是對(duì)發(fā)表于計(jì)算機(jī)視覺(jué)領(lǐng)域頂級(jí)會(huì)議 ICCV 2023 的論文MotionBERT: A Unified Perspective on Learning Human Motion Representations的解讀。該論文由北京大學(xué)王亦洲課題組與上海人工智能實(shí)驗(yàn)室合作完成。

這項(xiàng)工作提出了一個(gè)統(tǒng)一的視角，從大規(guī)模、多樣化的數(shù)據(jù)中學(xué)習(xí)人體運(yùn)動(dòng)的通用表征，進(jìn)而以一個(gè)統(tǒng)一的范式完成各種以人為中心的下游視頻任務(wù)。實(shí)驗(yàn)表明提出的框架在三維人體姿態(tài)估計(jì)、動(dòng)作識(shí)別、人體網(wǎng)格重建等多個(gè)下游任務(wù)上均能帶來(lái)顯著提升，并達(dá)到現(xiàn)有最佳的表現(xiàn)。

圖1. 以統(tǒng)一的范式完成各種以人為中心的視頻任務(wù)

背景介紹

感知和理解人類活動(dòng)一直是機(jī)器智能的核心追求。為此，研究者們定義了各種任務(wù)來(lái)從視頻中估計(jì)人體運(yùn)動(dòng)的語(yǔ)義標(biāo)簽，例如骨骼關(guān)鍵點(diǎn)、行為類別、三維表面網(wǎng)格等。盡管現(xiàn)有的工作在這些任務(wù)上已經(jīng)取得了顯著的進(jìn)步，但它們往往被建模為孤立的任務(wù)。理想情況下，我們可以構(gòu)建一個(gè)統(tǒng)一的以人為中心的運(yùn)動(dòng)表征，其可以在所有相關(guān)的下游任務(wù)中共享。

構(gòu)建這種表征的一個(gè)重要挑戰(zhàn)是人體運(yùn)動(dòng)數(shù)據(jù)資源的異質(zhì)性。運(yùn)動(dòng)捕捉（MoCap）系統(tǒng)提供了基于標(biāo)記和傳感器的高精度 3D 運(yùn)動(dòng)數(shù)據(jù)，但其內(nèi)容通常被限制在簡(jiǎn)單的室內(nèi)場(chǎng)景。動(dòng)作識(shí)別數(shù)據(jù)集提供了動(dòng)作語(yǔ)義的標(biāo)注，但它們要么不包含人體姿態(tài)標(biāo)簽，要么只有日?；顒?dòng)的有限動(dòng)作類別。具備外觀和動(dòng)作多樣性的非受限人類視頻可以從互聯(lián)網(wǎng)大量獲取，但獲取精確的姿勢(shì)標(biāo)注需要額外的努力，且獲取準(zhǔn)確真實(shí)（GT）的三維人體姿態(tài)幾乎是不可能的。因此，大多數(shù)現(xiàn)有的研究都致力于使用單一類型的人體運(yùn)動(dòng)數(shù)據(jù)解決某一特定任務(wù)，而無(wú)法受益于其他數(shù)據(jù)資源的特性。

在這項(xiàng)工作中，我們提供了一個(gè)新的視角來(lái)學(xué)習(xí)人體運(yùn)動(dòng)表征。關(guān)鍵的想法是，我們可以以統(tǒng)一的方式從多樣化的數(shù)據(jù)來(lái)源中學(xué)習(xí)多功能的人體運(yùn)動(dòng)表征，并利用這種表征以統(tǒng)一的范式處理不同的下游任務(wù)。

方法概覽

圖2. 框架概覽

我們提出了一個(gè)包括預(yù)訓(xùn)練和微調(diào)兩個(gè)階段的框架，如圖2所示。在預(yù)訓(xùn)練階段，我們從多樣化的運(yùn)動(dòng)數(shù)據(jù)源中提取 2D 關(guān)鍵點(diǎn)序列，并添加隨機(jī)掩碼和噪聲。隨后，我們訓(xùn)練運(yùn)動(dòng)編碼器從損壞的 2D 關(guān)鍵點(diǎn)中恢復(fù) 3D 運(yùn)動(dòng)。這個(gè)具有挑戰(zhàn)性的代理任務(wù)本質(zhì)上要求運(yùn)動(dòng)編碼器（i）從時(shí)序運(yùn)動(dòng)中推斷出潛在的 3D 人體結(jié)構(gòu)；（ii）恢復(fù)錯(cuò)誤和缺失的數(shù)據(jù)。通過(guò)這種方式，運(yùn)動(dòng)編碼器隱式地學(xué)習(xí)到人體運(yùn)動(dòng)的常識(shí)，如關(guān)節(jié)拓?fù)?，生理限制和時(shí)間動(dòng)態(tài)。在實(shí)踐中，我們提出雙流空間-時(shí)間變換器（DSTf ormer）作為運(yùn)動(dòng)編碼器來(lái)捕獲骨骼關(guān)鍵點(diǎn)之間的長(zhǎng)距離關(guān)系。我們假設(shè)，從大規(guī)模和多樣化的數(shù)據(jù)資源中學(xué)習(xí)到的運(yùn)動(dòng)表征可以在不同的下游任務(wù)之間共享，并有利于它們的性能。因此，對(duì)于每個(gè)下游任務(wù)，我們僅需要微調(diào)預(yù)訓(xùn)練的運(yùn)動(dòng)表征以及一個(gè)簡(jiǎn)單的回歸頭網(wǎng)絡(luò)（1-2層 MLP）。

在設(shè)計(jì)統(tǒng)一的預(yù)訓(xùn)練框架時(shí)，我們面臨兩個(gè)關(guān)鍵挑戰(zhàn)：

如何構(gòu)建合適的代理任務(wù)（pretext task）學(xué)習(xí)的運(yùn)動(dòng)表征。

如何使用大規(guī)模但異質(zhì)的人體運(yùn)動(dòng)數(shù)據(jù)。

針對(duì)第一個(gè)挑戰(zhàn)，我們遵循了語(yǔ)言和視覺(jué)建模的成功實(shí)踐[1]來(lái)構(gòu)建監(jiān)督信號(hào)，即遮蔽輸入的一部分，并使用編碼的表征來(lái)重構(gòu)整個(gè)輸入。我們注意到這種“完形填空”任務(wù)在人體運(yùn)動(dòng)分析中自然存在，即從 2D 視覺(jué)觀察中恢復(fù)丟失的深度信息，也就是 3D 人體姿態(tài)估計(jì)。受此啟發(fā)，我們利用大規(guī)模的 3D 運(yùn)動(dòng)捕捉數(shù)據(jù)[2]，設(shè)計(jì)了一個(gè) 2D 至 3D 提升（2D-to-3D lifting）的代理任務(wù)。我們首先通過(guò)正交投影 3D 運(yùn)動(dòng)來(lái)提取 2D 骨架序列 x。然后，我們通過(guò)隨機(jī)遮蔽和添加噪聲來(lái)破壞 x，從而產(chǎn)生破壞的 2D 骨架序列，這也類似于 2D 檢測(cè)結(jié)果，因?yàn)樗趽?、檢測(cè)失敗和錯(cuò)誤。在此之后，我們使用運(yùn)動(dòng)編碼器來(lái)獲得運(yùn)動(dòng)表征并重建 3D 運(yùn)動(dòng)。

對(duì)于第二個(gè)挑戰(zhàn)，我們注意到 2D 骨架可以作為一種通用的中介，因?yàn)樗鼈兛梢詮母鞣N運(yùn)動(dòng)數(shù)據(jù)源中提取。因此，可以進(jìn)一步將 RGB 視頻納入到 2D 到 3D 提升框架以進(jìn)行統(tǒng)一訓(xùn)練。對(duì)于 RGB 視頻，2D 骨架可以通過(guò)手動(dòng)標(biāo)注或 2D 姿態(tài)估計(jì)器給出。由于這一部分?jǐn)?shù)據(jù)缺少三維姿態(tài)真值（GT），我們使用加權(quán)的二維重投影誤差作為監(jiān)督。

圖3. DSTformer 網(wǎng)絡(luò)結(jié)構(gòu)

在運(yùn)動(dòng)編碼器的具體實(shí)現(xiàn)上，我們根據(jù)以下原則設(shè)計(jì)了一個(gè)雙流時(shí)空變換器（DSTformer）網(wǎng)絡(luò)結(jié)構(gòu)（如圖3所示）：

兩個(gè)流都有綜合建模時(shí)空上下文信息的能力。

兩個(gè)流側(cè)重不同方面的時(shí)空特征。

將兩個(gè)流融合在一起時(shí)根據(jù)輸入的時(shí)空特征動(dòng)態(tài)平衡融合權(quán)重。

實(shí)驗(yàn)結(jié)論

我們?cè)谌齻€(gè)下游任務(wù)上進(jìn)行了定性和定量的評(píng)估，所提出的方法均取得了最佳表現(xiàn)。

圖4. 效果展示

表1. 三維人體姿態(tài)估計(jì)的定量評(píng)估。數(shù)字代表 Human3.6M 上的平均關(guān)節(jié)誤差 MPJPE（mm）。（上）使用檢測(cè)到的 2D 姿態(tài)序列作為輸入。（下）使用真值（GT）2D 姿態(tài)序列作為輸入。

對(duì)于三維人體姿態(tài)估計(jì)任務(wù)，我們?cè)?Human3.6M[3]上進(jìn)行了定量測(cè)試。如表1所示，本文的兩個(gè)模型都優(yōu)于最先進(jìn)的方法。所提出的預(yù)訓(xùn)練運(yùn)動(dòng)表征額外降低了誤差，這證明了在廣泛而多樣的人體運(yùn)動(dòng)數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練的好處。

表2. 基于骨架的動(dòng)作識(shí)別準(zhǔn)確度的定量評(píng)估。（左）NTU-RGB+D 上的跨角色（X-Sub）和跨視角（X-View）識(shí)別準(zhǔn)確度。（右）NTU-RGB+D-120 上的單樣本學(xué)習(xí)識(shí)別精度。所有結(jié)果都是第一選項(xiàng)準(zhǔn)確度（%）。

對(duì)于基于骨架的動(dòng)作識(shí)別任務(wù)，我們?cè)?NTU-RGB+D[4]和 NTU-RGB+D-120[5]上進(jìn)行了定量測(cè)試。在完全監(jiān)督的場(chǎng)景下本文的方法與最先進(jìn)的方法相當(dāng)或更好，如表2（左）所示。值得注意的是，預(yù)訓(xùn)練階段帶來(lái)了很大的性能提升。此外，本文研究了可用于未見(jiàn)動(dòng)作和稀缺標(biāo)簽的單樣本學(xué)習(xí)設(shè)置。表2（右）說(shuō)明所提出的模型大幅度優(yōu)于此前最佳的模型。值得注意的是，預(yù)訓(xùn)練運(yùn)動(dòng)表征只需1-2輪微調(diào)即可達(dá)到最佳性能。

表3. 人體表面網(wǎng)格重建的定量評(píng)估。數(shù)字代表平均三維位置誤差（mm）。

對(duì)于人體表面網(wǎng)格重建任務(wù)，我們?cè)?Human3.6M[3] 和 3DPW[6]數(shù)據(jù)集上進(jìn)行了定量測(cè)試。本文的模型超過(guò)了此前所有基于視頻的方法。此外，所提出的預(yù)訓(xùn)練運(yùn)動(dòng)表征可以和 RGB 圖像的方法相結(jié)合并進(jìn)一步改善其表現(xiàn)。

圖5. 在三個(gè)下游任務(wù)上隨機(jī)初始化訓(xùn)練和微調(diào)預(yù)訓(xùn)練運(yùn)動(dòng)表征的學(xué)習(xí)曲線對(duì)比。

我們還比較了微調(diào)預(yù)訓(xùn)練運(yùn)動(dòng)表征和隨機(jī)初始化訓(xùn)練模型的訓(xùn)練過(guò)程。如圖5所示，使用預(yù)訓(xùn)練運(yùn)動(dòng)表征的模型在所有三個(gè)下游任務(wù)上都具有更好的性能和更快的收斂速度。這表明該模型在預(yù)訓(xùn)練期間學(xué)習(xí)了關(guān)于人體運(yùn)動(dòng)的可遷移知識(shí)，有助于多個(gè)下游任務(wù)的學(xué)習(xí)。

總結(jié)

在這項(xiàng)工作中，我們提出了：

一個(gè)統(tǒng)一的視角以解決各種以人為中心的視頻任務(wù)。

一個(gè)預(yù)訓(xùn)練框架以從大規(guī)模和多樣化的數(shù)據(jù)源中學(xué)習(xí)人體運(yùn)動(dòng)表征。

一個(gè)通用的人體運(yùn)動(dòng)編碼器 DSTformer 以全面建模人體運(yùn)動(dòng)的時(shí)空特征。

在多個(gè)基準(zhǔn)測(cè)試上的實(shí)驗(yàn)結(jié)果證明了學(xué)習(xí)到的運(yùn)動(dòng)表征的多功能性。未來(lái)的研究工作可以探索將學(xué)習(xí)到的運(yùn)動(dòng)表征作為一種以人為中心的語(yǔ)義特征與通用視頻架構(gòu)融合，并應(yīng)用到更多視頻任務(wù)（例如動(dòng)作評(píng)價(jià)、動(dòng)作分割等）。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

編碼器

編碼器

+關(guān)注

關(guān)注
45

文章
3646

瀏覽量
134657
模型

模型

+關(guān)注

關(guān)注
1

文章
3254

瀏覽量
48881
數(shù)據(jù)源

數(shù)據(jù)源

+關(guān)注

關(guān)注
1

文章
63

瀏覽量
9691

原文標(biāo)題：ICCV 2023 | 北大提出MotionBERT：人體運(yùn)動(dòng)表征學(xué)習(xí)的統(tǒng)一視角

文章出處：【微信號(hào)：CVer，微信公眾號(hào)：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

多站低頻雷達(dá)運(yùn)動(dòng)人體微多普勒特征提取與跟蹤技術(shù)【論文干貨】

多普勒分析方法在葉簇穿透環(huán)境下不能得到高質(zhì)量的慢時(shí)間-多普勒譜（Slow Time-Doppler Spectrogram，STDS），也未考慮多個(gè)人體微多普勒特征的分離問(wèn)題。因此本文提出了一種基于

發(fā)表于 12-20 15:49

人體上肢運(yùn)動(dòng)表面肌電特征研究

目的根據(jù)檢測(cè)的人體上肢表面肌電信號(hào)，研究日常生活活動(dòng)中男性、女性和左右上肢肌肉功能狀態(tài)的差異性。方法對(duì)20 個(gè)被試者的三角肌中部、肱二頭肌、肱三頭肌、掌長(zhǎng)肌和指伸

發(fā)表于 01-22 13:46 ?18次下載

基于多區(qū)域的人體運(yùn)動(dòng)跟蹤研究

針對(duì)單區(qū)域跟蹤快速運(yùn)動(dòng)人體易產(chǎn)生漂移的缺點(diǎn), 本文提出一種基于Kalman Filter 預(yù)測(cè)的多區(qū)域跟蹤的新算法。該算法利用Kalman Filter 預(yù)測(cè)人體各區(qū)域, 然后利用顏色

發(fā)表于 05-25 15:11 ?14次下載

基于多區(qū)域的<b class='flag-5'>人體</b><b class='flag-5'>運(yùn)動(dòng)</b>跟蹤研究

CASIO登山運(yùn)動(dòng)表PRG-110T-使用說(shuō)明書

CASIO登山運(yùn)動(dòng)表PRG-110T-說(shuō)明書

發(fā)表于 03-24 17:40 ?45次下載

監(jiān)測(cè)人體健康和運(yùn)動(dòng)表現(xiàn)

高度微型化的傳感器系列，如壓電MEMS和光學(xué)傳感器，使人體監(jiān)測(cè)應(yīng)用的快速發(fā)展，借助高精度模擬和處理芯片，以及最新的IEEE 802.15.6無(wú)線體域網(wǎng)的出現(xiàn)（禁止）標(biāo)準(zhǔn)

發(fā)表于 06-20 09:48 ?23次下載

基于多區(qū)域的人體運(yùn)動(dòng)跟蹤分析

　針對(duì)單區(qū)域跟蹤快速運(yùn)動(dòng)人體易產(chǎn)生漂移的缺點(diǎn)，本文提出一種基于KalmanFilter預(yù)測(cè)的多區(qū)域跟蹤的新算法。該算法利用KalmanFilter預(yù)測(cè)人體各區(qū)域，然后利用顏色直方圖匹配

發(fā)表于 09-08 15:13 ?4次下載

基于視角相容性的多視角數(shù)據(jù)缺失補(bǔ)全

的多視角數(shù)據(jù)出現(xiàn)視角缺失，這使得一些多視角學(xué)習(xí)方法無(wú)法有效進(jìn)行，為此。本文提出了

發(fā)表于 12-18 10:46 ?1次下載

基于塊稀疏模型的人體運(yùn)動(dòng)模式識(shí)別方法

在人體運(yùn)動(dòng)模式識(shí)別中，傳統(tǒng)稀疏表示分類算法未考慮待測(cè)試樣本相應(yīng)稀疏系數(shù)向量?jī)?nèi)在塊結(jié)構(gòu)相關(guān)性信息，影響了算法識(shí)別性能。為此，提出一種基于塊稀疏模型的人

發(fā)表于 12-20 15:12 ?0次下載

基于多視角自步學(xué)習(xí)的人體動(dòng)作識(shí)別方法

自步學(xué)習(xí)的動(dòng)作識(shí)別方法采用課程學(xué)習(xí)的思路，忽略了不同視角動(dòng)作特征對(duì)課程的影響，對(duì)多分類的人體兩維視頻復(fù)雜動(dòng)作識(shí)別無(wú)法取得滿意效果。針對(duì)上述問(wèn)題，提出

發(fā)表于 03-29 17:02 ?0次下載

小米眾籌上架一款智能跑鞋可強(qiáng)化運(yùn)動(dòng)表現(xiàn)

5月30日，今天小米眾籌上架了一款自適應(yīng)科技跑步鞋，號(hào)稱可根據(jù)不同運(yùn)動(dòng)狀態(tài)，發(fā)揮“自適應(yīng)”特性，提供恰到好處的緩震回彈和支撐，強(qiáng)化運(yùn)動(dòng)表現(xiàn)。

發(fā)表于 05-31 15:17 ?2528次閱讀

小米有品推出一款C+86運(yùn)動(dòng)表

7月29日消息，小米有品推出一款C+86運(yùn)動(dòng)表，采用進(jìn)口機(jī)芯金屬，還有多功能計(jì)時(shí)表盤。

發(fā)表于 07-30 15:00 ?1364次閱讀

三星已認(rèn)證新思科技PrimeLib統(tǒng)一庫(kù)表征和驗(yàn)證解決方案

基于新思科技PrimeLib統(tǒng)一庫(kù)表征和驗(yàn)證解決方案，雙方共同客戶可將汽車、AI、高性能計(jì)算和5G等應(yīng)用的芯片設(shè)計(jì)時(shí)間縮短5倍。新思科技（Synopsys）近日宣布，三星晶圓廠（以下簡(jiǎn)稱為“三星

發(fā)表于 11-09 16:59 ?1720次閱讀

通過(guò)Token實(shí)現(xiàn)多視角文檔向量表征的構(gòu)建

該篇論文與前兩天分享的DCSR-面向開(kāi)放域段落檢索的句子感知的對(duì)比學(xué)習(xí)一文有異曲同工之妙，都是在檢索排序不引入額外計(jì)算量的同時(shí)，通過(guò)插入特殊Token構(gòu)建長(zhǎng)文檔的多語(yǔ)義向量表征，使得同一

發(fā)表于 07-08 11:13 ?883次閱讀

稠密向量檢索的Query深度交互的文檔多視角表征

今天給大家?guī)?lái)一篇北航和微軟出品的稠密向量檢索模型Dual-Cross-Encoder，結(jié)合Query生成和對(duì)比學(xué)習(xí)技術(shù)，將文檔與生成的不同偽query進(jìn)行深度交互學(xué)習(xí)構(gòu)建文檔的不同視角

發(fā)表于 08-18 15:37 ?1813次閱讀

一個(gè)基于參數(shù)更新的遷移學(xué)習(xí)的統(tǒng)一框架

它提出一個(gè)基于參數(shù)更新的遷移學(xué)習(xí)的統(tǒng)一框架，建立多種參數(shù)優(yōu)化方法之間的聯(lián)系，從而方便理解不同方法背后的關(guān)鍵設(shè)計(jì)，進(jìn)而設(shè)計(jì)出只更新更少參數(shù)同時(shí)取得更好效果的參數(shù)優(yōu)化方法。

發(fā)表于 09-26 10:29 ?1316次閱讀

搜索歷史

北大提出MotionBERT：人體運(yùn)動(dòng)表征學(xué)習(xí)的統(tǒng)一視角

評(píng)論

多站低頻雷達(dá)運(yùn)動(dòng)人體微多普勒特征提取與跟蹤技術(shù)【論文干貨】

人體上肢運(yùn)動(dòng)表面肌電特征研究

基于多區(qū)域的人體運(yùn)動(dòng)跟蹤研究

CASIO登山運(yùn)動(dòng)表PRG-110T-使用說(shuō)明書

監(jiān)測(cè)人體健康和運(yùn)動(dòng)表現(xiàn)

基于多區(qū)域的人體運(yùn)動(dòng)跟蹤分析

基于視角相容性的多視角數(shù)據(jù)缺失補(bǔ)全

基于塊稀疏模型的人體運(yùn)動(dòng)模式識(shí)別方法

基于多視角自步學(xué)習(xí)的人體動(dòng)作識(shí)別方法

小米眾籌上架一款智能跑鞋可強(qiáng)化運(yùn)動(dòng)表現(xiàn)

小米有品推出一款C+86運(yùn)動(dòng)表

三星已認(rèn)證新思科技PrimeLib統(tǒng)一庫(kù)表征和驗(yàn)證解決方案

通過(guò)Token實(shí)現(xiàn)多視角文檔向量表征的構(gòu)建

稠密向量檢索的Query深度交互的文檔多視角表征

一個(gè)基于參數(shù)更新的遷移學(xué)習(xí)的統(tǒng)一框架