0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

身體的運動可以通過音樂信號進(jìn)行計算預(yù)測嗎?

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-07-03 09:08 ? 次閱讀

根據(jù)音樂信號預(yù)測身體的運動是一個極具挑戰(zhàn)性的計算問題。來自Facebook、斯坦福大學(xué)和華盛頓大學(xué)的研究人員開發(fā)了一種基于深度學(xué)習(xí)的方法,該方法可以將樂器的聲音轉(zhuǎn)換成對骨骼關(guān)鍵點的預(yù)測,并可以用于制作動畫角色。

鋼琴家在彈奏鋼琴曲時,他們的身體會對音樂產(chǎn)生反應(yīng)。他們的手指在琴鍵上敲擊,他們揮動手臂在不同的八度音階上演奏。小提琴演奏者用一只手在琴弦上拉弓,另一只手的手指輕觸或撥動琴弦。弓法越快,產(chǎn)生音樂節(jié)奏也越快。

一個有趣的問題是:身體的運動可以通過音樂信號進(jìn)行計算預(yù)測嗎?這是一個極具挑戰(zhàn)性的計算問題。我們需要有一套很好的訓(xùn)練視頻,需要能夠準(zhǔn)確地預(yù)測這些視頻中的身體姿勢,然后建立一個能夠找到音樂和身體之間的相關(guān)性的算法,以進(jìn)一步預(yù)測運動。

來自Facebook、斯坦福大學(xué)和華盛頓大學(xué)的研究人員開發(fā)了一種基于深度學(xué)習(xí)的方法,該方法可以將樂器的聲音轉(zhuǎn)換成對骨骼關(guān)鍵點的預(yù)測,并可以用于制作動畫角色。

受唇語預(yù)測和視頻對象檢測啟發(fā)

人體動力學(xué)是很復(fù)雜的,尤其是考慮到學(xué)習(xí)音頻相關(guān)性所需要的質(zhì)量。傳統(tǒng)上,通過視頻序列(而不是音頻)來預(yù)測人體自然運動的最優(yōu)方法是采用實驗室狀態(tài)下拍攝的動作捕捉序列。在我們的場景中,我們需要帶一位鋼琴家到實驗室,在他們的手指和身體關(guān)節(jié)處安裝傳感器,然后請他們演奏幾個小時。

這種方法在實踐中很難執(zhí)行,也不容易推廣。如果我們能夠利用優(yōu)秀鋼琴家演奏的公開視頻,我們就有可能在數(shù)據(jù)上實現(xiàn)更高程度的多樣性。但直到最近,從視頻中準(zhǔn)確地估計身體姿勢才成為可能。今年出現(xiàn)了幾種方法,可以讓我們從“自然狀態(tài)下”的數(shù)據(jù)中學(xué)習(xí)。

此外,有一些方法顯示出預(yù)測唇語的顯著結(jié)果。也就是說,給定一個人說話的音頻,他們可以預(yù)測出這個人說話時嘴唇的運動。

這兩個方向取得的進(jìn)步啟發(fā)了我們,我們試圖去解決僅僅從音樂中預(yù)測身體和手指運動的挑戰(zhàn)。這篇論文的目標(biāo)是探索是否有可能,以及我們是否能從音頻中創(chuàng)造出自然和符合邏輯的身體運動。注意,我們沒有使用MIDI文件之類的信息,而是試圖了解鋼琴琴鍵和音樂之間的關(guān)系。我們專注于創(chuàng)造一個能像鋼琴家那樣運動他的手和手指的角色(avatar)。

我們考慮了兩組數(shù)據(jù),鋼琴和小提琴獨奏(如圖3)。我們分別收集了這兩類音樂的視頻,通過視頻每一幀里的上半身和手指來處理視頻。每一幀共50個關(guān)鍵點,其中21個點表示每只手的手指,8個點表示上半身。

圖3:訓(xùn)練數(shù)據(jù)

除了預(yù)測點之外,我們的另一個目標(biāo)是通過動畫形象的方式來可視化這些點,讓動畫人物根據(jù)給定的音頻輸入自主活動。為了解決這個問題,我們提出兩個步驟。首先,構(gòu)建一個長短期記憶(LSTM)網(wǎng)絡(luò),學(xué)習(xí)音頻特征和身體骨架界標(biāo)(body skeleton landmarks)之間的相關(guān)性。其次,我們使用預(yù)測的landmark自動給一個動畫形象賦予生命。最后的輸出是能根據(jù)音頻輸入活動的動畫人物。

關(guān)鍵點估計

我們對兩種關(guān)鍵點感興趣:身體和手指。通常情況下,由于相機(jī)、燈光和快速運動產(chǎn)生的巨大變化,在自然的視頻中估計關(guān)鍵點的估計是具有挑戰(zhàn)性的。不過,最近出現(xiàn)了許多方法可以更好地處理自然的視頻。

我們獲取相對精確的關(guān)鍵點的過程如下:

我們首先通過三個庫來運行視頻:提供臉部、身體和手的關(guān)鍵點的OpenPose,MaskRCNN,以及人臉識別算法DeepFace。這三個庫在基準(zhǔn)測試上表現(xiàn)很好,但是在我們的視頻中,它們在某些幀上會失敗。

圖4:在預(yù)處理步驟中自動刪除的關(guān)鍵點檢測器的失敗案例

從音頻到身體關(guān)鍵點的預(yù)測

我們的目標(biāo)是學(xué)習(xí)音頻特征和身體運動之間的關(guān)聯(lián)性。為此,我們構(gòu)建了一個LSTM(長短期記憶)網(wǎng)絡(luò)。架構(gòu)如圖5所示:

圖5:關(guān)鍵點預(yù)測LSTM的架構(gòu)。表示音頻特征,表示相應(yīng)的關(guān)鍵點。

我們選擇使用具有時間延遲的單向的單層LSTM。表示在特定時間i的音頻MFCC,表示身體關(guān)鍵點的PCA系數(shù),m表示memory。我們還添加了一個完全連接層“fc”,發(fā)現(xiàn)它可以提高性能。

我們進(jìn)行了300 epochs的訓(xùn)練。該網(wǎng)絡(luò)在Caffe2上實現(xiàn),并使用ADAM優(yōu)化器。輸入和輸出都是通過減去平均值并除以方差而歸一化的。

圖6:第一個PCA mode(piano)

從身體關(guān)鍵點到動畫形象

當(dāng)身體的關(guān)鍵點預(yù)估出來后,我們用一個動畫形象來使用這些點。我們使用ARkit構(gòu)建了一個增強現(xiàn)實應(yīng)用程序,它可以在手機(jī)上實時運行。給定一系列2D預(yù)測點和身體的動畫化身,動作便被應(yīng)用到化身上。我們使用的化身是帶有人體骨骼裝置的3D人體模型。

實驗

評估:

我們在網(wǎng)絡(luò)中嘗試了不同的參數(shù)選擇,并在表1和表2中提供了比較。為了找到最優(yōu)參數(shù),我們進(jìn)行了超參數(shù)搜索。表中的誤差以像素表示,越低越好。

為了獲得好的結(jié)果,過濾掉訓(xùn)練數(shù)據(jù)中的所有糟糕的幀(錯誤的骨架、錯誤的人體檢測、錯誤的人體識別)是很重要的??梢钥吹?,只要過濾掉壞數(shù)據(jù),誤差就會顯著減少。

通過使用較少的PCA系數(shù),可以更好地適應(yīng)訓(xùn)練數(shù)據(jù),但測試誤差大于使用較多的系數(shù)。在我們的案例中,使用dropout并不能改善結(jié)果。時間延遲有助于改善結(jié)果。

結(jié)果:

圖8和圖9給出了有代表性的結(jié)果。我們展示了不同身體姿勢的預(yù)測關(guān)鍵點,以及上下文的原始框架。對于關(guān)鍵點,我們將它們疊加在groud truth點上進(jìn)行視覺對比。注意,我們并不期望這些點能完全一致,但是手指和手可以產(chǎn)生類似的令人滿意的運動,這是本文的目標(biāo)。

圖8

圖9

在我們的案例中,groud truth是2D身體姿勢檢測器的結(jié)果,這可能是錯誤的。最后,我們在圖12中展示了失敗案例,第一行是鋼琴的,第二行是小提琴的。這些失敗案例表明我們的系統(tǒng)有局限性:目前我們的系統(tǒng)是訓(xùn)練2D的姿勢,而訓(xùn)練視頻中的實際姿勢是3D的。因此,被遮擋和看不見的點不能很好地預(yù)測。在視頻的高速度和高頻率部分,身體姿態(tài)檢測器可能會產(chǎn)生錯誤,運動模糊也是如此。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人臉識別
    +關(guān)注

    關(guān)注

    76

    文章

    4014

    瀏覽量

    82100
  • 增強現(xiàn)實
    +關(guān)注

    關(guān)注

    1

    文章

    712

    瀏覽量

    44994
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5511

    瀏覽量

    121355

原文標(biāo)題:神“樂”馬良:AI直接將音頻轉(zhuǎn)換成動畫

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    Xsens攜手ST展示3D身體運動跟蹤系統(tǒng)

    計算連接技術(shù)的可穿戴式體育、健身、醫(yī)療和智能手機(jī)游戲傳感器配件市場上掀起一波創(chuàng)新浪潮。Xsens首席技術(shù)官及創(chuàng)始人Per Slycke表示:“實時 3D 身體運動數(shù)據(jù)可識別復(fù)雜的動作(如運動
    發(fā)表于 12-13 10:38

    支持 BLE 連接的接觸式身體成分測量儀參考設(shè)計

    `描述該參考設(shè)計適用于采用 TI 信號鏈、電源和連接組件的整套手持式身體成分或減肥監(jiān)控終端設(shè)備。借助 TI 的 AFE4300 身體成分 AFE,可以加快
    發(fā)表于 04-03 15:26

    夏天運動不孤單,我有三星iconx運動私教

    `夏天,一個充滿陽光、雨水、活力的季節(jié)。而在夏天運動,既可以展示身體的肌肉線條的美,又出汗排毒兼減肥。根據(jù)度娘搜索,中國熱門運動排行,第四名往后排名是自行車、健身、跑步和瑜伽(前三名是
    發(fā)表于 05-17 23:44

    智能手環(huán)是如何收集身體數(shù)據(jù)的和相關(guān)工作原理

    ,除去被皮膚、肌肉、血液等吸收外,剩下部分的光線透射被光敏接收器感知,通過測量血管里的血液體積隨心臟泵血的變化,血液體積的周期性變化構(gòu)成了一切利用PPG信號進(jìn)行心率估計的基礎(chǔ),通過
    發(fā)表于 09-07 15:09

    身體運動傳感器技術(shù)需求

    傳感器工藝需求:肌肉骨骼疾病患者只需要在家中備有運動傳感器,然后連接到身體的適當(dāng)位置,并結(jié)合AI驅(qū)動的用戶界面,平臺便可以獲取運動數(shù)據(jù)并提供即時反饋,請教老師目前哪些傳感器技術(shù)方便實現(xiàn)
    發(fā)表于 03-07 12:47

    身體運動傳感器

    傳感器工藝需求:肌肉骨骼疾病患者只需要在家中備有運動傳感器,然后連接到身體的適當(dāng)位置,并結(jié)合AI驅(qū)動的用戶界面,平臺便可以獲取運動數(shù)據(jù)并提供即時反饋,請教老師目前哪些傳感器技術(shù)方便實現(xiàn)
    發(fā)表于 03-09 13:17

    【HarmonyOS HiSpark AI Camera】運動身體姿態(tài)分析

    項目名稱:運動身體姿態(tài)分析試用計劃:項目計劃通過攝像頭或傳感器捕獲人體在運動器械中運動中的姿態(tài),通過AI分析
    發(fā)表于 11-19 20:48

    如何通過計算預(yù)測電路的固有噪聲大?。?/a>

    如何通過計算預(yù)測電路的固有噪聲大?。咳绾尾捎肧PICE模擬技術(shù)?
    發(fā)表于 04-22 06:43

    運動身體形態(tài)輪廓自動檢測軟件設(shè)計

    進(jìn)行圖像建立,結(jié)合運動身體形態(tài)輪廓特征提取方法進(jìn)行三維模型的繪制,利用運動身體輪廓誤差補償
    發(fā)表于 11-22 16:06 ?10次下載

    榮耀智能體脂秤2評測 什么是身體運動智能

    電子秤想必是每個家庭都必不可少的一件物品,以前我們家中的電子秤僅僅是用來測體重的,想要了解更多身體數(shù)據(jù)也只能簡單通過身高、體重計算出一個BMI數(shù)值來進(jìn)行參考。不過這些并不能真實反映出一
    的頭像 發(fā)表于 12-02 16:05 ?3612次閱讀

    跑步可以戴耳機(jī)聽音樂嗎,運動聽歌選對藍(lán)牙耳機(jī)是關(guān)鍵!

    作為一個運動愛好者來說,運動藍(lán)牙耳機(jī)不僅可以提升運動的樂趣,減少運動過程帶來的枯燥,讓運動更加有
    發(fā)表于 12-30 16:11 ?828次閱讀
    跑步<b class='flag-5'>可以</b>戴耳機(jī)聽<b class='flag-5'>音樂</b>嗎,<b class='flag-5'>運動</b>聽歌選對藍(lán)牙耳機(jī)是關(guān)鍵!

    運動聽音樂用什么耳機(jī)、適合運動聽歌使用的運動耳機(jī)推薦

    經(jīng)常運動的朋友都知道,合適的音樂能讓運動事半功倍。特別是跑步時,伴隨著音樂的節(jié)奏,可以更好的調(diào)整配速。累的時候
    的頭像 發(fā)表于 03-24 19:30 ?1064次閱讀
    <b class='flag-5'>運動聽音樂</b>用什么耳機(jī)、適合<b class='flag-5'>運動</b>聽歌使用的<b class='flag-5'>運動</b>耳機(jī)推薦

    通過生物信號采集處理系統(tǒng)來分析胃腸運動

    信號進(jìn)行放大、模/數(shù) (A/D)轉(zhuǎn)換,然后用計算機(jī)對其進(jìn)行顯示,存儲、處理及打印,本實驗應(yīng)用 ZL-620觀察胃腸運動的各種形式 以及神經(jīng)
    發(fā)表于 05-28 16:59 ?1455次閱讀
    <b class='flag-5'>通過</b>生物<b class='flag-5'>信號</b>采集處理系統(tǒng)來分析胃腸<b class='flag-5'>運動</b>

    plc可以進(jìn)行運動控制嗎

    可以,PLC(Programmable Logic Controller,可編程邏輯控制器)是一種廣泛應(yīng)用于工業(yè)自動化領(lǐng)域的控制設(shè)備。它不僅可以實現(xiàn)邏輯控制、順序控制等功能,還可以進(jìn)行運動
    的頭像 發(fā)表于 06-12 10:41 ?831次閱讀

    如何使用神經(jīng)網(wǎng)絡(luò)進(jìn)行建模和預(yù)測

    神經(jīng)網(wǎng)絡(luò)是一種強大的機(jī)器學(xué)習(xí)技術(shù),可以用于建模和預(yù)測變量之間的關(guān)系。 神經(jīng)網(wǎng)絡(luò)的基本概念 神經(jīng)網(wǎng)絡(luò)是一種受人腦啟發(fā)的計算模型,由大量的節(jié)點(神經(jīng)元)組成,這些節(jié)點通過權(quán)重連接在一起。每
    的頭像 發(fā)表于 07-03 10:23 ?801次閱讀