說到以VR演奏樂器,目前應(yīng)用市場中已有的VR樂器應(yīng)用并不罕見。VR樂器的誕生幫助很多對音樂向往卻囿于樂器價(jià)格和擺放空間的愛好者過上了把手癮、耳癮。
就在上一周,小編提到的關(guān)于facebook對手部的精準(zhǔn)追蹤,更是助了VR演奏一臂之力,十八般樂器,樣樣不在話下。
這些應(yīng)用都是以人為演奏者,根據(jù)人的動作發(fā)出對應(yīng)的音調(diào)聲響。可若是把這個(gè)過程反過來又會是怎么樣的一種情形呢?
最近,facebook又又公布了一篇論文,名叫“音頻到身體動力學(xué)”,講的就是如何以3D動畫的形式將一段音頻轉(zhuǎn)化為演奏時(shí)的肢體動作。依據(jù)人的動作,發(fā)出聲音,我們已經(jīng)見過許多,但根據(jù)聲音,模擬出相應(yīng)動作,這還是首次。
(可惜動圖發(fā)不出聲音ε=(′ο`*))))
想要進(jìn)行這種轉(zhuǎn)化,就需要知道每個(gè)音符所對應(yīng)的演奏者可能會做出的動作。按照傳統(tǒng)方法,自然是請幾位演奏家到實(shí)驗(yàn)室內(nèi),在他們的手指和身體關(guān)節(jié)處貼上傳感器,再讓他們演奏上幾個(gè)小時(shí)。但這種方法實(shí)施起來還是有些麻煩,怕麻煩的研究人員想出了一個(gè)更好的點(diǎn)子。
不知道大家還記不記得去年這個(gè)時(shí)候曾流傳過一個(gè)用黑科技合成奧巴馬說話的視頻。華盛頓大學(xué)的研究人員分析了14個(gè)小時(shí)的奧巴馬講話的視頻,判斷奧巴馬在講話時(shí)其臉部是如何運(yùn)動的,如嘴唇、牙齒、面部皺紋以及下巴的活動,再通過神經(jīng)網(wǎng)絡(luò)與人工智能技術(shù)根據(jù)海量數(shù)據(jù)掌握了與不同聲音相關(guān)聯(lián)的嘴型,因此只要隨意放出一段音頻就可以制作奧巴馬講話的視頻。
正是受到了“奧巴馬”的啟發(fā),facebook的研究人員也采用了相似的視頻學(xué)習(xí)方法。研究人員通過檢測視頻中每一幀中的上半身和手指來處理視頻。每幀上取50個(gè)點(diǎn),其中每只手占21個(gè)點(diǎn),上半身占8個(gè)點(diǎn)。接著,分別通過OpenPose、MaskRCNN 和DeepFace三個(gè)庫運(yùn)行視頻,其中OpenPose提供面部,身體和手部關(guān)鍵點(diǎn),MaskRCNN 和DeepFace則為人臉識別算法。
當(dāng)然在采集過程中,也是成功與失敗并存。為了采集的數(shù)據(jù)更精準(zhǔn),研究人員在每段視頻中都選擇一幀作為參考幀。倘若在參考幀附近的連續(xù)幀中有與參考幀參數(shù)相差較大的幀,例如面部、手部關(guān)鍵點(diǎn)不匹配,則自動消除掉那一幀。下圖手部糊在一起的便是失敗幀。
研究人員的目標(biāo)是學(xué)習(xí)音頻特征和身體動作之間的相關(guān)性,因此,完成了關(guān)鍵點(diǎn)采集,便要構(gòu)建一個(gè)Long-Short-TermMemory(LSTM長短期記憶)網(wǎng)絡(luò)開始學(xué)習(xí)音頻特征和身體骨架標(biāo)志之間的相關(guān)性了。
這也與“奧巴馬”那個(gè)使用的是同款學(xué)習(xí)網(wǎng)絡(luò)。研究人員選擇使用具有時(shí)間延遲的單向單層LSTM。 xi是特定時(shí)間實(shí)例i的音頻MFCC特征,yi是身體關(guān)鍵點(diǎn)的PCA系數(shù),m是存儲器(隱藏狀態(tài))。研究人員還添加了一個(gè)標(biāo)記為'fc'的完全連接層,經(jīng)過試驗(yàn)發(fā)現(xiàn)它可以提高系統(tǒng)學(xué)習(xí)效率。
最后動畫的生成是基于ARkit實(shí)現(xiàn)的。研究人員使用ARkit構(gòu)建了一個(gè)增強(qiáng)現(xiàn)實(shí)應(yīng)用程序,該應(yīng)用程序可以在手機(jī)上實(shí)時(shí)運(yùn)行。使用帶有骨骼的3D身體模型,通過將預(yù)測點(diǎn)與3D世界坐標(biāo)對齊來初始化動畫形象。研究人員通過所有幀平均下拉的左右肩點(diǎn)距離計(jì)算得出模型的剛性變換數(shù)據(jù)。然后再分別考慮身體,手臂和手指。對于身體,研發(fā)人員創(chuàng)建了一條IK鏈,其中根節(jié)點(diǎn)定義為左右臀部之間的平均值,并連接到左肩和右肩的平均值。然后,估計(jì)所有幀的平均脊柱長度,并據(jù)此相應(yīng)地縮放動畫模型的脊柱。對于手臂,以手腕為參考點(diǎn),由前臂長度決定偏移量。對于手指,通過小指的根關(guān)節(jié)和指針的根關(guān)節(jié)確定手的旋轉(zhuǎn)。最后,應(yīng)用根旋轉(zhuǎn)偏移來匹配琴與人的姿勢角。
除了鋼琴,還有小提琴的演奏
雖然目前這個(gè)應(yīng)用還僅限于鋼琴與小提琴演奏的轉(zhuǎn)化,但是相信隨著進(jìn)一步的開發(fā),將支持更多種樂器演奏的轉(zhuǎn)化。甚至于將來還有可能發(fā)展出除樂器之外其他形式的轉(zhuǎn)化,比如,放一段音樂,可以Freestyle出一段舞蹈;再比如,根據(jù)一段霹靂扒拉的拳打腳踢聲,生成一段3D動畫的打斗場面。總之,能夠依聲定形還是很有趣的。
-
傳感器
+關(guān)注
關(guān)注
2551文章
51170瀏覽量
754193 -
Facebook
+關(guān)注
關(guān)注
3文章
1429瀏覽量
54793 -
vr
+關(guān)注
關(guān)注
34文章
9640瀏覽量
150343
原文標(biāo)題:facebook:用音樂生成3D動畫
文章出處:【微信號:ARchan_TT,微信公眾號:AR醬】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論