0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Facebook的研究人員提出了一個能從真實視頻中抽取可控制主角的模型Vid2Game

nlfO_thejiangme ? 來源:lq ? 2019-04-26 09:58 ? 次閱讀

相信大家還記得曾經(jīng)游戲中的主人公,可以隨著按鍵旋轉(zhuǎn)跳躍,通過三維/二維模型或者實現(xiàn)錄制好的視頻來響應(yīng)不同指令的動作。而最近來自Facebook的研究人員提出了一個能從真實視頻中抽取可控制主角的模型Vid2Game,這意味你可以將視頻中喜歡的主人公變成可以在游戲中控制的主角。

讓我們先來看看效果,從真實視頻中抽取的主角被放置到了新背景中,隨著按鍵的控制左右移動揮拍擊球。

黑衣服的運動員被妥妥地安排到了不同的背景中,隨著鍵盤的指令移動。這是怎么做到的呢?為了實現(xiàn)對主體的控制和生成需要解決一下幾個問題:首先需要將主體從環(huán)境中分離出來以便在新的任意的背景中生成;由于渲染陰影、反射、運動效果等、這種分離不是二值化的;用戶給出的控制信號任意的x,y位移、如何編碼并將控制量饋入主體生成中;最后需要處理生成序列過程中積累誤差的影響。

那么文章中具體是如何做到的呢?

下面讓我們一起來看看背后的原理。Vid2Game包含了兩個神經(jīng)網(wǎng)絡(luò)和三個主要步驟的工作流程,首先利用第一個神經(jīng)網(wǎng)絡(luò)將當(dāng)前位姿和控制信號映射到下一時刻的新位姿;隨后利用新位姿和給定的背景輸出希望的幀,包括背景和主體以及主體的mask;最后將生成的主體以背景融合生成最終輸出。這種通用的方法可以被廣泛用于多種不同運動場景中。給定視頻中的主角可以根據(jù)用戶的控制,生成在目標(biāo)背景中運動的視頻。兩個序列形式工作的模型分別是Pose2Pose和Pose2Frame。

Pose2Pose網(wǎng)絡(luò)基于用戶的控制序列信號以自回歸的方式操作給定的位姿,實現(xiàn)在特定的域內(nèi)基于2D控制信號引導(dǎo)人體位姿生成。

通過輸入t-1時刻的位姿和對應(yīng)物體、在用戶控制序列的操作下生成t時刻的主角位姿和對應(yīng)物體。上圖中我們可以看到輸入的運動員位姿圖和對應(yīng)的球拍、同時輸入的還有控制量。我們還可以看到中間的n-2個條件殘差模塊是基于質(zhì)心位移量進行處理的。在訓(xùn)練時,質(zhì)心唯一來自于訓(xùn)練序列的編碼、而推理時則來自于用戶輸入。

隨后將生成的位姿及給定的背景輸入Pose2Frame將生成高分辨率的真實視頻序列。同樣以運動員作為例子,將運動員位姿和網(wǎng)球拍的序列輸入,模型將生成一個RGB圖像和mask圖像.RGB圖像考慮了運動員在環(huán)境中需要包括了陰影、反射等渲染,而mask輔助融合運動員與給定背景。通過mask與生成的rgb相乘得到運動員部分的RGB圖像、再通過背景摳出mask區(qū)域隨后融合運動與與給定背景,即得到運動員在新環(huán)境中生成的受用戶控制的幀。

對于判別器部分、模型主要關(guān)注多尺度情況下二進制閾值主體。其中o為基準(zhǔn)圖像f為生成圖像,在放入多尺度判別器前需要進行均值pooling減采樣,。放入VGG分類器中的圖像則保持了原始分辨率用于給出感知損失。Pose2Pose和Pose2Frame的生成器和判別器都使用了pix2pixHD架構(gòu)來作為基礎(chǔ)網(wǎng)絡(luò),并進行了一系列改進。同時利用了基于DensePose的方法來對位姿進行表示,同時使用了語義分割的方法來對運動員手持物體進行抽取。

通過這樣的方法,就可以在希望的場景中合成你可控制的主角了。這對于未來個性化游戲、虛擬顯示等具有十分重要的意義。從各種視頻中抽取主角、并可以通過鍵盤在游戲中控制真的很棒!

讓我們來跳一支舞吧:

控制你的主角四處漫游:

到任何想去的地方打球:

與龍來一場戰(zhàn)斗吧:

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4806

    瀏覽量

    102703
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1092

    瀏覽量

    41003
  • Facebook
    +關(guān)注

    關(guān)注

    3

    文章

    1432

    瀏覽量

    56153

原文標(biāo)題:Facebook提出Vid2Game模型,幫助你來控制視頻里的主人公動起來~

文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 0人收藏

    評論

    相關(guān)推薦
    熱點推薦

    美國普渡大學(xué)和哈佛大學(xué)的研究人員出了項新發(fā)明 新...

    據(jù)物理學(xué)家組織網(wǎng)報道,美國普渡大學(xué)和哈佛大學(xué)的研究人員出了項極為應(yīng)景的新發(fā)明:種外形如同顆圣誕樹
    發(fā)表于 02-03 20:30

    研究人員提出了“Skim-RNN”的概念,用很少的時間進行快速閱讀

    注意力模型和LSTM等方法提高計算效率或挑選重要任務(wù),但它們的表現(xiàn)都不夠好。在本篇論文中,研究人員提出了“Skim-RNN”的概念,用很少的時間進行快速閱讀,不影響讀者的主要目標(biāo)。
    的頭像 發(fā)表于 01-10 12:41 ?3756次閱讀
    <b class='flag-5'>研究人員</b><b class='flag-5'>提出了</b>“Skim-RNN”的概念,用很少的時間進行快速閱讀

    研究人員提出了種柔性可拉伸擴展的多功能集成傳感器陣列

    研究人員提出了種柔性可拉伸擴展的多功能集成傳感器陣列,成功將電子皮膚的探測能力擴展到7種,實現(xiàn)溫度、濕度、紫外光、磁、應(yīng)變、壓力和接近等多種外界刺激的實時同步監(jiān)測。
    的頭像 發(fā)表于 01-24 15:15 ?7517次閱讀
    <b class='flag-5'>研究人員</b><b class='flag-5'>提出了</b><b class='flag-5'>一</b>種柔性可拉伸擴展的多功能集成傳感器陣列

    Facebook提出了種在虛擬現(xiàn)實環(huán)境中表征真實世界對象的解決方案

    )”的專利中指出,VR用戶有時渴望與真實世界對象交互,但由于傳統(tǒng)頭顯的設(shè)計,其無法或難以確定真實世界對象的位置。為了解決這個問題,Facebook提出了
    發(fā)表于 01-28 09:47 ?1239次閱讀
    <b class='flag-5'>Facebook</b><b class='flag-5'>提出了</b><b class='flag-5'>一</b>種在虛擬現(xiàn)實環(huán)境中表征<b class='flag-5'>真實</b>世界對象的解決方案

    Facebook構(gòu)建虛擬空間訓(xùn)練AI

    近日,Facebook推出開源的模擬數(shù)據(jù)集,希望幫助研究人員創(chuàng)建更加真實的AR/VR體驗,最終目的是幫助 AI 了解物理世界的環(huán)境。
    的頭像 發(fā)表于 06-18 17:07 ?3426次閱讀

    研究人員提出了系列新的點云處理模塊

    為了探索這些問題的解決辦法、來自倫敦大學(xué)學(xué)院的研究人員提出了系列新的點云處理模塊,從效率、信息共享和點云卷積操作等方面進行了研究,得到了更寬、更深、更快效率更高的點云處理網(wǎng)絡(luò),讓更
    的頭像 發(fā)表于 08-02 14:44 ?3229次閱讀
    <b class='flag-5'>研究人員</b>們<b class='flag-5'>提出了</b><b class='flag-5'>一</b>系列新的點云處理模塊

    JD和OPPO的研究人員提出了種姿勢引導(dǎo)的時尚圖像生成模型

    研究人員的主要目的在于訓(xùn)練生成模型,將模特在當(dāng)前姿勢上的圖像遷移到其他的目標(biāo)姿勢上去,實現(xiàn)對于衣著等商品的全面展示。
    的頭像 發(fā)表于 08-02 14:50 ?2721次閱讀

    Facebook研究人員提出了Mesh R-CNN模型

    研究的目標(biāo)是通過單張圖像輸入,對圖像的物體進行檢測、獲取不同物體的類別、掩膜和對應(yīng)的三維網(wǎng)格,并對真實世界的復(fù)雜
    的頭像 發(fā)表于 08-02 15:51 ?4157次閱讀
    <b class='flag-5'>Facebook</b>的<b class='flag-5'>研究人員</b><b class='flag-5'>提出了</b>Mesh R-CNN<b class='flag-5'>模型</b>

    研究人員出了種新的基于深度學(xué)習(xí)的策略

    蘇黎世聯(lián)邦理工學(xué)院的研究人員最近推出了種新的基于深度學(xué)習(xí)的策略,該策略可以在不需要大量真實數(shù)據(jù)的情況下在機器人中實現(xiàn)觸覺傳感。在arXiv上預(yù)先發(fā)表的
    的頭像 發(fā)表于 03-26 15:47 ?2811次閱讀

    研究人員開發(fā)出了種稱為LB-WayPtNav-DH的機器人導(dǎo)航新框架

    加州大學(xué)伯克利分校的研究人員最近開發(fā)了種新的框架,該框架可以增強辦公室,房屋或博物館等室內(nèi)環(huán)境中人類的機器人導(dǎo)航能力。他們的模型在arXiv上預(yù)先發(fā)表的篇論文中
    發(fā)表于 04-09 11:18 ?1028次閱讀

    研究人員提出了名為CommPlan的框架

    使用CommPlan,開發(fā)人員首先使用數(shù)據(jù),領(lǐng)域?qū)I(yè)知識和學(xué)習(xí)算法指定五模塊-任務(wù)模型,通信功能,通信成本模型,人員響應(yīng)
    的頭像 發(fā)表于 04-09 14:30 ?2278次閱讀

    Facebook研究人員發(fā)布友誼數(shù)據(jù)

    Facebook篇博文中表示,卡耐基梅隆大學(xué)的研究人員“不會與Facebook分享個人調(diào)查反饋,Facebook也不會與
    的頭像 發(fā)表于 04-22 10:58 ?3449次閱讀

    華裔女博士提出Facebook提出用于超參數(shù)調(diào)整的自我監(jiān)督學(xué)習(xí)框架

    【導(dǎo)讀】Facebook研究人員近日提出了種用于超參數(shù)調(diào)整的自我監(jiān)督學(xué)習(xí)框架。
    的頭像 發(fā)表于 04-26 09:45 ?1912次閱讀
    華裔女博士<b class='flag-5'>提出</b>:<b class='flag-5'>Facebook</b><b class='flag-5'>提出</b>用于超參數(shù)調(diào)整的自我監(jiān)督學(xué)習(xí)框架

    研究人員制造出種可以挖洞的軟體機器人

    的軟體機器人。 研究人員提出了新的在顆粒介質(zhì)挖掘的動力學(xué)理解,結(jié)合關(guān)鍵結(jié)果設(shè)計出款帶有尖端延伸噴氣裝置的管狀機器人,控制地下的相互作用力
    的頭像 發(fā)表于 06-26 16:28 ?2357次閱讀

    人工智能研究人員利用靜止圖像創(chuàng)建循環(huán)視頻

      研究人員使用了 NVIDIA Pix2PixHD 用于運動估計網(wǎng)絡(luò)訓(xùn)練的 GAN 模型,以及 FlowNet2 和 PWC-Net 。模型
    的頭像 發(fā)表于 04-26 15:40 ?883次閱讀

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會員交流學(xué)習(xí)
    • 獲取您個性化的科技前沿技術(shù)信息
    • 參加活動獲取豐厚的禮品