0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

CVPR 2023:把人放在他們的位置,把人自然地插到圖像里

jf_pmFSk4VX ? 來源:GiantPandaCV ? 2023-06-09 16:52 ? 次閱讀

CVPR 2023:把人放在他們的位置,把人自然地插到圖像里

1. 論文信息

題目:Putting People in Their Place: Affordance-Aware Human Insertion into Scenes

作者:Sumith Kulal, Tim Brooks, Alex Aiken, Jiajun Wu, Jimei Yang, Jingwan Lu, Alexei A. Efros, Krishna Kumar Singh

鏈接:https://arxiv.org/abs/2304.14406

代碼:https://sumith1896.github.io/affordance-insertion/

2. 引言

dbf6c9ce-0658-11ee-962d-dac502259ad0.png

一百年前,雅各布·馮·厄克爾指出了感知環(huán)境(umwelt)在生物生活中的關(guān)鍵、甚至決定性作用。他認(rèn)為,生物只能感知到它可以影響或被影響的環(huán)境部分。從某種意義上說,我們對世界的感知取決于我們能夠執(zhí)行的相互作用類型。相關(guān)的功能性視覺理解思想(給定場景對代理人提供了哪些動作?)在1930年代由格式塔心理學(xué)家討論過,后來由J.J.吉布森描述為“可供性”。雖然這個方向激發(fā)了視覺和心理學(xué)研究的許多努力,但是對可供性感知的全面計算模型仍然難以捉摸。這樣的計算模型的價值對未來的視覺和機器人研究是不可否認(rèn)的。

可供性:Affordance,指一個物理對象與人之間的關(guān)系。無論是動物還是人類,甚至是機器和機器人,他們之間發(fā)生的任何交互作用。可供性的體現(xiàn),由物品的品質(zhì),和與之交互的主體的能力共同決定。

過去十年,對基于數(shù)據(jù)驅(qū)動的可供性感知的計算模型重新產(chǎn)生了興趣。早期的研究采用了中介方法,通過推斷或使用中間語義或3D信息來輔助可供性感知。一些難以預(yù)測的可供性例子包括涉及物體之間復(fù)雜交互或需要更高層次推理和對場景上下文的理解。例如,預(yù)測一把椅子是否可以用來站立可能相對簡單,但是預(yù)測一把椅子是否可以用來到達高架子、避開障礙物或單腿平衡可能更加困難。同樣地,預(yù)測一扇門是否可以被打開可能相對容易,但是預(yù)測一扇門是否可以在特定情境下用作盾牌或路障可能更加具有挑戰(zhàn)性。通常,預(yù)測涉及物體的新穎或創(chuàng)造性使用或需要深入理解場景上下文的可供性可能特別具有挑戰(zhàn)性。而近期的方法則更加關(guān)注直接感知可供性,更符合吉布森的框架。然而,這些方法受到數(shù)據(jù)集特定要求的嚴(yán)格限制,降低了它們的普適性。

為了促進更普遍的設(shè)置,我們從最近大規(guī)模生成模型的進展中汲取靈感,例如文本到圖像系統(tǒng)。這些模型的樣本展示了令人印象深刻的物體-場景組合性。然而,這些組合是隱式的,可供性僅限于通常在靜態(tài)圖像中捕捉并由說明文字描述的內(nèi)容。我們通過將人“放入畫面”并在人類活動的視頻上進行訓(xùn)練,將可供性預(yù)測任務(wù)明確化。

我們將問題表述為條件修補任務(wù)。給定一個遮罩的場景圖像和一個參考人物,我們學(xué)習(xí)在遮罩區(qū)域內(nèi)正確地填充人物和可供性。在訓(xùn)練時,我們從視頻剪輯中借用兩個隨機幀,遮罩一個幀,并嘗試使用第二幀中的人作為條件進行修補。這迫使模型學(xué)習(xí)給定上下文下可能的場景可供性以及實現(xiàn)連貫圖像所需的重新姿態(tài)和協(xié)調(diào)。在推理時,可以使用不同的場景和人物圖像組合提示模型。我們在一個包含240萬個人類在各種場景中移動的視頻剪輯數(shù)據(jù)集上訓(xùn)練了一個大規(guī)模模型。

除了條件任務(wù)外,我們的模型可以在推理時以不同的方式進行提示。如圖中的最后一行所示,當(dāng)沒有人物時,我們的模型可以產(chǎn)生逼真的虛構(gòu)人物。同樣地,當(dāng)沒有場景時,它也可以產(chǎn)生逼真的虛構(gòu)場景。還可以執(zhí)行部分人物完成任務(wù),如更改姿勢或交換衣服。我們展示了訓(xùn)練視頻對于預(yù)測可供性的重要性。

3. 方法

dc8c0c32-0658-11ee-962d-dac502259ad0.png

3.1. Diffusion Models介紹

Diffusion Models是一種生成模型,使用擴散過程來建模數(shù)據(jù)的概率分布,從而可以生成逼真的圖像樣本。Diffusion Models使用反向Diffusion Process來建模數(shù)據(jù)的概率分布,其中反向Diffusion Process是一個從數(shù)據(jù)點的隨機狀態(tài)開始,向初始狀態(tài)擴散的過程。在訓(xùn)練過程中,Diffusion Models使用Score Matching方法來估計反向Diffusion Process的條件概率密度函數(shù)。在生成過程中,Diffusion Models通過隨機初始化一個數(shù)據(jù)點的狀態(tài),然后使用反向Diffusion Process逆推回初始狀態(tài),從而生成一張新的圖像樣本。Diffusion Models可以通過調(diào)整Diffusion Process中的擴散系數(shù)來控制生成圖像的多樣性和清晰度。其中,Diffusion Process的隨機微分方程和反向Diffusion Process的隨機微分方程如下:

3.2. 任務(wù)設(shè)定

dce1ab56-0658-11ee-962d-dac502259ad0.png

我們模型的輸入包含一個遮罩的場景圖像和一個參考人物,輸出圖像包含在場景上重新調(diào)整姿勢的參考人物。

受到Humans in Context (HiC)的啟發(fā),我們生成了一個大規(guī)模的人在場景中移動的視頻數(shù)據(jù)集,并使用視頻幀作為完全自監(jiān)督的訓(xùn)練數(shù)據(jù)。我們將問題表述為條件生成問題。在訓(xùn)練時,我們從視頻中提取兩個包含同一人的隨機幀。我們將第一個幀中的人物遮罩并用作輸入場景,然后從第二個幀中裁剪并居中人物作為參考人物條件。我們訓(xùn)練一個條件潛在擴散模型,同時以遮罩的場景圖像和參考人物圖像為條件。這鼓勵模型在自監(jiān)督的方式下推斷正確的姿勢,hallucinate的人物-場景交互,并將重新姿勢的人物無縫地融入場景中。在測試時,模型可以支持多個應(yīng)用程序,插入不同的參考人物、無參考hallucinate的人物和hallucinate的場景。我們通過在訓(xùn)練過程中隨機刪除條件信號來實現(xiàn)這一點。我們在實驗部分評估了人物條件生成、人物hallucinate和場景hallucinate的質(zhì)量。

hallucinate:幻覺是指人們的感官(視覺、聽覺、嗅覺、觸覺和味覺)出現(xiàn)虛假的感知,看起來是真實的,但實際上并不存在。

3.3. 模型訓(xùn)練

本文介紹了一個基于自監(jiān)督訓(xùn)練的人物-場景交互生成模型。為了訓(xùn)練模型,作者生成了一個包含240萬個人在場景中移動的視頻剪輯的數(shù)據(jù)集,使用了HiC的預(yù)處理流程,并使用Keypoint R-CNN和OpenPose進行人物檢測和關(guān)鍵點檢測。作者使用Mask R-CNN檢測人物掩碼,以在輸入場景圖像中遮蔽人物并裁剪出參考人物。作者還設(shè)計了一種遮蔽和數(shù)據(jù)增強策略,以支持不同粒度級別的人物插入,并通過Dropout和DDIM樣本來提高生成質(zhì)量。作者的實驗結(jié)果表明,所提出的方法可以成功地生成高質(zhì)量的人物-場景交互圖像。

4. 實驗

本表格展示了進行了幾項消融實驗,以分析不同因素對所提出方法性能的影響。

dd496598-0658-11ee-962d-dac502259ad0.png

第一組實驗比較了使用不同類型的輸入數(shù)據(jù)和數(shù)據(jù)增強策略的方法性能。結(jié)果顯示,使用視頻作為輸入數(shù)據(jù)且不進行數(shù)據(jù)增強會在FID(越小越好)和PCKh(越大越好)指標(biāo)方面獲得最佳性能。這表明使用視頻作為輸入數(shù)據(jù)可以提供更多的時間信息和上下文,使模型可以從中學(xué)習(xí),而數(shù)據(jù)增強可以進一步提高性能。第二組實驗研究了不同圖像編碼器對所提出方法性能的影響。結(jié)果顯示,使用帶有8倍KL散度損失的VAE的性能不如使用不帶KL散度損失的圖像編碼器。這表明對于所提出的方法,使用更簡單的圖像編碼器更為有效。最后一組實驗分析了模型規(guī)模和預(yù)訓(xùn)練對所提出方法性能的影響。結(jié)果顯示,增加模型規(guī)模并從預(yù)訓(xùn)練的檢查點進行微調(diào)會在FID和PCKh指標(biāo)方面獲得更好的性能。這表明增加模型容量并使用預(yù)訓(xùn)練可以幫助提高所提出方法的性能。

dd7ad59c-0658-11ee-962d-dac502259ad0.png

本節(jié)主要介紹了針對人物幻覺和場景幻覺任務(wù)的實驗評估。在人物幻覺任務(wù)中,作者將條件人物去除后進行評估,并與Stable Diffusion和DALL-E 2進行比較。作者通過傳遞空條件人物對其模型進行評估,并使用Stable Diffusion進行定量評估。在定性評估中,作者生成了具有相同提示的Stable Diffusion和DALL-E 2結(jié)果。實驗結(jié)果表明,作者的方法可以成功地幻覺出與輸入場景相一致的多樣化人物,并且其性能優(yōu)于基線方法。在場景幻覺任務(wù)中,作者評估了受限和非受限兩種場景幻覺情況,并與Stable Diffusion和DALL-E 2進行比較。實驗結(jié)果表明,作者的方法比基線方法更能夠維持輸入?yún)⒖既宋锏奈恢煤妥藨B(tài),并且在綜合大量圖像的場景幻覺任務(wù)中表現(xiàn)更好。作者還分析了條件因素對模型性能的影響,并對其進行了消融實驗??偟膩碚f,實驗結(jié)果表明,作者的方法在人物幻覺和場景幻覺任務(wù)中表現(xiàn)出色,并且相比基線方法具有更好的性能和生成效果。同時,作者還分析了模型性能的不同影響因素,并提出了可用于改進性能的策略。

5. 討論

本文提出的方法具有以下優(yōu)點和廣闊的應(yīng)用前景:

數(shù)據(jù)集限制:為了訓(xùn)練模型,作者使用了一個包含240萬個人在場景中移動的視頻剪輯的數(shù)據(jù)集,這些視頻剪輯來自于互聯(lián)網(wǎng),可能存在版權(quán)和隱私問題。此外,數(shù)據(jù)集中的場景和人物的多樣性也有限,這可能影響了模型在生成真實世界的多樣化人物和場景時的表現(xiàn)。

參考人物的選擇:為了生成人物-場景交互圖像,模型需要一個參考人物來指導(dǎo)生成。在本文中,作者使用了一些啟發(fā)式規(guī)則來選擇參考人物,如選擇中央人物或群體中的人物。但這種啟發(fā)式規(guī)則可能不能很好地適應(yīng)不同的場景和應(yīng)用場景,可能需要更精細的選擇方法來提高模型的生成效果。

訓(xùn)練和推理時間:由于所提出的方法使用了大規(guī)模的神經(jīng)網(wǎng)絡(luò)模型,并需要在大量的數(shù)據(jù)上進行訓(xùn)練,因此訓(xùn)練時間和計算資源需求較高。在推理時,生成一張高質(zhì)量的圖像也需要一定的時間和計算資源。這可能限制了該方法在實際應(yīng)用中的可擴展性和實用性。

生成結(jié)果的控制性較差:本文中所提出的方法是無條件生成人物-場景交互圖像,即無法直接控制生成圖像中的人物和場景屬性。盡管在一定程度上可以通過選擇參考人物來指導(dǎo)生成,但仍然存在控制性較差的問題。在某些應(yīng)用場景,需要更精細的生成控制來滿足特定的需求,這可能需要其他方法的支持。

dd7ad59c-0658-11ee-962d-dac502259ad0.png

但是本文提出的方法在人物-場景交互圖像生成任務(wù)中表現(xiàn)出了良好的性能和效果,但也存在一些缺點:

數(shù)據(jù)集:為了訓(xùn)練模型,作者使用了一個包含240萬個人在場景中移動的視頻剪輯的數(shù)據(jù)集,這些視頻剪輯來自于互聯(lián)網(wǎng),可能存在版權(quán)和隱私問題。此外,數(shù)據(jù)集中的場景和人物的多樣性也有限,這可能影響了模型在生成真實世界的多樣化人物和場景時的表現(xiàn)。

參考人物的選擇:為了生成人物-場景交互圖像,模型需要一個參考人物來指導(dǎo)生成。在本文中,作者使用了一些啟發(fā)式規(guī)則來選擇參考人物,如選擇中央人物或群體中的人物。但這種啟發(fā)式規(guī)則可能不能很好地適應(yīng)不同的場景和應(yīng)用場景,可能需要更精細的選擇方法來提高模型的生成效果。

訓(xùn)練和推理時間:由于所提出的方法使用了大規(guī)模的神經(jīng)網(wǎng)絡(luò)模型,并需要在大量的數(shù)據(jù)上進行訓(xùn)練,因此訓(xùn)練時間和計算資源需求較高。在推理時,生成一張高質(zhì)量的圖像也需要一定的時間和計算資源。這可能限制了該方法在實際應(yīng)用中的可擴展性和實用性。

生成結(jié)果的控制性較差:本文中所提出的方法是無條件生成人物-場景交互圖像,即無法直接控制生成圖像中的人物和場景屬性。盡管在一定程度上可以通過選擇參考人物來指導(dǎo)生成,但仍然存在控制性較差的問題。在某些應(yīng)用場景,需要更精細的生成控制來滿足特定的需求,這可能需要其他方法的支持。

同時作者指出 EfficientViT 的一個局限性是,盡管它具有很高的推理速度,但由于引入了額外的 FFN,在模型大小方面與最先進的高效 CNN相比略微更大。此外,模型是基于構(gòu)建高效視覺 Transformer 的指導(dǎo)方針手動設(shè)計的。在未來的工作中,可以有興趣減小模型大小,并結(jié)合自動搜索技術(shù)進一步提高模型的容量和效率。

6. 結(jié)論

在這項工作中,我們提出了一項新的任務(wù),即感知可供性的人類插入場景,我們通過使用視頻數(shù)據(jù)以自我監(jiān)督的方式學(xué)習(xí)條件擴散模型來解決它。我們展示了各種定性結(jié)果來證明我們方法的有效性。我們還進行了詳細的消融研究,以分析各種設(shè)計選擇的影響。我們希望這項工作能激勵其他研究人員追求這個新的研究方向

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3261

    瀏覽量

    48914
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1208

    瀏覽量

    24737

原文標(biāo)題:CVPR 2023:把人放在他們的位置,把人自然地插到圖像里

文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    【「具身智能機器系統(tǒng)」閱讀體驗】+兩本互為支持的書

    環(huán)境融為一體進行交互響應(yīng)。之所以這二者視為姊妹篇,是因為他們存在著緊密的聯(lián)系,又互為依托相互支持和補充,是一種類似于上下游的關(guān)系,是一體的兩個方面,故將兩書放在一起來閱讀大有打通任督二脈之感,實為暢快
    發(fā)表于 01-01 15:50

    本人新手請問問各位高人protel 在pcb鼠標(biāo)放在零點的....啥

    本人新手請問問各位高人protel 在pcb鼠標(biāo)放在零點的快捷鍵是啥啊?
    發(fā)表于 11-05 23:42

    labview中 while循環(huán)多層的條件結(jié)構(gòu),應(yīng)該延時放在哪?

    while循環(huán)多層的條件結(jié)構(gòu),應(yīng)該延時放在哪?
    發(fā)表于 01-18 14:57

    機器視覺——機器的“眼睛”

    響應(yīng)市場要求,加強在國際市場的競爭能力。 視覺是人類獲取信息最重要的來源。看到一幅圖像,馬上能夠理解圖像的內(nèi)容和含義。然而,機器視覺并非易事?,F(xiàn)有的機器人主要還是以壓力傳感器、位置
    發(fā)表于 01-23 15:02

    labview調(diào)用matlab時,怎么matlab的圖像顯示到labview呀?

    labview調(diào)用matlab時,怎么matlab的圖像顯示到labview呀,原諒我是個新手,不太懂,求大神賜教
    發(fā)表于 06-11 21:29

    【DNA Kit申請】智能送餐機器

    申請理由:我們是在校大學(xué)生EDA興趣團隊,正在設(shè)計制作智能機器項目。每天都要吃飯,餐廳是他們每天必經(jīng)場所,在他們心中從來沒有過的新鮮感,目前在中國餐廳基本沒有人使用智能機器
    發(fā)表于 09-29 09:56

    請問基于mcfw的視頻圖像處理加一些自己的視頻圖像處理的算法,應(yīng)該放在什么位置?

    的算法,應(yīng)該放在什么位置?我現(xiàn)在將自己的算法加在demo_vcap_venc_vdec_vdis_bits_rdwr.c的VcapVencVdecVdis_ipcBitsProcessFullBufs
    發(fā)表于 07-27 07:43

    如何AI(智能)移植到手機或機器上?

    `1. 前言在本文,我提出了<兩段式>移植策略。在AI領(lǐng)域,第一階段的移植,就是AI模型移植到非常普及的Android手機,放在
    發(fā)表于 11-25 11:37

    如何AI(智能)移植到手機或機器上?

    `1.前言 在本文,我提出了<兩段式>移植策略。在AI領(lǐng)域,第一階段的移植,就是AI模型移植到非常普及的Android手機,放在
    發(fā)表于 12-14 11:03

    為什么國內(nèi)的企業(yè)都服務(wù)器放在香港機房

    ,為什么這些企業(yè)服務(wù)器放在香港呢?1. 地理位置香港的機房,離中國neidi非常近,地位位置優(yōu)勢比較明顯,選一個近的機房就有很大的優(yōu)勢。畢竟離的遠,中間傳輸?shù)墓?jié)點就比較多,那樣出現(xiàn)故
    發(fā)表于 12-30 14:07

    樹莓派的TF卡直接插到電腦上有何后果

    千萬不要直接樹莓派的TF卡直接插到電腦上,腦會提示要格式化磁盤。提示了也千萬不要點,格式化了就得重裝樹莓派系統(tǒng)了。血淚教訓(xùn)!!方法一 U盤/硬盤拷貝有一說一,千萬別把想著這個樹莓派的TF卡
    發(fā)表于 01-13 06:08

    機器是什么?

    的環(huán)境中。據(jù)說每個關(guān)節(jié)都給機器一個自由度。圖3: 機器用電池作為驅(qū)動器的圖像開車驅(qū)動器是“發(fā)動機”,驅(qū)動鏈接(連接之間的部分)到他們想要的位置
    發(fā)表于 03-31 10:31

    互聯(lián)網(wǎng)機器變成人,但機器不可能超越人類

    馬云認(rèn)為過去30年互聯(lián)網(wǎng)變成機器,未來30年互聯(lián)網(wǎng)機器變成人,但最終應(yīng)該讓機器更像機器,讓人類更像人類。技術(shù)進步的趨勢不可阻擋,但機器跟人不同,它沒有靈魂,沒有信仰,沒有價值觀,所以人類可以控制機器。
    的頭像 發(fā)表于 12-05 16:53 ?5738次閱讀

    格蘭仕花2000多萬買來的日本機器拆開 自行改裝

    黃釗華立下軍令狀后,格蘭仕花了2000多萬買來的日本機器拆開了,一個零件一個零件擺開,然后再組裝起來。后來,開始根據(jù)自己的需求改造這個進口貨。他們改了日本機器的動力裝置,讓機器
    的頭像 發(fā)表于 05-24 17:03 ?3639次閱讀

    自然人、非自然人分布式項目并網(wǎng)流程區(qū)別

    自然人、非自然人在分布式項目申請并網(wǎng)流程上有所不同,提交的材料也不一樣;小固兩者在跑流程上的不同之處列出來,分享給那些準(zhǔn)備跑流程的光伏從業(yè)者或者對并網(wǎng)申請流程感興趣的光伏愛好者。一、自然人
    的頭像 發(fā)表于 08-02 12:14 ?5207次閱讀