本文介紹了SONICVERSE,這是一個(gè)多感官模擬平臺(tái),用于訓(xùn)練既能看又能聽的家用代理人。該平臺(tái)在實(shí)時(shí)的3D環(huán)境中實(shí)現(xiàn)了逼真的連續(xù)音頻渲染,并通過新的音頻-視覺虛擬現(xiàn)實(shí)界面實(shí)現(xiàn)與代理人的交互。此外,針對(duì)語(yǔ)義音頻-視覺導(dǎo)航任務(wù),作者提出了一種新的多任務(wù)學(xué)習(xí)模型,并展示了SONICVERSE通過模擬到真實(shí)環(huán)境的遷移所達(dá)到的真實(shí)感。
1 前言
本文介紹了SONICVERSE,一個(gè)新的具備多感官功能的模擬平臺(tái),用于訓(xùn)練音頻-視覺具身代理。該平臺(tái)實(shí)現(xiàn)了實(shí)時(shí)的3D環(huán)境中連續(xù)音頻渲染,通過使用完整的場(chǎng)景幾何和材料屬性達(dá)到了高保真度的空間音頻渲染。同時(shí),還引入了一個(gè)多任務(wù)學(xué)習(xí)框架,用于語(yǔ)義音頻-視覺導(dǎo)航和占據(jù)地圖預(yù)測(cè),取得了最先進(jìn)的結(jié)果。此外,本文還首次展示了在模擬中訓(xùn)練的音頻-視覺導(dǎo)航代理可以成功部署到現(xiàn)實(shí)環(huán)境中。
作者的貢獻(xiàn)有三個(gè)方面。
介紹了SONICVERSE,這是一個(gè)新的多感官模擬平臺(tái),實(shí)時(shí)模擬了3D環(huán)境中的連續(xù)音頻渲染,為許多需要音頻-視覺感知的具身化人工智能和人機(jī)交互任務(wù)提供了一個(gè)新的測(cè)試平臺(tái)。
介紹了一個(gè)多任務(wù)學(xué)習(xí)框架,用于語(yǔ)義音頻-視覺導(dǎo)航和占據(jù)地圖預(yù)測(cè),取得了最先進(jìn)的結(jié)果。
首次展示了在模擬中訓(xùn)練的音頻-視覺導(dǎo)航代理可以成功部署到現(xiàn)實(shí)環(huán)境中。
2 相關(guān)工作
本文介紹了具身AI模擬器和視聽學(xué)習(xí)的相關(guān)研究。作者提出了SONICVERSE模擬器,它能夠提供連續(xù)的3D空間音頻渲染,并結(jié)合完整的場(chǎng)景幾何和表面材料特性實(shí)現(xiàn)高度逼真性。作者的工作填補(bǔ)了現(xiàn)有視覺導(dǎo)航研究中缺乏音頻的重要空白,并提供了一個(gè)新的測(cè)試平臺(tái)來支持需要音視知覺的具身AI任務(wù)。通過音視導(dǎo)航任務(wù)的案例研究,作者展示了我們模擬器的有用性和逼真性。此外,作者的工作還提供了一個(gè)新的視覺和聽覺學(xué)習(xí)的框架,可以應(yīng)用于各種具身AI任務(wù),包括音視導(dǎo)航、平面圖重建、探索驅(qū)動(dòng)好奇心等。
3 SONICVERSE模擬平臺(tái)
本節(jié)介紹了SONICVERSE模擬平臺(tái),它是一個(gè)具備音視感知功能的具身AI模擬平臺(tái)。該平臺(tái)構(gòu)建在iGibson 2.0之上,并使用開源的Resonance Audio SDK實(shí)現(xiàn)對(duì)音頻的模擬。平臺(tái)提供了音頻模擬、3D環(huán)境和其他關(guān)鍵功能,為研究者開展音視知覺方面的具身AI研究提供了強(qiáng)大的工具和環(huán)境。
3.1. 聲學(xué)模擬
聲學(xué)模擬中的主要組成部分包括直接聲音、動(dòng)態(tài)遮擋、早期反射和晚期混響以及頭部相關(guān)傳遞函數(shù)(HRTFs)。直接聲音表示從源頭到聽者的未受環(huán)境阻礙或反射影響的聲音,并隨著距離的增加而衰減。動(dòng)態(tài)遮擋通過遮擋節(jié)點(diǎn)衰減源頭到聽者的聲音,并模擬現(xiàn)實(shí)世界的遮擋效果。早期反射和晚期混響是通過預(yù)模擬混響烘焙過程計(jì)算得到的,早期反射還考慮了聽者與探測(cè)器位置的關(guān)系,并使用箱形近似房間的方法呈現(xiàn)。頭部相關(guān)傳遞函數(shù)(HRTFs)用于模擬人類通過感知聲音的時(shí)間和級(jí)別差異來定位聲源。整個(gè)聲學(xué)模擬過程可以實(shí)現(xiàn)逼真的空間音頻渲染和實(shí)時(shí)性能。
3.2. 三維環(huán)境
SONICVERSE支持Matterport3D和iGibson兩個(gè)3D場(chǎng)景數(shù)據(jù)集,其中Matterport3D包含85個(gè)大型的現(xiàn)實(shí)世界室內(nèi)環(huán)境場(chǎng)景,而iGibson包含15個(gè)具有家具和可動(dòng)物體的現(xiàn)實(shí)世界家庭場(chǎng)景。對(duì)于Matterport3D場(chǎng)景,作者使用整個(gè)場(chǎng)景進(jìn)行混響烘焙,并通過將語(yǔ)義網(wǎng)格類別映射到Resonance Audio的材料類型來確定房間表面的聲學(xué)特性。對(duì)于iGibson場(chǎng)景,由于物體可移動(dòng),作者只使用場(chǎng)景的靜態(tài)骨架進(jìn)行混響烘焙,并對(duì)墻壁、天花板、窗戶和地板進(jìn)行相應(yīng)的映射。
3.3. 主要特點(diǎn)
SONICVERSE是一個(gè)具備音頻-視覺虛擬現(xiàn)實(shí)界面和Sim2Real轉(zhuǎn)換能力的模擬器。其音頻-視覺虛擬現(xiàn)實(shí)界面基于iGibson 2.0和OpenVR,能夠?qū)⒋髦鳹R頭顯的人作為音頻-視覺化身,并實(shí)現(xiàn)人與代理之間的音頻-視覺交互任務(wù)。具體的任務(wù)原型包括說話人跟隨、語(yǔ)音驅(qū)動(dòng)的物體檢索和盲人聽覺定位訓(xùn)練。同時(shí),SONICVERSE使用TurtleBot作為具體化代理,通過3Dio FS雙耳麥克風(fēng)和Tascam音頻接口實(shí)現(xiàn)音頻模擬,并借助Asus XTION PRO RGBD相機(jī)和Intel NUC進(jìn)行視頻捕獲和處理。相比于SoundSpaces和ThreeDWorld,SONICVERSE的模擬器通過將聲音附加到場(chǎng)景中的動(dòng)態(tài)物體實(shí)現(xiàn)音頻和視覺模擬的整合,并支持動(dòng)態(tài)遮擋和連續(xù)空間的音頻渲染。此外,SONICVERSE利用完整的場(chǎng)景幾何和自動(dòng)映射的材質(zhì)進(jìn)行混音烘焙,實(shí)現(xiàn)了更高的逼真度。雖然與ThreeDWorld不同,SONICVERSE不直接模擬物體碰撞聲音,但支持將現(xiàn)有的多感官物體資源與預(yù)計(jì)算的音頻模擬相結(jié)合使用。通過上述優(yōu)勢(shì)和功能,SONICVERSE為音頻-視覺模擬和實(shí)際環(huán)境的轉(zhuǎn)換提供了有效的解決方案。
4 在SonicVerse中訓(xùn)練音視化具象導(dǎo)航智能體
SonicVerse支持許多需要音視感知的具象人工智能任務(wù)。作者以具有挑戰(zhàn)性的語(yǔ)義音視導(dǎo)航任務(wù)作為案例研究,以展示作者模擬器的實(shí)用性。這是音頻目標(biāo)導(dǎo)航的更具挑戰(zhàn)性的版本,其中智能體必須定位一個(gè)持續(xù)發(fā)出聲音的來源。在語(yǔ)義音視導(dǎo)航中,物體會(huì)發(fā)出與其現(xiàn)實(shí)世界對(duì)應(yīng)物相符的聲音(例如,門會(huì)發(fā)出咯吱的聲音),而這些聲音只會(huì)持續(xù)很短的一段時(shí)間。因此,智能體必須能夠在聲音停止發(fā)出后更好地定位聲源,可能通過利用已學(xué)習(xí)的關(guān)于哪些物體可以發(fā)出某些聲音的知識(shí)。
任務(wù)定義:在這個(gè)任務(wù)中,智能體需要通過聽到物體發(fā)出的聲音,在一個(gè)未知且未映射的環(huán)境中導(dǎo)航到一個(gè)特定的有語(yǔ)義意義的物體。聲音可以是非周期性的、不連續(xù)的,并且長(zhǎng)度各異。為了到達(dá)目標(biāo)物體,智能體必須推理出聲音物體的語(yǔ)義類別以及音頻感知中的雙耳空間線索。作者在實(shí)驗(yàn)中使用一臺(tái)TurtleBot作為智能體。使用的15個(gè)有語(yǔ)義意義的聲音,包括水槽、靠墊、電視、淋浴等聲音。每個(gè)聲音都與特定的目標(biāo)類別進(jìn)行一對(duì)一映射。為了被認(rèn)為是成功,智能體需要在聲音停止后仍能定位到目標(biāo)位置,并導(dǎo)航到發(fā)出聲音的特定目標(biāo)物體,而不是類別內(nèi)的其他物體。
行動(dòng)和觀測(cè)空間:與任務(wù)的現(xiàn)有規(guī)范相反,該規(guī)范使用固定步長(zhǎng)的離散平移和旋轉(zhuǎn),作者使用連續(xù)動(dòng)作空間來表示機(jī)器人輪軸速度。這使得任務(wù)設(shè)定更加現(xiàn)實(shí)和具有挑戰(zhàn)性,并且更適用于真實(shí)世界的機(jī)器人環(huán)境。智能體的觀測(cè)包括RGB圖像、深度圖、兩只耳朵接收到的雙聲道音頻譜圖、碰撞傳感器輸入以及與起始位置相關(guān)的當(dāng)前姿態(tài)。
回合規(guī)范與成功準(zhǔn)則:每個(gè)回合由以下內(nèi)容定義:場(chǎng)景、智能體的起始位置和方向、目標(biāo)類別、類別內(nèi)的一個(gè)目標(biāo)物體以及離目標(biāo)物體位置一米范圍內(nèi)的八個(gè)位置,這些位置被視為定義物體邊界的附近位置。當(dāng)智能體到達(dá)這九個(gè)終止位置之一時(shí),被認(rèn)為滿足成功準(zhǔn)則:八個(gè)靠近目標(biāo)物體的位置和原始目標(biāo)物體位置。達(dá)到終點(diǎn)的距離容差為0.36m,這是真實(shí)TurtleBot的寬度。
音視導(dǎo)航模型:作者提出了一個(gè)多任務(wù)學(xué)習(xí)框架,同時(shí)學(xué)習(xí)語(yǔ)義音視導(dǎo)航和占據(jù)地圖預(yù)測(cè)。在每個(gè)時(shí)間步t,智能體接收到中心視野的視覺觀測(cè),包括RGB圖像和深度圖,以及代表智能體左右耳朵的雙聲道音頻,表示為雙聲道音頻譜圖。作者分別從視覺編碼器和音頻編碼器中提取視覺和音頻特征。
對(duì)于語(yǔ)義音視導(dǎo)航,作者采用了來自SAVi的基本架構(gòu),該架構(gòu)改編自場(chǎng)景記憶變換網(wǎng)絡(luò)。它主要由兩個(gè)組件組成:1) Goal Predictor,它以音頻特征和智能體當(dāng)前姿態(tài)作為輸入,預(yù)測(cè)一個(gè)包含有關(guān)聲源位置和聲音物體的對(duì)象類別信息的目標(biāo)描述符;2) Audio-Visual Transformer,它使用一個(gè)記憶模塊對(duì)智能體的觀測(cè)進(jìn)行編碼,并使用自注意機(jī)制來推理到目前為止看到的3D環(huán)境。變換器的解碼器使用目標(biāo)預(yù)測(cè)器的輸出和內(nèi)存中編碼的觀測(cè),預(yù)測(cè)狀態(tài)特征,然后將其饋送給一個(gè)用于預(yù)測(cè)下一步動(dòng)作的actor-critic網(wǎng)絡(luò)。使用中的分布式分散的鄰近策略優(yōu)化兩階段訓(xùn)練范式。
對(duì)于占據(jù)地圖預(yù)測(cè),作者將其規(guī)定為逐像素分類任務(wù)。將自中心自我位置圖p ∈ V ×V表示為垂直俯視的地圖,該地圖由相機(jī)前方V×V個(gè)單元格的局部區(qū)域組成,該區(qū)域表示一個(gè)5m × 5m的區(qū)域。每個(gè)單元格中的值表示該單元格被占用的概率。通過使用對(duì)應(yīng)室內(nèi)環(huán)境的3D網(wǎng)格獲得地面實(shí)際局部占用。使用U-Net進(jìn)行占據(jù)地圖預(yù)測(cè)。編碼器的輸入是從深度投影中獲得的局部占用地圖,通過在深度和相機(jī)內(nèi)參的點(diǎn)云上設(shè)置高度閾值來獲得。然后,復(fù)制和平鋪狀態(tài)特征向量以匹配特征圖的空間維度,并在后3層編碼器的通道維度上進(jìn)行連接。解碼器然后將融合的特征圖作為輸入,并通過一系列上卷積層輸出預(yù)測(cè)的局部占用地圖,包括可見和不可見的單元格。作者使用二元交叉熵?fù)p失訓(xùn)練占據(jù)預(yù)測(cè)網(wǎng)絡(luò)。
作者的占據(jù)地圖預(yù)測(cè)模塊與機(jī)器人技術(shù)和具體視覺導(dǎo)航中建立世界的連續(xù)表示的前期方法相似。然而,作者聯(lián)合學(xué)習(xí)占據(jù)預(yù)測(cè)和音視導(dǎo)航,有新的見解表明準(zhǔn)確預(yù)測(cè)占據(jù)地圖有助于學(xué)習(xí)更好的音視特征,從而有助于導(dǎo)航。
5 實(shí)驗(yàn)
該研究展示了在音頻視覺導(dǎo)航領(lǐng)域的實(shí)驗(yàn)結(jié)果,并將在SONICVERSE模擬器中訓(xùn)練的代理轉(zhuǎn)移到真實(shí)世界中。通過與多個(gè)基準(zhǔn)方法進(jìn)行比較,作者證明了他們的模型在語(yǔ)義音頻視覺導(dǎo)航中的出色性能。作者還使用不同的評(píng)估指標(biāo)對(duì)模型進(jìn)行了評(píng)估,并比較了不同數(shù)據(jù)集上的性能。結(jié)果顯示,作者的多任務(wù)學(xué)習(xí)框架在所有指標(biāo)上均優(yōu)于現(xiàn)有的方法。此外,通過在俯視地圖上顯示導(dǎo)航軌跡,并與基準(zhǔn)方法進(jìn)行對(duì)比,作者進(jìn)一步證明了他們的模型在感知障礙物和聲音、并高效導(dǎo)航到目標(biāo)物體方面的能力。同時(shí),該研究還展示了他們的模擬器的逼真性,通過將在模擬中訓(xùn)練的導(dǎo)航代理成功轉(zhuǎn)移到真實(shí)世界環(huán)境中。三個(gè)關(guān)鍵步驟(記錄機(jī)器人噪音、隨機(jī)變化源聲音的增益、校準(zhǔn)深度相機(jī))被證明可以減少虛實(shí)差距,從而實(shí)現(xiàn)成功的策略轉(zhuǎn)移。總體而言,該研究為音頻視覺導(dǎo)航領(lǐng)域的研究提供了有價(jià)值的見解,并提供了促進(jìn)虛實(shí)轉(zhuǎn)換的有效方法。
5 總結(jié)
本研究介紹了SONICVERSE,一個(gè)用于訓(xùn)練同時(shí)能夠看和聽的家居智能體的多感官仿真平臺(tái)。該平臺(tái)能夠?qū)崟r(shí)渲染3D環(huán)境中的連續(xù)音頻,并支持虛擬現(xiàn)實(shí)中的音頻流傳輸,為需要音頻視覺感知的體驗(yàn)式人工智能任務(wù)提供了新的測(cè)試平臺(tái)。在音頻視覺導(dǎo)航任務(wù)上,研究者提出了一種新的語(yǔ)義音頻視覺導(dǎo)航模型,其性能優(yōu)于以前的方法。此外,他們還成功地將在模擬中訓(xùn)練的智能體應(yīng)用到真實(shí)世界環(huán)境中。研究者對(duì)SONICVERSE帶來的體驗(yàn)式多感官學(xué)習(xí)研究表示期待。
-
3D
+關(guān)注
關(guān)注
9文章
2878瀏覽量
107548 -
音頻
+關(guān)注
關(guān)注
29文章
2877瀏覽量
81553 -
仿真平臺(tái)
+關(guān)注
關(guān)注
0文章
27瀏覽量
9932
原文標(biāo)題:ICRA2023 | Sonicverse:一個(gè)多感官模擬平臺(tái),讓AI具體任務(wù)成為可能
文章出處:【微信號(hào):3D視覺工坊,微信公眾號(hào):3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論