国产美女视频黄a视频全免费网站无码综合天天久久综合网 ,精品国产一区二区三区不卡蜜臂

前言：

3D場(chǎng)景理解是自動(dòng)駕駛、機(jī)器人導(dǎo)航等領(lǐng)域的基礎(chǔ)。當(dāng)前基于深度學(xué)習(xí)的方法在3D點(diǎn)云數(shù)據(jù)上表現(xiàn)出了十分出色的性能。然而，一些缺點(diǎn)阻礙了它們?cè)诂F(xiàn)實(shí)世界中的應(yīng)用。第一個(gè)原因是他們嚴(yán)重依賴大量的帶注釋點(diǎn)云，尤其是當(dāng)高質(zhì)量的3D注釋獲取成本高昂時(shí)。此外，他們通常不能識(shí)別訓(xùn)練數(shù)據(jù)中從未見過的新物體。因此，可能需要額外的注釋工作來訓(xùn)練模型識(shí)別這些新的對(duì)象，這既繁瑣又費(fèi)時(shí)。

OpenAI的CLIP為緩解2D視覺中的上述問題提供了一個(gè)新的視角。該方法利用網(wǎng)站上大規(guī)模免費(fèi)提供的圖文對(duì)進(jìn)行訓(xùn)練，建立視覺語(yǔ)言關(guān)聯(lián)，以實(shí)現(xiàn)有前景的開放詞匯識(shí)別?；诖?，MaskCLIP做了基于CLIP的2D圖像語(yǔ)義分割的擴(kuò)展工作。在對(duì)CLIP預(yù)訓(xùn)練網(wǎng)絡(luò)進(jìn)行最小修改的情況下，MaskCLIP可以直接用于新對(duì)象的語(yǔ)義分割，而無需額外的訓(xùn)練工作。PointCLIP將CLIP的樣本分類問題從2D圖像推廣到3D點(diǎn)云。它將點(diǎn)云框架透視投影到2D深度圖的不同視圖中，以彌合圖像和點(diǎn)云之間的模態(tài)間隙。上述研究表明了CLIP在2D分割和3D分類性能方面的潛力。然而，CLIP是否可以及如何有利于3D場(chǎng)景理解仍有待探索。

本文探討了如何利用 CLIP 的2D 圖像-文本預(yù)習(xí)知識(shí)進(jìn)行3D 場(chǎng)景理解。作者提出了一個(gè)新的語(yǔ)義驅(qū)動(dòng)的跨模態(tài)對(duì)比學(xué)習(xí)框架，它充分利用 CLIP 的語(yǔ)義和視覺信息來規(guī)范3D 網(wǎng)絡(luò)。

作者主要的貢獻(xiàn)如下：

1、作者是第一個(gè)將CLIP知識(shí)提煉到3D網(wǎng)絡(luò)中用于3D場(chǎng)景理解的。

2、作者提出了一種新的語(yǔ)義驅(qū)動(dòng)的跨模態(tài)對(duì)比學(xué)習(xí)框架，該框架通過時(shí)空和語(yǔ)義一致性正則化來預(yù)訓(xùn)練3D網(wǎng)絡(luò)。

3、作者提出了提出了一種新的語(yǔ)義引導(dǎo)的時(shí)空一致性正則化，該正則化強(qiáng)制時(shí)間相干點(diǎn)云特征與其對(duì)應(yīng)的圖像特征之間的一致性。

4、該方法首次在無注釋的三維場(chǎng)景分割中取得了良好的效果。當(dāng)使用標(biāo)記數(shù)據(jù)進(jìn)行微調(diào)時(shí)，本文的方法顯著優(yōu)于最先進(jìn)的自監(jiān)督方法。這里也推薦「3D視覺工坊」新課程《徹底搞懂視覺-慣性SLAM：VINS-Fusion原理精講與源碼剖析》

相關(guān)工作：

三維零樣本學(xué)習(xí)：

零樣本學(xué)習(xí)（ZSL）的目標(biāo)是識(shí)別訓(xùn)練集中看不見的對(duì)象。但是目前的方法主要都是基于2D識(shí)別的任務(wù)，對(duì)三維領(lǐng)域執(zhí)行ZSL的研究特別有限。本文進(jìn)一步研究了 CLIP 中豐富的語(yǔ)義和視覺知識(shí)對(duì)三維語(yǔ)義分割任務(wù)的影響。

自監(jiān)督表征學(xué)習(xí)：

自我監(jiān)督學(xué)習(xí)的目的是獲得有利于下游任務(wù)的良好表現(xiàn)。主流的方法是使用對(duì)比學(xué)習(xí)來與訓(xùn)練網(wǎng)絡(luò)。受CLIP成功的啟發(fā)，利用CLIP的預(yù)訓(xùn)練模型來完成下游任務(wù)引起了廣泛的關(guān)注。本文利用圖像文本預(yù)先訓(xùn)練的CLIP知識(shí)來幫助理解3D場(chǎng)景。

跨模式知識(shí)蒸餾：

近年來，越來越多的研究集中于將二維圖像中的知識(shí)轉(zhuǎn)化為三維點(diǎn)云進(jìn)行自監(jiān)督表示學(xué)習(xí)。本文首先嘗試?yán)?CLIP 的知識(shí)對(duì)一個(gè)三維網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練。

具體方法：

本文研究了用于3D場(chǎng)景理解的CLIP的跨模態(tài)知識(shí)轉(zhuǎn)移，稱為CLIP2Scene。本文的工作是利用CLIP知識(shí)進(jìn)行3D場(chǎng)景理解的先驅(qū)。本文的方法由三個(gè)主要組成部分組成：語(yǔ)義一致性正則化、語(yǔ)義引導(dǎo)的時(shí)空一致性規(guī)則化和可切換的自我訓(xùn)練策略。

圖1 語(yǔ)義驅(qū)動(dòng)的跨模態(tài)對(duì)比學(xué)習(xí)圖解。首先，本文分別通過文本編碼器、圖像編碼器和點(diǎn)編碼器獲得文本嵌入、圖像像素特征和點(diǎn)特征。本文利用CLIP知識(shí)來構(gòu)建用于對(duì)比學(xué)習(xí)的正樣本和負(fù)樣本。這樣就得到了點(diǎn)-文本對(duì)和短時(shí)間內(nèi)的所有像素點(diǎn)文本對(duì)。因此，和分別用于語(yǔ)義一致性正則化和時(shí)空一致性規(guī)則化。最后，通過將點(diǎn)特征拉到其相應(yīng)的文本嵌入來執(zhí)行語(yǔ)義一致性正則化，并通過將時(shí)間上相干的點(diǎn)特征模仿到其對(duì)應(yīng)的像素特征來執(zhí)行時(shí)空一致性正則化。

CLIP2Scene

語(yǔ)義一致性正則化

由于CLIP是在2D圖像和文本上預(yù)先訓(xùn)練的，作者首先關(guān)注的是2D圖像和3D點(diǎn)云之間的對(duì)應(yīng)關(guān)系。具體的，使用既可以獲得圖像和點(diǎn)云的因此，可以相應(yīng)地獲得密集的像素-點(diǎn)對(duì)應(yīng)，其中和表示第i個(gè)成對(duì)的圖像特征和點(diǎn)特征，它們分別由CLIP的圖像編碼器和3D網(wǎng)絡(luò)提取。M是對(duì)數(shù)。

圖2 圖像像素到文本映射的圖示。密集像素-文本對(duì)應(yīng)關(guān)系是通過MaskCLIP的方法提出的。

本文提出了一種利用CLIP的語(yǔ)義信息的語(yǔ)義一致性正則化。具體而言，本文通過遵循off-the-shelf方法MaskCLIP（圖2）生成密集像素文本對(duì)，其中是從CLIP的文本編碼器生成的文本嵌入。請(qǐng)注意，像素文本映射可從CLIP免費(fèi)獲得，無需任何額外的訓(xùn)練。然后，我們將像素文本對(duì)轉(zhuǎn)換為點(diǎn)文本對(duì)，并利用文本語(yǔ)義來選擇正點(diǎn)樣本和負(fù)點(diǎn)樣本進(jìn)行對(duì)比學(xué)習(xí)。目標(biāo)函數(shù)如下：其中，代表由第個(gè)類名生成，并且是類別的數(shù)量。表示標(biāo)量積運(yùn)算，是溫度項(xiàng)（）。由于文本是由放置在預(yù)定義的模板中的類名組成，因此文本嵌入表示相應(yīng)的類的語(yǔ)義信息。因此那些具有相同語(yǔ)義的點(diǎn)將被限制在相同的文本嵌入附近，而那些具有不同語(yǔ)義的點(diǎn)將被推開。為此，語(yǔ)義一致性正則化會(huì)減少對(duì)比學(xué)習(xí)中的沖突。

語(yǔ)義引導(dǎo)的時(shí)空一致性正則化

除了語(yǔ)義一致性正則化之外，本文還考慮圖像像素特征如何幫助正則化3D網(wǎng)絡(luò)。自然替代直接引入點(diǎn)特征及其在嵌入空間中的對(duì)應(yīng)像素。然而，圖像像素的噪聲語(yǔ)義和不完美的像素點(diǎn)映射阻礙了下游任務(wù)的性能。為此，提出了一種新的語(yǔ)義引導(dǎo)的時(shí)空一致性正則化方法，通過對(duì)局部空間和時(shí)間內(nèi)的點(diǎn)施加軟約束來緩解這一問題。

具體地，給定圖像和時(shí)間相干LiDAR點(diǎn)云，其中，是秒內(nèi)掃描的次數(shù)。值得注意的是圖像與像素點(diǎn)對(duì)的點(diǎn)云第一幀進(jìn)行匹配。本文通過校準(zhǔn)矩陣將點(diǎn)云的其余部分配準(zhǔn)到第一幀，并將它們映射到圖像上(圖3)。

圖3 圖像像素到點(diǎn)映射（左）和語(yǔ)義引導(dǎo)的融合特征生成（右）示意圖。本文建立了在秒內(nèi)圖像和時(shí)間相干激光雷達(dá)點(diǎn)云之間的網(wǎng)格對(duì)應(yīng)關(guān)系，并且生成語(yǔ)義引到的融合特征。和用于執(zhí)行時(shí)空一致性正則化。

因此，我們?cè)诙虝r(shí)間內(nèi)獲得所有像素點(diǎn)文本對(duì)。接下來，作者將整個(gè)縫合的點(diǎn)云劃分為規(guī)則網(wǎng)格，其中時(shí)間相干點(diǎn)位于同一網(wǎng)格中。本文通過以下目標(biāo)函數(shù)在各個(gè)網(wǎng)格內(nèi)施加時(shí)空一致性約束：

其中，代表像素-點(diǎn)對(duì)位于第個(gè)網(wǎng)格。是一種語(yǔ)義引導(dǎo)的跨模態(tài)融合特征，由以下公式表示：

其中和是注意力權(quán)重是由以下來計(jì)算的：

其中代表溫度項(xiàng)。實(shí)際上，局部網(wǎng)格內(nèi)的那些像素和點(diǎn)特征被限制在動(dòng)態(tài)中心附近。因此，這種軟約束減輕了噪聲預(yù)測(cè)和校準(zhǔn)誤差問題。同時(shí)，它對(duì)時(shí)間相干點(diǎn)特征進(jìn)行了時(shí)空正則化處理。

實(shí)驗(yàn)

數(shù)據(jù)集的選擇：兩個(gè)室外數(shù)據(jù)集 SemanticKITTI 和 nuScenes一個(gè)室內(nèi)數(shù)據(jù)集 ScanNet

無注釋語(yǔ)義分割

表2 是針對(duì)不同數(shù)據(jù)集的無注釋的3D語(yǔ)義分割的性能表3 是無注釋三維語(yǔ)義分割的nuScenes數(shù)據(jù)集消融研究。這里也推薦「3D視覺工坊」新課程《徹底搞懂視覺-慣性SLAM：VINS-Fusion原理精講與源碼剖析》

高效注釋的語(yǔ)義分割

如表1所示，當(dāng)對(duì)1%和100%nuScenes數(shù)據(jù)集進(jìn)行微調(diào)時(shí)，該方法顯著優(yōu)于最先進(jìn)的方法，分別提高了8.1%和1.1%。與隨機(jī)初始化相比，改進(jìn)幅度分別為14.1%和2.4%，表明了本文的語(yǔ)義驅(qū)動(dòng)跨模態(tài)對(duì)比學(xué)習(xí)框架的有效性。定性結(jié)果如圖4所示。此外，本文還驗(yàn)證了該方法的跨域泛化能力。

圖4 對(duì)1%nuScenes數(shù)據(jù)集進(jìn)行微調(diào)的定性結(jié)果。從第一行到最后一行分別是輸入激光雷達(dá)掃描、真值、SLidR預(yù)測(cè)和我們的預(yù)測(cè)。請(qǐng)注意，我們通過誤差圖顯示結(jié)果，其中紅點(diǎn)表示錯(cuò)誤的預(yù)測(cè)。顯然，本文的方法取得了不錯(cuò)的性能。

結(jié)論

在這項(xiàng)名為CLIP2Scene的工作中，作者探討了CLIP知識(shí)如何有助于3D場(chǎng)景理解。為了有效地將CLIP的圖像和文本特征轉(zhuǎn)移到3D網(wǎng)絡(luò)中，作者提出了一種新的語(yǔ)義驅(qū)動(dòng)的跨模態(tài)對(duì)比學(xué)習(xí)框架，包括語(yǔ)義正則化和時(shí)空正則化。作者的預(yù)訓(xùn)練3D網(wǎng)絡(luò)首次以良好的性能實(shí)現(xiàn)了無注釋的3D語(yǔ)義分割。此外，當(dāng)使用標(biāo)記數(shù)據(jù)進(jìn)行微調(diào)時(shí)，我們的方法顯著優(yōu)于最先進(jìn)的自監(jiān)督方法。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴