午夜国产一级毛片,久久亚洲综合成人网2019

? 論文鏈接：

https://arxiv.org/pdf/2412.13193

?項目主頁：

https://hustvl.github.io/GaussTR/

概述

三維空間理解是推動自動駕駛、具身智能等領(lǐng)域中智能系統(tǒng)實現(xiàn)環(huán)境感知、交互的核心任務(wù)，其中3D語義占據(jù)預(yù)測 (Semantic Occupancy Prediction) 對三維場景進(jìn)行精準(zhǔn)的體素級建模。然而，當(dāng)前主流方法嚴(yán)重依賴大規(guī)模標(biāo)注數(shù)據(jù)，制約了模型的可擴(kuò)展性和泛化能力。為此，我們提出GaussTR，一種基于基礎(chǔ)模型對齊的自監(jiān)督三維空間理解方法。GaussTR通過Transformer架構(gòu)前饋地預(yù)測一組稀疏高斯分布來高效表示3D場景，并利用Gaussian Splatting可微分渲染特征圖與預(yù)訓(xùn)練基礎(chǔ)模型的知識對齊，從而使模型學(xué)習(xí)到通用的3D表征，在無需顯式標(biāo)注數(shù)據(jù)的情況下即可實現(xiàn)零樣本開放詞匯占據(jù)預(yù)測。在Occ3D-nuScene數(shù)據(jù)集上的實驗結(jié)果表明，GaussTR取得了11.70mIoU的最先進(jìn)性能，相比現(xiàn)有方法提升18%，同時訓(xùn)練時間減少50%，顯著提升計算效率。我們希望GaussTR能夠為三維空間智能領(lǐng)域的研究進(jìn)展提供新的視角，推動更可擴(kuò)展、泛化性更強的3D表征學(xué)習(xí)。

基于基礎(chǔ)模型對齊的3D表征學(xué)習(xí)

近年來，2D視覺基礎(chǔ)模型，如CLIP、DINO等，已取得突破性進(jìn)展，而自監(jiān)督3D空間理解仍受限于大規(guī)模3D數(shù)據(jù)集的獲取困難與3D表征的復(fù)雜性。在3D語義占據(jù)預(yù)測任務(wù)中，現(xiàn)有的有監(jiān)督方法依賴大規(guī)模體素級標(biāo)注，不僅標(biāo)注成本高昂，也難以擴(kuò)大到更大規(guī)模的模型量級。受RenderOcc的啟發(fā)，一些自監(jiān)督方案嘗試通過基于SAM生成的語義掩碼偽標(biāo)簽來間接監(jiān)督3D表征。然而，該類方法仍限于學(xué)習(xí)SAM生成的預(yù)定義的類別概率，限制了通用3D表征的學(xué)習(xí)，難以適應(yīng)自動駕駛等現(xiàn)實應(yīng)用中不可忽視的分布外 (Out-of-Distribution) 場景。同時，基于密集體素的建模方式也帶來了冗余計算開銷大、難以捕捉高級語義信息等問題。

受到3D Gaussian Splatting (GS) 技術(shù)在場景重建領(lǐng)域的成功應(yīng)用啟發(fā)，GaussTR采用稀疏高斯作為3D建模方式，利用GS在2D與3D域間的跨模態(tài)表征一致性，實現(xiàn)2D視覺基礎(chǔ)模型的知識遷移到前饋預(yù)測的稀疏、非結(jié)構(gòu)化的通用3D高斯表征中。借助2D視覺基礎(chǔ)模型獲得可擴(kuò)展性和泛化性，實現(xiàn)自監(jiān)督3D空間理解與零樣本開放詞匯推理。

算法架構(gòu)

GaussTR作為基于自監(jiān)督學(xué)習(xí)的3D場景理解框架，整體架構(gòu)可分為前饋高斯建模、基礎(chǔ)模型對齊監(jiān)督、開放詞匯占據(jù)預(yù)測三個階段。

前饋高斯建模

GaussTR以多視角圖像作為輸入，首先通過CLIP和Metric3D V2提取全局語義特征和深度信息構(gòu)建幾何先驗。由于CLIP的視覺局部特征較弱，GaussTR引入FeatUp模塊以增強CLIP特征的細(xì)節(jié)表征。隨后，GaussTR采用Transformer架構(gòu)，從一組可學(xué)習(xí)的高斯查詢初始化，通過可變形注意力聚合基礎(chǔ)模型的局部特征，隨后通過自注意力機(jī)制建模3D場景的全局關(guān)系。最終通過MLP預(yù)測頭預(yù)測每個查詢對應(yīng)的高斯參數(shù)，包括位置μ、尺度S、旋轉(zhuǎn)R、密度α、特征f，作為3D場景的表征。

基礎(chǔ)模型對齊監(jiān)督

在訓(xùn)練階段，GaussTR采用可微分Gaussian Splatting將3D表征投影回2D視角得到渲染特征與深度，與2D視覺基礎(chǔ)模型進(jìn)行對齊監(jiān)督，優(yōu)化2D-3D表征的幾何位置和跨模態(tài)一致性。此外，為了提升CLIP特征的語義特征的邊界準(zhǔn)確性，GaussTR可選地引入Grounded SAM生成的分割掩碼，通過輔助語義頭預(yù)測約束高斯特征渲染的類別概率。

開放詞匯占據(jù)預(yù)測

在推理階段，GaussTR利用CLIP共享的視覺-語言對齊的嵌入空間，計算預(yù)測的高斯特征與目標(biāo)類別的CLIP文本向量之間的相似度得到每個高斯查詢對應(yīng)的類別概率，隨后將高斯查詢體素化生成最終的占據(jù)預(yù)測。由此，GaussTR可以在無需額外標(biāo)注的情況下，實現(xiàn)零樣本開放詞匯預(yù)測。

實驗結(jié)果

在Occ3D-nuScenes數(shù)據(jù)集上的實驗評估表明，GaussTR取得了11.70mIoU的最先進(jìn)性能，在現(xiàn)有算法的基礎(chǔ)上提升了1.76mIoU。并且相較于依賴分割掩碼偽標(biāo)簽的方法，GaussTR實現(xiàn)了零樣本的開放詞匯占據(jù)預(yù)測，進(jìn)一步驗證了基礎(chǔ)模型對齊的通用3D表征學(xué)習(xí)能力。從逐類別的實驗結(jié)果來看，GaussTR在以物體為中心的的類別上標(biāo)展卓越，如車輛、建筑物和植被，這些類別的提升與我們提出稀疏建模策略的核心理念相契合。然而，GaussTR在小物體類別（如行人）和平坦表面類別（如道路）上表現(xiàn)相對較弱。造成這一現(xiàn)象的主要原因包括：小物體的視覺特征不夠顯著，在基礎(chǔ)模型的預(yù)測特征中難以區(qū)分；駕駛場景中的大量遮擋，導(dǎo)致平坦表面的幾何信息難以捕獲。

從可視化結(jié)果來看，GaussTR預(yù)測的高斯分布展現(xiàn)了優(yōu)異的整體場景結(jié)構(gòu)，并且在物體局部細(xì)節(jié)的表現(xiàn)也更加精確，展現(xiàn)了出色的三維空間理解能力。

此外，我們對2D視角的渲染結(jié)果進(jìn)行了可視化分析，尤其是數(shù)據(jù)集中未明確標(biāo)注的罕見類別（如交通燈、街道標(biāo)識）上的零樣本預(yù)測效果，GaussTR依然能夠在對應(yīng)位置產(chǎn)生顯著的激活。這一點進(jìn)一步證明了GaussTR在3D表征學(xué)習(xí)的泛化能力，即使面對現(xiàn)實應(yīng)用的長尾分布場景，仍能依靠基礎(chǔ)模型的知識遷移實現(xiàn)準(zhǔn)確的預(yù)測，為未來自動駕駛、具身智能等3D空間理解能力提供了新的方向。

總結(jié)與展望

本文介紹了一種基于基礎(chǔ)模型對齊的稀疏高斯表征學(xué)習(xí)框架GaussTR，通過將3D高斯預(yù)測與2D視覺基礎(chǔ)模型的知識對齊，實現(xiàn)了無需體素級標(biāo)注的零樣本自監(jiān)督三維語義占據(jù)預(yù)測，為3D空間理解提供了一種高效且可擴(kuò)展的新方案。

通過引入Transformer架構(gòu)前饋生成稀疏高斯分布，配合可微分渲染的跨模態(tài)對齊范式，GaussTR在降低計算復(fù)雜度的同時，突破了傳統(tǒng)方法對人工標(biāo)注的依賴，在Occ3D-nuScenes數(shù)據(jù)集上取得11.70mIoU的自監(jiān)督最先進(jìn)性能，驗證了基于基礎(chǔ)模型知識遷移的3D表征學(xué)習(xí)有效性。實驗表明，稀疏高斯建模策略能有效捕捉場景的語義拓?fù)浣Y(jié)構(gòu)，尤其在物體級語義建模上展現(xiàn)出顯著優(yōu)勢。

未來，我們希望進(jìn)一步探索基于可微分渲染構(gòu)建跨模態(tài)對齊的通用表征范式，突破3D標(biāo)注數(shù)據(jù)瓶頸，這一技術(shù)路徑有望拓展至更廣泛的3D感知任務(wù)，如動態(tài)場景理解、多智能體協(xié)同感知等復(fù)雜任務(wù)。同時，隨著更強大的視覺-語言基礎(chǔ)模型的發(fā)展，我們也期待能夠構(gòu)建更通用的3D語義表征，使得GaussTR能夠在更復(fù)雜的現(xiàn)實場景中發(fā)揮作用，為自動駕駛、具身智能、增強現(xiàn)實等領(lǐng)域提供更強大的3D感知能力。

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

模型

模型

+關(guān)注

關(guān)注
1

文章
3438

瀏覽量
49592
三維空間

三維空間

+關(guān)注

關(guān)注
0

文章
19

瀏覽量
7571
自動駕駛

自動駕駛

+關(guān)注

關(guān)注
788

文章
14047

瀏覽量
168180
具身智能

具身智能

+關(guān)注

關(guān)注
0

文章
78

瀏覽量
239

原文標(biāo)題：CVPR 2025 | 通向自監(jiān)督三維空間理解——基于高斯表示的語義占據(jù)預(yù)測算法GaussTR

文章出處：【微信號：horizonrobotics，微信公眾號：地平線HorizonRobotics】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

基于多傳感器數(shù)據(jù)融合處理實現(xiàn)與城市三維空間和時間配準(zhǔn)

城市三維空間信息的獲取是“數(shù)字城市”的基本工程，它具有位置性、多維性和時序性等特點，是“數(shù)字城市”中融合其他各種信息、形成在空間和時間上連續(xù)分布的城市綜合信息的基礎(chǔ)，這就決定了所獲取的城市三維空間

發(fā)表于 07-14 08:04 ?4325次閱讀

基于多傳感器數(shù)據(jù)融合處理實現(xiàn)與城市<b class='flag-5'>三維空間</b>和時間配準(zhǔn)

[10.2.1]--4.6.1三維空間中的平面方程_clip001

三維空間

jf_90840116

發(fā)布于 :2022年12月15日 10:49:11

[10.2.1]--4.6.1三維空間中的平面方程_clip002

三維空間

jf_90840116

發(fā)布于 :2022年12月15日 10:50:20

labview 利用三維空間畫了一個球，然后想在球面上畫幾個點

labview 利用三維空間畫了一個球，然后想在球面上畫幾個點，不知道該怎么加，求助各位大牛，能不能最好把程序穿上里呀

發(fā)表于 02-21 19:07

請問ADXL345配合陀螺儀能精確測量短時三維空間運動路徑嗎？

想請問一下加速度傳感器ADXL345配合陀螺儀，能否精確測量短時三維空間運動路徑，或者說它測量的準(zhǔn)確度怎么樣，對于重力加速度的消去有沒有什么好的算法實現(xiàn)呢，不勝感激。

發(fā)表于 02-26 14:18

基于麥克風(fēng)陣列模擬人耳進(jìn)行三維空間的聲源定位

一、設(shè)計概述 /Design Introduction1.1 設(shè)計目的基于麥克風(fēng)陣列模擬人耳進(jìn)行三維空間的聲源定位，有著廣泛應(yīng)用前景，可應(yīng)用于大型機(jī)械產(chǎn)品的故障檢測以及新生嬰兒先天性心臟病檢測篩查等

發(fā)表于 08-06 09:21

三維空間中每一平面有四個點，能根據(jù)這四個點畫出一個圓來嗎？

各位大佬，想問一下就是三維空間中每一平面有四個點能根據(jù)這四個點畫出一個圓來嗎？應(yīng)該如何實現(xiàn)？希望有人能夠講解一下不勝感激

發(fā)表于 05-24 16:46

基于交流伺服控制的三維空間磁場與磁力測試技術(shù)

基于交流伺服控制的三維空間磁場與磁力測試技術(shù)：利用交流伺服控制的高精度、高穩(wěn)定性的特點，以交流伺服數(shù)控設(shè)備為運動平臺，采用霍爾探頭、測力傳感器、數(shù)據(jù)采集卡和測

發(fā)表于 07-05 19:33 ?11次下載

一種用于三維空間雜波環(huán)境機(jī)動目標(biāo)跟蹤的數(shù)據(jù)互聯(lián)方法

目標(biāo)跟蹤過程中運動模型不準(zhǔn)會導(dǎo)致預(yù)測中心不準(zhǔn)，而預(yù)測中心不準(zhǔn)會導(dǎo)致錯誤關(guān)聯(lián)。為解決三維空間雜波環(huán)境下機(jī)動目標(biāo)跟蹤過程中數(shù)據(jù)互聯(lián)問題，在數(shù)據(jù)關(guān)聯(lián)時假定目標(biāo)轉(zhuǎn)彎率

發(fā)表于 11-20 15:22 ?7次下載

基于伺服控制的三維空間磁場與磁力測試系統(tǒng)

利用交流伺服控制的高精度、高穩(wěn)定性的特點，以交流伺服數(shù)控設(shè)備為運動平臺，采用霍爾探頭、測力傳感器、數(shù)據(jù)采集卡和測試應(yīng)用軟件組成的三維空間磁場與磁力測試系統(tǒng)。

發(fā)表于 09-08 15:15 ?17次下載

基于伺服控制的<b class='flag-5'>三維空間</b>磁場與磁力測試系統(tǒng)

非正交三維坐標(biāo)系下多電平空間矢量調(diào)制策略

三維空間矢量進(jìn)行表述），以降低三維空間矢量調(diào)制算法復(fù)雜度并優(yōu)化變流器中點電位控制。在對比分析兩類傳統(tǒng)三維空間矢量調(diào)制算法優(yōu)缺點的基礎(chǔ)之上，提出一種非正交

發(fā)表于 04-24 17:16 ?5次下載

非正交<b class='flag-5'>三維</b>坐標(biāo)系下多電平<b class='flag-5'>空間</b>矢量調(diào)制策略

高精度低成本三維空間測量與定位技術(shù)分析

一、業(yè)界需要高精度、低成本三維空間測量與定位伴隨著智能家居、工業(yè)4.0、計算機(jī)輔助醫(yī)療以及VR/AR的蓬勃興起，越來越多的場景需要高精度、低成本的三維空間測量與定位技術(shù)。這一技術(shù)最

發(fā)表于 10-16 16:03 ?2658次閱讀

高精度三維空間定位之單目空間定位技術(shù)解析

本文將重點介紹單目方案的空間定位。三、單目三維空間測量與定位要解決的問題 1、求解原理和過程如前文所述，單目三維空間測量與定位，是依據(jù)PnP原理來求解的。理論上講，如果可以獲取

發(fā)表于 10-16 14:54 ?1.1w次閱讀

適用于戶外環(huán)境的三維空間橢圓信道模型

為研究無線多輸入多輸岀（MIMO）系統(tǒng)信道特性，在考慮無線信道模型的信號傳播復(fù)雜性與空間性的基礎(chǔ)上，提岀一種適用于戶外環(huán)境的三維空間橢圓信道模型

發(fā)表于 05-11 17:04 ?15次下載

立體倉庫三維空間路徑優(yōu)化方案的介紹

運行效率的有效方法。真尚有解決方案介紹真尚有的立體倉庫三維空間路徑優(yōu)化方案將現(xiàn)有蟻群搜索算法，提出了將原有的二維平面搜索路線空間擴(kuò)展到三維空間

發(fā)表于 07-12 09:24 ?1037次閱讀

搜索歷史

一種基于基礎(chǔ)模型對齊的自監(jiān)督三維空間理解方法

評論