0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

第一個大規(guī)模點云的自監(jiān)督預訓練MAE算法Voxel-MAE

3D視覺工坊 ? 來源:arxiv ? 作者:arxiv ? 2022-10-21 16:15 ? 次閱讀

作者:Chen Min, Xinli Xu, Dawei Zhao, Liang Xiao, Yiming Nie, Bin Dai

基于掩碼的自監(jiān)督預訓練方法在圖像和文本領域得到了成功的應用。但是,對于同樣信息冗余的大規(guī)模點云,基于掩碼的自監(jiān)督預訓練學習的研究還沒有展開。在這篇文章中,我們提出了第一個將掩碼自編碼器引入大規(guī)模點云自監(jiān)督預訓練學習的方法:Voxel-MAE。不同于2D MAE采用RGB像素回歸,3D點云數(shù)量巨大,無法直接學習每個點云的數(shù)據(jù)分布,因此Voxel-MAE將點云轉成體素形式,然后進行體素內是否包含點云的二分類任務學習。這種簡單但是有效的分類學習策略能使模型在體素級別上對物體形狀敏感,進而提高下游任務的精度。即使掩蔽率高達90%,Voxel-MAE依然可以學習有代表性的特征,這是因為大規(guī)模點云的冗余度非常高。另外考慮點云隨著距離增大變稀疏,設計了距離感知的掩碼策略。2D MAE的Transformer結構無法處理大規(guī)模點云,因此Voxel-MAE利用3D稀疏卷積來構建encoder,其中position encoding同樣可以只處理unmasked的體素。我們同時在無監(jiān)督領域自適應任務上驗證了Voxel-MAE的遷移性能。Voxel-MAE證明了對大規(guī)模點云進行基于掩碼的自監(jiān)督預訓練學習,來提高無人車的感知性能是可行的。KITTI、nuScenes、Waymo數(shù)據(jù)集上,SECOND、CenterPoint和PV-RCNN上的充分的實驗證明Voxel-MAE在大規(guī)模點云上的自監(jiān)督預訓練性能。

Voxel-MAE是第一個大規(guī)模點云的自監(jiān)督掩碼自編碼器預訓練方法。

不同于MAE中,Voxel-MAE為大規(guī)模點云設計了適合的體素二分類任務、距離感知的掩碼策略和3D稀疏卷積構建的encoder等。

Voxel-MAE的自監(jiān)督掩碼自編碼器預訓練模型有效提升了SECOND、CenterPoint和PV-RCNN等算法在KITTI、nuScenes、Waymo數(shù)據(jù)集上的性能。

Voxel-MAE同時在無監(jiān)督領域自適應3D目標檢測任務上驗證了遷移性能。

算法流程

圖1 Voxel-MAE的整體框圖:首先將大規(guī)模點云轉成體素表示,然后采用距離感知的掩碼策略對體素進行mask,再將unmasked的體素送入不對稱的encoder-decoder網(wǎng)絡,重建體素。最后,采用判斷體素內是否包含點云的二分類交叉熵損失函數(shù)端到端訓練整個網(wǎng)絡。Encoder采用三維稀疏卷積網(wǎng)絡構建,Decoder采用三維反卷積實現(xiàn)。

Range-aware Masking

遵循常見的3D點云目標檢測的設置,我們將WXHXD范圍內的大規(guī)模點云沿著XYZ方向分成大小為VWXVHXVD的體素。所有體素的個數(shù)為nl,包含點云的體素個數(shù)為nv。

不同于2D圖像,3D點云的分布隨著離激光雷達的距離增加越來越稀疏。因此不能對不同位置的點云采用相同的掩碼策略。

對此我們設計了距離感知的掩碼策略。即對近處稠密的點云masking多,對遠處稀疏的點云masking少。具體我們將點云分成30米以內,30-50米,50米以外,然后分別采用r1,r2和r3三種掩碼率來對點云體素進行隨機掩蔽,其中r1》r2》r3。剩余的unmasked的體素個數(shù)為nun。對于所有包含點云的體素nl,我們將其點云體素分類目標設為1,其他設為0。

3D Sparse Convolutional Encoder

MAE論文中采用Transformer網(wǎng)絡架構對訓練集中的unmasked部分進行自注意力機制學習,不會被masked部分影響。但是由于unmasked的點云數(shù)量仍然很大,幾十萬級別,Transformer網(wǎng)絡無法處理如此大規(guī)模unmasked的點云數(shù)據(jù)。研究者通常采用3D SparseConvolutions來處理大規(guī)模稀疏3D點云。因此不同于2D MAE,Voxel-MAE采用3D SparseConvolutions來構建MAE中的encoder,其采用positional encoding來只對unmasked的體素聚合信息,從而類似MAE中的Transformer結構,可以降低訓練模型的計算復雜度。

3D Deconvolutional Decoder

Voxel-MAE采用3D反卷積構建decoder。最后一層輸出每個體素包含點云的概率。decoder網(wǎng)絡簡單,只用于訓練過程。

Voxel-MAE的encoder和decoder的結構如下:

Reconstruction Target

2D MAE中采用masked部分的RGB像素回歸作為掩碼自編碼器自監(jiān)督學習的目標,但是3D點云的數(shù)量很大,回歸點云需要學習每個點云的數(shù)據(jù)分布,是難以學習的。

對于3D點云的體素表示,體素內是否包含點云非常重要。因此我們?yōu)閂oxel-MAE設計了體素是否包含點云的二分類任務。目標是恢復masked的體素的位置信息。雖然分類任務很簡單,但是可以學習到大規(guī)模點云的數(shù)據(jù)分布信息,從而提高預訓練模型的性能。

實驗結果

采用OpenPCDet算法基準庫,在KITTI、nuScenes、Waymo數(shù)據(jù)集上進行了實驗驗證。

1.KITTI

2. Waymo

3. nuScenes

4. 3D點云無監(jiān)督領域自適應任務驗證遷移性能

5. 3D點云重建可視化圖

審核編輯:郭婷


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3643

    瀏覽量

    134519
  • 激光雷達
    +關注

    關注

    968

    文章

    3972

    瀏覽量

    189923
  • 數(shù)據(jù)集

    關注

    4

    文章

    1208

    瀏覽量

    24701

原文標題:Voxel-MAE: 第一個大規(guī)模點云的自監(jiān)督預訓練MAE算法

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    名單公布!【書籍評測活動NO.30】大規(guī)模語言模型:從理論到實踐

    ,在大模型實踐和理論研究的過程中,歷時8月完成 《大規(guī)模語言模型:從理論到實踐》 書的撰寫。希望這本書能夠幫助讀者快速入門大模型的研究和應用,并解決相關技術問題。 本書經(jīng)上市,
    發(fā)表于 03-11 15:16

    個大規(guī)模電路是怎么設計出來的???

    組合成電路,比如電視機的電路板上電子元件縱橫交錯,怎么設計組合成那樣的,還有各與器件參數(shù)大小怎么算的?數(shù)字電路的各個門,模擬電路的三極管,單個是簡單,就是不明白怎么組合成大規(guī)模電路的。書上就那么幾個簡單的電路圖,網(wǎng)上也查詢過
    發(fā)表于 12-24 20:34

    AU1200 MAE驅動程序的開發(fā)流程是什么?

    隨著移動多媒體終端的口益普及,功能的日益強大,人們已經(jīng)不滿足于自己的手持終端僅僅能夠聽MP3音樂,而是希望終端在播放音樂的同時能夠播放高質量視頻,并支持多種視頻格式。AU 1200作為
    發(fā)表于 03-16 07:38

    請問怎樣去設計MAE前端驅動軟件?

    MAE是什么?MAE的開發(fā)環(huán)境如何去建立?怎樣對MAE前端驅動軟件進行設計及測試?
    發(fā)表于 04-22 06:04

    神經(jīng)網(wǎng)絡在訓練時常用的些損失函數(shù)介紹

    標準的高斯分布,說明我們的這個損失函數(shù)可能不是很適合這個問題。下圖顯示各訓練輪次的對比MSE收斂得很好,但MSE可能過擬合了,因為它從20輪開始下降變得變換并且開始上升。MAE
    發(fā)表于 10-20 17:14

    AU 1200 MAE驅動程序開發(fā)流程

    AU 1200作為款基于MIPS架構的處理器,由于其片上集成了視頻硬件設備(Media Accel-eration Engine,MAE),使得該處理器無需配合其他視頻解碼芯片即可完成多種格式的視頻解碼功能 &nb
    發(fā)表于 06-24 09:38 ?608次閱讀
    AU 1200 <b class='flag-5'>MAE</b>驅動程序開發(fā)流程

    個大規(guī)模超文本網(wǎng)絡搜索引擎剖析(英文版)

    個大規(guī)模超文本網(wǎng)絡搜索引擎剖析(英文版)
    發(fā)表于 04-30 14:09 ?0次下載

    如何向大規(guī)模訓練語言模型中融入知識?

    本文關注于向大規(guī)模訓練語言模型(如RoBERTa、BERT等)中融入知識。
    的頭像 發(fā)表于 06-23 15:07 ?4245次閱讀
    如何向<b class='flag-5'>大規(guī)模</b><b class='flag-5'>預</b><b class='flag-5'>訓練</b>語言模型中融入知識?

    用于弱監(jiān)督大規(guī)模語義分割的混合對比正則化框架

    為了解決大規(guī)模語義分割中的巨大標記成本,我們提出了種新的弱監(jiān)督環(huán)境下的混合對比正則化(HybridCR)框架,該框架與全
    的頭像 發(fā)表于 09-05 14:38 ?1354次閱讀

    MAE再發(fā)力,跨模態(tài)交互式自編碼器PiMAE席卷3D目標檢測領域

    MAE以其簡單的實現(xiàn)方式、強大的視覺表示能力,可以在很多基礎視覺任務中展現(xiàn)出良好的性能。但是目前的工作大多是在單視覺模態(tài)中進行,那MAE在多模態(tài)數(shù)據(jù)融合方面表現(xiàn)如何呢?本文
    的頭像 發(fā)表于 04-21 09:36 ?1017次閱讀

    PyTorch教程11.9之使用Transformer進行大規(guī)模訓練

    電子發(fā)燒友網(wǎng)站提供《PyTorch教程11.9之使用Transformer進行大規(guī)模訓練.pdf》資料免費下載
    發(fā)表于 06-05 15:07 ?0次下載
    PyTorch教程11.9之使用Transformer進行<b class='flag-5'>大規(guī)模</b><b class='flag-5'>預</b><b class='flag-5'>訓練</b>

    基礎模型監(jiān)督訓練的數(shù)據(jù)之謎:大量數(shù)據(jù)究竟是福還是禍?

    。然而,在監(jiān)督訓練中,是否數(shù)據(jù)越多越好?數(shù)據(jù)增廣是否始終有效?華為諾亞方舟實驗室與香港科技大學的研究團隊近期發(fā)現(xiàn): 主流
    的頭像 發(fā)表于 07-24 16:55 ?567次閱讀
    基礎模型<b class='flag-5'>自</b><b class='flag-5'>監(jiān)督</b><b class='flag-5'>預</b><b class='flag-5'>訓練</b>的數(shù)據(jù)之謎:大量數(shù)據(jù)究竟是福還是禍?

    在各種檢測器的所有模塊實現(xiàn)無監(jiān)督訓練

    近年來,大規(guī)模訓練后微調優(yōu)化方法在計算機視覺中取得了重大進展。系列訓練
    的頭像 發(fā)表于 08-01 11:42 ?866次閱讀
    在各種檢測器的所有模塊實現(xiàn)無<b class='flag-5'>監(jiān)督</b><b class='flag-5'>預</b><b class='flag-5'>訓練</b>

    NeurIPS 2023 | 全新的監(jiān)督視覺訓練代理任務:DropPos

    ://arxiv.org/pdf/2309.03576 代碼鏈接:? https://github.com/Haochen-Wang409/DropPos 今天介紹我們在 監(jiān)督視覺訓練
    的頭像 發(fā)表于 10-15 20:25 ?530次閱讀
    NeurIPS 2023 | 全新的<b class='flag-5'>自</b><b class='flag-5'>監(jiān)督</b>視覺<b class='flag-5'>預</b><b class='flag-5'>訓練</b>代理任務:DropPos

    神經(jīng)網(wǎng)絡如何用無監(jiān)督算法訓練

    神經(jīng)網(wǎng)絡作為深度學習的重要組成部分,其訓練方式多樣,其中無監(jiān)督學習是種重要的訓練策略。無監(jiān)督學習旨在從未標記的數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)內在的結構、模
    的頭像 發(fā)表于 07-09 18:06 ?800次閱讀