0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種多模態(tài)駕駛場景生成框架UMGen介紹

地平線HorizonRobotics ? 來源:地平線HorizonRobotics ? 2025-03-24 15:57 ? 次閱讀

? 論文地址:

https://arxiv.org/abs/2503.14945

?項目主頁:

https://yanhaowu.github.io/UMGen/

概述

端到端自動駕駛技術的快速發(fā)展對閉環(huán)仿真器提出了迫切需求,而生成式模型為其提供了一種有效的技術架構。然而,現(xiàn)有的駕駛場景生成方法大多側重于圖像模態(tài),忽略了其他關鍵模態(tài)的建模,如地圖信息、智能交通參與者等,從而限制了其在真實駕駛場景中的適用性。

為此,我們提出了一種多模態(tài)駕駛場景生成框架——UMGen,該框架能夠全面預測和生成駕駛場景中的核心元素,包括自車運動、靜態(tài)環(huán)境、智能交通參與者以及圖像信息。具體而言,UMGen將場景生成建模為Next-Scene Prediction任務,利用幀間并行自回歸與幀內多模態(tài)自回歸技術,使得一個統(tǒng)一模型即可生成以自車為中心、模態(tài)協(xié)同一致的駕駛場景序列。UMGen生成的每個場景均包含自車、地圖、交通參與者、圖像等多種模態(tài)信息,并可靈活擴展至更多模態(tài),以適應不同應用需求。

UMGen不僅能夠靈活生成多樣化的駕駛場景,還支持基于用戶設定生成特定駕駛情境,例如控制自車執(zhí)行左轉、右轉,或模擬他車cut-in等復雜交互行為。憑借這一交互式生成能力,UMGen可為自動駕駛系統(tǒng)的訓練提供稀缺樣本,從而提升模型的泛化能力。同時,它還可用于構建閉環(huán)仿真環(huán)境,對端到端自動駕駛系統(tǒng)進行全面測試與優(yōu)化,甚至支持自博弈式訓練,進一步增強系統(tǒng)的智能決策能力。

UMGen生成的多模態(tài)場景,視頻中的每一個模態(tài)(自車動作,地圖,交通參與者,圖像)都由模型自行想象生成

方法

7b2334ba-057b-11f0-9310-92fbcf53809c.png

Pipeline of UMGen

UMGen從給定的初始場景序列開始,逐場景、自回歸地生成多模態(tài)駕駛場景。我們首先根據(jù)歷史信息預測自車要采取的動作,然后根據(jù)這一動作預測觀察到的地圖變化,以及其他交通參與者的行動,最后將這些信息映射到圖像中。為實現(xiàn)這一目標,我們將每個時刻的場景元素(包括自車動作、地圖、交通參與者以及攝像頭圖像)轉換為有序的token序列,從而將生成任務轉化為Next-token Prediction任務。一個很直觀的想法是將來自不同幀、不同模態(tài)的token直接拼接在一起,然后使用一個decoder-only的transformer進行預測。但是這樣做,token數(shù)量會隨著場景長度的增加而迅速增加,使得算力需求變得無法接受。

為了解決這一問題,我們提出了一種兩階段序列預測方法,將整體任務劃分為幀間預測和幀內預測兩個階段。在幀間預測階段,我們設計了時序自回歸模塊 (TAR) ,該模塊通過因果注意力機制對幀間的時序演化進行建模,確保每個token僅依賴于其歷史狀態(tài),從而捕捉時間維度上的動態(tài)變化。在幀內預測階段,我們引入了有序自回歸模塊 (OAR) ,該模塊通過指定幀內模態(tài)生成的順序(自車動作→地圖元素→交通參與者→攝像頭圖像,如下視頻所示),建立場景內不同模態(tài)之間的關聯(lián),從而保證模態(tài)間的一致性。TAR和OAR模塊協(xié)同工作,不僅有效捕捉了跨模態(tài)的時序依賴關系,還顯著降低了計算復雜度,為高效生成多模態(tài)駕駛場景提供了技術保障。同時,為了增強自車動作與地圖變化之間的模態(tài)一致性,我們還提出了AMA模塊,根據(jù)自車動作計算affine transformation矩陣對地圖特征進行變換,充分利用地圖這種靜態(tài)元素的時序先驗提升預測精度。

UMGen生成過程可視化

實驗及可視化

UMGen在nuPlan數(shù)據(jù)集上進行訓練,并通過可視化和定量實驗證明其具備自由幻想多模態(tài)駕駛場景的能力,以及按照用戶需求生成特定駕駛場景的能力。此外,我們還展示了UMGen在閉環(huán)仿真中的應用潛力:通過將自定義的自車動作注入UMGen中替換生成的自車動作,UMGen實時生成了相對應的下一時刻場景。

以下對部分實驗結果進行展示。

自由幻想生成駕駛場景序列

由UMGen自主推理生成場景,用戶不對UMGen提供任何額外的控制信號。

A. 生成長時序多模態(tài)駕駛場景

B. 生成多樣駕駛場景

自車受控下的場景生成

用戶控制自車動作以生成指定行為模式下的多模態(tài)場景。

A. 在路口控制自車直行或者右轉

B. 控制自車停車等待或者變道超車

用戶指定的場景生成

在此模式下,用戶可通過控制指定交通參與者的動作以創(chuàng)造場景。

在該場景中,通過設定黑色汽車的橫向速度,我們創(chuàng)造了一個"他車突然變道插入"的危險場景,并控制自車剎車或者變道完成規(guī)避。

利用Diffusion Model進一步提升圖像

質量

受到近期Diffusion模型的啟發(fā),我們訓練了一個基于transformer的Diffusion模型。通過將UMGen生成的token作為condition,我們實現(xiàn)了更高質量的圖像生成。

小圖為原始生成圖像,大圖為Diffusion模型生成圖像

總結

UMGen在統(tǒng)一框架內實現(xiàn)了多模態(tài)駕駛場景的生成,每個場景包含自車動作、地圖、交通參與者以及對應的圖像信息。其交互式生成的能力,展現(xiàn)了廣泛的應用潛力, 如作為閉環(huán)仿真器的核心組件以及corner case數(shù)據(jù)生成器等。在未來的研究中,將更多模態(tài)數(shù)據(jù)(如激光雷達點云)納入生成框架中,將是一個值得探索的方向,這有望進一步提升場景生成的豐富性和實用性。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3438

    瀏覽量

    49592
  • 自動駕駛
    +關注

    關注

    788

    文章

    14047

    瀏覽量

    168180

原文標題:CVPR 2025 | UMGen:多模態(tài)駕駛場景生成統(tǒng)一框架

文章出處:【微信號:horizonrobotics,微信公眾號:地平線HorizonRobotics】歡迎添加關注!文章轉載請注明出處。

收藏 0人收藏

    評論

    相關推薦

    基于模態(tài)語義SLAM框架

    本文提出了個魯棒且快速的模態(tài)語義 SLAM 框架,旨在解決復雜和動態(tài)環(huán)境中的 SLAM 問題。具體來說,將僅幾何聚類和視覺語義信息相結合,以減少由于小尺度對象、遮擋和運動模糊導致的
    的頭像 發(fā)表于 08-31 09:39 ?1920次閱讀

    松靈新品丨全球首款模態(tài)?ROS開發(fā)平臺LIMO來了,將聯(lián)合古月居打造精品課程 精選資料分享

    地形通過性和場景的適應性直是無人駕駛、機器人等場景化所需要突破的難題。通過多
    發(fā)表于 08-30 08:39

    一種基于圖像平移的目標檢測框架

    集。本文提出了一種基于圖像平移的目標檢測框架,以解決在不利條件下目標檢測精度下降的問題。我們提出利...
    發(fā)表于 08-31 07:43

    介紹一種嵌入式框架模板的構建方案

    介紹一種嵌入式框架模板的構建方案
    發(fā)表于 02-22 06:25

    一種尺度視點特性視圖生成方法的研究和應用_謝冰

    一種尺度視點特性視圖生成方法的研究和應用_謝冰
    發(fā)表于 03-15 09:27 ?0次下載

    文化場景下的模態(tài)情感識別

    自動情感識別是個非常具有挑戰(zhàn)性的課題,并且有著廣泛的應用價值.本文探討了在文化場景下的模態(tài)情感識別問題.我們從語音聲學和面部表情等
    發(fā)表于 12-18 14:47 ?0次下載

    模態(tài)生物特征識別系統(tǒng)框架

    針對模態(tài)生物特征識別系統(tǒng)并行融合模式中使用方便性和使用效率方面的問題,在現(xiàn)有序列化模態(tài)生物特征識別系統(tǒng)的基礎上,提出了一種結合并行融合和
    發(fā)表于 01-02 18:47 ?0次下載
    <b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>生物特征識別系統(tǒng)<b class='flag-5'>框架</b>

    一種無監(jiān)督下利用模態(tài)文檔結構信息幫助圖片-句子匹配的采樣方法

    Approach for Image-Sentence Matching UsingDocument-Level Structural Information,提出了一種無監(jiān)督設定下,更有效地利用模態(tài)文檔
    的頭像 發(fā)表于 12-26 10:26 ?2287次閱讀
    <b class='flag-5'>一種</b>無監(jiān)督下利用<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>文檔結構信息幫助圖片-句子匹配的采樣方法

    任意文本、視覺、音頻混合生成,模態(tài)有了強大的基礎引擎CoDi-2

    CoDi )模型,讓一種模型統(tǒng)多種模態(tài)成為可能。CoDi 不僅支持從單模態(tài)到單模態(tài)生成,還
    的頭像 發(fā)表于 12-03 20:20 ?757次閱讀
    任意文本、視覺、音頻混合<b class='flag-5'>生成</b>,<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>有了強大的基礎引擎CoDi-2

    大模型+模態(tài)的3實現(xiàn)方法

    我們知道,預訓練LLM已經取得了諸多驚人的成就, 然而其明顯的劣勢是不支持其他模態(tài)(包括圖像、語音、視頻模態(tài))的輸入和輸出,那么如何在預訓練LLM的基礎上引入跨模態(tài)的信息,讓其變得更強大、更通用呢?本節(jié)將
    的頭像 發(fā)表于 12-13 13:55 ?2217次閱讀
    大模型+<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>的3<b class='flag-5'>種</b>實現(xiàn)方法

    人工智能領域模態(tài)的概念和應用場景

    隨著人工智能技術的不斷發(fā)展,模態(tài)成為了個備受關注的研究方向。模態(tài)技術旨在將不同類型的數(shù)據(jù)和信息進行融合,以實現(xiàn)更加準確、高效的人工智能
    的頭像 發(fā)表于 12-15 14:28 ?1.1w次閱讀

    OneLLM:對齊所有模態(tài)框架!

    OneLLM 是第個在單個模型中集成八不同模態(tài)的MLLM。通過統(tǒng)框架和漸進式
    的頭像 發(fā)表于 01-04 11:27 ?1210次閱讀
    OneLLM:對齊所有<b class='flag-5'>模態(tài)</b>的<b class='flag-5'>框架</b>!

    什么是模態(tài)?模態(tài)的難題是什么?

    模態(tài)大模型,通常大于100M~1B參數(shù)。具有較強的通用性,比如對圖片中任意物體進行分割,或者生成任意內容的圖片或聲音。極大降低了場景的定制成本。
    的頭像 發(fā)表于 01-17 10:03 ?5185次閱讀
    什么是<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>?<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>的難題是什么?

    字節(jié)跳動發(fā)布OmniHuman 模態(tài)框架

    2 月 6 日消息,字節(jié)跳動近日發(fā)布了項重大成果 ——OmniHuman 模態(tài)框架,其優(yōu)勢在于其強大的視頻生成能力。用戶只需提供
    的頭像 發(fā)表于 02-07 17:50 ?574次閱讀

    端到端自動駕駛模態(tài)軌跡生成方法GoalFlow解析

    自動駕駛軌跡規(guī)劃往往采用直接回歸軌跡的方法,這種方式雖在測試中能取得不錯的性能,可直接輸出當前場景下最有可能的軌跡或控制,但它難以對自動駕駛場景中常見的
    的頭像 發(fā)表于 03-18 17:59 ?171次閱讀
    端到端自動<b class='flag-5'>駕駛</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>軌跡<b class='flag-5'>生成</b>方法GoalFlow解析

    電子發(fā)燒友

    中國電子工程師最喜歡的網站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術信息
    • 參加活動獲取豐厚的禮品