真實(shí)駕駛場景中,通過觀察和互動,使智能駕駛汽車能夠積累知識并應(yīng)對不可預(yù)測的情況。我們將智駕汽車的這種對世界運(yùn)作方式稱為“常規(guī)認(rèn)知”,它使智能汽車能夠找到自己的方向。對周邊環(huán)境目標(biāo)的觀察也使自車能夠?qū)W習(xí)并遵守規(guī)則。機(jī)器學(xué)習(xí)中的一個類似概念是一種稱為模仿學(xué)習(xí)的方法,它允許模型學(xué)習(xí)模仿人類在給定任務(wù)中的行為。
Wayve作為最先發(fā)布最先進(jìn)的端到端模型的公司,用基于CARLA的模擬數(shù)據(jù)學(xué)習(xí)世界模型和車輛駕駛策略,從而使汽車無需高清地圖即可實(shí)現(xiàn)自動駕駛。其中,基于模型的模仿學(xué)習(xí) (MILE) 作為一種新的機(jī)器學(xué)習(xí)模型,更具體地說是一種強(qiáng)化學(xué)習(xí)架構(gòu),可以在離線訓(xùn)練期間學(xué)習(xí)世界模型和駕駛策略。MILE 可以采用“泛化推理算法”對智駕汽車未來行駛環(huán)境進(jìn)行合理且可視化的想象和預(yù)測,并利用這種能力來規(guī)劃其未來的行動。
前言 ?
由于實(shí)際過程中感知到的信息流通常是不完整且嘈雜的,因此AI大模型的應(yīng)用大腦通過“想象學(xué)習(xí)”可以來填補(bǔ)這些缺失的信息。這也就解釋了為什么AI大模型下的智駕汽車能夠在被陽光致盲等情況下仍可以繼續(xù)駕駛。即使短時間內(nèi)無法進(jìn)行視覺觀察,仍然可以可靠地預(yù)測其下一個狀態(tài)和行動,以表現(xiàn)出安全的駕駛行為。 ?
類似地,基于模型的駕駛行為學(xué)習(xí)MILE 可以執(zhí)行完全根據(jù)想象預(yù)測的準(zhǔn)確駕駛計劃,而無需依靠實(shí)時的對環(huán)境進(jìn)行視覺觀察。實(shí)際上MILE通過使用模型中的想象規(guī)劃,可以執(zhí)行復(fù)雜的駕駛操作,例如駛過環(huán)島、標(biāo)記停車標(biāo)志或轉(zhuǎn)向?yàn)榱吮荛_摩托車手。 ?
從數(shù)量上來說,通過在完全循環(huán)的設(shè)置中運(yùn)行來衡量預(yù)測計劃的準(zhǔn)確性。在模型可以看到圖像觀察結(jié)果的觀察模式和模型必須想象下一個狀態(tài)和動作的想象模式之間切換,類似于由于陽光眩光而暫時失明的駕駛員。 ?
通過自動駕駛的動態(tài)代理和靜態(tài)環(huán)境在 3D 幾何中進(jìn)行推理,MILE 使用每個圖像特征的深度概率分布以及深度箱、相機(jī)內(nèi)在和外在的預(yù)定義網(wǎng)格,可以將汽車捕獲的圖像轉(zhuǎn)換到3D空間。這些 3D 特征體素可以通過使用預(yù)定義網(wǎng)格操作轉(zhuǎn)換為鳥瞰圖,最后一步是映射到一維向量從而壓縮有關(guān)世界模型的信息,這也是定義編碼器過程的一部分。 ?
觀察的下一部分將演化出一個與 StyleGAN 架構(gòu)中發(fā)生的情況非常相似的解碼器。它是一種應(yīng)用于編碼器輸出、鳥瞰圖和圖像潛在向量不同分辨率的上采樣方法。此外,解碼器還輸出車輛控制。對于時間建模而言,MILE 使用循環(huán)神經(jīng)網(wǎng)絡(luò)對潛在狀態(tài)動態(tài)進(jìn)行建模,根據(jù)前一個潛在狀態(tài)預(yù)測下一個潛在狀態(tài)。 ?
環(huán)境和其中作用的動態(tài)代理的精確模型為改進(jìn)運(yùn)動規(guī)劃提供了巨大的潛力。MILE模型可以根據(jù)過去的上下文想象未來的潛在狀態(tài),并使用它們來利用學(xué)習(xí)到的駕駛策略來規(guī)劃和預(yù)測行動。未來狀態(tài)也可以通過解碼器可視化和解釋。 ?
在本文中,將介紹基于模型的模仿學(xué)習(xí) MILE。該模型可用于學(xué)習(xí)自動駕駛車輛的協(xié)同控制并對世界環(huán)境進(jìn)行動態(tài)建模。 ?
基于端到端模型學(xué)習(xí)概述 ?
端到端的學(xué)習(xí)過程可以僅根據(jù)高維視覺觀察預(yù)測駕駛命令來提高性能。有條件的模仿學(xué)習(xí)是學(xué)習(xí)端到端駕駛策略的一種有效方法,這種方法可以部署在模擬和現(xiàn)實(shí)城市駕駛場景中。盡管如此,從高維視覺觀察和專家軌跡中學(xué)習(xí)端到端策略仍然是相對非常困難的。已有一些算法試圖通過超越純粹的模仿學(xué)習(xí)來克服這些困難。比如提出迭代數(shù)據(jù)集聚合,其方法是在部署期間可能經(jīng)歷的軌跡收集相應(yīng)的數(shù)據(jù)。其次,還可以使用 BeV 語義分割來監(jiān)督模型,讓學(xué)習(xí)者接觸專家數(shù)據(jù)的綜合擾動,以產(chǎn)生更穩(wěn)健的駕駛策略。從所有車輛中學(xué)習(xí)(LAV)中不僅可以學(xué)習(xí)自車行為,還可以學(xué)習(xí)場景中其他所有車輛的行為,從而提高了樣本效率。此外,通過構(gòu)建一個在強(qiáng)化學(xué)習(xí)教練來監(jiān)督和訓(xùn)練相應(yīng)的智能體。 ?
1、城市場景學(xué)習(xí) ?
駕駛本質(zhì)上需要對環(huán)境有幾何理解,MILE 首先將圖像特征提升到 3D 空間并將其匯集到鳥瞰圖 (BeV) 表示中,從而利用 3D 幾何作為重要的歸納偏差。世界的演化是通過潛在動力學(xué)模型來建模的,該模型從觀察和專家行為中推斷出緊湊的潛在狀態(tài)。學(xué)習(xí)到的潛在狀態(tài)是輸出車輛控制的駕駛策略的輸入,并且還可以解碼為 BeV 分段以進(jìn)行可視化并作為監(jiān)督信號。 ?
相應(yīng)提升至3D空間的操作可以詳細(xì)描述如下: ?
使用逆內(nèi)函數(shù) K?1和預(yù)測深度,像素圖像空間中的特征在相機(jī)坐標(biāo)中被改進(jìn)為 3D針孔相機(jī)模型;以自車的慣性中心點(diǎn),設(shè)置剛體運(yùn)動M將3D相機(jī)坐標(biāo)轉(zhuǎn)換為3D車輛坐標(biāo); ?
剝離不匹配點(diǎn)。在訓(xùn)練時,先驗(yàn)信息被訓(xùn)練為通過 KL 匹配后驗(yàn)信息分歧,但是它們不一定針對穩(wěn)健的長期未來預(yù)測進(jìn)行優(yōu)化。通過迭代應(yīng)用轉(zhuǎn)換模型并整合中間狀態(tài),優(yōu)化狀態(tài)以實(shí)現(xiàn)穩(wěn)健的多步預(yù)測。監(jiān)督隨機(jī)展開的先驗(yàn)時間范圍(即預(yù)測 t + k 處的狀態(tài),其中 k ≥ 1)。
更準(zhǔn)確地說,在訓(xùn)練期間,以概率 pdrop 從先驗(yàn)而不是后驗(yàn)中采樣隨機(jī)狀態(tài)st,稱這種現(xiàn)象為觀察丟失。如果將 X 表示為表示先驗(yàn) k 次的隨機(jī)變量展開后,X 遵循成功概率 (1 ? pdrop) 的幾何分布。后驗(yàn)分布被建模為兩個高斯分布的混合,其中一個來自先驗(yàn)分布。在訓(xùn)練過程中,一些后驗(yàn)變量被隨機(jī)丟棄,迫使其他后驗(yàn)變量最大化從輸入圖像中提取信息。觀察 dropout 可以被視為 z-dropout 的全局變體,因?yàn)樗黄饎h除所有后驗(yàn)變量。 ?
實(shí)際上代理及其行為都不影響環(huán)境的這種假設(shè)在城市駕駛中很少成立,因此 MILE 使自車能夠模擬其他駕駛主體并規(guī)劃其如何響應(yīng)自車行動。MILE模型可以根據(jù)長期的潛在狀態(tài)和行動來預(yù)測合理且多樣化的未來狀態(tài)。甚至可以在想象中預(yù)測整個駕駛計劃,以成功執(zhí)行復(fù)雜的駕駛操作,例如通過環(huán)島,或轉(zhuǎn)向避開摩托車手。 ?
MILE使用循環(huán)神經(jīng)網(wǎng)絡(luò)對時間進(jìn)行建模,這樣可以維護(hù)一個總結(jié)所有過去觀察結(jié)果的單一狀態(tài),然后在有新觀察結(jié)果可用時有效地更新狀態(tài)。這種設(shè)計決策對于延遲方面的部署具有重要的好處,而對驅(qū)動性能的影響可以忽略不計。 ? 在推理過程中,因?yàn)槭褂醚h(huán)神經(jīng)網(wǎng)絡(luò)對時間進(jìn)行建模,這樣可以維護(hù)一個總結(jié)所有過去觀察結(jié)果的單一狀態(tài),然后在新觀察結(jié)果可用時有效地更新狀態(tài)。這種設(shè)計決策對于延遲方面的部署具有重要的好處,而對驅(qū)動性能的影響可以忽略不計。 ?
2、3D 場景表示 ?
成功的自動駕駛規(guī)劃需要能夠理解和推理 3D 場景,而這對于單目相機(jī)來說可能具有挑戰(zhàn)性。一種常見的解決方案是將多個攝像機(jī)的信息壓縮為場景的單個鳥瞰圖。這可以在 3D 中通過學(xué)習(xí)特征的深度分布提升每個圖像的先驗(yàn)識別能力,然后將所有視錐體分散到公共光柵化 BeV 網(wǎng)格中來實(shí)現(xiàn)。另一種方法是依靠transformers(時空融合)來學(xué)習(xí)從圖像到鳥瞰圖的直接映射,而不需要顯式地建模深度。 ?
3、世界模型 ?
基于模型的方法主要在強(qiáng)化學(xué)習(xí)環(huán)境中進(jìn)行探索,這種方法實(shí)際是在完全離線狀態(tài)下強(qiáng)化學(xué)習(xí),并假設(shè)在與環(huán)境進(jìn)行在線交互中可以獲得獎勵?;谀P偷哪7聦W(xué)習(xí)已成為機(jī)器人操作和 OpenAI Gym 中強(qiáng)化學(xué)習(xí)的替代方案。盡管這些方法不需要獲得獎勵,但它們?nèi)匀恍枰c環(huán)境進(jìn)行在線交互才能獲得良好的性能。 ?
在視頻預(yù)測中,首先利用從圖像觀察中學(xué)習(xí)到的世界模型潛在動態(tài),額外對獎勵函數(shù)進(jìn)行建模,并優(yōu)化他們在世界模型中的策略。當(dāng)然,本文這里的算法是不假設(shè)訪問獎勵函數(shù),而是直接從離線數(shù)據(jù)集中吸收學(xué)習(xí)策略。 ?
此外,以前的方法是對簡單的視覺輸入進(jìn)行操作。相比之下,MILE 能夠從高分辨率輸入觀察中學(xué)習(xí)到復(fù)雜城市駕駛場景的潛在動態(tài),這可以很好的確保小細(xì)節(jié)的感知性能(例如可靠地感知交通信號燈)。 ?
4、軌跡預(yù)測 ?
軌跡預(yù)測的目標(biāo)是使用過去的物理狀態(tài)(例如位置、速度)和場景上下文(例如離線高清地圖)來估計動態(tài)代理的未來軌跡。世界模型構(gòu)建了環(huán)境的潛在表示,解釋了根據(jù)自車行為而獲得感官輸入(例如相機(jī)圖像)的觀察結(jié)果。軌跡預(yù)測方法僅對動態(tài)場景進(jìn)行建模,而世界模型則對靜態(tài)和動態(tài)場景進(jìn)行聯(lián)合推理。在世界模型的學(xué)習(xí)模型中可以潛在表示移動代理未來軌跡的隱式編碼,并且如果我們可以訪問未來的軌跡標(biāo)簽,則可以顯式進(jìn)行解碼。 ?
這些編碼可以預(yù)測移動目標(biāo)的未來軌跡,但沒有控制自車的主體。實(shí)際上,整個軌跡規(guī)劃關(guān)注的是預(yù)測問題,而不是簡單的從演示中學(xué)習(xí)專家行為。從專家的演示中推斷出自車代理的未來軌跡,并以某些特定目標(biāo)為條件來執(zhí)行新任務(wù),這樣也可以共同模擬移動主體和自車的未來軌跡。
這里主要通過聯(lián)合模擬其他動態(tài)代理的運(yùn)動、自車代理的行為以及靜態(tài)場景來進(jìn)行軌跡預(yù)測。假設(shè)訪問不到地面真實(shí)物理狀態(tài)(位置、速度)或場景上下文的離線高清地圖。也就是這樣的先驗(yàn)真值系統(tǒng)并不存在,這里僅使用攝像頭檢測的方法,可以對城市駕駛環(huán)境中的靜態(tài)場景、動態(tài)場景和自我行為進(jìn)行建模。 ?
基于模型學(xué)習(xí)的方法論 ?
MILE方法利用3D幾何作為歸納偏差,并直接從專家演示的高分辨率視頻中學(xué)習(xí)高度緊湊的潛在空間。MILE 能夠想象合理的未來并相應(yīng)地計劃行動,使模型能夠在想象中控制車輛。這意味著模型可以在無需訪問世界最新觀測結(jié)果的情況下成功控制車輛。 ?
1、概率生成模型
設(shè) o1:T 為 T 視頻幀序列,具有相關(guān)的專家動作 a1:T 和地面實(shí)況 BeV 語義分割標(biāo)簽 y1:T。通過引入控制時間動態(tài)的潛在變量 s1:T 來模擬這些動作的演化。 ?
完整的概率模型由如下方程給出。
?
假設(shè)初始分布參數(shù)化為 s1 ~N (0, I),通過引入一個變量 h1 ~δ(0) 作為確定性歷史。該轉(zhuǎn)換包括取決于過去歷史 ht 和過去狀態(tài) st 的確定性更新 ht+1 = fθ(ht, st);隨機(jī)更新 st+1 ~N(μθ(ht+1, at), σθ(ht+1, at)I),其中,我們將 st 參數(shù)化為具有對角協(xié)方差的正態(tài)分布。通過使用神經(jīng)網(wǎng)絡(luò)對這些轉(zhuǎn)換進(jìn)行建模:fθ是門控循環(huán)單元,(μθ,σθ) 是多層感知器。δ為 Dirac delta 函數(shù),gθ為圖像解碼器,lθ為 BeV 解碼器,πθ為策略。 ?
2、MILE模型預(yù)測架構(gòu) ?
整體的MILE的模型預(yù)測架構(gòu)如下圖所示。其中包括了觀測網(wǎng)絡(luò)和推理網(wǎng)絡(luò)兩部分。下面將針對性的對該整體架構(gòu)進(jìn)行詳細(xì)分析。 ?
?
整個推理框架目標(biāo)是推斷生成觀測值 o1:T 的潛在動態(tài) (h1:T, s1:T ),專家操作a1:T和鳥瞰視圖標(biāo)簽 y1:T,潛在動態(tài)包含確定性歷史ht和隨機(jī)狀態(tài)st。 ?
相應(yīng)的推理模型是通過設(shè)定參數(shù)為φ,估計隨機(jī)狀態(tài)的后驗(yàn)分布 q(st|o≤t, aφ(ht, at?1, xt),σφ(ht, at?1, xt)I) 且 xt = eφ(ot)。eφ是觀察編碼器,它可以將圖像二維特征提升到3D空間,從而將它們匯集到鳥瞰圖中,并壓縮為1D 向量。? ?
生成模型估計主要是在參數(shù)為θ條件下,估計t-1時刻隨機(jī)狀態(tài)的先驗(yàn)分布:p(st|ht?1, st?1)~N (μθ(ht, a?t?1),σθ(ht, a?t?1) )I)。其中,ht = fθ(ht?1,st?1)為確定性轉(zhuǎn)換,a?t?1 =πθ(ht?1, st?1) 為預(yù)測動作。同時,該模型還估計如下三個模型參數(shù): ?
觀測值 p(ot|ht, st)~N(gθ(ht,st),I)的分布;
鳥瞰圖分割 p(yt|ht, st) ~Categorical(lθ(ht, st));
執(zhí)行動作 p(at|ht, st) ~Laplace(πθ(ht,st),1);
最后,是設(shè)定推斷時間步長,即通過該模型觀察T = 2個時間步的輸入來推測未來多步的潛在狀態(tài)和動作。 ?
? 推理網(wǎng)絡(luò)框架 ?
MILE實(shí)際上是一種基于模型的城市駕駛模仿學(xué)習(xí)方法,該方法僅從線下專家演示中共同學(xué)習(xí)駕駛策略和世界模型。利用幾何歸納偏差,對高維視覺輸入進(jìn)行操作,MILE 可以預(yù)測多樣化且合理的未來狀態(tài)和行動,從而使模型能夠按照完全根據(jù)想象預(yù)測的計劃進(jìn)行驅(qū)動。 ?
一個懸而未決的問題是如何從專家數(shù)據(jù)中推斷駕駛獎勵函數(shù),因?yàn)檫@將有助于在世界模型中進(jìn)行明確的規(guī)劃。另一個途徑是自監(jiān)督,以放松對鳥瞰圖分割標(biāo)簽的依賴。自監(jiān)督可以充分釋放世界模型在現(xiàn)實(shí)世界駕駛和其他機(jī)器人任務(wù)中的潛力。 ?
如下圖所示,對 MILE 進(jìn)行了完整的描述。其中,該圖中表示狀態(tài)之間條件依賴性的圖形模型。確定性狀態(tài)和隨機(jī)狀態(tài)分別用正方形和圓形表示,觀察到的狀態(tài)呈灰色。生成模型和推理模型的圖形模型中顯示了模型每個組件的參數(shù)數(shù)量及訓(xùn)練期間使用的所有超參數(shù)
? ?
推理網(wǎng)絡(luò)是以φ為參數(shù),由兩個元素組成:即觀測編碼器eφ,將輸入圖像、路線圖和車輛控制傳感器數(shù)據(jù)嵌入到低維向量中;后驗(yàn)網(wǎng)絡(luò)(μφ,σφ),估計高斯后驗(yàn)概率分布。通過對q(st|o≤t,a
為了以傳統(tǒng)的動力學(xué)模型為基礎(chǔ)進(jìn)行有效地泛化學(xué)習(xí),需要設(shè)計相應(yīng)的觀察編碼器。 ? 整個模型狀態(tài)應(yīng)該是緊湊的和低維的。因此,需要將高分辨率輸入圖像嵌入到低維向量中。與圖像分類任務(wù)類似,簡單地將圖像編碼為一維向量可能會導(dǎo)致性能不佳。相反,在模型中顯式編碼3D幾何則可以歸納偏差。 ? 該方法可以基于如下三個步驟實(shí)現(xiàn)降維編碼。 ?
1、將圖像特征提升至3D ?
由于自動駕駛是一個幾何問題,需要在3D中對靜態(tài)場景和動態(tài)代理進(jìn)行推理。因此需要首先將圖像特征提升到3D。更準(zhǔn)確地說,使用圖像編碼器對圖像輸入 ot ∈ R3×H×W 進(jìn)行編碼,以提取特征 ut ∈ RCe×He×We。然后,沿著深度箱dt∈RD×He×We 的預(yù)定義網(wǎng)格預(yù)測每個圖像特征的深度概率分布。使用深度概率分布、相機(jī)內(nèi)在參數(shù) K 和外在參數(shù) M生成相機(jī)坐標(biāo)系到世界坐標(biāo)系的投影矩陣,從而可以將圖像特征提升到3D空間:Lift(ut, dt, K?1 ,M)) ∈ RCe×D×He×De×3。 ?
2、BeV空間中的特征集合 ?
使用具有空間范圍Hb×Wb和空間分辨率bres的預(yù)定義網(wǎng)格將3D特征體素匯總到 BeV 空間,可以得到特征標(biāo)識bt∈ RCe×Hb×Wb。 ?
在傳統(tǒng)的計算機(jī)視覺任務(wù)中(例如語義分割、深度預(yù)測),瓶頸特征通常是空間張量,大約有105-106個特征。對于必須將先驗(yàn)分布(在執(zhí)行動作的情況下認(rèn)為會發(fā)生的情況)與后驗(yàn)分布(通過觀察圖像輸入實(shí)際發(fā)生的情況)相匹配的世界模型來說,如此高的維度是令人望而卻步的。因此,使用卷積主干網(wǎng)backbone,可以將 BeV 特征 bt 壓縮為單個向量xt∈RC。同時,我們發(fā)現(xiàn)在BeV空間中壓縮比直接在圖像空間中壓縮顯得更加關(guān)鍵。 ?
3、路線圖和速度環(huán)境目標(biāo)預(yù)測建模 ?
以路線圖的形式為智能體提供目標(biāo)預(yù)測基準(zhǔn)網(wǎng)絡(luò),生成的是一個輕量化的灰度圖像,可以指示智駕汽車在交叉路口處往何方導(dǎo)航同行。同時,使用卷積模塊對路線圖進(jìn)行編碼,可以產(chǎn)生1D特征rt;當(dāng)前速度用全連接層編碼為mt;由此可以得出在每個時間步t,觀察嵌入xt可以表示為圖像特征、路線圖特征和速度特征的串聯(lián):xt=[xt,rt,mt]∈RC,其中C= 512。 ?
4、生成網(wǎng)絡(luò)θ ?
這里的整個網(wǎng)絡(luò)數(shù)據(jù)處理過程是由生成網(wǎng)絡(luò)參數(shù)θ對潛在動態(tài) (h1:T、s1:T)以及 (o1:T , y1:T, a1:T ) 的生成過程進(jìn)行建模。其中涉及門控循環(huán)單元fθ、先驗(yàn)網(wǎng)絡(luò)(μθ,σθ)、圖像解碼器gθ、BeV 解碼器lθ和策略πθ。 ?
先驗(yàn)網(wǎng)絡(luò)估計高斯分布的參數(shù)為 p(st|ht?1, st?1) ~N (μθ(ht, a?t?1),σθ(ht, a?t?1)I) ,其中 ht = fθ(ht?1, st?1) ,a^t?1=πθ(ht?1, st?1)。由于先驗(yàn)無法訪問t-1時刻地面真實(shí)動作at?1,因此,后驗(yàn)分布估計則使用了學(xué)習(xí)策略 a^t?1=πθ(ht?1, st?1) 進(jìn)行估計。 ?
5、估計散度損失 ?
實(shí)際上,無論先驗(yàn)還是后驗(yàn)分布估計都存在一定的散度損失,這類損失的由來可以解釋如下。 ?
給定過去的狀態(tài) (ht?1, st?1),目標(biāo)是預(yù)測下一個狀態(tài)st 的分布。當(dāng)我們對主動代理進(jìn)行建模時,這種轉(zhuǎn)換被分解為(i)動作預(yù)測和(ii)下一個狀態(tài)預(yù)測。該轉(zhuǎn)移估計將與 at?1 (可以訪問地面真實(shí)動作)和 ot (圖像觀察)的后驗(yàn)分布進(jìn)行比較。先驗(yàn)分布試圖匹配后驗(yàn)分布的分歧匹配框架可以確保模型預(yù)測解釋觀察到的數(shù)據(jù)行為和未來狀態(tài)。后驗(yàn)與先驗(yàn)的差異衡量了在觀察后驗(yàn)時從先驗(yàn)中丟失了多少信息,這種信息丟失也就是我們這里所說的散度損失。 ?
6、未來的狀態(tài)和行動預(yù)測 ?
如前所述,本文介紹的模型可以通過使用學(xué)習(xí)到的先驗(yàn)策略來推斷T+i時刻動作 a^T +i=πθ(hT+i, sT+i),從而推斷出未來的潛在狀態(tài),預(yù)測下一個確定性狀態(tài) hT +i+1=fθ(hT +i,sT+i) 。同時,從先驗(yàn)分布 sT+i+1~N (μθ(hT+i+1, a^T+i),σθ(hT+i+1, a^T+i)I),對于i≥0進(jìn)行過程迭代,得出的結(jié)果可應(yīng)用于潛在空間中生成的較長未來序列,并且該預(yù)測的未來序列可以通過解碼器可視化。 ?
在駕駛過程中的任何給定時間,存在多種可能的有效行為。例如,駕駛員可以稍微調(diào)整速度、決定改變車道或決定跟在車輛后面的安全距離是多少。確定性駕駛策略無法模擬這些微妙之處。在可能有多種選擇的模糊情況下,它通常會學(xué)習(xí)平均行為,這在某些情況下是有效的(例如,平均安全距離和平均巡航速度是合理的選擇),但在其他情況下是不安全的(例如,在變道時:比較老練的方式是可以提早或晚變道,而一般的行為是在車道標(biāo)記上行駛)。 ?
整個未來狀態(tài)的狀態(tài)和行動閉環(huán)驅(qū)動中的完全循環(huán)推理涉及如下兩步: ?
(i)重置狀態(tài):對于每個新的觀察,重新初始化潛在狀態(tài)并重新計算新狀態(tài) [hT,sT],其中T與訓(xùn)練序列長度匹配。 ?
(ii)完全循環(huán):潛在狀態(tài)估計是在評估開始時進(jìn)行初始化的,并且用新的觀察結(jié)果遞歸更新。??????? ?
模型必須學(xué)習(xí)一種表示形式,該表示形式可以概括為比訓(xùn)練期間使用的 T 多幾個數(shù)量級的信息集成步驟。實(shí)踐證明,MILE可以在想象模式下以高達(dá) 30% 的驅(qū)動力保持相同的驅(qū)動性能。該模型可以想象足夠準(zhǔn)確的閉環(huán)駕駛計劃。此外,世界模型的潛在狀態(tài)可以在觀察模式和想象模式之間無縫切換。當(dāng)無法進(jìn)行觀察時,可以通過想象來預(yù)測潛在狀態(tài)的演變,并在可以進(jìn)行觀察時通過圖像觀察進(jìn)行更新。 ?
? 總結(jié) ?
MILE是在城市駕駛數(shù)據(jù)的離線語料庫上進(jìn)行訓(xùn)練的,無需與環(huán)境進(jìn)行任何在線交互??蚣艿木窒扌?strong>之一是自適應(yīng)的手動獎勵功能,而不是根據(jù)專家駕駛員數(shù)據(jù)推斷。
第二個重要的潛在問題是很大程度上依賴鳥瞰圖像分割來預(yù)測未來狀態(tài)。
第三個潛在的改進(jìn)是不同場景的模型泛化。模型可以預(yù)測多樣化且合理的狀態(tài)和動作,這些狀態(tài)和動作可以解釋性地解碼為鳥瞰圖語義分割。此外,MILE可以根據(jù)完全在想象中預(yù)測的計劃執(zhí)行復(fù)雜的駕駛操作。因此,整體上MILE模型預(yù)測可以對靜態(tài)場景、動態(tài)場景進(jìn)行建模,以及城市駕駛環(huán)境中的智駕車輛行為。
審核編輯:劉清
評論
查看更多