基于Transformer的多模態(tài)BEV融合方案

結(jié)合互補的傳感器模式對于為自動駕駛 (AD) 等安全關(guān)鍵型機器人應(yīng)用提供強大的感知至關(guān)重要。最近用于 AD 的最先進的相機-激光雷達融合方法依賴于單目深度估計，與直接使用來自激光雷達的深度信息相比，這是一項眾所周知的困難任務(wù)。

在這里，作者發(fā)現(xiàn)這種方法沒有像預(yù)期的那樣利用深度，并且表明簡單地改進深度估計不會導(dǎo)致對象檢測性能的改進，并且令人驚訝的是，完全刪除深度估計不會降低對象檢測性能。這表明，在相機-激光雷達融合過程中，依賴單目深度可能是不必要的架構(gòu)瓶頸。

在這項工作中，作者引入了一種新穎的融合方法，該方法完全繞過單目深度估計，而是使用簡單的注意力機制在鳥瞰網(wǎng)格中選擇和融合相機和激光雷達特征。

作者表明，作者的模型可以根據(jù)激光雷達功能的可用性來調(diào)整其對相機功能的使用，并且與依賴單目深度估計的基線相比，它在 nuScenes 數(shù)據(jù)集上產(chǎn)生更好的 3D 對象檢測。

01? 介紹

高效、有效地集成來自不同模式的信息在自動駕駛等安全關(guān)鍵型應(yīng)用中尤其重要，其中不同的傳感器模式是互補的，將它們充分組合對于保證安全至關(guān)重要。例如，相機可以捕獲遠距離物體的豐富語義信息，而激光雷達提供極其準確的深度信息，但在遠距離處卻稀疏。因此，許多現(xiàn)代自動駕駛平臺都擁有大量不同的傳感器，必須將這些傳感器組合在一起，才能提供對周圍場景的準確可靠的感知，并允許這些車輛在現(xiàn)實世界中安全部署。

多模態(tài)傳感器融合——學(xué)習來自多個傳感器的場景的統(tǒng)一表示——為這個問題提供了一個可行的解決方案。然而，訓(xùn)練此類多模態(tài)模型可能具有挑戰(zhàn)性，尤其是當模態(tài)與相機（RGB 圖像）和激光雷達（3D 點云）不同時。例如，眾所周知，不同的模態(tài)以不同的速率過度擬合和泛化[53]，并且聯(lián)合訓(xùn)練所有模態(tài)可能導(dǎo)致較弱模態(tài)的利用不足，甚至在某些情況下與單模態(tài)模型相比結(jié)果較差[37]。

在自動駕駛的背景下，許多最新的相機-激光雷達融合方法[14,28,33]都是基于Lift-Splat (LS)范式[38]1。在這種方法中，相機特征在與激光雷達特征融合之前使用單目深度投影在鳥瞰圖（BEV）或自上而下的空間中。因此，BEV 中相機特征的位置高度依賴于單目深度預(yù)測的質(zhì)量，并且有人認為其準確性至關(guān)重要 [14, 28]。在這項工作中，作者重新考慮這些主張，并表明這些模型內(nèi)的單目深度預(yù)測質(zhì)量很差，無法解釋它們的成功。特別是，作者提出的結(jié)果表明，當單目深度預(yù)測被激光雷達點云的直接深度估計取代或完全刪除時，基于 Lift-Splat 的方法表現(xiàn)同樣出色。這讓作者認為，在融合相機和激光雷達功能時依賴單目深度是一個不必要的架構(gòu)瓶頸，并且 Lift-Splat 可以被更有效的投影機制取代。

作者引入了一種名為“Lift-Attend-Splat”的相機-激光雷達融合新穎方法，該方法完全繞過單目深度估計，而是使用簡單的變壓器選擇并融合 BEV 中的相機和激光雷達功能。作者提供的證據(jù)表明，與基于單眼深度估計的方法相比，作者的方法顯示出更好的相機利用率，并且它提高了對象檢測性能。作者的貢獻如下：

· 作者表明，基于Lift-Splat 范式的相機-激光雷達融合方法沒有按預(yù)期利用深度。特別是，作者表明，如果完全刪除單目深度預(yù)測，它們的性能相同或更好。

· 作者引入了一種新穎的相機-激光雷達融合方法，該方法使用簡單的注意力機制將相機和激光雷達功能融合到BEV 中。作者證明，與基于 Lift-Splat 范例的模型相比，它可以提高相機利用率并改進 3D 對象檢測。

02? 相關(guān)工作

用于自動駕駛的 3D 物體檢測 對于 3D 物體檢測，大多數(shù)基準測試以使用激光雷達點云的方法為主，因為與僅使用攝像頭或雷達的方法相比，激光雷達點云的高度精確的距離測量可以更好地放置 3D 物體。用于點云分類的深度學(xué)習方法在 [40, 41] 的開創(chuàng)性工作中首創(chuàng)，早期工作已將類似的想法應(yīng)用于 3D 對象檢測 [42, 45]。最近的一系列方法基于 3D 空間的直接體素化 [59, 65] 或?qū)⒓す饫走_表示沿 z 方向壓縮為“柱子”[22, 60]。這些方法非常成功，并且是許多后續(xù)工作的基礎(chǔ)[15,19,62]。3D 物體檢測的任務(wù)也可以僅通過多個攝像機來解決。早期的工作大多基于各種兩階段方法[4,20,42,54]，而最近的方法直接利用單目深度估計[3,21,43]。當沒有激光雷達時，這項任務(wù)很困難，因為必須僅使用圖像來估計 3D 信息，這是一個具有挑戰(zhàn)性的問題。然而，最近的工作通過借鑒激光雷達檢測管道 [7,11,16] 的想法，通過改進位置嵌入 [31] 和 3D 查詢 [18]，以及利用時間聚合 [12,25,30，32, 52, 67] 或 2D 語義分割 [64]表現(xiàn)出了令人印象深刻的性能。

相機-激光雷達融合 可以通過聯(lián)合利用相機和激光雷達（如果可用）來提高感知質(zhì)量。最近的融合方法可以大致分為三類：點裝飾方法、利用特定于任務(wù)的對象查詢和架構(gòu)的方法以及基于投影的方法。點裝飾方法使用語義分割數(shù)據(jù) [49, 57]、相機特征 [51] 來增強激光雷達點云，甚至使用圖像平面中的對象檢測來創(chuàng)建新的 3D 點 [63]。此類方法相對容易實現(xiàn)，但其缺點是需要激光雷達點來融合相機功能。TransFusion [1] 是利用激光雷達點云生成的特定于任務(wù)的對象查詢的方法的最新示例。最終檢測是直接進行的，無需將相機特征顯式投影到 BEV 空間中。融合也可以在模型的早期進行，例如在 3D 體素 [5, 6] 或激光雷達特征 [23] 的級別，或者通過在相機和激光雷達骨干網(wǎng)之間共享信息 [17, 26, 39]。最后，基于投影的方法將相機特征投影為 3D，然后將其與激光雷達融合（見下文）。

基于投影的方法 作者特別感興趣的是基于將相機特征投影為 3D 的相機-激光雷達融合方法。最近最先進的方法 [14,28,33] 在 nuScenes 排行榜 [2] 中名列前茅，它利用了 [38] 中提出的想法，并使用單目深度估計在 3D 中投影相機特征。[14] 表明，通過在單目深度估計之前將來自地面真實激光雷達深度圖的特征包含到相機流中，可以顯著提高 [28, 33] 的性能。另一種方法是使用激光雷達點和相機特征之間的已知對應(yīng)關(guān)系將相機特征直接投影到 BEV 空間中 [8,23,55]。然而，激光雷達點云的稀疏性可能會限制投影哪些相機特征，如[33]中所述。最后，當激光雷達不存在時，可以使用變壓器學(xué)習在沒有明確深度的情況下在 BEV 中投影相機特征，如 [25, 44] 所示。在這里，作者將這一工作擴展到相機-激光雷達融合的情況，并利用交叉注意力來生成要與激光雷達融合的相機特征的密集 BEV 網(wǎng)格。

03? Lift-Splat中的單目深度預(yù)測

最近基于 Lift-Splat 范式的相機-激光雷達融合方法 [28, 33] 通過使用單目深度估計將相機特征投影到 BEV 空間中，學(xué)習 BEV 網(wǎng)格形式的統(tǒng)一表示：

其中是從相機特征獲得的上下文向量，是預(yù)定深度箱上的歸一化分布，Splat 表示將每個點向下投影到平面的操作，詳細信息請參見[28,33,38]。然后使用串聯(lián) [33] 或門控注意力 [28] 將生成的特征圖與激光雷達特征合并。在這種范式中，單目深度預(yù)測被表述為分類問題，并從下游任務(wù)間接學(xué)習，無需明確的深度監(jiān)督。

Lift-Splat 深度預(yù)測普遍較差 作者分析了 BEVFusion 預(yù)測深度的質(zhì)量，通過使用絕對相對 (Abs. Rel.) 和均方根誤差 (RMSE) 將其與激光雷達深度圖進行定性和定量比較 [9, 24]。如圖 1 所示的示例所示，深度預(yù)測不能準確反映場景的結(jié)構(gòu)，并且與激光雷達深度圖明顯不同，這表明單目深度沒有像[33]中預(yù)期的那樣得到利用。

改進深度預(yù)測并不能提高檢測性能 作者接下來研究改進深度預(yù)測質(zhì)量是否能提高物體檢測性能。為此，作者重新訓(xùn)練了 [33] 中的模型，損失如下：

其中是原始3D對象檢測損失，是使用激光雷達深度作為目標的深度估計的簡單交叉熵損失。通過改變超參數(shù)，作者可以控制深度預(yù)測的質(zhì)量并探索它如何影響檢測性能。在圖 1 中，作者看到，雖然深度監(jiān)督確實可以在視覺上和定量上產(chǎn)生更準確的深度圖，但隨著深度監(jiān)督權(quán)重的增加，使用平均精度 (mAP) 測量的檢測性能會從基線下降。這表明該方法無法利用更準確的深度預(yù)測。自從對多任務(wù)損失方程進行訓(xùn)練以來在高值時可能會降低目標檢測性能，作者還嘗試了另外兩種變體：(i) 單獨預(yù)訓(xùn)練深度監(jiān)督模塊和 (ii) 直接使用激光雷達點云來完全繞過深度監(jiān)督模塊。預(yù)訓(xùn)練可以帶來更準確的深度預(yù)測，但會降低相對于基線的檢測性能，而直接使用激光雷達不會改變相對于基線的檢測性能，即使所有深度指標都接近于零。

完全刪除深度預(yù)測不會影響目標檢測性能 上述結(jié)果使作者假設(shè)基于 Lift-Splat 投影的相機激光雷達融合方法沒有利用精確的單目深度。為了測試這一點，作者完全刪除單目深度預(yù)測并將投影（1）替換為：

其中作者用 1 表示與形狀相同的張量，所有條目等于 1。這將相機特征均勻地投影到所有深度。引人注目的是，作者在圖 1（右）中看到，去除單目深度估計不會導(dǎo)致目標檢測性能下降，這表明準確的深度估計并不是該方法的關(guān)鍵組成部分。作者假設(shè)，當激光雷達特征可用時，單目深度的重要性會大大降低，因為激光雷達是更精確的深度信息源，并且該模型能夠輕松抑制投射在錯誤位置的相機特征。這表明依賴單目深度估計可能是不必要的架構(gòu)瓶頸，并導(dǎo)致相機的利用率不足。

04? 無需單目深度估計的相機-激光雷達融合方法

在本節(jié)中，作者提出了一種相機-激光雷達融合方法，該方法完全繞過單目深度估計，而是使用簡單的變壓器在鳥瞰圖中融合相機和激光雷達特征[48]。然而，由于大量的相機和激光雷達特征以及注意力的二次性質(zhì)，將 Transformer 架構(gòu)簡單地應(yīng)用于相機-激光雷達融合問題是很困難的。如[44]所示，在 BEV 中投影相機特征時，可以使用問題的幾何形狀來極大地限制注意力的范圍，因為相機特征應(yīng)該只對沿其相應(yīng)光線的位置做出貢獻。作者將這一想法應(yīng)用于相機-激光雷達融合的情況，并引入了一種簡單的融合方法，該方法利用相機平面中的列與激光雷達 BEV 網(wǎng)格中的極射線之間的交叉注意力。交叉注意力不是預(yù)測單眼深度，而是學(xué)習哪些相機特征是激光雷達特征沿其光線提供的最顯著的給定上下文。

除了 BEV 中相機特征的投影之外，作者的模型與基于 Lift-Splat 范式 [14,28,33] 的方法具有相似的整體架構(gòu)，如圖 2 左側(cè)所示。它由以下模塊組成：相機和激光雷達主干，獨立為每種模態(tài)生成特征；投影和融合模塊，將相機特征嵌入到 BEV 中并將其與激光雷達融合；最后是檢測頭。在考慮對象檢測時，模型的最終輸出是場景中對象的屬性，表示為具有位置、尺寸、方向、速度和分類信息的 3D 邊界框。接下來，作者詳細解釋投影和融合模塊的架構(gòu)。

投影地平線 對于每個攝像機，作者考慮穿過圖像中心的水平線以及與其 3D 投影相對應(yīng)的平面。作者將該平面稱為相機的投影地平線。它可以很容易地使用齊次坐標來描述為點集，其中存在使得：

其中是3×4相機投影矩陣（內(nèi)在和外在），是圖像的高度。請注意，該平面通常不平行于 BEV 網(wǎng)格，其相對方向由相機的外部參數(shù)定義。作者在投影地平線上定義一個規(guī)則網(wǎng)格，該網(wǎng)格與圖像平面中特征的二維網(wǎng)格對齊，方法是從水平線與圖像平面中特征列邊緣的交點追蹤出光線，然后分離這些光線進入一組預(yù)先確定的深度箱（類似于[28]）。該網(wǎng)格上的特征可以用矩陣表示，其中每一行對應(yīng)于相機特征圖中的特定列。投影地平線的幾何形狀如圖 2 所示（左插圖）。

投影地平線和 BEV 網(wǎng)格之間的對應(yīng)關(guān)系 通過沿 3D 空間中的 z 方向投影投影地平線上的點和 BEV 平面上的點，作者可以輕松定義它們之間的對應(yīng)關(guān)系。由于相機通常相對于地面傾斜，因此這種對應(yīng)關(guān)系取決于每個相機的外部參數(shù)。作者通過在投影地平線的下投影單元中心位置對 BEV 網(wǎng)格進行雙線性采樣，將激光雷達特征從 BEV 網(wǎng)格傳輸?shù)较鄼C的投影地平線。作者將這個過程稱為“提升”，并將其表示為相機 i 的投影地平線的 Lifti。類似地，通過在 BEV 網(wǎng)格的投影單元中心位置對投影地平線進行雙線性采樣，可以在相反的方向上將特征從投影地平線轉(zhuǎn)移到 BEV 網(wǎng)格。作者將此操作表示為 Splati ，類似于 [28, 33, 38].

Lift-Attend-Splat 作者的投影模塊如圖 2（右）所示，可以分為三個簡單的步驟：（i）作者首先將 BEV 激光雷達特征提升到相機的投影地平線上，產(chǎn)生“提升”激光雷達特征，(ii) 然后，作者使用簡單的變換器編碼器-解碼器讓“提升的”激光雷達特征關(guān)注相應(yīng)列中的相機特征，在投影地平線上產(chǎn)生融合特征，最后(iii) 作者將這些特征重新投射到 BEV 網(wǎng)格上以產(chǎn)生。在參與步驟中，每列中的相機特征由變換器編碼器 E 進行編碼，并作為鍵和值傳遞給變換器解碼器，變換器解碼器使用平截頭體激光雷達特征作為查詢。這三個步驟的結(jié)果可以寫為：

其中，和將 BEV 特征投影到攝像機的投影地平線上（反之亦然），如上所述。最后，作者應(yīng)用一個簡單的融合模塊，將不同相機的投影特征相加，將它們與激光雷達特征連接起來，并應(yīng)用卷積塊以獲得 BEV 中的最終特征。這種簡單的架構(gòu)允許將相機特征從圖像平面投影到 BEV 網(wǎng)格上，而無需單目深度估計。作者使用一組柱截頭體變壓器權(quán)重，這些權(quán)重在所有柱截頭體對和相機之間共享。為了簡單起見，作者在這里使用單個變壓器編碼器和解碼器，但表明增加此類塊的數(shù)量可能是有益的。

注意力與深度預(yù)測 值得討論的是作者的方法與直接預(yù)測單眼深度有何不同。當使用單目深度時，相機特征圖中的每個特征都被投影到由歸一化深度分布加權(quán)的多個位置處的 BEV 中。這種歸一化限制每個特征要么投影到單個位置，要么在多個深度上以較低強度涂抹。然而，在作者的方法中，相機和激光雷達之間的注意力是這樣的，即相同的相機功能可以完全為 BEV 網(wǎng)格中的多個位置做出貢獻。這是可能的，因為注意力是在鍵上標準化的，鍵對應(yīng)于相機特征圖中的不同高度，而不是查詢，對應(yīng)于沿光線的不同距離。此外，作者的模型在選擇投影相機功能的位置時可以訪問 BEV 中的激光雷達功能，這使其具有更大的靈活性。

05? 實驗

表1上展示了 3D 對象檢測任務(wù)的結(jié)果。與基于 Lift-Splat 投影 [28, 33] 的基線相比，作者的方法顯示了 nuScenes 數(shù)據(jù)集的驗證和測試分割方面的改進。特別是，作者在測試分組中顯示了 mAP (+1.1) 和 NDS (+0.4) 的顯著改進。由于激光雷達骨干網(wǎng)是凍結(jié)的并且在所有方法中都是相似的，這表明作者的模型能夠更好地利用相機功能。底部顯示了使用測試時間增強 (TTA) 和模型集成的結(jié)果。作者對鏡像和旋轉(zhuǎn)增強以及單元分辨率為 0.05m、0.075m 和 0.10m 的整體模型的組合執(zhí)行 TTA。作者首先在每個單元分辨率上應(yīng)用 TTA，然后使用加權(quán)框融合 (WBF) [47] 合并結(jié)果框。毫不奇怪，作者的方法在這些技術(shù)方面表現(xiàn)出了出色的擴展性，并且在 nuScenes 驗證集上優(yōu)于 BEVFusion [33]。

作者可以根據(jù)物體與ego的距離和大小對其進行聚類，進一步分析作者模型的性能，見圖 3。作者可以看到，大部分改進都來自于距離較遠和尺寸較小的物體。在這些情況下，單眼深度估計尤其困難，這也解釋了為什么作者的模型在這些情況下表現(xiàn)更好。請注意，即使遠處和小物體包含的激光雷達點較少，作者的模型仍然能夠有效地利用相機特征，即使激光雷達提供的背景較弱。

作者可視化相機特征投影到 BEV 網(wǎng)格上的位置，并將作者的方法與 BEVFusion [33] 進行比較。對于作者的方法，作者檢查變壓器中最終交叉注意力塊的注意力圖，對所有注意力頭進行平均。對于 BEVFusion，作者使用單目深度估計來建立相機和 BEV 空間中的位置之間的對應(yīng)強度。在計算 BEV 中投影相機特征的總權(quán)重時，作者僅考慮與地面實況對象相對應(yīng)的像素，如圖 4a（左）所示，作者的方法將相機特征主要放置在存在地面實況邊界框的區(qū)域。這表明它可以有效地利用激光雷達點云作為上下文，以便將相機特征投影到 BEV 中的相關(guān)位置。與圖 4b 中所示的 BEVFusion 相比，特征分布在物體周圍顯得更窄且更強。這可能是因為作者的投影機制不需要沿其光線對相機特征的權(quán)重進行歸一化，從而使作者的模型能夠更靈活地將特征放置在所需位置。有趣的是，盡管作者的方法也將相機特征投影到 BEV 中的真實框之外，但這些區(qū)域中的激活強度受到融合模塊的抑制。這與作者在第 3 節(jié)中的發(fā)現(xiàn)是一致的。

作者消除了作者方法的一些設(shè)計選擇，并在表2上顯示了它們對目標檢測性能的影響。對于所有的消融實驗，作者使用更簡單的訓(xùn)練設(shè)置，安排 10 個 epoch，批量累積而不是完整批量訓(xùn)練，并且沒有相機增強。作者首先分析融合模塊的不同實現(xiàn)的影響：作者比較一個簡單的跳躍連接（add）、一個小的串聯(lián)和卷積層（Cat+Conv，如[33]）和一個門控 sigmoid 塊[28]。作者發(fā)現(xiàn)它們的表現(xiàn)都非常相似，其中 Cat+Conv 在 mAP 方面表現(xiàn)稍好，這與 [28] 的發(fā)現(xiàn)相反。作者還減少了投影“參與”階段中變壓器解碼器塊的數(shù)量，并表明增加它們的數(shù)量確實會導(dǎo)致 mAP 略有改善。這表明作者的方法可以隨著計算量的增加而擴展，但作者在實驗中使用單個解碼器塊，因為它在質(zhì)量和性能之間提供了良好的平衡。最后，當訓(xùn)練期間增加時間特征聚合中的幀數(shù)時，作者還看到檢測分數(shù)得到了很好的提高。

審核編輯：黃飛

閱讀全文

機器視覺(118056) 機器視覺(118056)
激光雷達(186106) 激光雷達(186106)
自動駕駛(162871) 自動駕駛(162871)

關(guān)于深度學(xué)習模型Transformer模型的具體實現(xiàn)方案

Transformer 本質(zhì)上是一個 Encoder-Decoder 架構(gòu)。因此中間部分的 Transformer 可以分為兩個部分：編碼組件和解碼組件。

2023-11-17 10:34:52

213

語音識別技術(shù)最新進展：視聽融合的多模態(tài)交互成為主要演進方向

電子發(fā)燒友網(wǎng)報道（文/李彎彎）所謂“模態(tài)”，英文是modality，用通俗的話說，就是“感官”，多模態(tài)即將多種感官融合。多模態(tài)交互技術(shù)是近年來人工智能領(lǐng)域的一項重要創(chuàng)新。隨著語音識別技術(shù)的發(fā)展，采用

2023-12-28 09:06:45

1301

深度解析多傳感器信息融合技術(shù)

???? 所謂多傳感器信息融合（Multi-sensor Information Fusion,MSIF），就是利用計算機技術(shù)將來自多傳感器或多源的信息和數(shù)據(jù)，在一定的準則下加以自動分析和綜合，以

2018-11-07 10:53:06

多傳感器融合定位在高速鐵路的應(yīng)用

GPS／DR／MM組合定位的方式，利用多傳感器組合定位技術(shù)信息互補的特點，采用卡爾曼濾波將所得信息進行數(shù)據(jù)融合，得到比單一傳感器定位更精確的定位數(shù)據(jù)。　　2 列車定位系統(tǒng)方案　　該方案利用DR自主定位

2018-11-14 15:12:26

多傳感器融合系統(tǒng)具有哪幾個特點？

多傳感器融合系統(tǒng)具有哪幾個特點？信息融合系統(tǒng)的體系結(jié)構(gòu)主要有哪幾種？

2021-05-19 06:36:24

多傳感器信息融合使用的處理器是單片機還是電腦？

多傳感器信息融合問題，我剛剛查了百度，但是說的全是理論。我想問的是：1、多傳感器信息融合使用的處理器是單片機還是電腦？2、單片機外接幾個傳感器然后顯示出來算是多傳感器信息融合技術(shù)么？?3、他能帶給我們什么好處？

2020-08-26 08:07:50

多傳感器信息融合技術(shù)

2012-08-15 20:09:31

多傳感器信息融合技術(shù)解析

導(dǎo)讀：所謂多傳感器信息融合（Multi-sensor Information Fusion，MSIF），就是利用計算機技術(shù)將來自多傳感器或多源的信息和數(shù)據(jù)，在一定的準則下加以自動分析和綜合，以完成

2018-11-07 11:06:00

多源融合導(dǎo)航的組合算法

多源融合導(dǎo)航學(xué)習進程~

2019-02-27 16:50:55

多通道ADC方案設(shè)計的問題

有沒有多通道（數(shù)量在100以上，也可能上千通道）ADC采樣的一個方案？目前能想到的方案（1）模擬信號先經(jīng)過數(shù)字開關(guān),然后選通，再到ADC采樣口。（2）有沒有多通道ADC的cpu（類似于fpga）的CPU？希望大家能給點建議。

2019-03-18 09:17:54

模態(tài)測試的基礎(chǔ)知識

本模態(tài)測試應(yīng)用指南（56 頁）概述了結(jié)構(gòu)動力學(xué)、采集頻率響應(yīng)數(shù)據(jù)的測量流程、參數(shù)估計（曲線擬合）、用于結(jié)構(gòu)分析的分析方法及其與實驗驗證的關(guān)系......

2019-04-03 14:15:39

模態(tài)窗口的設(shè)置問題

Labview中，一個窗口如果設(shè)置為模態(tài)窗口，則打開后，點擊其他窗口應(yīng)該是沒有作用的。我設(shè)置的幾個子VI為模態(tài)窗口，效果都沒有問題。但有一個子VI，設(shè)置為模態(tài)窗口，打開后，點擊其他窗口的按鈕，雖然

2013-11-28 21:56:55

ABBYY FineReader 和 ABBYY PDF Transformer+功能比對

ABBYY FineReader 12是市場領(lǐng)先的文字識別（OCR），可快速方便地將掃描紙質(zhì)文檔、PDF文件和數(shù)碼相機的圖像轉(zhuǎn)換成可編輯、可搜索信息。ABBYY PDF Transformer

2017-09-01 10:45:12

ABBYY PDF Transformer+創(chuàng)建PDF文檔的幾種方式

Transformer+，您可：從紙質(zhì)文檔創(chuàng)建可搜索的PDF選擇掃描設(shè)置，以獲取最佳的文件大小和圖像質(zhì)量，并創(chuàng)建可搜索的PDF文件。附加的選項包括自動圖像處理、MRC 壓縮和多頁掃描。從文件創(chuàng)建PDF用多種流行格式

2017-09-18 15:44:28

CSI工作模態(tài)分析

CSI拓撲CSI開關(guān)狀態(tài)CSI工作模態(tài)分析CSI與VSI的聯(lián)系

2021-11-15 07:38:09

LMS Virtual Lab 流固模態(tài)分析

LMS Virtual Lab 流固模態(tài)分析的主要步驟：1、設(shè)置材料、屬性、約束條件，進行結(jié)構(gòu)有限元模態(tài)分析。注意：模態(tài)計算的頻率范圍不要太小，否則可能計算錯誤！2、對流體進行模態(tài)分析3、建立結(jié)構(gòu)網(wǎng)格到流體網(wǎng)格的映射，再利用結(jié)構(gòu)模態(tài)和流體模態(tài)進行流固耦合模態(tài)分析

2019-05-29 06:59:58

Namisoft以LXI為基礎(chǔ)構(gòu)建多總線融合的自動測試系統(tǒng)

總線的多總線融合的自動測試系統(tǒng)成為軍用測試領(lǐng)域的發(fā)展趨勢之一。1 定義多總線融合的自動測試系統(tǒng)：測試系統(tǒng)包含兩種或兩種以上的數(shù)字接口總線，不同總線間可實現(xiàn)機械相容、電氣相容、功能相容和運行

2021-10-08 14:44:15

PDF Transformer+“調(diào)整亮度”警告消息解決辦法

在掃描期間，如果亮度設(shè)置不正確，ABBYY PDF Transformer+將顯示警告消息。用黑白模式掃描時，也可能需要調(diào)整亮度設(shè)置。下面小編給大家講講ABBYY PDF Transformer

2017-10-13 14:20:44

[分享]多傳感器數(shù)據(jù)融合理論及應(yīng)用

本帖最后由 srxh 于 2015-12-7 23:19 編輯講多傳感器數(shù)據(jù)融合技術(shù)，可參考下，拓展我們的系統(tǒng)構(gòu)架、優(yōu)化系統(tǒng)算法主要內(nèi)容：數(shù)據(jù)融合算法、融合結(jié)構(gòu)，貝葉斯推理、Dempster_Shasher算法、人工神經(jīng)網(wǎng)絡(luò)、模糊邏輯和模糊神經(jīng)網(wǎng)絡(luò)。老外的書，比較經(jīng)典！

2015-12-07 22:52:50

labview 模態(tài)分析

用labview進行模態(tài)分析，有很多問題，望高手指點一二力錘激勵信號+加速度傳感器信號，請問下，labview什么控件可以計算系統(tǒng)的模態(tài)還是說僅僅兩路信號是分析不了模態(tài)的。

2016-06-24 11:50:49

【W(wǎng)aRP7試用申請】一種高效的協(xié)議融合解決方案

項目名稱：一種高效的協(xié)議融合解決方案試用計劃：申請理由：現(xiàn)在市面上的傳感器類型很多，所以導(dǎo)致了通信協(xié)議的種類很多，例如：串口，I2C，485等，把這些協(xié)議通過NXP處理器進行協(xié)議融合，對數(shù)據(jù)進行統(tǒng)一

2017-07-03 18:30:50

三網(wǎng)融合方案跟蹤-DOCSIS EoC

一種新的經(jīng)濟實惠的EoC解決方案，就是Broadcom面向中國市場推出DOCSIS EoC解決方案的基本出發(fā)點?！　roadcom最新推出的針對EPON的DOCSIS EoC，它可以被用于在中國的多

2010-12-21 23:11:44

三網(wǎng)融合方案跟蹤-DOCSIS EoC

三網(wǎng)融合方案跟蹤-DOCSIS EoC相信大家對“三網(wǎng)融合”這個詞不陌生，這三網(wǎng)是指電信網(wǎng)、廣播電視網(wǎng)和互聯(lián)網(wǎng)。目前還有提到“四網(wǎng)融合”，這里指的第四個網(wǎng)是電力網(wǎng)。我們先聊聊“三網(wǎng)”。廣電總局對于三

2010-12-23 20:01:18

為什么TouchGFX模態(tài)窗口需要設(shè)置背景才能工作呢？

我想設(shè)計一個模態(tài)窗口來遮擋屏幕。根據(jù)不同的情況，它會顯示不同的小部件。我只想顯示沒有模態(tài)窗口背景的小部件。但看起來模態(tài)窗口類需要背景來繪制其子項。有什么建議嗎？提前致謝。

2022-12-22 07:04:47

介紹一種基于融合SoC處理器的平臺軟件解決方案

本文介紹一種面向基站平臺處理單板的基于融合SoC處理器的平臺軟件解決方案。

2021-05-17 06:36:12

仿生四足機器人中多傳感器信息融合的應(yīng)用有哪些

多傳感器信息融合技術(shù)綜合了概率統(tǒng)計、信號處理、人工智能、控制理論等多個學(xué)科的最新科研成果，為機器人精確、全面、實時地感知各種復(fù)雜的、動態(tài)的、不確定的未知環(huán)境提供了一種先進的技術(shù)手段。在研究基于多

2020-08-18 07:43:38

關(guān)于LabWindows/CVI的模態(tài)與非模態(tài)窗口的問題，懇請大家?guī)蛶兔?/a>

使用LabWindows/CVI建立多線程時，在子線程中用到了MessagePopup函數(shù)，本來MessagePopup函數(shù)的彈出窗口是模態(tài)窗口，但是程序運行時卻是非模態(tài)窗口。我現(xiàn)在是必須得在子線程

2017-05-14 21:17:51

分享一款不錯的基于AD9957的多波形雷達信號產(chǎn)生器實現(xiàn)方案

本文討論的基于AD9957的多波形雷達信號產(chǎn)生器實現(xiàn)方案，融合了RS 232串口通信、FPGA和DDS等多種技術(shù)，具有數(shù)字化、多功能和可編程的特點，并在模塊化設(shè)計方面做了一些探索和嘗試性研究。

2021-04-12 07:05:44

圖象融合

最好的方案。本文給出的算法可用于兩幅圖像或多幅圖像的融合，從仿真結(jié)果可看出，這個算法較好地保持了圖像的邊緣，具有較好的視覺效果。1.2課題設(shè)計要求題目:幾種圖像融合算法的Matlab程序設(shè)計初始條件

2013-11-22 13:35:53

基于多傳感器數(shù)據(jù)融合的智能機器人設(shè)計

　　本系統(tǒng)所設(shè)計的機器人的主要任務(wù)是在未知環(huán)境下依靠多傳感器信息，運用D-S數(shù)據(jù)融合算法，提供與環(huán)境有關(guān)的關(guān)于系統(tǒng)狀態(tài)的足夠的與可靠的信息，使機器人能夠自主規(guī)劃路徑、躲避障礙物，最終向目標靠近

2018-11-01 15:08:27

基于ARM的多傳感器信息融合在工業(yè)控制中的應(yīng)用

　　0 引言　　現(xiàn)代工業(yè)生產(chǎn)以綜合、復(fù)雜、大型、連續(xù)為特點，采用大量傳感器來監(jiān)測和控制生產(chǎn)過程。多傳感器系統(tǒng)的出現(xiàn)導(dǎo)致信息量劇增，采用信息融合技術(shù)可更有效地利用信息資源。在復(fù)雜的工業(yè)控制系統(tǒng)中，控制

2018-11-12 10:49:55

基于Android的多傳感器信息融合技術(shù)有哪些應(yīng)用

本文介紹基于Android的多傳感器信息融合技術(shù)在氣溶膠自動化檢測中的應(yīng)用。

2021-05-11 06:22:08

基于卡爾曼濾波器和多傳感狀態(tài)的融合估計算法是什么？

采用CarlsON 最優(yōu)數(shù)據(jù)融合準則，將基于Kalman 濾波的多傳感器狀態(tài)融合估計方法應(yīng)用到雷達跟蹤系統(tǒng)。仿真實驗表明，多傳感器Kalman 濾波狀態(tài)融合估計誤差小于單傳感器Kalman 濾波得出的狀態(tài)估計誤差，驗證了方法對雷達跟蹤的有效性。

2020-04-06 07:42:16

如何利用信號調(diào)節(jié)器的抗混淆濾波器來實現(xiàn)混合信號多模態(tài)傳感器調(diào)節(jié)

一些傳感器信號調(diào)節(jié)器用于處理多個傳感元件的輸出。這種處理過程通常由多模態(tài)、混合信號調(diào)節(jié)器完成，它可以同時處理數(shù)個傳感元件的輸出。本文對這類傳感器信號調(diào)節(jié)器中抗混淆濾波器的工作情況進行詳細分析。

2020-04-22 06:35:34

如何更改ABBYY PDF Transformer+旋轉(zhuǎn)頁面

為了實現(xiàn)最佳識別效果，頁面應(yīng)有標準方向，即，水平線條和字母應(yīng)向上。所以有時不得不對文檔頁面進行旋轉(zhuǎn)，以優(yōu)化ABBYY PDF Transformer+轉(zhuǎn)換結(jié)果。下面小編給大家講講如何更改ABBYY

2017-10-16 10:19:26

如何更改ABBYY PDF Transformer+界面語言

在安裝ABBYY PDF Transformer+時會讓您選擇界面語言。此語言將用于所有消息、對話框、按鈕和菜單項。在特殊情況下，您可能需要在安裝完成后更改界面語言以適應(yīng)需求，方法其實很簡單，本文

2017-10-11 16:13:38

怎么實現(xiàn)多傳感信息融合的車輛主動防碰撞系統(tǒng)設(shè)計？

汽車防追尾碰撞控制系統(tǒng)具有什么功能?怎么實現(xiàn)多傳感信息融合的車輛主動防碰撞系統(tǒng)設(shè)計？

2021-05-11 06:24:07

抗混淆濾波器怎么實現(xiàn)混合信號和多模態(tài)傳感器調(diào)節(jié)？

2020-04-21 06:59:01

松靈新品丨全球首款多模態(tài)?ROS開發(fā)平臺LIMO來了，將聯(lián)合古月居打造精品課程精選資料分享

多地形通過性和多場景的適應(yīng)性一直是無人駕駛、機器人等場景化所需要突破的難題。通過多模態(tài)運動融合，提高跨維度運動的柔性適應(yīng)能力是一種理想的解決方式，這決定了機器人和移動平臺未來應(yīng)用場景開拓的深度和廣度

2021-08-30 08:39:33

簡單的模型進行流固耦合的模態(tài)分析

　　本次分享，對一個簡單的模型進行流固耦合的模態(tài)分析，有限元科技小編主要給大家演示如何使用Hypermesh與Nastran對流固耦合的結(jié)構(gòu)進行模態(tài)分析，以及了解聲腔對結(jié)構(gòu)模態(tài)的影響。　　深圳市

2020-07-07 17:15:39

經(jīng)驗模態(tài)分解

各位大神，誰能支持基于labview編程的經(jīng)驗模態(tài)分解程序，感謝各位的大神。江湖救急呀

2015-12-02 20:23:48

航空電子設(shè)備PCB組件的實驗模態(tài)分析

就是通過求解系統(tǒng)的特征方程，一般多自由度系統(tǒng)的特征方程可以成式（1）所示的形式，來得到系統(tǒng)的特征值和特征向量，亦即振動系統(tǒng)固有頻率和振型?！　∈街?，[M]－系統(tǒng)的質(zhì)量矩陣，有限元模態(tài)分析中由單元質(zhì)量矩陣

2018-09-13 16:40:12

計算機視覺論文速覽

AI視野·今日CS.CV 計算機視覺論文速覽transformer、新模型、視覺語言模型、多模態(tài)、clip、視角合成

2021-08-31 08:46:46

詳解ABBYY PDF Transformer+從文件創(chuàng)建PDF文檔

可使用ABBYY PDF Transformer+從Microsoft Word、Microsoft Excel、Microsoft PowerPoint、HTML、RTF、Microsoft

2017-10-17 14:13:42

請問九軸數(shù)據(jù)融合都用什么方案？

！最后選用了PIX飛控代碼的融合，但是受外界磁干擾很大，手機放在附近數(shù)據(jù)都會飄，我怎么感覺這算法沒起作用呢？？？？有沒有好點的融合方案啊？？？求指點，給點思路

2019-07-30 01:14:21

薄殼支架的模態(tài)分析

利用有限元理論，對某承受動態(tài)載荷產(chǎn)品中的關(guān)鍵支撐件——支架建立了有限元模型，并進行模態(tài)分析，計算了前六階模態(tài)參數(shù)(固有頻率和模態(tài)振型)。通過與試驗模態(tài)分析的方法

2009-02-22 01:21:37

基于自適應(yīng)并行結(jié)構(gòu)的多模態(tài)生物特征識別

傳統(tǒng)多模態(tài)生物特征識別方法當出現(xiàn)生物特征缺失時，識別性能會明顯下降。針對此問題，提出一種融合人臉、虹膜和掌紋的自適應(yīng)并行結(jié)構(gòu)多模態(tài)生物識別方法。該方法在設(shè)計融合策

2012-11-09 16:12:19

多文化場景下的多模態(tài)情感識別

學(xué)習的特征，并通過多模態(tài)融合方法結(jié)合不同的模態(tài)。比較不同單模態(tài)特征和多模態(tài)特征融合的情感識別性能．我們在CHEAVD中文多模態(tài)情感數(shù)據(jù)集和AFEW英文多模態(tài)情感數(shù)據(jù)集進行實驗，通過跨文化情感識別研究，我們驗證了文化因素

2017-12-18 14:47:31

多模態(tài)生物識別成趨勢

多模態(tài)生物識別是指整合或融合兩種及兩種以上生物識別技術(shù)，利用其多重生物識別技術(shù)的獨特優(yōu)勢，并結(jié)合數(shù)據(jù)融合技術(shù)，使得認證和識別過程更加精準、安全。

2020-03-11 14:26:40

3226

改善BEV的新興技術(shù)是什么？

BEV較低的運行成本是另一個主要優(yōu)勢。較低的運行成本是由于較低的維護成本和燃料成本。此外，BEV有更少的活動部件和更少的流體，這意味著約50%的維護費用比ICEV。在美國，BEV每英里的平均電力成本

2020-07-16 15:00:48

827

多模態(tài)中NLP與CV融合的方式有哪些？

從a/b test 看文本部分在其中起到的作用為0... ( ) ? 現(xiàn)在看來還是wide and deep這種方式太粗暴了（對于復(fù)雜信息的融合），本文寫寫多模態(tài)掃盲基礎(chǔ)和最近大家精巧的一些圖像文本融合的模型設(shè)計，主要是在VQA（視覺問答）領(lǐng)域，也有一個多模態(tài)QA，因為在推薦領(lǐng)域，你

2020-12-31 10:12:37

4584

如何讓Transformer在多種模態(tài)下處理不同領(lǐng)域的廣泛應(yīng)用？

的多模態(tài)領(lǐng)域的任務(wù)。例如，ViT專門用于視覺相關(guān)的任務(wù)，BERT專注于語言任務(wù)，而VILBERT-MT只用于相關(guān)的視覺和語言任務(wù)。一個自然產(chǎn)生的問題是：我們能否建立一個單一的Transformer，能夠在多種模態(tài)下處理不同領(lǐng)域的廣泛應(yīng)用？最近，F(xiàn)acebook的一個人工智能研究團隊進行了

2021-03-08 10:30:19

2380

通過多模態(tài)特征融合來設(shè)計三維點云分類模型

針對點云數(shù)據(jù)本身信息量不足導(dǎo)致現(xiàn)有三維點云分類方法分類精度較低的問題，結(jié)合多模態(tài)特征融合，設(shè)計一種三維點云分類模型。通過引入投影圖對點云數(shù)據(jù)信息進行擴充，將點云數(shù)據(jù)與圖像數(shù)據(jù)同時作為輸入

2021-03-11 14:09:11

Transformer模型的多模態(tài)學(xué)習應(yīng)用

隨著Transformer在視覺中的崛起，Transformer在多模態(tài)中應(yīng)用也是合情合理的事情，甚至以后可能會有更多的類似的paper。

2021-03-25 09:29:59

9836

如何在多模態(tài)的語境中利用Transformer強大的表達能力？

NLPer在跨界上忙活的不亦樂乎，提取視覺特征后和文本詞向量一同輸入到萬能的Transformer中，加大力度預(yù)訓(xùn)練，總有意想不到的SOTA。如何在多模態(tài)的語境中更細致準確地利用Transformer

2021-03-29 16:47:03

3411

基于層次注意力機制的多模態(tài)圍堵情感識別模型

在連續(xù)維度情感識別任務(wù)中，每個模態(tài)內(nèi)部凸顯情感表達的部分并不相同，不同模態(tài)對于情感狀態(tài)的影響程度也有差別。為此，通過學(xué)習各個模態(tài)特征并采用合理的融合方式，提出一種基于層次注意力機制的多模態(tài)維度情感

2021-04-01 11:20:51

基于雙殘差超密集網(wǎng)絡(luò)的多模態(tài)醫(yī)學(xué)圖像融合方法

Networks， DRHDNS）的多模態(tài)醫(yī)學(xué)圖像融合方法。 DRHDNS分為特征提取和特征融合兩部分。特征提取部分通過將超密集連接與殘差學(xué)習相結(jié)合，構(gòu)造出雙殘差超密集塊，用于提取特征，其中超密集連接不僅發(fā)生在同一路徑的層之間，還發(fā)生在不同路徑的層之間，這種連接使特征提取更充分，細節(jié)

2021-04-14 11:18:30

我們可以使用transformer來干什么？

：transformer是什么？transformer能干啥？為什么要用transformer？transformer能替代cnn嗎？怎么讓transformer運行快一點？以及各種個樣的transformer

2021-04-22 10:49:38

11518

基于聯(lián)合壓縮感知的多模態(tài)目標統(tǒng)一跟蹤方法

針對多模態(tài)目標跟蹤中大多僅考慮單個圖像的異種特征融合或不同模態(tài)圖像的同種特征融合，為了使得這兩者間能自然集成，提出基于聯(lián)合壓縮感知的多模態(tài)目標統(tǒng)一跟蹤方法。通過將多模態(tài)跟蹤問題轉(zhuǎn)化為多重2-范數(shù)

2021-04-27 15:59:29

基于注意力神經(jīng)網(wǎng)絡(luò)的多模態(tài)情感分析方法

情感。對這些海量多模態(tài)數(shù)據(jù)的情感進行分析有助于更妤地理解人們的態(tài)度和觀點，具有廣泛的應(yīng)用場景。為了解決多模態(tài)情感分類任務(wù)中的信息冗余的問題，在張量融合方案的基礎(chǔ)上，提出了一種基于注意力神經(jīng)網(wǎng)絡(luò)的多模態(tài)情感分

2021-04-28 14:41:41

多模態(tài)MR和多特征融合的GBM自動分割算法

多模態(tài)MR和多特征融合的GBM自動分割算法

2021-06-27 11:45:54

Inductor and Flyback Transformer Design .pdf

Inductor and Flyback Transformer Design .pdf(繼電保護必須加電源開關(guān)嗎)-Inductor and Flyback Transformer Design .pdf

2021-07-26 14:50:20

簡述文本與圖像領(lǐng)域的多模態(tài)學(xué)習有關(guān)問題

來自：哈工大SCIR 本期導(dǎo)讀：近年來研究人員在計算機視覺和自然語言處理方向均取得了很大進展，因此融合了二者的多模態(tài)深度學(xué)習也越來越受到關(guān)注。本期主要討論結(jié)合文本和圖像的多模態(tài)任務(wù)，將從多模態(tài)預(yù)訓(xùn)練

2021-08-26 16:29:52

6343

Transformer的復(fù)雜度和高效設(shè)計及Transformer的應(yīng)用

有幫助。本文涉及25篇Transformer相關(guān)的文章，對原文感興趣的讀者可以關(guān)注公眾號回復(fù)： ACL2021Transformers，下載本文所涉及的所有文章～本文主要內(nèi)容：前言 ACL 2021

2021-09-01 09:27:43

5633

模態(tài)分析定義以及模態(tài)假設(shè)理論

模態(tài)分析的經(jīng)典定義為，將線性定常系統(tǒng)振動微分方程組中的物理坐標變換為模態(tài)坐標，使方程組解耦，成為一組以模態(tài)坐標及模態(tài)參數(shù)描述的獨立方程，以便求出系統(tǒng)的模態(tài)參數(shù)。

2022-04-26 10:43:28

1667

面向社交媒體的多模態(tài)屬性級情感分析

另一方面，相比于單一的文本數(shù)據(jù)，多模態(tài)數(shù)據(jù)包含了多種不同信息，這些信息之間往往一一對應(yīng)、互為補充，如何對齊不同模態(tài)的內(nèi)容并提出有效的多模態(tài)融合機制是一個十分棘手的問題。

2022-10-19 10:10:11

1327

Transformer常用的輕量化方法

引言：近年來，Transformer模型在人工智能的各個領(lǐng)域得到了廣泛應(yīng)用，成為了包括計算機視覺，自然語言處理以及多模態(tài)領(lǐng)域內(nèi)的主流方法。

2022-10-25 14:10:41

4289

基于多模態(tài)智慧感知決策的S230芯片

提到多模態(tài)融合感知，我們難免會覺得有些困惑 “模態(tài)”，可理解為“感官” 多模態(tài)即將多種感官融合不夠直觀？那今天我們就以一道競猜題開場請根據(jù)以下線索猜猜這是什么物品？

2022-11-03 11:59:06

479

基于BEV(Birds Eye View)的自動駕駛方案

BEV下的自動駕駛技術(shù)發(fā)展很可能就是端到端的自動駕駛框架的契機。 SelfD里作者利用BEV視角統(tǒng)一了大量行車視頻的數(shù)據(jù)尺度，并進行了規(guī)劃和決策模塊的模型學(xué)習。

2022-12-15 14:49:09

1315

BEV+Transformer對智能駕駛硬件系統(tǒng)有著什么樣的影響？

BEV+Transformer是目前智能駕駛領(lǐng)域最火熱的話題，沒有之一，這也是無人駕駛低迷期唯一的亮點，BEV+Transformer徹底終結(jié)了2D直視圖+CNN時代

2023-02-16 17:14:26

2097

關(guān)于Transformer的核心結(jié)構(gòu)及原理

Thinking Like Transformers 這篇論文中提出了 transformer 類的計算框架，這個框架直接計算和模仿 Transformer 計算。使用 RASP 編程語言，使每個程序編譯成一個特殊的 Transformer。

2023-03-08 09:39:00

488

微軟多模態(tài)ChatGPT的常見測試介紹

研究者將一個基于 Transformer 的語言模型作為通用接口，并將其與感知模塊對接。他們在網(wǎng)頁規(guī)模的多模態(tài)語料庫上訓(xùn)練模型，語料庫包括了文本數(shù)據(jù)、任意交錯的圖像和文本、以及圖像字幕對。

2023-03-13 11:23:00

697

什么是模態(tài)分析？為什么要進行模態(tài)分析？

模態(tài)：物體按照某一階固有頻率振動時，物體上各個點偏離平衡位置的位移是滿足一定的比例關(guān)系的，可以用一個向量表示，這個就稱之為模態(tài)。

2023-04-04 10:39:23

11534

ImageBind：跨模態(tài)之王，將6種模態(tài)全部綁定！

最近，很多方法學(xué)習與文本、音頻等對齊的圖像特征。這些方法使用單對模態(tài)或者最多幾種視覺模態(tài)。最終嵌入僅限于用于訓(xùn)練的模態(tài)對。因此，視頻 - 音頻嵌入無法直接用于圖像 - 文本任務(wù)，反之亦然。學(xué)習真正的聯(lián)合嵌入面臨的一個主要障礙是缺乏所有模態(tài)融合在一起的大量多模態(tài)數(shù)據(jù)。

2023-05-11 09:30:44

595

Transformer結(jié)構(gòu)及其應(yīng)用詳解

本文首先詳細介紹Transformer的基本結(jié)構(gòu)，然后再通過GPT、BERT、MT-DNN以及GPT-2等基于Transformer的知名應(yīng)用工作的介紹并附上GitHub鏈接，看看Transformer是如何在各個著名的模型中大顯神威的。

2023-06-08 09:56:22

1352

Transformer在下一個token預(yù)測任務(wù)上的SGD訓(xùn)練動態(tài)

? 【導(dǎo)讀】 AI理論再進一步，破解ChatGPT指日可待？ Transformer架構(gòu)已經(jīng)橫掃了包括自然語言處理、計算機視覺、語音、多模態(tài)等多個領(lǐng)域，不過目前只是實驗效果非常驚艷

2023-06-12 10:11:33

466

基于Transformer多模態(tài)先導(dǎo)性工作

多模態(tài)（Multimodality）是指在信息處理、傳遞和表達中涉及多種不同的感知模態(tài)或信息來源。這些感知模態(tài)可以包括語言、視覺、聽覺、觸覺等，它們共同作用來傳遞更豐富、更全面的信息。在多模態(tài)系統(tǒng)

2023-08-21 09:49:52

500

BEV人工智能transformer

BEV人工智能transformer? 人工智能Transformer技術(shù)是一種自然語言處理領(lǐng)域的重要技術(shù)，廣泛應(yīng)用于自然語言理解、機器翻譯、文本分類等任務(wù)中。它通過深度學(xué)習算法從大規(guī)模語料庫中自動

2023-08-22 15:59:28

549

BEV感知中的Transformer算法介紹

將BEV下的每個grid作為query，在高度上采樣N個點，投影到圖像中sample到對應(yīng)像素的特征，且利用了空間和時間的信息。并且最終得到的是BEV featrue，在此featrue上做Det和Seg。

2023-09-04 10:22:33

776

基于20T算力芯片，宏景智駕如何打造BEV輕地圖方案？

卷王” 。在推進量產(chǎn)的同時，宏景智駕已在布局 BEV 感知、輕高精地圖甚至去高精地圖的智駕方案，同時也在打造 4D BEV 感知真值系統(tǒng)產(chǎn)品，賦能更多車企進行相關(guān)技術(shù)開發(fā)。近期，宏景智駕在汽車科技媒體平臺 HiEV 上進行了主題為《如何打造極

2023-09-05 20:45:02

550

利用Transformer BEV解決自動駕駛Corner Case的技術(shù)原理

BEV是一種將三維環(huán)境信息投影到二維平面的方法，以俯視視角展示環(huán)境中的物體和地形。在自動駕駛領(lǐng)域，BEV 可以幫助系統(tǒng)更好地理解周圍環(huán)境，提高感知和決策的準確性。在環(huán)境感知階段，BEV 可以將激光雷達、雷達和相機等多模態(tài)數(shù)據(jù)融合在同一平面上。

2023-10-11 16:16:03

367

BEV感知的二維特征點

BEV感知的二維特征點首先來簡單介紹一下什么是BEV感知。 BEV感知（Bird’s Eye View Perception）是一種用于自動駕駛汽車的感知系統(tǒng)，用于提供車輛周圍自上而下的視圖。該系

2023-11-14 11:37:19

287

Transformer迎來強勁競爭者新架構(gòu)Mamba引爆AI圈！

作為通用序列模型的骨干，Mamba 在語言、音頻和基因組學(xué)等多種模態(tài)中都達到了 SOTA 性能。在語言建模方面，無論是預(yù)訓(xùn)練還是下游評估，他們的 Mamba-3B 模型都優(yōu)于同等規(guī)模的 Transformer 模型，并能與兩倍于其規(guī)模的 Transformer 模型相媲美。

2023-12-07 14:14:27

282

人工智能領(lǐng)域多模態(tài)的概念和應(yīng)用場景

隨著人工智能技術(shù)的不斷發(fā)展，多模態(tài)成為了一個備受關(guān)注的研究方向。多模態(tài)技術(shù)旨在將不同類型的數(shù)據(jù)和信息進行融合，以實現(xiàn)更加準確、高效的人工智能應(yīng)用。本文將詳細介紹多模態(tài)的概念、研究內(nèi)容和應(yīng)用場景，并探討人工智能領(lǐng)域多模態(tài)的未來發(fā)展趨勢。

2023-12-15 14:28:44

2191

Nullmax揭秘BEV-AI技術(shù)架構(gòu)加速量產(chǎn)方案演進

12月19日，Nullmax首席科學(xué)家成二康博士應(yīng)邀出席2023全球自動駕駛峰會（GADS 2023），在自動駕駛BEV感知技術(shù)論壇上發(fā)表《BEV-AI技術(shù)架構(gòu) – 量產(chǎn)方案演進》主題報告，透過Nullmax量產(chǎn)方案演進路線圖，深度剖析BEV-AI技術(shù)架構(gòu)的構(gòu)建思路、部署優(yōu)化成果以及前沿創(chuàng)新方向。

2023-12-22 14:46:00

603