0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種基于深度注意力感知特征的視覺(jué)定位框架

3D視覺(jué)工坊 ? 來(lái)源:3D視覺(jué)工坊 ? 作者:秦嶺北麓小丹童 ? 2022-11-15 09:54 ? 次閱讀

0.筆者個(gè)人體會(huì):

這個(gè)工作來(lái)自于Baidu ADT部門(mén),是該團(tuán)隊(duì)繼L3-Net之后的在自動(dòng)駕駛領(lǐng)域內(nèi)關(guān)于定位的又一力作,其利用圖像數(shù)據(jù)取得了與基于Lidar的方法相當(dāng)?shù)亩ㄎ痪取?其突出的優(yōu)勢(shì)在于:

1.該方法達(dá)到了極高的精度。即使是在訓(xùn)練以及建圖是用到了激光雷達(dá)(點(diǎn)云數(shù)據(jù)),但在實(shí)際線(xiàn)上使用時(shí),只用了圖像數(shù)據(jù)。在這種設(shè)置下,本方法大大節(jié)省了實(shí)際使用時(shí)的成本,并達(dá)到了厘米級(jí)別的精度。

2.該方法繼承了L3-Net在求解位姿時(shí)的做法,即基于Cost volume求解位姿修正量。這種設(shè)置可以滿(mǎn)足端到端訓(xùn)練的需求,并在某種程度上等價(jià)于對(duì)候選的位姿進(jìn)行遍歷對(duì)比,求解了一定范圍內(nèi)的最優(yōu)解。

3.該方法的時(shí)間效率可控。隨著選擇較少的關(guān)鍵點(diǎn)數(shù)量,該方法可以達(dá)到極高的時(shí)間效率。

但此方法也有一定的不足,即該方法嚴(yán)重依賴(lài)于給定初始預(yù)測(cè)位姿的精度。基于Cost volume的定位本質(zhì)上是在候選位姿集合上做一個(gè)遍歷,選擇其中的最優(yōu)解。

但如果給定的初始預(yù)測(cè)位姿精度不夠時(shí),所有候選位姿的精度都有限,即無(wú)法得到一個(gè)精度較高的定位結(jié)果。這個(gè)問(wèn)題可能為實(shí)際使用帶來(lái)一定的局限性。

1、論文相關(guān)內(nèi)容介紹:

摘要:針對(duì)自動(dòng)駕駛應(yīng)用領(lǐng)域,本文提出了一種基于深度注意力感知特征的視覺(jué)定位框架,該框架可達(dá)到厘米級(jí)的定位精度。傳統(tǒng)的視覺(jué)定位方法依賴(lài)于手工制作的特征或道路上的人造物體。然而,它們要么容易由于嚴(yán)重的外觀或光照變化而導(dǎo)致不穩(wěn)定的匹配,要么太過(guò)稀少,無(wú)法在具有挑戰(zhàn)性的場(chǎng)景中提供穩(wěn)定和魯棒的定位結(jié)果。

在這項(xiàng)工作中,本文利用深度注意力機(jī)制,通過(guò)一種新的端到端深度神經(jīng)網(wǎng)絡(luò)來(lái)尋找場(chǎng)景中有利于長(zhǎng)距離匹配的顯著的、獨(dú)特的和穩(wěn)定的特征。此外,此學(xué)習(xí)的特征描述符被證明有能力建立魯棒的匹配,因此成功地估計(jì)出最優(yōu)的、具有高精度的相機(jī)姿態(tài)。

本文使用新收集的具有高質(zhì)量的地面真實(shí)軌跡和傳感器之間硬件同步的數(shù)據(jù)集全面驗(yàn)證了本方法的有效性。

結(jié)果表明,與基于lidar的定位解決方案相比,在各種具有挑戰(zhàn)性的環(huán)境下,本文的方法獲得了具有競(jìng)爭(zhēng)力的定位精度,這是一種潛在的低成本自動(dòng)駕駛定位解決方案。

主要貢獻(xiàn):

1.提出一種新穎的自動(dòng)駕駛視覺(jué)定位框架,在各種具有挑戰(zhàn)性的照明條件下達(dá)到了厘米級(jí)定位精度。

2.通過(guò)一種新的端到端深度神經(jīng)網(wǎng)絡(luò)使用了注意力機(jī)制和深層特征,這有效的提高了算法性能。

3.使用具有高質(zhì)量的地面真實(shí)軌跡和硬件(相機(jī)、激光雷達(dá)、IMU)同步的新數(shù)據(jù)集對(duì)所提出的方法進(jìn)行嚴(yán)格測(cè)試,并驗(yàn)證了其性能。

方法介紹:

該系統(tǒng)分為三個(gè)階段:(1)網(wǎng)絡(luò)訓(xùn)練;(2)地圖生成;(3)在線(xiàn)定位。地圖生成和在線(xiàn)定位都可以看作是經(jīng)過(guò)訓(xùn)練的網(wǎng)絡(luò)的應(yīng)用。提出的網(wǎng)絡(luò)架構(gòu)如圖1所示。

ff3ae3fa-6470-11ed-8abf-dac502259ad0.png

Fig1:基于端到端深度注意力感知特征的視覺(jué)定位框架在三個(gè)不同階段的網(wǎng)絡(luò)架構(gòu)和系統(tǒng)工作流:a)訓(xùn)練;bb)地圖生成;c)在線(xiàn)定位。

一、系統(tǒng)工作流

1. 訓(xùn)練:

訓(xùn)練階段包括三個(gè)模塊,LFE, AKS和WFM。首先,給定一個(gè)預(yù)測(cè)位姿,并選取其在歐氏距離內(nèi)最接近的地圖圖像;接下來(lái),LFE模塊分別從在線(xiàn)圖像和地圖圖像中提取稠密特征,并從地圖圖像中提取相應(yīng)的注意力熱圖。AKS模塊根據(jù)熱圖的注意力得分,從地圖圖像中選擇具備好的特征的點(diǎn)作為關(guān)鍵點(diǎn)。

然后通過(guò)激光雷達(dá)點(diǎn)云投影得到它們的相應(yīng)的三維坐標(biāo)。最后,以這些三維關(guān)鍵點(diǎn)和特征描述符作為輸入,WFM模塊在一個(gè)三維代價(jià)卷中搜索,尋找最優(yōu)位姿偏移量,并將最優(yōu)位姿偏移量與地面真實(shí)位姿進(jìn)行比較,構(gòu)造損失函數(shù)。

2.地圖生成:

訓(xùn)練結(jié)束后,使用如圖2所示的網(wǎng)絡(luò)的部分子網(wǎng)絡(luò),可以完成地圖生成。給定激光雷達(dá)掃描和車(chē)輛真實(shí)位姿,可以很容易地獲得激光雷達(dá)點(diǎn)的全局三維坐標(biāo)。注意,激光雷達(dá)傳感器和車(chē)輛位姿真值僅用于建圖。首先,在給定車(chē)輛真實(shí)位姿的情況下,通過(guò)將三維激光雷達(dá)點(diǎn)投影到圖像上,將地圖圖像像素與全局三維坐標(biāo)關(guān)聯(lián)起來(lái)。

然后利用LFE網(wǎng)絡(luò)求解地圖圖像的注意力熱圖和不同分辨率的特征圖。接下來(lái),在AKS模塊的金字塔中為不同的分辨率選擇一組關(guān)鍵點(diǎn)??傮w而言,本方法將關(guān)鍵點(diǎn)及其特征描述符,以及其3D坐標(biāo)保存到地圖數(shù)據(jù)庫(kù)中。

3.在線(xiàn)定位:

在定位階段,利用LFE網(wǎng)絡(luò)再次估計(jì)在線(xiàn)圖像中不同分辨率的特征圖。本方法從給定的相機(jī)的預(yù)測(cè)位姿的最近的地圖圖像中收集關(guān)鍵點(diǎn)及其特征描述符和全局3D坐標(biāo)。

然后,在WFM模塊中,構(gòu)建的成本卷中給出了候選位姿,而這些關(guān)鍵點(diǎn)則被利用這些候選位姿投影到在線(xiàn)圖像上。通過(guò)三個(gè)不同分辨率的特征匹配網(wǎng)絡(luò)級(jí)聯(lián)實(shí)現(xiàn)由粗到細(xì)的位姿估計(jì)。

ff744190-6470-11ed-8abf-dac502259ad0.png

Fig.2 三個(gè)主要模塊的網(wǎng)絡(luò)結(jié)構(gòu)說(shuō)明:(a)局部特征學(xué)習(xí)(LFE);(b)關(guān)鍵點(diǎn)選取(AKS);(c)加權(quán)特征匹配(WFM)。

二、局部特征學(xué)習(xí)

在所有三個(gè)不同的階段都使用相同的LFE模塊。本文采用了一種類(lèi)似于特征金字塔網(wǎng)絡(luò)(FPN)的網(wǎng)絡(luò)架構(gòu),如圖2(a)所示。通過(guò)將編碼器和解碼器中相同大小的特征圖級(jí)聯(lián)起來(lái),F(xiàn)PN可以在所有尺度上增強(qiáng)高級(jí)語(yǔ)義特征,從而獲得更強(qiáng)大的特征提取器。

在本方法的編碼器中有一個(gè)FPN,其由17層網(wǎng)絡(luò)組成,可以分解為4個(gè)階段。第一階段由兩個(gè)二維卷積層組成,其中括號(hào)中的數(shù)字分別是通道、核和步幅大小。從第二階段開(kāi)始,每個(gè)階段包括一個(gè)二維卷積層和兩個(gè)殘差塊。每個(gè)殘差塊由兩個(gè)3 × 3卷積層組成。

在解碼器中,經(jīng)過(guò)二維卷積層后,上采樣層被應(yīng)用于從更粗糙但語(yǔ)義更強(qiáng)的特征中產(chǎn)生更高分辨率的特征。來(lái)自編碼器的相同分辨率的特征被通過(guò)按元素平均來(lái)合并以增強(qiáng)解碼器中的這些特征。解碼器的輸出是原始圖像的不同分辨率的特征圖。再通過(guò)如圖2右下角所示的兩個(gè)不同的網(wǎng)絡(luò)頭,分別用于提取特征描述符和估計(jì)注意力熱圖

。特征描述符表示為d維向量,能夠在不同光照或視點(diǎn)條件引起的嚴(yán)重外觀變化下進(jìn)行魯棒匹配。該熱圖由[0-1]標(biāo)量組成,這些標(biāo)量在后文的基于注意力的關(guān)鍵點(diǎn)選擇和特征匹配模塊中用作相關(guān)性權(quán)重。更具體地說(shuō),

ff9f2d1a-6470-11ed-8abf-dac502259ad0.png

是描述符學(xué)習(xí)模塊輸出, 其中s∈2,4,8是尺度因子,D = 8為特征維度。注意力熱圖輸出是ffb4f73a-6470-11ed-8abf-dac502259ad0.png

三、關(guān)鍵點(diǎn)選取

在研究過(guò)程中,了解到不同的關(guān)鍵點(diǎn)選擇策略對(duì)系統(tǒng)的整體性能有相當(dāng)大的影響。AKS模塊分為兩個(gè)階段:訓(xùn)練和地圖生成。當(dāng)在解決一個(gè)幾何問(wèn)題時(shí),眾所周知,相較于聚集在一起的關(guān)鍵點(diǎn),在幾何空間中幾乎均勻分布的一組關(guān)鍵點(diǎn)是至關(guān)重要的。

本方法發(fā)現(xiàn),提出的方法優(yōu)于其他更自然的選擇,例如top-K。本方法考慮了兩種選擇策略,即最遠(yuǎn)點(diǎn)采樣(FPS)算法及其變體,加權(quán)FPS (WFPS)算法(如圖2(b)所示)。給定一組已選點(diǎn)S和未選點(diǎn)Q,如果試圖迭代地從Q中選擇一個(gè)新點(diǎn), FPS算法會(huì)計(jì)算

ffcff2ec-6470-11ed-8abf-dac502259ad0.png

在本方法的WFPS算法中,取而代之的是計(jì)算

ffe3f4b8-6470-11ed-8abf-dac502259ad0.png

在訓(xùn)練階段,本方法的目標(biāo)是統(tǒng)一學(xué)習(xí)所有的候選者的注意力分?jǐn)?shù),因此必須要有一個(gè)有效的隨機(jī)選擇策略。為此,首先隨機(jī)抽取K個(gè)候選點(diǎn),然后,本方法應(yīng)用FPS算法來(lái)選擇其中的關(guān)鍵點(diǎn)。 在地圖生成階段,本方法通過(guò)有效地結(jié)合學(xué)習(xí)的注意力權(quán)重實(shí)現(xiàn)了一個(gè)能夠選擇好的關(guān)鍵點(diǎn)的算法。

本方法再次隨機(jī)選擇K個(gè)候選點(diǎn),然后在地圖生成過(guò)程中使用WFPS,并以熱圖為采樣概率來(lái)使用稠密采樣。 為了將二維特征描述符與三維坐標(biāo)相關(guān)聯(lián),本方法將3D激光雷達(dá)點(diǎn)投射到圖像上??紤]到并非所有的圖像像素都與LiDAR點(diǎn)相關(guān)聯(lián),本方法只考慮與已知三維坐標(biāo)有關(guān)聯(lián)的稀疏2D像素作為候選點(diǎn),從中選擇適合匹配的關(guān)鍵點(diǎn)。

四、加權(quán)特征匹配

傳統(tǒng)方法通常利用RANSAC框架中的PnP求解器來(lái)求解給定2D-3D對(duì)應(yīng)的攝像機(jī)位姿估計(jì)問(wèn)題。不幸的是,這些包括異常值拒絕步驟的匹配方法是不可微的,從而阻礙了他們?cè)谟?xùn)練階段的反向傳播。

L3-Net引入了一種特征匹配和位姿估計(jì)方法,該方法利用可微分的三維代價(jià)卷來(lái)評(píng)估給定的位姿偏移量下,來(lái)自在線(xiàn)圖像和地圖圖像的對(duì)應(yīng)特征描述符對(duì)的匹配代價(jià)。 下面,本方法對(duì)原來(lái)的L3-Net設(shè)計(jì)進(jìn)行改進(jìn),提出將注意力權(quán)重納入解決方案,并使其有效訓(xùn)練。網(wǎng)絡(luò)架構(gòu)如圖2(c)所示。

代價(jià)卷:與L3-Net的實(shí)現(xiàn)類(lèi)似,本方法建立了一個(gè)

fff71da4-6470-11ed-8abf-dac502259ad0.png

的代價(jià)卷,其中00104b6c-6471-11ed-8abf-dac502259ad0.png為所選關(guān)鍵點(diǎn)的個(gè)數(shù),00225bea-6471-11ed-8abf-dac502259ad0.png00332178-6471-11ed-8abf-dac502259ad0.png為每個(gè)維度的網(wǎng)格大小。具體來(lái)說(shuō),給定預(yù)測(cè)位姿作為代價(jià)卷中心,將其相鄰空間均勻劃分為一個(gè)三維網(wǎng)格,記為004b6d14-6471-11ed-8abf-dac502259ad0.png

0063e97a-6471-11ed-8abf-dac502259ad0.png 。

該代價(jià)卷中的節(jié)點(diǎn)是候選位姿,本方法希望從中評(píng)估其對(duì)應(yīng)的特征對(duì)并找到最優(yōu)解。具體而言,利用每個(gè)候選位姿將地圖圖像中選定的三維關(guān)鍵點(diǎn)投影到在線(xiàn)圖像上,通過(guò)對(duì)在線(xiàn)圖像特征圖進(jìn)行雙線(xiàn)性插值,計(jì)算出對(duì)應(yīng)的局部特征描述符。通過(guò)計(jì)算在線(xiàn)和地圖圖像的兩個(gè)描述符之間的元素的總的L2距離,本方法實(shí)現(xiàn)了一個(gè)單維代價(jià)標(biāo)量。然后,由一個(gè)以Conv3D(8,1,1)-Conv3D(8,1,1)-Conv3D(1,1,1)為內(nèi)核的三層三維CNN對(duì)代價(jià)卷進(jìn)行處理,結(jié)果記為007ac5be-6471-11ed-8abf-dac502259ad0.png

邊緣化:通過(guò)應(yīng)用平均操作,在關(guān)鍵點(diǎn)維度上將匹配代價(jià)卷0086ab2c-6471-11ed-8abf-dac502259ad0.png邊緣化為0098953a-6471-11ed-8abf-dac502259ad0.png

在LFE模塊的熱圖學(xué)習(xí)訓(xùn)練中,成功的關(guān)鍵在于如何有效地結(jié)合所有關(guān)鍵點(diǎn)特征的注意力權(quán)重。與沒(méi)有注意力權(quán)重的平均相比,最直接的解決方案是使用加權(quán)平均操作取代直接平均。

本方法在訓(xùn)練時(shí)使用加權(quán)平均,在在線(xiàn)定位化階段使用直接平均。 其余部分估計(jì)00a78f86-6471-11ed-8abf-dac502259ad0.png的最優(yōu)偏移量00bd8098-6471-11ed-8abf-dac502259ad0.png及其概率分布00cf8c5c-6471-11ed-8abf-dac502259ad0.png與圖2 (c)所示的L3-Net的設(shè)計(jì)相同。

五、損失函數(shù)設(shè)計(jì)

1)絕對(duì)損失:以估計(jì)偏移量00e275ba-6471-11ed-8abf-dac502259ad0.png與真值00f8a7a4-6471-11ed-8abf-dac502259ad0.png之間的絕對(duì)距離作為第一個(gè)損失: 010b8d7e-6471-11ed-8abf-dac502259ad0.png

其中α是一個(gè)平衡因子。

2)聚集損失:除上述絕對(duì)損失外,概率分布011c6da6-6471-11ed-8abf-dac502259ad0.png對(duì)估計(jì)的魯棒性也有相當(dāng)大的影響。因此,取

013003fc-6471-11ed-8abf-dac502259ad0.png

其中014291a2-6471-11ed-8abf-dac502259ad0.png

從而第二個(gè)損失函數(shù)定義為01563702-6471-11ed-8abf-dac502259ad0.png016741fa-6471-11ed-8abf-dac502259ad0.png。


3)相似損失:除幾何約束外,對(duì)應(yīng)的2D-3D關(guān)鍵點(diǎn)該有相似的描述符。因此,本方法將第三個(gè)損失定義為:

01787d3a-6471-11ed-8abf-dac502259ad0.png

其中,為關(guān)鍵點(diǎn)P的三維CNN的輸出,當(dāng)使用真值位姿將地圖中的關(guān)鍵點(diǎn)投影到在線(xiàn)圖像上時(shí),在在線(xiàn)圖像中找到對(duì)應(yīng)的點(diǎn),并計(jì)算匹配點(diǎn)對(duì)之間的描述符的距離。018b992e-6471-11ed-8abf-dac502259ad0.png是一個(gè)常數(shù)。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • ADT
    ADT
    +關(guān)注

    關(guān)注

    0

    文章

    11

    瀏覽量

    9498
  • 激光雷達(dá)
    +關(guān)注

    關(guān)注

    968

    文章

    4003

    瀏覽量

    190164
  • 自動(dòng)駕駛
    +關(guān)注

    關(guān)注

    784

    文章

    13904

    瀏覽量

    166740

原文標(biāo)題:視覺(jué)定位在自動(dòng)駕駛領(lǐng)域可否比肩基于Lidar的方法?

文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    一種新型極性轉(zhuǎn)換異質(zhì)結(jié)光電晶體管集成陣列

    近年來(lái)三維信息感知在機(jī)器視覺(jué)、深空成像以及醫(yī)療診斷方面具備廣泛的應(yīng)用前景,包含物體深度信息的三維信息感知能夠更加全面地感知物體的形態(tài)與光學(xué)
    的頭像 發(fā)表于 01-14 14:15 ?113次閱讀
    <b class='flag-5'>一種</b>新型極性轉(zhuǎn)換異質(zhì)結(jié)光電晶體管集成陣列

    一種新的通用視覺(jué)主干模型Vision Mamba

    核,使其計(jì)算量為線(xiàn)性,但也由此而面臨著窗口化局部感受野的缺陷,使其在全局場(chǎng)景感知和場(chǎng)景語(yǔ)義理解上之力;Transformer通過(guò)全局的注意力計(jì)算,使其具有長(zhǎng)上下文的全局感知能力,但其二次方復(fù)雜度的計(jì)算量使得在算
    的頭像 發(fā)表于 01-06 09:55 ?121次閱讀
    <b class='flag-5'>一種</b>新的通用<b class='flag-5'>視覺(jué)</b>主干模型Vision Mamba

    激光錫焊視覺(jué)定位技術(shù)的應(yīng)用場(chǎng)景

    本文主要介紹視覺(jué)定位概念、一種基于視覺(jué)定位的激光焊接系統(tǒng)的結(jié)構(gòu)和組成,及該焊接系統(tǒng)在某些特定場(chǎng)景的具體應(yīng)用。
    的頭像 發(fā)表于 12-13 09:10 ?169次閱讀
    激光錫焊<b class='flag-5'>視覺(jué)</b><b class='flag-5'>定位</b>技術(shù)的應(yīng)用場(chǎng)景

    一種面向飛行試驗(yàn)的數(shù)據(jù)融合框架

    天地氣動(dòng)數(shù)據(jù)致性,針對(duì)某外形飛行試驗(yàn)數(shù)據(jù)開(kāi)展了典型對(duì)象的天地氣動(dòng)數(shù)據(jù)融合方法研究。結(jié)合數(shù)據(jù)挖掘的隨機(jī)森林方法,本文提出了一種面向飛行試驗(yàn)的數(shù)據(jù)融合框架,通過(guò)引入地面風(fēng)洞試驗(yàn)氣動(dòng)數(shù)據(jù),實(shí)現(xiàn)了對(duì)復(fù)雜輸入?yún)?shù)的
    的頭像 發(fā)表于 11-27 11:34 ?281次閱讀
    <b class='flag-5'>一種</b>面向飛行試驗(yàn)的數(shù)據(jù)融合<b class='flag-5'>框架</b>

    基于視覺(jué)語(yǔ)言模型的導(dǎo)航框架VLMnav

    本文提出了一種視覺(jué)語(yǔ)言模型(VLM)轉(zhuǎn)換為端到端導(dǎo)航策略的具體框架。不依賴(lài)于感知、規(guī)劃和控制之間的分離,而是使用VLM在步中直接選擇動(dòng)作
    的頭像 發(fā)表于 11-22 09:42 ?223次閱讀

    一種基于因果路徑的層次圖卷積注意力網(wǎng)絡(luò)

    機(jī)電系統(tǒng)中的故障檢測(cè)對(duì)其可維護(hù)性和安全性至關(guān)重要。然而,系統(tǒng)監(jiān)測(cè)變量往往具有復(fù)雜的聯(lián)系,很難表征它們的關(guān)系并提取有效的特征。本文開(kāi)發(fā)了一種基于因果路徑的層次圖卷積注意力網(wǎng)絡(luò)(HGCAN),以提高復(fù)雜
    的頭像 發(fā)表于 11-12 09:52 ?344次閱讀
    <b class='flag-5'>一種</b>基于因果路徑的層次圖卷積<b class='flag-5'>注意力</b>網(wǎng)絡(luò)

    一種創(chuàng)新的動(dòng)態(tài)軌跡預(yù)測(cè)方法

    本文提出了一種動(dòng)態(tài)軌跡預(yù)測(cè)方法,通過(guò)結(jié)合歷史幀和歷史預(yù)測(cè)結(jié)果來(lái)提高預(yù)測(cè)的穩(wěn)定性和準(zhǔn)確性。它引入了歷史預(yù)測(cè)注意力模塊,以編碼連續(xù)預(yù)測(cè)之間的動(dòng)態(tài)關(guān)系,并通過(guò)三重因子注意力模塊實(shí)現(xiàn)了最先進(jìn)的性能。本方法能夠生成準(zhǔn)確且穩(wěn)定的未來(lái)軌跡,這
    的頭像 發(fā)表于 10-28 14:34 ?477次閱讀
    <b class='flag-5'>一種</b>創(chuàng)新的動(dòng)態(tài)軌跡預(yù)測(cè)方法

    一種將NeRFs應(yīng)用于視覺(jué)定位任務(wù)的新方法

    視覺(jué)定位旨在估計(jì)在已知環(huán)境中捕獲的給定圖像的旋轉(zhuǎn)和位置,大致可以分為絕對(duì)姿態(tài)回歸(APR),場(chǎng)景坐標(biāo)回歸(SCR)和分層方法(HM)。
    的頭像 發(fā)表于 10-28 10:03 ?252次閱讀
    <b class='flag-5'>一種</b>將NeRFs應(yīng)用于<b class='flag-5'>視覺(jué)</b><b class='flag-5'>定位</b>任務(wù)的新方法

    一種完全分布式的點(diǎn)線(xiàn)協(xié)同視覺(jué)慣性導(dǎo)航系統(tǒng)

    在本文中,我們提出了一種完全分布式的點(diǎn)線(xiàn)協(xié)同視覺(jué)慣性導(dǎo)航系統(tǒng)。我們通過(guò)蒙特卡羅模擬和真實(shí)環(huán)境數(shù)據(jù)集,在稠密特征或稀疏特征環(huán)境下將所提出的算法與其他四
    的頭像 發(fā)表于 09-30 14:45 ?470次閱讀
    <b class='flag-5'>一種</b>完全分布式的點(diǎn)線(xiàn)協(xié)同<b class='flag-5'>視覺(jué)</b>慣性導(dǎo)航系統(tǒng)

    2024 年 19 最佳大型語(yǔ)言模型

    ,當(dāng)時(shí)篇題為“通過(guò)聯(lián)合學(xué)習(xí)對(duì)齊和翻譯的神經(jīng)機(jī)器翻譯”的研究論文中引入了注意力機(jī)制(一種旨在模仿人類(lèi)認(rèn)知注意力的機(jī)器學(xué)習(xí)技術(shù))。2017年,另
    的頭像 發(fā)表于 08-30 12:56 ?572次閱讀
    2024 年 19 <b class='flag-5'>種</b>最佳大型語(yǔ)言模型

    基于深度學(xué)習(xí)的鳥(niǎo)類(lèi)聲音識(shí)別系統(tǒng)

    的泛化能力,然后提出了個(gè)輕量級(jí)的鳥(niǎo)類(lèi)聲音識(shí)別模型,以MobileNetV3為骨干構(gòu)建了一種輕量級(jí)的特征提取和識(shí)別網(wǎng)絡(luò)。通過(guò)調(diào)整模型中的深度可分離卷積,提高了模型的識(shí)別能力。設(shè)計(jì)了
    發(fā)表于 05-30 20:30

    激光焊接視覺(jué)定位引導(dǎo)方法

    激光焊接是一種高效、精確的焊接技術(shù),廣泛應(yīng)用于汽車(chē)制造、航空航天、電子產(chǎn)品等領(lǐng)域。隨著工業(yè)自動(dòng)化和智能化的發(fā)展,激光焊接的精度和效率需求日益增加。在此背景下,視覺(jué)定位引導(dǎo)技術(shù)成為提升激光焊接質(zhì)量
    的頭像 發(fā)表于 05-28 10:34 ?560次閱讀
    激光焊接<b class='flag-5'>視覺(jué)</b><b class='flag-5'>定位</b>引導(dǎo)方法

    一種利用光電容積描記(PPG)信號(hào)和深度學(xué)習(xí)模型對(duì)高血壓分類(lèi)的新方法

    深度神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)任務(wù)中的有效性,并為開(kāi)發(fā)更強(qiáng)大、更復(fù)雜的神經(jīng)網(wǎng)絡(luò)架構(gòu)鋪平了道路。 ResNet-50是一種深度神經(jīng)網(wǎng)絡(luò)架構(gòu),由研究人員Kaiming He、XiangyuZh
    發(fā)表于 05-11 20:01

    采用單片超構(gòu)表面與元注意力網(wǎng)絡(luò)實(shí)現(xiàn)快照式近紅外光譜成像

    日前,北京理工大學(xué)王涌天教授、黃玲玲教授團(tuán)隊(duì)聯(lián)合張軍院士、邊麗蘅教授團(tuán)隊(duì),采用單片超構(gòu)表面與元注意力網(wǎng)絡(luò)實(shí)現(xiàn)快照式近紅外光譜成像。
    的頭像 發(fā)表于 04-25 09:08 ?1189次閱讀
    采用單片超構(gòu)表面與元<b class='flag-5'>注意力</b>網(wǎng)絡(luò)實(shí)現(xiàn)快照式近紅外光譜成像

    淺析自動(dòng)駕駛行業(yè)的視覺(jué)感知主流框架設(shè)計(jì)

    視覺(jué)感知系統(tǒng)主要以攝像頭作為傳感器輸入,經(jīng)過(guò)系列的計(jì)算和處理,對(duì)自車(chē)周?chē)沫h(huán)境信息做精確感知。目的在于為融合模塊提供準(zhǔn)確豐富的信息,包括被檢測(cè)物體的類(lèi)別、距離信息、速度信息、朝向信息
    發(fā)表于 01-26 11:25 ?704次閱讀
    淺析自動(dòng)駕駛行業(yè)的<b class='flag-5'>視覺(jué)</b><b class='flag-5'>感知</b>主流<b class='flag-5'>框架</b>設(shè)計(jì)