0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種使用Mask Transformer進行全景分割的端到端解決方案

OpenCV學堂 ? 來源:新智元 ? 作者:新智元 ? 2022-07-28 10:13 ? 次閱讀

【導讀】近日,谷歌團隊推出了一項新Transformer,可用于優(yōu)化全景分割方案,還登上了CVPR 2022。

最近,谷歌AI團隊受Transformer和DETR的啟發(fā)提出了一種使用Mask Transformer進行全景分割的端到端解決方案。

全稱是end-to-end solution for panoptic segmentation with mask transformers,主要用于生成分割MaskTransformer架構的擴展。

該解決方案采用像素路徑(由卷積神經(jīng)網(wǎng)絡或視覺Transformer組成)提取像素特征,內存路徑(由Transformer解碼器模塊組成)提取內存特征,以及雙路徑Transformer用于像素特征和內存之間的交互特征。

然而,利用交叉注意力的雙路徑Transformer最初是為語言任務設計的,它的輸入序列由幾百個單詞構成。

而對視覺任務尤其是分割問題來說,其輸入序列由數(shù)萬個像素組成,這不僅表明輸入規(guī)模的幅度要大得多,而且與語言單詞相比也代表了較低級別的嵌入。

全景分割是一個計算機視覺問題,它是現(xiàn)在許多應用程序的核心任務。

它分為語義分割和實例分割兩部分。

語義分割就比如為圖像中的每個像素分配語義標簽,例如「人」和「天空」。

而實例分割僅識別和分割圖中的可數(shù)對象,如「行人」和「汽車」,并進一步將其劃分為幾個子任務。

每個子任務單獨處理,并應用額外的模塊來合并每個子任務階段的結果。

這個過程不僅復雜,而且在處理子任務和整合不同子任務結果時還會引入許多人工設計的先驗。

332dcd92-0dbb-11ed-ba43-dac502259ad0.png

在 CVPR 2022 上發(fā)表的「CMT-DeepLab: Clustering Mask Transformers for Panoptic Segmentation」中,文章提出從聚類的角度重新解讀并且重新設計交叉注意力cross attention(也就是將相同語義標簽的像素分在同一組),從而更好地適應視覺任務。

CMT-DeepLab 建立在先前最先進的方法 MaX-DeepLab 之上,并采用像素聚類方法來執(zhí)行交叉注意,從而產(chǎn)生更密集和合理的注意圖。

33465a56-0dbb-11ed-ba43-dac502259ad0.png

kMaX-DeepLab 進一步重新設計了交叉注意力,使其更像一個 k-means 聚類算法,對激活函數(shù)進行了簡單的更改。

結構總覽

研究人員將從聚類的角度進行重新解釋,而不是直接將交叉注意力應用于視覺任務而不進行修改。

具體來說,他們注意到Mask Transformer 對象查詢可以被認為是集群中心(旨在對具有相同語義標簽的像素進行分組)。

交叉注意力的過程類似于 k-means 聚類算法,(1)將像素分配給聚類中心的迭代過程,其中可以將多個像素分配給單個聚類中心,而某些聚類中心可能沒有分配的像素,以及(2)通過平均分配給同一聚類中心的像素來更新聚類中心,如果沒有分配像素,則不會更新聚類中心)。

33569146-0dbb-11ed-ba43-dac502259ad0.png

在CMT-DeepLab和kMaX-DeepLab中,我們從聚類的角度重新制定了交叉注意力,其中包括迭代聚類分配和聚類更新步驟

鑒于 k-means聚類算法的流行,在CMT-DeepLab中,他們重新設計了交叉注意力,以便空間方面的softmax操作(即沿圖像空間分辨率應用的 softmax 操作),實際上將聚類中心分配給相反,像素是沿集群中心應用的。

在 kMaX-DeepLab 中,我們進一步將空間方式的 softmax 簡化為集群方式的 argmax(即沿集群中心應用 argmax 操作)。

他們注意到 argmax 操作與 k-means 聚類算法中使用的硬分配(即一個像素僅分配給一個簇)相同。

從聚類的角度重新構建MaskTransformer的交叉注意力,顯著提高了分割性能,并簡化了復雜的Masktransformer管道,使其更具可解釋性。

首先,使用編碼器-解碼器結構從輸入圖像中提取像素特征。然后,使用一組聚類中心對像素進行分組,這些像素會根據(jù)聚類分配進一步更新。最后,迭代執(zhí)行聚類分配和更新步驟,而最后一個分配可直接用作分割預測。

338234fe-0dbb-11ed-ba43-dac502259ad0.png

為了將典型的MaskTransformer解碼器(由交叉注意力、多頭自注意力和前饋網(wǎng)絡組成)轉換為上文提出的k-means交叉注意力,只需將空間方式的softmax替換為集群方式最大參數(shù)。

本次提出的 kMaX-DeepLab 的元架構由三個組件組成:像素編碼器、增強像素解碼器和 kMaX 解碼器。

像素編碼器是任何網(wǎng)絡主干,用于提取圖像特征。

增強的像素解碼器包括用于增強像素特征的Transformer編碼器,以及用于生成更高分辨率特征的上采樣層。

一系列 kMaX 解碼器將集群中心轉換為 (1) Mask嵌入向量,其與像素特征相乘以生成預測Mask,以及 (2) 每個Mask的類預測。

3390e68e-0dbb-11ed-ba43-dac502259ad0.png

kMaX-DeepLab 的元架構

研究結果

最后,研究小組在兩個最具挑戰(zhàn)性的全景分割數(shù)據(jù)集 COCO 和 Cityscapes 上使用全景質量 (PQ) 度量來評估 CMT-DeepLab 和 kMaX-DeepLab,并對比 MaX-DeepLab 和其他最先進的方法。

其中CMT-DeepLab 實現(xiàn)了顯著的性能提升,而 kMaX-DeepLab 不僅簡化了修改,還進一步提升了,COCO val set 上的 PQ 為 58.0%,PQ 為 68.4%,44.0% Mask平均精度(Mask AP),Cityscapes 驗證集上的 83.5% 平均交集比聯(lián)合(mIoU),沒有測試時間增強或使用外部數(shù)據(jù)集。

33a23c36-0dbb-11ed-ba43-dac502259ad0.png

從聚類的角度設計,kMaX-DeepLab 不僅具有更高的性能,而且還可以更合理地可視化注意力圖以了解其工作機制。

在下面的示例中,kMaX-DeepLab 迭代地執(zhí)行聚類分配和更新,從而逐漸提高Mask質量。

33b1197c-0dbb-11ed-ba43-dac502259ad0.png

kMaX-DeepLab 的注意力圖可以直接可視化為全景分割,讓模型工作機制更合理

結論

本次研究展示了一種更好地設計視覺任務中的MaskTransformer的方法。

通過簡單的修改,CMT-DeepLab 和 kMaX-DeepLab 重新構建了交叉注意力,使其更像一種聚類算法。

因此,所提出的模型在COCO 和 Cityscapes數(shù)據(jù)集上實現(xiàn)了最先進的性能。

研究團隊表示,他們希望 DeepLab2 庫中 kMaX-DeepLab 的開源版本有助于未來對專用于視覺Transformer架構設計的研究。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 解碼器
    +關注

    關注

    9

    文章

    1143

    瀏覽量

    40742
  • 圖像
    +關注

    關注

    2

    文章

    1084

    瀏覽量

    40468
  • 計算機視覺
    +關注

    關注

    8

    文章

    1698

    瀏覽量

    45993

原文標題:谷歌團隊推出新Transformer,優(yōu)化全景分割方案|CVPR 2022

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學堂】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    ”智駕芯片,英偉達DRIVE Thor接棒,車企自研芯片對標行業(yè)領先

    。 ? 在智駕芯片層面,不少廠商采用了英偉達的DRIVE Orin芯片,以及下代智能駕駛計算平臺Thor進行開發(fā),MDC610、地平線征程5、征程6芯片、小鵬圖靈AI芯片等也加入
    的頭像 發(fā)表于 12-09 09:05 ?1242次閱讀

    已來,智駕仿真測試該怎么做?

    智駕方案因強泛化能力、可持續(xù)學習與升級等優(yōu)勢備受矚目,但這對仿真測試帶來了巨大挑戰(zhàn)??抵\探索了一種有效的
    的頭像 發(fā)表于 12-04 09:59 ?2576次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>已來,智駕仿真測試該怎么做?

    黑芝麻智能算法參考模型公布

    黑芝麻智能計劃推出支持華山及武當系列芯片的算法參考方案。該方案采用One Model架構,并在決策規(guī)劃單元引入了VLM視覺語言大模型和
    的頭像 發(fā)表于 12-03 12:30 ?294次閱讀
    黑芝麻智能<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>算法參考模型公布

    智己汽車“”智駕方案推出,老司機真的會被取代嗎?

    隨著智能駕駛技術的發(fā)展,行業(yè)已經(jīng)從早期基于簡單規(guī)則和模塊化邏輯的自動駕駛,逐步邁向依托深度學習的高復雜度智能駕駛解決方案,各車企也緊跟潮流,先后宣布了自己的智駕
    的頭像 發(fā)表于 10-30 09:47 ?284次閱讀
    智己汽車“<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”智駕<b class='flag-5'>方案</b>推出,老司機真的會被取代嗎?

    Mobileye自動駕駛解決方案的深度解析

    強大的技術優(yōu)勢。 Mobileye的解決方案概述 1.1 什么是
    的頭像 發(fā)表于 10-17 09:35 ?370次閱讀
    Mobileye<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自動駕駛<b class='flag-5'>解決方案</b>的深度解析

    測試用例怎么寫

    編寫測試用例是確保軟件系統(tǒng)從頭到尾能夠正常工作的關鍵步驟。以下是個詳細的指南,介紹如何編寫
    的頭像 發(fā)表于 09-20 10:29 ?455次閱讀

    恩智浦完整的Matter解決方案

    恩智浦為打造Matter設備,提供了完整的解決方案,從連接和安全解決方案到處理器和軟件,應有盡有,為Matter標準的規(guī)?;逃锰峁┯?/div>
    的頭像 發(fā)表于 08-26 18:04 ?2574次閱讀
    恩智浦完整的Matter<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>解決方案</b>

    實現(xiàn)自動駕駛,唯有?

    ,去年行業(yè)主流方案還是輕高精地圖城區(qū)智駕,今年大家的目標都瞄到了(End-to-End, E2E)。
    的頭像 發(fā)表于 08-12 09:14 ?734次閱讀
    實現(xiàn)自動駕駛,唯有<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>?

    廣汽豐田攜手Momenta推出全場景智能駕駛方案

    在近日舉行的廣汽豐田科技開放日上,場引領未來的智能駕駛技術盛宴吸引了全球目光。廣汽豐田攜手國內領先的自動駕駛解決方案提供商Momenta,共同推出了
    的頭像 發(fā)表于 06-29 17:36 ?1671次閱讀

    周光:不是真“無圖”,談何

    “如果智能駕駛系統(tǒng)不能徹底擺脫高精度地圖,談何?!?? 6月1日,元戎啟行CEO周光在粵港澳大灣區(qū)車展暨2024(第二屆)未來汽車先行者大會上表示。 ? 這并非周光第次強調“無
    發(fā)表于 06-03 11:06 ?3095次閱讀
    周光:不是真“無圖”,談何<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>

    華為IPv6+解決方案通過信通院IPv6+ 2.0 Advanced測試評估

    近日,華為IPv6+解決方案成功通過中國信息通信研究院(以下簡稱“信通院”)IPv6+ 2.0 Advanced測試評估,獲得業(yè)界首張企業(yè)/行業(yè)網(wǎng)絡
    的頭像 發(fā)表于 05-17 10:00 ?857次閱讀
    華為IPv6+<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>解決方案</b>通過信通院IPv6+ 2.0 Advanced測試評估

    理想汽車自動駕駛模型實現(xiàn)

    理想汽車在感知、跟蹤、預測、決策和規(guī)劃等方面都進行了模型化,最終實現(xiàn)了的模型。這種模型不僅完全模型化,還能夠虛擬化,即在模擬環(huán)境中進行
    發(fā)表于 04-12 12:17 ?456次閱讀
    理想汽車自動駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>模型實現(xiàn)

    知語云全景監(jiān)測技術:現(xiàn)代安全防護的全面解決方案

    隨著信息技術的飛速發(fā)展,網(wǎng)絡安全問題日益突出,企業(yè)和個人對安全防護的需求也越來越迫切。在這個背景下,知語云全景監(jiān)測技術應運而生,為現(xiàn)代安全防護提供了個全面而高效的解決方案。 知語云全景
    發(fā)表于 02-23 16:40

    移動協(xié)作機器人的RGB-D感知的處理方案

    本文提出了一種用于具有雙目視覺的自主機器人的三維語義場景感知的流程。該流程包括實例分割、特征匹配和點集配準。首先,利用RGB圖像
    發(fā)表于 02-21 15:55 ?693次閱讀
    移動協(xié)作機器人的RGB-D感知的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>處理<b class='flag-5'>方案</b>

    康謀方案 | 基于場景的硬件在環(huán)(HiL)測試智能解決方案

    。同時,針對不同傳感器進行協(xié)同工作,模擬不同的駕駛環(huán)境和交通狀況,測試和驗證自動駕駛車輛的算法和決策策略,從而確保其安全性和可靠性。 方案特點 針對ADAS/AD系統(tǒng)進行基于場景的
    的頭像 發(fā)表于 01-31 17:17 ?780次閱讀
    康謀<b class='flag-5'>方案</b> | 基于場景的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>硬件在環(huán)(HiL)測試智能<b class='flag-5'>解決方案</b>