av免费网址在线观看,美女高潮无套内谢视频免费,tv939

美圖影像研究院（MT Lab）與新加坡國立大學(xué)提出高效的 MLP（多層感知機(jī)模型）視頻主干網(wǎng)絡(luò)，用于解決極具挑戰(zhàn)性的視頻時(shí)空建模問題。該方法僅用簡單的全連接層來處理視頻數(shù)據(jù)，提高效率的同時(shí)有效學(xué)習(xí)了視頻中細(xì)粒度的特征，進(jìn)而提升了視頻主干網(wǎng)絡(luò)框架的精度。此外，將此網(wǎng)絡(luò)適配到圖像域（圖像分類分割），也取得了具有競爭力的結(jié)果。

引言

由于 Vision Transformer （ViT）［1］的開創(chuàng)性工作，基于注意力的架構(gòu)在各種計(jì)算機(jī)視覺任務(wù)中顯示出強(qiáng)大的能力，從圖像域到視頻域都取得了良好的效果。然而近期的研究表明，自注意力可能并不重要，因其可以被簡單的多層感知器（MLP）取代，目前通過替代注意力框架的方法已經(jīng)在圖像域任務(wù)上開發(fā)了許多類似 MLP 的架構(gòu)，且取得了可喜的成果。但在視頻域該應(yīng)用仍屬空白，因此是否有可能設(shè)計(jì)一個(gè)通用的 MLP 視頻域架構(gòu)成為受到關(guān)注的新問題。

美圖影像研究院（MT Lab）聯(lián)合新加坡國立大學(xué) Show Lab 提出了一種 MLP 視頻主干網(wǎng)絡(luò)，實(shí)現(xiàn)了在視頻分類上的高效視頻時(shí)空建模。該網(wǎng)絡(luò)模型在空間上提出 MorphFC，在早期層關(guān)注局部細(xì)節(jié)，隨著網(wǎng)絡(luò)的加深，逐漸轉(zhuǎn)變?yōu)閷h(yuǎn)程信息進(jìn)行建模，從而克服了當(dāng)前 CNN 和 MLP 模型只能進(jìn)行局部或者全局建模的問題。在時(shí)間上，該網(wǎng)絡(luò)模型引入了時(shí)間路徑來捕獲視頻中的長期時(shí)間信息，將所有相同空間位置幀的像素進(jìn)行連接，并合并為一個(gè)塊。同時(shí)，每個(gè)塊都會(huì)經(jīng)過全連接層處理得到一個(gè)新的塊。

基于空間和時(shí)間上的建模，研究者們廣泛探索了建立視頻主干的各種方法，最終按照串聯(lián)的順序依次對空間和時(shí)間信息進(jìn)行建模，并以高效的時(shí)空表示學(xué)習(xí)框架表示。該網(wǎng)絡(luò)模型首次提出不借助卷積和自注意力機(jī)制，僅用全連接層進(jìn)行高效的視頻時(shí)空建模的方法，對比之前的視頻 CNN 和 Transformer 架構(gòu)，該網(wǎng)絡(luò)模型在提升精度的同時(shí)還降低了計(jì)算量。此外，將此網(wǎng)絡(luò)適配到圖像域（圖像分類分割），也取得了具有競爭力的結(jié)果。該論文目前已被國際會(huì)議 ECCV 2022 接收。

背景介紹

由于 MLP 模型尚未在視頻領(lǐng)域進(jìn)行應(yīng)用，研究者們首先分析了在時(shí)空表示學(xué)習(xí)框架中使用 MLP 所面臨的挑戰(zhàn)。

從空間角度上看，當(dāng)前的 MLP 模型缺乏對語義細(xì)節(jié)的深刻理解。這主要是因?yàn)樗鼈冊诳臻g中的所有令牌上全局操作 MLP，同時(shí)忽略了分層學(xué)習(xí)視覺表征（如下圖 1 所示）。從時(shí)間角度上看，學(xué)習(xí)視頻中幀的長期依賴關(guān)系目前基于視頻的 Transformers 來實(shí)現(xiàn)，但計(jì)算時(shí)間成本巨大。因此，如何有效地利用連接層替換遠(yuǎn)程聚合的自注意力對節(jié)省計(jì)算時(shí)間至關(guān)重要。

圖 1：特征可視化

為了應(yīng)對這些挑戰(zhàn)，研究者們提出了一種高效的 MLP 視頻表示學(xué)習(xí)架構(gòu)，即MorpMLP，它由 MorphFCs 和 MorphFCt 兩個(gè)關(guān)鍵層組成。研究者們沿著長和寬的方向逐漸擴(kuò)大了感受野，使得 MorphFC 可以有效地捕捉空間中的核心語義（如下圖 2 所示）。

圖 2：操作概覽

這種漸進(jìn)式的模式與現(xiàn)有的 MLP 模型設(shè)計(jì)相比，在空間建模方面帶來了以下兩個(gè)優(yōu)勢。

首先，它可以通過從小到大的空間區(qū)域操作全連接層，學(xué)習(xí)分層交互以發(fā)現(xiàn)判別性細(xì)節(jié)；

其次，這種從小到大的區(qū)域建?？梢杂行p少用于空間建模的全連接層的操作計(jì)算量。

此外，MorphFCt 可以自適應(yīng)地捕獲對幀的時(shí)序遠(yuǎn)程依賴。研究者們將所有幀中每個(gè)空間位置的特征連接到一個(gè)時(shí)間塊中，通過這種方式，全連接層可以有效地處理每個(gè)時(shí)間塊，并對長期時(shí)間依賴進(jìn)行建模。最后，通過依次排列 MorphFC 和 MorphFCt 構(gòu)建一個(gè) MorphMLP 塊，并將這些塊堆疊到通用的 MorphMLP 主干網(wǎng)絡(luò)中進(jìn)行視頻建模。

一方面，這種分層方式可以擴(kuò)大 MorphFCs 和 MorphFCt 的協(xié)作能力，用以學(xué)習(xí)視頻中復(fù)雜的時(shí)空交互；另一方面，這種多尺度和多維度的分解方法在準(zhǔn)確性和效率之間取得了更好的平衡。MorphMLP 是首個(gè)為視頻領(lǐng)域構(gòu)建的高效 MLP 架構(gòu)，與此前最先進(jìn)的視頻模型相比，該模型顯著減少了計(jì)算量且精度更高。

MorphMLP 的時(shí)空建模模型

空間建模

如上所述，挖掘核心語義對于視頻識別至關(guān)重要。典型的 CNN 和以前的 MLP-Like 架構(gòu)只關(guān)注局部或全局信息建模，因此它們無法做到這一點(diǎn)。

為了應(yīng)對這一挑戰(zhàn)，研究者們提出了一種新穎的 MorphFC 層，它可以分層擴(kuò)展全連接層的感受野，使其從小區(qū)域到大區(qū)域運(yùn)行，按水平和垂直方向獨(dú)立地處理每一幀。以水平方向處理為例（如下圖 3 中藍(lán)色塊部分），給定某一幀，首先沿水平方向拆分該幀形成塊，并將每個(gè)塊沿通道維度分成多個(gè)組，以降低計(jì)算成本。

接下來，將每個(gè)組展平為一維向量，并應(yīng)用全連接層來進(jìn)行特征轉(zhuǎn)換。特征轉(zhuǎn)換完成后，重塑所有組回到該幀原來的維度，垂直方向處理方式相同（如圖 3 中綠色塊部分）。除了沿水平和垂直方向拆分，還應(yīng)用了一個(gè)全連接層來單獨(dú)處理每個(gè)空間位置，以保證組與組之間能夠沿著通道維度進(jìn)行通信。

最后，再將水平、垂直和通道特征相加。隨著網(wǎng)絡(luò)的加深，塊長度分層增加，從而使得全連接層能夠從小空間區(qū)域到大空間區(qū)域逐步發(fā)現(xiàn)更多核心語義。

圖 3：空間建模

時(shí)間建模

除了水平和垂直通路外，研究者們還引入了另一個(gè)時(shí)間通路，旨在使用簡單的全連接層以低計(jì)算成本捕獲長期時(shí)間信息。

具體而言，給定輸入視頻后，先沿通道維度分成幾個(gè)組以降低計(jì)算成本，再將每個(gè)空間位置中所有幀的特征連接成一個(gè)塊，接著應(yīng)用全連接層來轉(zhuǎn)換時(shí)間特征，最后將所有塊重塑回原始維度。通過這種方式，全連接層可以簡單地聚合塊中沿時(shí)間維度的依賴關(guān)系，以對時(shí)間進(jìn)行建模（如下圖 4 中橙色塊部分）。

圖 4：空間建模

時(shí)空建模

將時(shí)間和空間的全連接層串聯(lián)在一起，以實(shí)現(xiàn)更穩(wěn)定的時(shí)空優(yōu)化收斂并降低計(jì)算復(fù)雜度，最終構(gòu)建完成利用全連接層提取視頻特征的主干網(wǎng)絡(luò)，具體如下圖 5 所示。在此基礎(chǔ)上，只需簡單地丟棄時(shí)間維度就可以完成到圖像域的適配。

圖 5：網(wǎng)絡(luò)架構(gòu)

結(jié)果

表 1：在 k400 數(shù)據(jù)集上的準(zhǔn)確率和計(jì)算量表現(xiàn)

表 2：在 Something-Something 數(shù)據(jù)集上的準(zhǔn)確率和計(jì)算量表現(xiàn)

表 3：圖像領(lǐng)域適配在 ImageNet 上的準(zhǔn)確率和計(jì)算量表現(xiàn)

表 4：圖像分割表現(xiàn)

總結(jié)

在本文中，研究者們提出了一種用于視頻表示學(xué)習(xí)的無自注意力、類似 MLP 的主干網(wǎng)絡(luò) MorphMLP。該方法能夠逐步發(fā)現(xiàn)核心語義并捕獲長期時(shí)間信息，這也是第一個(gè)在視頻領(lǐng)域應(yīng)用 MLP 架構(gòu)的主干網(wǎng)絡(luò)。實(shí)驗(yàn)表明，這種無自注意力模型可以與基于自注意力的架構(gòu)一樣強(qiáng)大，甚至優(yōu)于基于自注意力的架構(gòu)。

審核編輯：彭靜

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

計(jì)算機(jī)視覺

計(jì)算機(jī)視覺

+關(guān)注

關(guān)注
8

文章
1698

瀏覽量
46005
網(wǎng)絡(luò)模型

網(wǎng)絡(luò)模型

+關(guān)注

關(guān)注
0

文章
44

瀏覽量
8432
MLP

MLP

+關(guān)注

關(guān)注
0

文章
57

瀏覽量
4253

原文標(biāo)題：ECCV 2022 | MorphMLP：一種用于視頻時(shí)空建模的MLP類主干網(wǎng)絡(luò)

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

移動(dòng)電視射頻技術(shù)面臨什么挑戰(zhàn)

隨著數(shù)字移動(dòng)電視不斷向移動(dòng)設(shè)備的應(yīng)用轉(zhuǎn)移，應(yīng)用和系統(tǒng)工程師正面臨著各種挑戰(zhàn)，比如外形尺寸的小型化、更低的功耗以及信號完整性。對現(xiàn)有移動(dòng)電視標(biāo)準(zhǔn)的研究重點(diǎn)將放在了DVB-H上。本文將從系統(tǒng)角度討論DVB-H接收器設(shè)計(jì)所

發(fā)表于 06-03 06:28

DVB-H接收器設(shè)計(jì)所面臨的機(jī)遇和挑戰(zhàn)討論

發(fā)表于 07-08 07:35

電力系統(tǒng)設(shè)計(jì)面臨什么挑戰(zhàn)？

電力系統(tǒng)設(shè)計(jì)工程師們正面臨著較之以往更大的挑戰(zhàn)。更加復(fù)雜的傳感算法、最新的能源效率挑戰(zhàn)和新一代高級傳感器的應(yīng)用，都意味著電力設(shè)計(jì)師們需要學(xué)習(xí)比以往更加廣泛的技能，同時(shí)不斷吸收新的設(shè)計(jì)思

發(fā)表于 08-20 07:33

如何應(yīng)對傳感器信號調(diào)節(jié)所面臨的挑戰(zhàn)？

所有類型的傳感器在過去幾年中都有了很大發(fā)展，而且與之前的產(chǎn)品相比，更加精確也更穩(wěn)定。有的時(shí)候，這些傳感器使用起來并不簡單。面向這些傳感器的調(diào)節(jié)電路設(shè)計(jì)師，經(jīng)常發(fā)現(xiàn)此類電路的開發(fā)多少有些令人頭疼。然而，只需少量基礎(chǔ)知識并使用新的在線傳感器設(shè)計(jì)工具，這個(gè)過程面臨的很多挑戰(zhàn)都能

發(fā)表于 10-17 06:27

精確測量阻抗所面臨的挑戰(zhàn)有哪些

精確測量阻抗所面臨的挑戰(zhàn)

發(fā)表于 01-27 07:34

調(diào)試速度高達(dá)幾個(gè)Gb每秒的連接時(shí)所面臨的挑戰(zhàn)

本文將討論信號集成和硬件工程師在設(shè)計(jì)或調(diào)試速度高達(dá)幾個(gè)Gb每秒的連接時(shí)所面臨的挑戰(zhàn)。無論是進(jìn)行下一代高分辨率視頻顯示、醫(yī)學(xué)成像、數(shù)據(jù)存儲或是在

發(fā)表于 03-01 10:17

電子系統(tǒng)設(shè)計(jì)所面臨的挑戰(zhàn)是什么

電子系統(tǒng)設(shè)計(jì)所面臨的挑戰(zhàn)是什么什么是高速電路？高速電路面臨的問題怎么解決？

發(fā)表于 04-26 06:55

LED在汽車領(lǐng)域應(yīng)用面臨哪些挑戰(zhàn)？

控制LED的方法有哪些？LED在汽車領(lǐng)域應(yīng)用面臨哪些挑戰(zhàn)？LED主要應(yīng)用于哪些領(lǐng)域？

發(fā)表于 05-11 06:08

DVB-H接收器設(shè)計(jì)所面臨的機(jī)遇和挑戰(zhàn)是什么？

本文將從系統(tǒng)角度討論DVB-H接收器設(shè)計(jì)所面臨的機(jī)遇和挑戰(zhàn)，并重點(diǎn)介紹射頻前端。

發(fā)表于 06-02 06:35

5G終端天線研發(fā)所面臨的主要挑戰(zhàn)有哪些？如何去解決？

5G終端天線研發(fā)所面臨的主要挑戰(zhàn)有哪些？哪些關(guān)鍵技術(shù)能層層突破這些困難？

發(fā)表于 06-30 06:11

復(fù)雜信號內(nèi)部捕獲所面臨的常見挑戰(zhàn)分析

本文將討論在復(fù)雜的信號內(nèi)部捕獲關(guān)心的事件所面臨的某些常見挑戰(zhàn)，以及怎樣使用可視觸發(fā)功能克服這些挑戰(zhàn)。

發(fā)表于 01-21 17:09 ?2345次閱讀

討論在設(shè)計(jì)之初所面臨的挑戰(zhàn)及解決方案

觀看Ian Fountain和Jarrod Slocum討論嵌入式軟件驗(yàn)證所面臨的挑戰(zhàn)。在設(shè)計(jì)階段，通過創(chuàng)建軟件、系統(tǒng)和環(huán)境模擬，你可以更快地設(shè)計(jì)、原型和部署系統(tǒng)。 NI Veri

發(fā)表于 06-25 00:27 ?3181次閱讀

LiDAR系統(tǒng)所面臨的五大挑戰(zhàn)及如何應(yīng)對

本文探討了當(dāng)今LiDAR系統(tǒng)所面臨的五大挑戰(zhàn)以及如何應(yīng)對這些挑戰(zhàn)。一旦消除這些障礙，LiDAR將發(fā)揮廣泛的應(yīng)用潛力。

發(fā)表于 01-22 10:38 ?7736次閱讀

一個(gè)通用的時(shí)空預(yù)測學(xué)習(xí)框架

。這篇論文介紹了一種用于高效時(shí)空預(yù)測的時(shí)間注意力單元（Temporal Attention Unit，TAU）。該方法改進(jìn)了現(xiàn)有框架，對時(shí)間和空間上的依賴關(guān)系分別學(xué)習(xí)，提出了時(shí)間維度上的可并行化時(shí)序注意力單元

發(fā)表于 06-19 10:27 ?1480次閱讀

深度學(xué)習(xí)算法mlp介紹

計(jì)算，深度學(xué)習(xí)模型可以自動(dòng)學(xué)習(xí)輸入數(shù)據(jù)的內(nèi)在特征表示，從而實(shí)現(xiàn)各種計(jì)算任務(wù)。 MLP的本質(zhì)是一種前饋（feedforward）神經(jīng)網(wǎng)絡(luò)模型，由多個(gè)神經(jīng)元層組成。網(wǎng)絡(luò)的輸入層接受原始數(shù)據(jù)

發(fā)表于 08-17 16:11 ?4394次閱讀

搜索歷史

在時(shí)空表示學(xué)習(xí)框架中使用 MLP 所面臨的挑戰(zhàn)

評論

移動(dòng)電視射頻技術(shù)面臨什么挑戰(zhàn)

DVB-H接收器設(shè)計(jì)所面臨的機(jī)遇和挑戰(zhàn)討論

電力系統(tǒng)設(shè)計(jì)面臨什么挑戰(zhàn)？

如何應(yīng)對傳感器信號調(diào)節(jié)所面臨的挑戰(zhàn)？

精確測量阻抗所面臨的挑戰(zhàn)有哪些

調(diào)試速度高達(dá)幾個(gè)Gb每秒的連接時(shí)所面臨的挑戰(zhàn)

電子系統(tǒng)設(shè)計(jì)所面臨的挑戰(zhàn)是什么

LED在汽車領(lǐng)域應(yīng)用面臨哪些挑戰(zhàn)？

DVB-H接收器設(shè)計(jì)所面臨的機(jī)遇和挑戰(zhàn)是什么？

5G終端天線研發(fā)所面臨的主要挑戰(zhàn)有哪些？如何去解決？

復(fù)雜信號內(nèi)部捕獲所面臨的常見挑戰(zhàn)分析

討論在設(shè)計(jì)之初所面臨的挑戰(zhàn)及解決方案

LiDAR系統(tǒng)所面臨的五大挑戰(zhàn)及如何應(yīng)對

一個(gè)通用的時(shí)空預(yù)測學(xué)習(xí)框架

深度學(xué)習(xí)算法mlp介紹