0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種自監(jiān)督同變注意力機(jī)制,利用自監(jiān)督方法來彌補(bǔ)監(jiān)督信號差異

5b9O_deeplearni ? 來源:深度學(xué)習(xí)大講堂 ? 2020-05-12 10:16 ? 次閱讀

編者按:近日,計算機(jī)視覺頂會 CVPR 2020 接收論文結(jié)果揭曉,從 6656 篇有效投稿中錄取了 1470 篇論文,錄取率約為 22%。中科院VIPL實(shí)驗(yàn)室共七篇論文錄取,內(nèi)容涉及弱監(jiān)督語義分割、活體檢測、手勢識別、視覺問答、行人搜索、無監(jiān)督領(lǐng)域自適應(yīng)方法等方面,本文將予以詳細(xì)介紹。

01

1. Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation (Yude Wang, Jie Zhang, Meina Kan, Shiguang Shan, Xilin Chen)

基于類別標(biāo)簽的弱監(jiān)督語義分割作為一個具有挑戰(zhàn)性的問題在近年來得到了深入的研究,而類別響應(yīng)圖(class activation map,簡稱CAM)始終是這一領(lǐng)域的基礎(chǔ)方法。但是由于強(qiáng)監(jiān)督與弱監(jiān)督信號之間存在差異,由類別標(biāo)簽生成的CAM無法很好地貼合物體邊界。

本文提出了一種自監(jiān)督同變注意力機(jī)制(self-supervised equivariant attention mechanism,簡稱SEAM),利用自監(jiān)督方法來彌補(bǔ)監(jiān)督信號差異。在強(qiáng)監(jiān)督語義分割的數(shù)據(jù)增廣階段,像素層級標(biāo)注和輸入圖像需經(jīng)過相同的仿射變換,自此這種同變性約束被隱式地包含,而這種約束在只有類別標(biāo)簽的CAM的訓(xùn)練過程中是缺失的。因此,我們利用經(jīng)過不同仿射變換的圖片得到的類別響應(yīng)圖本應(yīng)滿足的同變性來為網(wǎng)絡(luò)訓(xùn)練提供自監(jiān)督信號。除此之外,我們提出像素相關(guān)模塊(pixel correlation module,簡稱PCM),通過發(fā)掘圖像表觀信息,利用相似像素的特征來修正當(dāng)前像素的預(yù)測結(jié)果,從而增強(qiáng)CAM預(yù)測結(jié)果的一致性。我們的方法在PASCAL VOC 2012數(shù)據(jù)集上進(jìn)行了充分的實(shí)驗(yàn),驗(yàn)證了算法的有效性,并取得當(dāng)前最好性能。

02

2. Single-Side Domain Generalization for Face Anti-Spoofing (Yunpei Jia, Jie Zhang, Shiguang Shan, Xilin Chen)

由于不同數(shù)據(jù)集之間存在差異,很多活體檢測方法進(jìn)行跨數(shù)據(jù)集測試時性能下降明顯。現(xiàn)有的一些方法借用領(lǐng)域泛化的思想,利用多個已有的源域數(shù)據(jù)去訓(xùn)練模型,以得到一個領(lǐng)域不變的特征空間,從而在未知的目標(biāo)域中進(jìn)行測試時能利用學(xué)習(xí)到的通用判別特征,去提升模型的泛化性能。但是,由于不同數(shù)據(jù)集之間,攻擊樣本相對于正常樣本存在更大的差異(比如說攻擊方式的不同,攻擊樣本之間采集的環(huán)境差異),努力讓這些攻擊樣本去學(xué)習(xí)一個領(lǐng)域不變的特征空間是比較困難的,通常會得到一個次優(yōu)解,如下圖左邊所示。因此,針對這一個問題,我們提出來一個端到端的單邊領(lǐng)域泛化框架,以進(jìn)一步提升模型的性能。

其中主要思想在于,對于不同數(shù)據(jù)集中的正常樣本,我們?nèi)W(xué)習(xí)一個領(lǐng)域不變的特征空間;但是對于不同數(shù)據(jù)集中的攻擊樣本,我們?nèi)W(xué)習(xí)一個具有分辨性的特征空間,使相同數(shù)據(jù)集中的攻擊樣本盡可能接近,而不同數(shù)據(jù)集中的攻擊樣本盡可能遠(yuǎn)離。最終效果會使攻擊樣本在特征空間中張成更大的區(qū)域,而正常樣本僅僅處在一個緊湊的區(qū)域中,從而能夠?qū)W習(xí)到一個對于正常樣本包圍更緊致的分類器,以達(dá)到在未知的目標(biāo)域上更好的性能,如下圖右邊所示。

具體來說,我們引用一個域判別器,利用一種單邊的對抗學(xué)習(xí),讓特征提取器僅僅對于正常樣本提取更具有泛化性能的特征。并且,我們提出一個不均衡的三元組損失函數(shù),讓不同數(shù)據(jù)集之間的正常樣本盡可能接近而攻擊樣本盡可能遠(yuǎn)離,以使得攻擊樣本在特征空間中張成一個更大的范圍。同時,我們還引入了特征和參數(shù)歸一化的思想,進(jìn)一步地提升模型的性能。大量實(shí)驗(yàn)表明,我們提出的方法是有效的,并且在四個公開數(shù)據(jù)庫上均達(dá)到了最優(yōu)的性能。

03

3. Cross-domain Face Presentation Attack Detection via Multi-domain Disentangled Representation Learning (Guoqing Wang, Hu Han, Shiguang Shan, Xilin Chen)

目前,人臉呈現(xiàn)攻擊檢測(Presentation Attack Detection, 簡稱PAD)成為人臉識別系統(tǒng)中一個亟待解決的問題。傳統(tǒng)的方法通常認(rèn)為測試集和訓(xùn)練集來自于同一個域,結(jié)果表明這些方法并不能很好的推廣到未知場景中,因?yàn)閷W(xué)到的特征表示可能會對訓(xùn)練集中的身份、光照等信息產(chǎn)生過擬合。

為此,本文針對跨域人臉呈現(xiàn)攻擊檢測提出一種高效的特征解耦方法。我們的方法包含特征解耦模塊(DR-Net)和多域?qū)W習(xí)模塊(MD-Net)。DR-Net通過生成模型學(xué)習(xí)了一對特征編碼器,可以解耦得到PAD相關(guān)的特征和身份信息相關(guān)的特征。MD-Net利用來自于不同域中解耦得到的特征進(jìn)一步學(xué)習(xí)和解耦,得到與域無關(guān)的解耦特征。在當(dāng)前公開的幾個數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證了所提方法的有效性。

04

4. An Efficient PointLSTM Network for Point Clouds based Gesture Recognition (Yuecong Min, Yanxiao Zhang, Xiujuan Chai, Xilin Chen)

現(xiàn)有的手勢識別方法往往采用視頻或骨架點(diǎn)序列作為輸入,但手部在整張圖片中所占比例較小,基于視頻的方法往往受限于計算量并且更容易過擬合,而基于骨架點(diǎn)的方法依賴于獲取的手部骨架點(diǎn)的精度。

本文提出了一個基于點(diǎn)云序列的長短期記憶模塊 (PointLSTM),可以直接從手部點(diǎn)云序列中捕獲手型特征和手部運(yùn)動軌跡。該模塊為點(diǎn)云序列中的每一個點(diǎn)保留了獨(dú)立的狀態(tài),在更新當(dāng)前點(diǎn)的狀態(tài)時,通過一個權(quán)值共享的LSTM融合時空相鄰點(diǎn)的狀態(tài)和當(dāng)前點(diǎn)的特征,可以在保留點(diǎn)云空間結(jié)構(gòu)的同時提取長時序的空間和時序信息。此外,本文還提出了一個幀內(nèi)狀態(tài)共享的模塊(PointLSTM-PSS)用于簡化計算量和分析性能提升來源。我們在兩個手勢識別數(shù)據(jù)集 (NVGesture和SHREC’17) 和一個動作識別數(shù)據(jù)集 (MSR Action3D) 上驗(yàn)證了方法的有效性和泛化能力,提出的模型在4096個點(diǎn)(32幀,每幀采樣128點(diǎn))的規(guī)模下,優(yōu)于目前最好的基于手部骨架點(diǎn)序列的手勢識別方法和基于點(diǎn)云序列的動作識別方法。

05

5. Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text (Difei Gao, Ke li, Ruiping Wang, Shiguang Shan, Xilin Chen)

場景圖像中的文字通常會包含豐富的信息,比如,飯店的名字,產(chǎn)品的信息,等等。能夠理解這些場景文字,并回答與此相關(guān)的自然語言問題(即,場景文字問答任務(wù),Text VQA)的智能體也將會有非常廣泛的應(yīng)用前景。然而,對于當(dāng)前的模型,場景文字問答任務(wù)仍十分具有挑戰(zhàn)。其關(guān)鍵的難點(diǎn)之一就是真實(shí)場景當(dāng)中會出現(xiàn)大量的不常見的,多義的或有歧義的單詞,比如,產(chǎn)品的標(biāo)簽,球隊(duì)的名稱等等。要想讓模型理解這些單詞的含義,僅僅訴諸于詞表有限的預(yù)訓(xùn)練單詞嵌入表示(word embedding)是遠(yuǎn)遠(yuǎn)不夠的。一個理想的模型應(yīng)該能夠根據(jù)場景中周圍豐富的多模態(tài)的信息推測出這些單詞的信息,比如,瓶子上顯著的單詞很有可能就是它的牌子。

根據(jù)這樣的思路,我們提出了一種新的視覺問答模型,多模態(tài)圖神經(jīng)網(wǎng)絡(luò)(Multi-Modal Graph Neural Network,MM-GNN),它可以捕獲圖片當(dāng)中各種模態(tài)的信息來推理出未知單詞的含義。具體來說,如下圖所示,我們的模型首先用三個不同模態(tài)的子圖來分別表示圖像中物體的視覺信息,文本的語言信息,以及數(shù)字型文本的數(shù)值信息。然后,我們引入三種圖網(wǎng)絡(luò)聚合器(aggregator),它們引導(dǎo)不同模態(tài)的消息從一個圖傳遞到另一個圖中,從而利用各個模態(tài)的上下文信息完善多模態(tài)圖中各個節(jié)點(diǎn)的特征表示。這些更新后的節(jié)點(diǎn)特征進(jìn)而幫助后續(xù)的問答模塊。我們在近期提出的Text VQA和Scene Text VQA問答數(shù)據(jù)庫上進(jìn)行了實(shí)驗(yàn),取得了state-of-the-art的性能,并驗(yàn)證了方法的有效性。

06

6. TCTS: A Task-Consistent Two-stage Framework for Person Search (Cheng Wang,Bingpeng Ma,Hong Chang, Shiguang Shan, Xilin Chen)

當(dāng)前最先進(jìn)的行人搜索方法將行人搜索分為檢測和再識別兩個階段,但他們大多忽略了這兩個階段之間的一致性問題。一般的行人檢測器對 query 目標(biāo)沒有特別的關(guān)注;再識別模型是在手工標(biāo)注的裁剪框上訓(xùn)練的,在實(shí)際情況中是沒有這樣完美的檢測結(jié)果的。

為了解決一致性問題,我們引入了一個目標(biāo)一致的兩階段的行人搜索框架 TCTS,包括一個 identity-guided query(IDGQ)檢測器和一個檢測結(jié)果自適應(yīng)(Detection Results Adapted ,DRA)的再識別模型。在檢測階段,IDGQ 檢測器學(xué)習(xí)一個輔助的身份分支來計算建議框和查詢圖片的相似度得分。同時考慮查詢相似度得分和前景得分,IDGQ為行人再識別階段生成 query-like 的邊界框。在再識別階段,我們預(yù)測檢測輸出的 bounding boxes 對應(yīng)的身份標(biāo)簽,并用使用這些樣本為 DRA 模型構(gòu)造一個更實(shí)用的混合訓(xùn)練集。混合訓(xùn)練提高了 DRA 模型對檢測不精確的魯棒性。我們在CUHK-SYSU和PRW這兩個基準(zhǔn)數(shù)據(jù)集上評估了我們的方法。我們的框架在CUHK-SYSU上達(dá)到了93.9%的mAP和95.1%的rank1精度,超越以往最先進(jìn)的方法。

07

7. Unsupervised Domain Adaptation with Hierarchical Gradient Synchronization (Lanqing Hu,Meina Kan, Shiguang Shan, Xilin Chen)

無監(jiān)督領(lǐng)域自適應(yīng)方法的任務(wù)是,將已標(biāo)注的源域數(shù)據(jù)集上的知識遷移到無標(biāo)注的目標(biāo)域,從而減小對新目標(biāo)域的標(biāo)注代價。而源域和目標(biāo)域之間的差異是這個問題的難點(diǎn),大多方法通過對齊兩個域的特征的分布來減小域之間的差異,但是仍然很難做到兩個不同分布的每一個局部塊都完美對齊,從而保證判別信息的很好保留。

本文提出一種層級梯度同步的方法,首先在域、類別、類組三個級別通過對抗學(xué)習(xí)進(jìn)行條件分布的對齊,然后通過約束不同級別的域判別器的梯度保證相同的方向和幅度,由此提高分布對齊的內(nèi)在一致性,加強(qiáng)類別結(jié)構(gòu)的保留,從而得到更準(zhǔn)確的分類結(jié)果。該方法在當(dāng)前主流測試集Office-31,Office-Home,VisDA-2017上的結(jié)果都驗(yàn)證了其有效性。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4624

    瀏覽量

    93119
  • 計算機(jī)視覺
    +關(guān)注

    關(guān)注

    8

    文章

    1699

    瀏覽量

    46052
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1208

    瀏覽量

    24751

原文標(biāo)題:CVPR2020 | 中科院VIPL實(shí)驗(yàn)室錄取論文詳解

文章出處:【微信號:deeplearningclass,微信公眾號:深度學(xué)習(xí)大講堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    時空引導(dǎo)下的時間序列監(jiān)督學(xué)習(xí)框架

    【導(dǎo)讀】最近,香港科技大學(xué)、上海AI Lab等多個組織聯(lián)合發(fā)布了篇時間序列無監(jiān)督預(yù)訓(xùn)練的文章,相比原來的TS2Vec等時間序列表示學(xué)習(xí)工作,核心在于提出了將空間信息融入到預(yù)訓(xùn)練階段,即在預(yù)訓(xùn)練階段
    的頭像 發(fā)表于 11-15 11:41 ?297次閱讀
    時空引導(dǎo)下的時間序列<b class='flag-5'>自</b><b class='flag-5'>監(jiān)督</b>學(xué)習(xí)框架

    國家醫(yī)療器械質(zhì)量監(jiān)督檢驗(yàn)中心選購我司差示掃描量熱儀

    近日,國家醫(yī)療器械質(zhì)量監(jiān)督檢驗(yàn)中心已正式選購我司生產(chǎn)的差示掃描量熱儀(DSC)。此次合作不僅是對我司產(chǎn)品質(zhì)量的認(rèn)可,更是對我們技術(shù)實(shí)力的肯定。國家醫(yī)療器械質(zhì)量監(jiān)督檢驗(yàn)中心差示掃描量熱儀作為一種重要
    的頭像 發(fā)表于 11-13 09:48 ?170次閱讀
    國家醫(yī)療器械質(zhì)量<b class='flag-5'>監(jiān)督</b>檢驗(yàn)中心選購我司差示掃描量熱儀

    一種基于因果路徑的層次圖卷積注意力網(wǎng)絡(luò)

    機(jī)電系統(tǒng)中數(shù)據(jù)驅(qū)動故障檢測模型的性能和可解釋性。引入了一種混合因果發(fā)現(xiàn)算法發(fā)現(xiàn)監(jiān)測變量之間的繼承因果關(guān)系。順序連接因果變量的因果路徑用作接收場,使用多尺度卷積提取特征。基于分層注意力
    的頭像 發(fā)表于 11-12 09:52 ?335次閱讀
    <b class='flag-5'>一種</b>基于因果路徑的層次圖卷積<b class='flag-5'>注意力</b>網(wǎng)絡(luò)

    曙光公司成都云中心助力提升監(jiān)督質(zhì)效

    數(shù)字化時代,用好大數(shù)據(jù),推動數(shù)字技術(shù)深度融入紀(jì)檢監(jiān)察各項(xiàng)業(yè)務(wù),是大勢所趨。當(dāng)前,各地正在探索推進(jìn)大數(shù)據(jù)監(jiān)督,借助海量數(shù)據(jù)、算、算法,不斷延伸監(jiān)督的觸角,拓展發(fā)現(xiàn)問題的渠道。以“算
    的頭像 發(fā)表于 11-05 10:05 ?256次閱讀

    一種創(chuàng)新的動態(tài)軌跡預(yù)測方法

    本文提出了一種動態(tài)軌跡預(yù)測方法,通過結(jié)合歷史幀和歷史預(yù)測結(jié)果提高預(yù)測的穩(wěn)定性和準(zhǔn)確性。它引入了歷史預(yù)測注意力模塊,以編碼連續(xù)預(yù)測之間的動態(tài)關(guān)系,并通過三重因子
    的頭像 發(fā)表于 10-28 14:34 ?475次閱讀
    <b class='flag-5'>一種</b>創(chuàng)新的動態(tài)軌跡預(yù)測<b class='flag-5'>方法</b>

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識學(xué)習(xí)

    并捕捉長距離依賴關(guān)系的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。Transformer通過編碼器(Encoder)和解碼器(Decoder)兩部分實(shí)現(xiàn)語言的編碼和解碼。 注意力機(jī)制:Transformer中的注意力機(jī)制
    發(fā)表于 08-02 11:03

    旗晟機(jī)器人人員行為監(jiān)督AI智慧算法

    ,以實(shí)現(xiàn)對工業(yè)場景巡檢運(yùn)維的高效化目標(biāo)。那么,下面我們談?wù)勂礻蓹C(jī)器人AI智慧算法之——人員行為監(jiān)督AI智慧算法。 旗晟人員行為監(jiān)督AI智慧算法是通過各類采集設(shè)備與AI服務(wù)器,結(jié)合行
    的頭像 發(fā)表于 07-24 17:05 ?305次閱讀
    旗晟機(jī)器人人員行為<b class='flag-5'>監(jiān)督</b>AI智慧算法

    神經(jīng)網(wǎng)絡(luò)如何用無監(jiān)督算法訓(xùn)練

    神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的重要組成部分,其訓(xùn)練方式多樣,其中無監(jiān)督學(xué)習(xí)是一種重要的訓(xùn)練策略。無監(jiān)督學(xué)習(xí)旨在從未標(biāo)記的數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)內(nèi)在的結(jié)構(gòu)、模式或規(guī)律,從而提取有用的特征表示。這種訓(xùn)練方式對于大規(guī)模未
    的頭像 發(fā)表于 07-09 18:06 ?850次閱讀

    深度學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)方法綜述

    應(yīng)用中往往難以實(shí)現(xiàn)。因此,無監(jiān)督學(xué)習(xí)在深度學(xué)習(xí)中扮演著越來越重要的角色。本文旨在綜述深度學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)方法,包括自編碼器、生成對抗網(wǎng)絡(luò)、聚類算法等,并分析它們的原理、應(yīng)用場景以及優(yōu)缺點(diǎn)。
    的頭像 發(fā)表于 07-09 10:50 ?852次閱讀

    基于FPGA的類腦計算平臺 —PYNQ 集群的無監(jiān)督圖像識別類腦計算系統(tǒng)

    )。使用 Spike-Timing-Dependent Plasticity (STDP)在 C1-S2 層之間進(jìn)行對象特征的學(xué)習(xí)。該網(wǎng)絡(luò)架構(gòu)屬于麻省理工學(xué)院 Riesenhuber &Poggio 提出的 HMAX 模型中的一種,HMAX 模型
    發(fā)表于 06-25 18:35

    【大規(guī)模語言模型:從理論到實(shí)踐】- 閱讀體驗(yàn)

    再次感謝電子發(fā)燒友提供的書籍試讀機(jī)會。今天分享下我在學(xué)習(xí)大模型訓(xùn)練中 注意力機(jī)制 的心得體會。 雖然注意力機(jī)制可以顯著提高模型處理長序列數(shù)
    發(fā)表于 06-07 14:44

    國家市場監(jiān)督管理總局計量司副司長劉洪彬行蒞臨中圖儀器調(diào)研指導(dǎo)工作

    5月29日下午,國家市場監(jiān)督管理總局計量司副司長劉洪彬、計量司級調(diào)研員劉國傳行蒞臨深圳市中圖儀器股份有限公司調(diào)研指導(dǎo)工作,廣東省市場監(jiān)督管理局計量處處長郭幸妮,深圳市市場
    的頭像 發(fā)表于 06-01 08:08 ?501次閱讀
    國家市場<b class='flag-5'>監(jiān)督</b>管理總局計量司副司長劉洪彬<b class='flag-5'>一</b>行蒞臨中圖儀器調(diào)研指導(dǎo)工作

    易華錄產(chǎn)品檢測中心順利通過CNAS資質(zhì)監(jiān)督評審

    近日,經(jīng)中國合格評定國家認(rèn)可委員會評審組現(xiàn)場評審,易華錄產(chǎn)品檢測中心順利通過CNAS資質(zhì)監(jiān)督評審。
    的頭像 發(fā)表于 05-15 17:26 ?622次閱讀
    易華錄產(chǎn)品檢測中心順利通過CNAS資質(zhì)<b class='flag-5'>監(jiān)督</b>評審

    ADI宣布Sensinel心肺管理系統(tǒng)已獲得美國食品藥物監(jiān)督管理局510(k)認(rèn)證

    近日,ADI宣布ADI的Sensinel心肺管理(CPM)系統(tǒng)已獲得美國食品藥物監(jiān)督管理局(FDA) 510(k)認(rèn)證,并正式上市。
    的頭像 發(fā)表于 03-07 11:36 ?601次閱讀

    Meta發(fā)布新型無監(jiān)督視頻預(yù)測模型“V-JEPA”

    Meta,這家社交媒體和科技巨頭,近日宣布推出一種新型的無監(jiān)督視頻預(yù)測模型,名為“V-JEPA”。這模型在視頻處理領(lǐng)域引起了廣泛關(guān)注,因?yàn)樗ㄟ^抽象性預(yù)測生成視頻中缺失或模糊的部分來進(jìn)行學(xué)習(xí),提供了
    的頭像 發(fā)表于 02-19 11:19 ?1055次閱讀