0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVDIA提出一種面向場景圖解析任務的圖對比損失函數

nlfO_thejiangme ? 來源:lq ? 2019-10-01 16:46 ? 次閱讀

關系識別(Relationship Detection)是繼物體識別(Object Detection)之后的一個重要方向。使用視覺關系構建的場景圖(Scene Graph)可以為很多下游任務提供更豐富的語義信息。這篇文章我們討論目前常規(guī)模型遇到的兩個普遍問題,并提出三種loss解決,同時我們也設計了一個高效的end-to-end網絡搭配我們的loss來構建場景圖。我們的模型在三個數據集(OpenImage, Visual Genome, VRD)上都達到了目前最優(yōu)結果。

張驥,羅格斯大學在讀博士生,曾在Facebook AI Research (FAIR),Nvidia Research實習參與計算機視覺領域研究項目,在CVPR,AAAI,ACCV等會議均有論文發(fā)表,并在2018年Kaggle上舉辦的Google OpenImage Visual Relationship Detection Challenge比賽上獲得第一名。這篇文章是參賽模型的一個改進版本。

論文鏈接:https://arxiv.org/abs/1903.02728

代碼鏈接:https://github.com/NVIDIA/ContrastiveLosses4VRD

近兩年來,場景圖解析任務(Scene Graph Parsing,也稱Scene Graph Generation)開始獲得越來越多的關注。這個任務的定義是針對輸入圖片構建一個描述該圖片的圖(graph),該圖中的節(jié)點是物體,邊是物體之間的關系。下圖是一個例子:

圖片來源:J. Zhang, et al., AAAI2019[1]

眾所周知,物體識別是一個相對成熟的領域,目前很多state-of-the-art方法在非常challenging的數據集上(MSCOCO, OpenImages)也能得到不錯的結果。這意味著,在構建場景圖的過程中,把節(jié)點(也就是物體)探測出來不是一個難點,真正的難點在于構建圖中的邊,也就是物體之間的視覺關系(visual relationship)。

自2016年ECCV第一篇視覺關系識別的文章[2]出現以來,已經有很多工作關注于如何通過給物體兩兩配對并且融合物體特征來得到它們之間關系的特征,進而準確探測出關系的類別[3, 4, 5, 6, 7, 8, 9]。但這些工作的一個共同問題在于,場景圖中每一條邊的處理都是獨立的,也就是說,模型在預測一對物體有什么關系的時候不會考慮另一對物體,但實際情況是,如果有兩條邊共享同一個物體,那么這兩條邊常常會有某種客觀存在的聯系,這種聯系會顯著影響預測的結果,因而在預測兩條邊中任何一條的時候應該同時考慮兩條邊。

這篇文章正是觀察到了邊之間存在兩種重要的聯系,進而針對性地提出三種損失函數來協同地預測視覺關系。更具體地說,這篇文章觀察到了兩個客觀存在的常見問題,這兩個問題在前人的工作中并沒有被顯式地解決:

問題一:客體實例混淆

客體實例混淆的定義是,一個物體只和相鄰的很多同類別的物體中的一個存在關系時,模型不能正確識別出它和這些同類別物體中的哪一個有關系。換言之,很多視覺關系是有排它性的。一個人如果在騎馬,那么即便他周圍有一百匹馬,他也只可能在騎其中一匹。下圖是一個文章中給出的例子。圖中的人面前有若干酒杯,該人只拿著其中一只杯子,但傳統模型由于缺乏顯式的區(qū)分機制,它錯誤地認為桌上那個酒杯在被人拿著。

問題2:鄰近關系模糊這個現象是說,當兩對物體靠的很近,同時它們之間的關系類別一樣的時候,模型很難作出正確的匹配。下圖是這個現象的一個例子。圖中有兩個“man play guitar”,和一個“man play drum”。由于三個人靠的很近且都在演奏樂器,視覺上很容易把人和他對應的樂器混淆,在這張圖片中,傳統的scene graph parsing模型就把右邊人錯誤地認為是在打中間的鼓。

這兩個問題的根本原因都在于,決定物體之間關系的視覺特征往往非常微妙,而且當需要判別出物體之間有無關聯時,觀察者往往需要將注意力集中到鄰近的多個物體并進行對比,這樣才能避免混淆,準確區(qū)分出誰和誰是相關的。這正是本文提出的解決方案的動機。 解決方案

針對這兩個問題,本文提出三種損失函數來解決??偟膩碚f這三種損失函數的思想是,訓練過程中對于每個節(jié)點(即物體),篩選出當前模型認為與之匹配,但置信度最小的那個正樣本,同時選出當前模型認為與之不匹配但置信度也最小的那個負樣本,再計算這兩個樣本的置信度的差異,然后把這個差異作為額外的損失值反饋給模型。根據這種思想,本文進一步設計了三種類型的損失函數形式:

1. 類別無關損失(Class AgnosticLoss)

該函數的計算分成兩步,第一步計算正負樣本的置信度差異:

其中是當物體i作為主語(subject)的時候它所有可能對應的賓語中正負樣本置信度差異的最小值。這里“正負”的含義是某物體作為賓語與這個主語是否存在視覺關系。這里代表物體i當前被作為主語考慮,j和k分別用來索引與主語存在關系的正樣本賓語和不存在關系的負樣本賓語。分別代表與主語存在關系的所有賓語(即正樣本)的集合,和與主語不存在關系的所有賓語(即負樣本)的集合。與之相似地,的定義是物體作為賓語時它所有可能對應的主語中正負樣本置信度差異的最小值。公式中符號的含義與之類似,這里不再贅述。

第二步是利用第一步的兩個差異值來計算一個基于邊界的損失:

其中是預先設定的邊界值,N是當前的batch size。這個損失的作用是使得上述第一步中的差異值大于預定的,只有滿足這個條件的時候才為0,也就是說我們希望差異值至少是。 熟悉contrastiveloss和triplet loss的朋友應該發(fā)現,這個loss的形式和它們很類似。的確,這里的對比形式參考了triplet loss,但不同點在于這個loss受限于圖模型的結構,即每一個節(jié)點的正負樣本都只來自于和當前主語或賓語可能存在關系的節(jié)點,而不是像一般triplet loss那樣直接在所有節(jié)點中搜索正負樣本。

另一個不同點是triplet loss一般的應用場景是用于訓練節(jié)點的嵌入(embedding),因此它的輸入通常是正負樣本的嵌入向量,但這個loss的輸入就是原始模型的輸出,即每一個視覺關系的置信度,它的目的是通過對比正負樣本的置信度把當前視覺關系的最重要的上下文環(huán)境反饋給原始模型,從而讓原始模型去學習那些能夠區(qū)分混淆因素的視覺特征。

2. 物體類別相關損失(Entity Class Aware Loss)

該函數與類別無關損失形式類似,唯一的不同在于這個loss在選擇正負樣本時,樣本中物體的類別必須一樣:

這一步與上一個loss的第一步的唯一區(qū)別就是加入了一個額外輸入c,它的作用是規(guī)定在計算正負樣本差異時,所有考慮到的物體必須同屬于類別c。這個額外限制迫使模型去注意那些同一個類別的不同物體實例,比如上圖中的多個酒杯,并在學習過程中逐漸區(qū)分存在視覺關系和不存在視覺關系的實例的特征,因此這個loss是專門設計用來解決上文提出的第一個問題的,即客體實例混淆。

3. 謂語類別相關損失(Predicate Class Aware Loss)

該函數與類別無關損失形式也類似,唯一的不同在于這個loss在選擇正負樣本時,樣本中謂語的類別必須一樣:

這里加入了一個額外輸入e,它代表的是目前考慮的謂語類別。它的作用是規(guī)定在計算正負樣本差異時,所有考慮到的樣本的視覺關系必須都以謂語連接。這個額外限制迫使模型去注意那些具有同樣視覺關系的物體對,比如上圖中同樣在“play”樂器的三個人,然后在訓練過程中學會識別正確的主客體匹配。很顯然這個loss是專門用來解決上述的第二個問題,即鄰近關系模糊。

關系檢測網絡(RelDN)

本文同時也提出了一個高效的關系識別網絡,結構圖如下:

該網絡首先用事先訓練好的物體識別器識別出所有物體,然后對每一對物體,從圖片中提取它們的視覺特征,空間特征以及語義特征。其中空間特征是bounding box的相對坐標,語義特征是兩個物體的類別。這三個特征分別被輸入進三個獨立的分支,并給出三個預測值,最后網絡把三個預測值加總并用softmax歸一化得到謂語的分布。

值得注意的是,中間這個Semantic Module在前人的工作中也叫Frequency Bias或者Language Bias,它意味著當我們知道主客體的類別時,我們即便不看圖片也能“猜”出它們之間的謂語是什么。這個現象其實是符合客觀規(guī)律的。試想有一張圖片里有一個人和一匹馬,現在我們不看圖片去猜這個人和這匹馬有什么關系,我們一般最容易想到“騎”,其次是“拍”或者“牽著”之類的動作,但幾乎不可能是“站在”或者“躺在”,因為這與客觀常識不符。

如果要構建符合真實世界分布的場景圖,那么符合客觀規(guī)律的常識就不能忽略,因此這個Language Bias不可或缺。

實驗結果

1. 成分分析

這張表是ablation study,以一步步添加子模塊的方式證明三個損失函數都是有效的是傳統方法通用的multi-class cross entropy loss,簡言之就是softmax層后面接的分類loss,分別是類別無關損失(Class Agnostic Loss),物體類別相關損失(Entity Class Aware Loss)和謂語類別相關損失(Predicate ClassAware Loss)。

這張表對應的實驗是,人工隨機地挑選出100張圖片,這些圖片里面廣泛地存在著本文開頭提到的兩個問題,然后分別用不帶本文提出的losses的模型和帶這些losses的模型去跑這100張圖片然后對比結果。很明顯,帶losses的模型幾乎在所有類別上優(yōu)于不帶losses。這個實驗直接證明了添加本文提出的losses能夠很大程度上解決客體實例混淆和鄰近關系模糊這兩個問題,從而顯著提高模型整體精確度。 除了使用Table2量化地證明losses的有效性,本文同時對模型學到的中間層特征進行了可視化,示例如下:

上圖是從驗證集(validation set)里挑選的兩張圖,每張圖分別用不帶losses和帶losses的模型跑一下,然后把最后一個CNN層的特征提出來并畫成上圖所示的heatmap。可以發(fā)現,在左邊這張圖中不帶losses的模型并沒有把正確的酒杯凸顯出來,而帶losses的模型很清晰地突出了被人握著的那個酒杯;在右邊這張圖中,不帶losses的模型突出的位置所對應的物體(鼓)并沒有和任何人存在關系,而被人握在手里的話筒卻并沒有被突出出來。相比之下,帶losses的模型則學到了正確的特征。

2. 與最新方法的比較

本文在三個數據集上都做到了state-of-the-art,三個數據集是OpenImages (OI), VisualGenome (VG), Visual Relation Detection (VRD):

OpenImages(OI)由于數據集較新,之前沒有論文做過,所以本文直接和Google在2018年舉辦的OpenImages Visual Relationship Detection Challenge的前8名進行了比較,結果比冠軍高出兩個百分點。

在VisualGenome(VG)上,使用和前人相同的settings,本文提出的模型也顯著地超過了前人的最好成績。值得注意的是,這里加和不加losses的區(qū)別沒有OpenImages上那么大,很大程度上是因為Visual Genome的標注不夠完整,也就是說圖片中很多存在的視覺關系并沒有被標出來,這樣導致模型誤認為沒有標注的物體之間不存在視覺關系,進而把它們認定為負樣本。

在VRD數據集上我們看到帶losses和不帶losses的差別相比VG明顯了很多,這是因為VRD的標注相對較完整,整體標注質量也相對較好。

作者有話說。。.

最后是我在這個領域做了兩年多之后的一些關于視覺關系識別場景圖構建的經驗和思考,和本文無直接關聯,但希望能和大家分享。

1. 前文提到的Language Bias是符合客觀世界分布的。如果你希望在你的任務中使用場景圖來提取更豐富的信息,而且你的數據集是從真實世界中無偏差地采樣出來的自然圖片,那么Language Bias應該是有幫助的,但如果你的數據集有偏差,或者是合成數據集(比如CLEVR),那么Language Bias可能不起作用,或者會起到反作用。

2. 在實際應用中,一個可能更好的構建場景圖的方式是把所有謂語分成若干大類,然后每個大類分別用一個模型去學,比如可以把謂語分成空間謂語(例如“to the left of, to the right of”),互動謂語(例如“ride,kick, sit on”)和其它謂語(例如“part of”)。

這么做的原因在于不同類型的謂語表達的語義是非常不同的,它們對應的視覺特征的分布也很不同,因此使用獨立的若干模型分別去學習這些語義一般會比用一個模型去學習所有語義要好。

3. 在上述的不同類型的關系當中,空間關系是最難識別的一類,因為相比而言,同一個空間關系所對應的視覺分布要復雜很多。

比如,“人騎馬”的圖片可能看上去都十分相似,但“人在馬的右邊”的圖片卻有很多種可能的布局。如果人和馬都是背對鏡頭,那么人會在整個圖片的右側,而如果人和馬是面對鏡頭,那么人會在左側,而如果人和馬是側對鏡頭,那么人在圖片中會在馬的前方或者后方。歸根結底,這種空間分布的多元性是由于

1)用2D圖片平面去描述3D世界的真實布局具有局限性;

2)Language Bias在空間關系中作用相對小很多,因為空間布局的多樣性相對很廣,在不看圖片的情況下更難“猜”出空間關系是什么。

總而言之,目前空間關系是關系識別和場景圖構建的短板,我認為后面工作可以在這個子問題上多加關注。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 函數
    +關注

    關注

    3

    文章

    4338

    瀏覽量

    62740
  • 計算機視覺
    +關注

    關注

    8

    文章

    1698

    瀏覽量

    46031
  • 數據集
    +關注

    關注

    4

    文章

    1208

    瀏覽量

    24737

原文標題:將門好聲音 | NVDIA提出一種面向場景圖解析任務的圖對比損失函數

文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    一種面向飛行試驗的數據融合框架

    天地氣動數據致性,針對某外形飛行試驗數據開展了典型對象的天地氣動數據融合方法研究。結合數據挖掘的隨機森林方法,本文提出一種面向飛行試驗的數據融合框架,通過引入地面風洞試驗氣動數據,
    的頭像 發(fā)表于 11-27 11:34 ?259次閱讀
    <b class='flag-5'>一種</b><b class='flag-5'>面向</b>飛行試驗的數據融合框架

    RNN的損失函數與優(yōu)化算法解析

    函數有以下幾種: 交叉熵損失函數 :交叉熵(Cross Entropy)是一種評估兩個概率分布之間差異的度量方法,即通過比較模型預測的概率分布和真實概率分布之間的差異,來評估模型訓練的
    的頭像 發(fā)表于 11-15 10:16 ?482次閱讀

    SUMIF函數對比VLOOKUP的優(yōu)勢

    在Excel中,數據管理和分析是日常工作中不可或缺的部分。SUMIF函數和VLOOKUP函數是兩個非常受歡迎的函數,它們可以幫助用戶快速地處理和分析數據。盡管它們都可以用于查找和匯總
    的頭像 發(fā)表于 11-11 09:16 ?339次閱讀

    YOLOv8中的損失函數解析

    YOLO長期以來直是目標檢測任務的首選模型之。它既快速又準確。此外,其API簡潔易用。運行訓練或推斷作業(yè)所需的代碼行數有限。在2023年下半年,YOLOv8在框架中引入了姿態(tài)估計后,該框架現在支持最多四個
    的頭像 發(fā)表于 11-05 17:15 ?1133次閱讀
    YOLOv8中的<b class='flag-5'>損失</b><b class='flag-5'>函數</b><b class='flag-5'>解析</b>

    SUMIF函數的應用場景分析

    SUMIF函數在Excel中是個強大的數據分析工具,特別適用于需要對數據進行條件篩選并求和的場景。以下是對SUMIF函數應用場景的分析:
    的頭像 發(fā)表于 10-30 09:55 ?375次閱讀

    語義分割25損失函數綜述和展望

    本綜述提供了對25用于圖像分割的損失函數的全面且統的回顧。我們提供了一種新穎的分類法,并詳細審查了這些
    的頭像 發(fā)表于 10-22 08:04 ?663次閱讀
    語義分割25<b class='flag-5'>種</b><b class='flag-5'>損失</b><b class='flag-5'>函數</b>綜述和展望

    利用DX-BST原理智能工具實現原理對比的技術方法

    完成原理對比任務。本文將介紹如何利用DX-BST原理智能工具實現原理對比的技術方法。1.理
    的頭像 發(fā)表于 04-24 08:34 ?891次閱讀
    利用DX-BST原理<b class='flag-5'>圖</b>智能工具實現原理<b class='flag-5'>圖</b><b class='flag-5'>對比</b>的技術方法

    C語言函數指針六大應用場景詳解

    函數指針是一種非常強大的編程工具,它可以讓我們以更加靈活的方式編寫程序。在本文中,我們將介紹 6 個函數指針的高級應用場景,并貼出相應的代碼案例和解釋。
    的頭像 發(fā)表于 04-23 18:19 ?908次閱讀

    如何利用DX-BST原理智能工具實現原理對比呢?

    在電子設計領域,原理對比項非常重要的任務。傳統的原理對比過程通常需要耗費大量的時間和人力
    的頭像 發(fā)表于 04-23 11:50 ?1814次閱讀
    如何利用DX-BST原理<b class='flag-5'>圖</b>智能工具實現原理<b class='flag-5'>圖</b>的<b class='flag-5'>對比</b>呢?

    鴻蒙原生應用開發(fā)-ArkTS語言基礎類庫多線程TaskPool和Worker的對比

    。例如圖庫大瀏覽場景,為提升體驗,會同時緩存當前圖片左右側各2張圖片,往側滑動跳到下張圖片時,要取消另側的
    發(fā)表于 03-25 14:11

    verilog function函數的用法

    Verilog 是一種硬件描述語言 (HDL),主要用于描述數字電子電路的行為和結構。在 Verilog 中,函數 (Function) 是一種用于執(zhí)行特定任務并返回
    的頭像 發(fā)表于 02-22 15:49 ?5843次閱讀

    verilog中函數任務對比

    對比,方便學習理解。 比較 函數 任務 輸入 函數至少需要包含個輸入,端口類型不能包含inout類型
    的頭像 發(fā)表于 02-12 18:43 ?898次閱讀

    對象檢測邊界框損失函數–從IOU到ProbIOU介紹

    目標檢測損失函數的選擇在目標檢測問題建模中至關重要。通常,目標檢測需要兩個損失函數,個用于對象分類,另
    的頭像 發(fā)表于 01-24 10:50 ?2936次閱讀
    對象檢測邊界框<b class='flag-5'>損失</b><b class='flag-5'>函數</b>–從IOU到ProbIOU介紹

    一種基于自然語言的軌跡修正方法

    本研究提出了ExTraCT框架,利用自然語言進行軌跡校正。該框架結合了大型語言模型(LLMs)用于自然語言理解和軌跡變形函數。ExTraCT能夠根據場景在線生成軌跡修改特征及其自然語言描述,通過
    的頭像 發(fā)表于 01-19 10:45 ?462次閱讀
    <b class='flag-5'>一種</b>基于自然語言的軌跡修正方法

    一種擴展Spring控制反轉的絕妙方法

    類型等于JSON,我就用JSON解析器,那如果新加個類型的解析器,是不是調用的客戶端還要修改呢?這顯然太耦合了,本文就介紹一種方法,服務定位模式Service Locator Pat
    的頭像 發(fā)表于 01-10 09:41 ?484次閱讀