0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

PolygonRNN++自動(dòng)標(biāo)注使用CNN提取圖像特征

zhKF_jqr_AI ? 來(lái)源:未知 ? 作者:工程師曾玲 ? 2018-08-18 11:49 ? 次閱讀

標(biāo)注圖像中的物體掩碼是一項(xiàng)非常耗時(shí)耗力的工作(人工標(biāo)注一個(gè)物體平均需要20到30秒),但在眾多計(jì)算機(jī)視覺(jué)應(yīng)用中(例如,自動(dòng)駕駛、醫(yī)學(xué)影像),它又是不可或缺的。而現(xiàn)有的自動(dòng)標(biāo)注軟件,大多基于像素,因此不夠智能,特別是在顏色接近的相鄰物體上表現(xiàn)不好。有鑒于此,多倫多大學(xué)的研究人員Lluís Castrejón等提出了Polygon-RNN標(biāo)注系統(tǒng),獲CVPR 2017最佳論文提名。多倫多大學(xué)的研究人員David Acuna、Huan Ling、 Amlan Kar等又在CVPR 2018提交了PolygonRNN++,Polygon-RNN的改進(jìn)版本,并于近日發(fā)布了PyTorch實(shí)現(xiàn)。

Polygon-RNN++架構(gòu)

Polygon-RNN整體架構(gòu)如下圖所示:

和之前的Polygon-RNN類似,Polygon-RNN++使用了CNN(卷積神經(jīng)網(wǎng)絡(luò))提取圖像特征,然后使用RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))解碼多邊形頂點(diǎn)。為了提高RNN的預(yù)測(cè)效果,加入了注意力機(jī)制(attention),同時(shí)使用評(píng)估網(wǎng)絡(luò)(evaluator network)從RNN提議的候選多邊形中選出最佳。最后使用門(mén)控圖神經(jīng)網(wǎng)絡(luò)(Gated Graph Neural Network,GGNN)上采樣,以提高輸出分辨率。

CNN部分,借鑒了ResNet-50的做法,減少步長(zhǎng)(stride),引入空洞卷積(dilation),從而在不降低單個(gè)神經(jīng)元感受野(receptive field)的前提下,放大輸入特征映射。此外還引入了跳躍連接(skip connection),以便同時(shí)捕捉邊角等低層細(xì)節(jié)和高層語(yǔ)義信息。剩下的配置都是比較常規(guī)的,包括3x3卷積核、組歸一化(batch normalization)、ReLU、最大池化(max-pooling)等。

藍(lán)色張量傳給GNN,橙色張量傳給RNN

RNN部分,使用了雙層ConvLTSM(3x3核,64/16通道,每時(shí)步應(yīng)用組歸一化),以保留空間信息、降低參數(shù)數(shù)量。網(wǎng)絡(luò)的輸出為(D x D) + 1元素的獨(dú)熱編碼。前D x D維表示可能的頂點(diǎn)位置(論文的試驗(yàn)中D = 28),而最后一個(gè)維度標(biāo)志多邊形的終點(diǎn)。

為了提升RNN部分的表現(xiàn),加入了注意力機(jī)制。具體來(lái)說(shuō),在時(shí)步t,計(jì)算加權(quán)特征映射:

PolygonRNN++自動(dòng)標(biāo)注使用CNN提取圖像特征

上式中,x為跳躍特征張量,h為隱藏狀態(tài)張量,f1、f2使用一個(gè)全連接層將h1,t、h2,t映射至RDxDx128。fatt累加輸入之和,通過(guò)一個(gè)全連接層將其映射至DxD。?為哈達(dá)瑪積(Hadamard product)。直觀地說(shuō),注意力機(jī)制使用之前的RNN隱藏狀態(tài)控制圖像特征映射中的特定位置,使RNN在下一時(shí)步僅僅關(guān)注相關(guān)信息。

另外,第一個(gè)頂點(diǎn)需要特別處理。因?yàn)?,給定多邊形之前的頂點(diǎn)和一個(gè)隱式的方向,下一個(gè)頂點(diǎn)的位置總是確定的,除了第一個(gè)頂點(diǎn)。因此,研究人員增加了一個(gè)包含兩個(gè)DxD維網(wǎng)絡(luò)層的分支,讓第一層預(yù)測(cè)邊,第二層預(yù)測(cè)頂點(diǎn)。測(cè)試時(shí),第一個(gè)頂點(diǎn)取樣自該分支的最后一層。

第一個(gè)頂點(diǎn)的選擇很關(guān)鍵,特別是在有遮擋的情況下。傳統(tǒng)的集束搜索基于對(duì)數(shù)概率,因此不適用于Polygon-RNN++(在遮擋邊界上的點(diǎn)一般在預(yù)測(cè)時(shí)會(huì)有很高的對(duì)數(shù)概率,減少了它被集束搜索移除的機(jī)會(huì))。因此,Polygon-RNN++使用了一個(gè)由兩個(gè)3x3卷積層加上一個(gè)全連接層組成的評(píng)估網(wǎng)絡(luò):

該評(píng)估網(wǎng)絡(luò)是單獨(dú)訓(xùn)練的,通過(guò)訓(xùn)練最小化均方誤差:

PolygonRNN++自動(dòng)標(biāo)注使用CNN提取圖像特征

上式中,p為網(wǎng)絡(luò)的預(yù)測(cè)IoU,mvs和m分別為預(yù)測(cè)掩碼、實(shí)際掩碼。

在測(cè)試時(shí),基于評(píng)分前K的第一個(gè)頂點(diǎn)預(yù)測(cè)通過(guò)經(jīng)典集束搜索(對(duì)數(shù)概率,束寬為B)生成多邊形。對(duì)應(yīng)K個(gè)第一個(gè)頂點(diǎn),共有K個(gè)多邊形,然后讓評(píng)估網(wǎng)絡(luò)從中選出最優(yōu)多邊形。在論文的試驗(yàn)中,K = 5. 之所以首先使用集束搜索,而不是完全使用評(píng)估網(wǎng)絡(luò),是因?yàn)楹笳邥?huì)導(dǎo)致推理時(shí)間過(guò)長(zhǎng)。在B = K = 1的設(shè)定下,結(jié)合集束搜索和評(píng)估網(wǎng)絡(luò)的配置,可以達(dá)到295ms每物體的速度(Titan XP)。

與人交互時(shí),人工糾正會(huì)傳回模型,讓模型重新預(yù)測(cè)多邊形的剩余頂點(diǎn)。

如前所述,RNN輸出的D x D維的多邊形,D取28. 之所以不取更大的D,是為了避免超出內(nèi)存的限制。為了增加最終的輸出分辨率,Polygon-RNN++使用了門(mén)控圖神經(jīng)網(wǎng)絡(luò)進(jìn)行上采樣,將頂點(diǎn)視作圖的節(jié)點(diǎn),并在相鄰節(jié)點(diǎn)中間增加節(jié)點(diǎn)。

GGNN定義了一個(gè)傳播模型,將RNN推廣至任意圖,可以在每個(gè)節(jié)點(diǎn)上生成輸出前有效地傳播信息。

PolygonRNN++自動(dòng)標(biāo)注使用CNN提取圖像特征

上式中,V為圖的節(jié)點(diǎn)集,xv為節(jié)點(diǎn)v的初始狀態(tài),hvt為節(jié)點(diǎn)v在時(shí)步t的隱藏狀態(tài)。矩陣A ∈ R|V|x2N|V|決定節(jié)點(diǎn)如何互相傳遞信息,其中N表示邊的類型數(shù)。在試驗(yàn)中使用了256維GRU,傳播步數(shù)T = 5。

節(jié)點(diǎn)v的輸出定義為:

PolygonRNN++自動(dòng)標(biāo)注使用CNN提取圖像特征

f1和f2為MLP(多層感知器),試驗(yàn)中的大小分別為256 x 256、256 x 15 x 15.

如前所述,CNN部分112 x 112 x 256的特征映射(藍(lán)色張量)傳給GGNN。在圖中的每個(gè)節(jié)點(diǎn)v周圍(拉伸后),提取一個(gè)S x S塊,得到向量xv,提供給GGNN。在傳播過(guò)程之后,預(yù)測(cè)節(jié)點(diǎn)v的輸出,即D' x D'空間網(wǎng)格上的位置。該網(wǎng)格以原位置(vx, vy)為參照,因此該預(yù)測(cè)任務(wù)其實(shí)是一個(gè)相對(duì)放置問(wèn)題,并且可以視作分類問(wèn)題,并基于交叉熵?fù)p失訓(xùn)練。訓(xùn)練的標(biāo)準(zhǔn)答案(ground truth)為RNN部分的輸出,如果預(yù)測(cè)和標(biāo)準(zhǔn)答案中的節(jié)點(diǎn)的差異超過(guò)閾值(試驗(yàn)中為3格),則視為錯(cuò)誤。

在試驗(yàn)中,研究人員令S = 1,D' = 112(研究人員發(fā)現(xiàn)更大的D'不能改善結(jié)果)。

基于強(qiáng)化學(xué)習(xí)訓(xùn)練

Polygon-RNN基于交叉熵訓(xùn)練。然而,基于交叉熵訓(xùn)練有兩大局限:

MLE過(guò)度懲罰了模型。比如,預(yù)測(cè)的頂點(diǎn)雖然不是實(shí)際多邊形的頂點(diǎn),但在實(shí)際多邊形的邊上。

優(yōu)化的測(cè)度和最終評(píng)估測(cè)度(例如IoU)大不一樣。

另外,訓(xùn)練過(guò)程中傳入下一時(shí)步的是實(shí)際多邊形而不是模型預(yù)測(cè),這可能引入偏差,導(dǎo)致訓(xùn)練和測(cè)試的不匹配。

為了緩解這些問(wèn)題,Polygon-RNN++只在初始階段使用MLE訓(xùn)練,之后通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練。因?yàn)槭褂脧?qiáng)化學(xué)習(xí),IoU不可微不再是問(wèn)題了。

在強(qiáng)化學(xué)習(xí)的語(yǔ)境下,Polygon-RNN++的RNN解碼器可以視作序列決策智能體。CNN和RNN架構(gòu)的參數(shù)θ定義了選擇下一個(gè)頂點(diǎn)vt的策略pθ。在序列結(jié)束后,我們得到獎(jiǎng)勵(lì)r = IoU(mask(vs, m))。因此,最大化獎(jiǎng)勵(lì)的損失函數(shù)為:

PolygonRNN++自動(dòng)標(biāo)注使用CNN提取圖像特征

相應(yīng)地,損失函數(shù)的梯度為:

PolygonRNN++自動(dòng)標(biāo)注使用CNN提取圖像特征

實(shí)踐中常采用蒙特卡洛采樣計(jì)算期望梯度。但是這一方法方差很大,而且在未經(jīng)恰當(dāng)?shù)鼗谇榫硽w一化的情況下非常不穩(wěn)定。因此,Polygon-RNN++采用了自我批判(self-critical)方法,使用模型的測(cè)試階段推理獎(jiǎng)勵(lì)作為基線:

PolygonRNN++自動(dòng)標(biāo)注使用CNN提取圖像特征

另外,為了控制模型探索的隨機(jī)性,Polygon-RNN++還在策略softmax中引入了溫度參數(shù)τ。試驗(yàn)中,τ = 0.6.

試驗(yàn)結(jié)果

下圖展示了Polygon-RNN++在Cityscapes數(shù)據(jù)集上的結(jié)果。Cityscapes包含2975/500/1525張訓(xùn)練/驗(yàn)證/測(cè)試圖像,共計(jì)8個(gè)語(yǔ)義分類。

PolygonRNN++自動(dòng)標(biāo)注使用CNN提取圖像特征

可以看到,在各個(gè)分類上,Polygon-RNN++都超越了其他模型,并且高于其中表現(xiàn)最好的模型差不多10%的IoU。事實(shí)上,在汽車(cars)分類上,Polygon-RNN++(79.08)戰(zhàn)勝了人類(78.60)。而消融測(cè)試的結(jié)果也令人滿意。

另外,Polygon-RNN++對(duì)噪聲的魯棒性良好:

PolygonRNN++自動(dòng)標(biāo)注使用CNN提取圖像特征

Polygon-RNN++在跨領(lǐng)域的數(shù)據(jù)集上表現(xiàn)同樣出色,這說(shuō)明Polygon-RNN++的概括性很好。

PolygonRNN++自動(dòng)標(biāo)注使用CNN提取圖像特征

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • cnn
    cnn
    +關(guān)注

    關(guān)注

    3

    文章

    352

    瀏覽量

    22217
  • pytorch
    +關(guān)注

    關(guān)注

    2

    文章

    808

    瀏覽量

    13229

原文標(biāo)題:Polygon-RNN++圖像分割數(shù)據(jù)集自動(dòng)標(biāo)注

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    手指靜脈圖像特征提取和識(shí)別前期研究

    圖像處理,手指靜脈圖像特征提取和識(shí)別前期研究
    發(fā)表于 05-11 11:51

    蠕蟲(chóng)病毒特征自動(dòng)提取原理與設(shè)計(jì)

    目前網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)(NIDS)主要利用特征碼檢測(cè)法來(lái)監(jiān)測(cè)與阻止網(wǎng)絡(luò)蠕蟲(chóng),而蠕蟲(chóng)特征提取仍是效率低的人工過(guò)程。為解決這個(gè)問(wèn)題提出了基于陷阱網(wǎng)絡(luò)的蠕蟲(chóng)特征
    發(fā)表于 08-12 08:51 ?41次下載

    基于本體的圖像自動(dòng)標(biāo)注李麗莎

    基于本體的圖像自動(dòng)標(biāo)注_李麗莎
    發(fā)表于 03-16 08:00 ?1次下載

    基于卷積神經(jīng)網(wǎng)絡(luò)的圖像標(biāo)注模型

    針對(duì)圖像自動(dòng)標(biāo)注中因人工選擇特征而導(dǎo)致信息缺失的缺點(diǎn),提出使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)樣本進(jìn)行自主特征學(xué)習(xí)。為了適應(yīng)
    發(fā)表于 12-07 14:30 ?4次下載
    基于卷積神經(jīng)網(wǎng)絡(luò)的<b class='flag-5'>圖像</b><b class='flag-5'>標(biāo)注</b>模型

    基于圖像自動(dòng)標(biāo)注技術(shù)研究

    現(xiàn)有圖像自動(dòng)標(biāo)注技術(shù)算法可以大致劃分為基于語(yǔ)義的標(biāo)注算法、基于矩陣分解的標(biāo)注算法、基于概率的標(biāo)注
    發(fā)表于 12-14 11:46 ?2次下載

    基于CNN和流行排序的圖像檢索算法

    算法。首先,將圖像輸入CNN,通過(guò)多層神經(jīng)網(wǎng)絡(luò)對(duì)圖像的監(jiān)督學(xué)習(xí),提取網(wǎng)絡(luò)中全連接層的圖像特征;其
    發(fā)表于 12-25 10:04 ?1次下載
    基于<b class='flag-5'>CNN</b>和流行排序的<b class='flag-5'>圖像</b>檢索算法

    基于SAE的自動(dòng)圖像標(biāo)注算法

    自動(dòng)圖像標(biāo)注是一個(gè)包含眾多標(biāo)簽、多樣特征的富有挑戰(zhàn)性的研究問(wèn)題,是新一代圖像檢索與圖像理解的關(guān)鍵
    發(fā)表于 12-28 10:59 ?0次下載
    基于SAE的<b class='flag-5'>自動(dòng)</b><b class='flag-5'>圖像</b><b class='flag-5'>標(biāo)注</b>算法

    井壁圖像上平面地質(zhì)特征自動(dòng)提取

    為實(shí)現(xiàn)井壁圖像上平面地質(zhì)特征自動(dòng)提取,研究了圖像中單周期正弦曲線的檢測(cè)方法。提出一種改進(jìn)的霍夫變換,該方法基于正弦曲線上的三個(gè)相關(guān)聯(lián)點(diǎn)在二
    發(fā)表于 01-09 10:48 ?1次下載

    基于隱馬爾科夫模型和卷積神經(jīng)網(wǎng)絡(luò)的圖像標(biāo)注方法

    開(kāi)發(fā)大規(guī)模圖像庫(kù)的搜索和瀏覽算法,使得圖像自動(dòng)標(biāo)注的重要性日益增強(qiáng)?;陔[馬爾科夫模型(HMM)與卷積神經(jīng)網(wǎng)絡(luò)(CNN),我們提出了一種新的
    發(fā)表于 11-16 17:17 ?4次下載
    基于隱馬爾科夫模型和卷積神經(jīng)網(wǎng)絡(luò)的<b class='flag-5'>圖像</b><b class='flag-5'>標(biāo)注</b>方法

    基于特征交換的卷積神經(jīng)網(wǎng)絡(luò)圖像分類算法

    針對(duì)深度學(xué)習(xí)在圖像識(shí)別任務(wù)中過(guò)分依賴標(biāo)注數(shù)據(jù)的問(wèn)題,提岀一種基于特征交換的卷積神經(jīng)網(wǎng)絡(luò)(CNN圖像分類算法。結(jié)合
    發(fā)表于 03-22 14:59 ?27次下載
    基于<b class='flag-5'>特征</b>交換的卷積神經(jīng)網(wǎng)絡(luò)<b class='flag-5'>圖像</b>分類算法

    基于特征的基圖像提取和重構(gòu)方法

    圖像作為一種典型信號(hào),理論上可由一系列基本信號(hào)構(gòu)成。為尋找一組可重構(gòu)圖像的基本信號(hào),提出了基于特征的基圖像提取和重構(gòu)方法,使得可由任意
    發(fā)表于 06-16 16:01 ?19次下載

    自動(dòng)駕駛點(diǎn)云數(shù)據(jù)標(biāo)注的步驟有哪些

    以下幾個(gè)步驟: 數(shù)據(jù)預(yù)處理:在進(jìn)行點(diǎn)云數(shù)據(jù)標(biāo)注之前,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,如去除噪聲、調(diào)整圖像大小和質(zhì)量等。 特征提取:在預(yù)處理之后,需要對(duì)數(shù)據(jù)進(jìn)行特征提取,如使用
    的頭像 發(fā)表于 04-21 17:50 ?2852次閱讀

    cnn卷積神經(jīng)網(wǎng)絡(luò)算法 cnn卷積神經(jīng)網(wǎng)絡(luò)模型

    cnn卷積神經(jīng)網(wǎng)絡(luò)算法 cnn卷積神經(jīng)網(wǎng)絡(luò)模型 卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種特殊的神經(jīng)網(wǎng)絡(luò),具有很強(qiáng)的圖像識(shí)別和數(shù)據(jù)分類能力。它通過(guò)學(xué)習(xí)權(quán)重和過(guò)濾器,
    的頭像 發(fā)表于 08-21 17:15 ?2099次閱讀

    cnn卷積神經(jīng)網(wǎng)絡(luò)簡(jiǎn)介 cnn卷積神經(jīng)網(wǎng)絡(luò)代碼

    以解決圖像識(shí)別問(wèn)題為主要目標(biāo),但它的應(yīng)用已經(jīng)滲透到了各種領(lǐng)域,從自然語(yǔ)言處理、語(yǔ)音識(shí)別、到物體標(biāo)記以及醫(yī)療影像分析等。在此,本文將對(duì)CNN的原理、結(jié)構(gòu)以及基礎(chǔ)代碼進(jìn)行講解。 1. CNN的原理
    的頭像 發(fā)表于 08-21 17:16 ?2685次閱讀

    如何利用CNN實(shí)現(xiàn)圖像識(shí)別

    卷積神經(jīng)網(wǎng)絡(luò)(CNN)是深度學(xué)習(xí)領(lǐng)域中一種特別適用于圖像識(shí)別任務(wù)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。它通過(guò)模擬人類視覺(jué)系統(tǒng)的處理方式,利用卷積、池化等操作,自動(dòng)提取圖像
    的頭像 發(fā)表于 07-03 16:16 ?1391次閱讀