現(xiàn)有深度學習模型都不具有普適性,即在某個數(shù)據(jù)集上訓練的結(jié)果只能在某個領(lǐng)域中有效,而很難遷移到其他的場景中,因此出現(xiàn)了遷移學習這一領(lǐng)域。其目標就是將原數(shù)據(jù)域(源域,source domain)盡可能好的遷移到目標域(target domain),Domain Adaptation任務(wù)中往往源域和目標域?qū)儆谕活惾蝿?wù),即源于為訓練樣本域(有標簽),目標域為測集域,其測試集域無標簽或只有少量標簽,但是分布不同或數(shù)據(jù)差異大。主要分為兩種情景:
homogeneous 同質(zhì):target 與 source domain 特征空間相似,但數(shù)據(jù)分布存在 distribution shift
heterogeneous 異構(gòu):target 與 source domain 特征空間不同
現(xiàn)有的DA方法傾向于強制對不同的domain進行對齊,即平等地對待每個域并完美地對它們的特征進行align。然而,在實踐中,這些領(lǐng)域通常是異質(zhì)的;當源域接近目標域時,DA可以預(yù)期工作良好,但當它們彼此相距太遠時就效果不那么令人滿意。問題就在于,它們把各個domain當成相互獨立的,從而無視了domain之間的關(guān)系。
這樣的話,它們在學encoder的時候,就會盲目地把所有不同domain的feature強制完全對齊。這樣做是有問題的,因為有的domain之間其實聯(lián)系并不大,強行對齊它們反而會降低預(yù)測任務(wù)的性能。而其實這種異質(zhì)性通??梢杂脠D來捕捉,其中域?qū)崿F(xiàn)節(jié)點,兩個域之間的鄰接可以用邊捕捉。
例如,本文舉了一個非常有趣的例子,為了捕捉美國天氣的相似性,我們可以構(gòu)建一個圖,其中每個州都被視為一個節(jié)點,兩個州之間的物理接近性產(chǎn)生一條邊。在那里還有許多其他的場景,在這些場景中,領(lǐng)域之間的關(guān)系可以通過圖自然地捕獲。所以如果給定一個域圖,我們可以根據(jù)圖調(diào)整域的適應(yīng)性,而不是強制讓來自所有域的數(shù)據(jù)完美對齊,而忽略這種圖的結(jié)構(gòu)。其實在對domain graph這一比較重要的概念做出定義之后,就可以比較清晰地勾勒出本文提出的方法了。我們只需要對傳統(tǒng)的adversarial DA方法做一下簡單的改動:
傳統(tǒng)的方法直接把data x作為encoder的輸入,而我們把domain index u以及domain graph作為encoder的輸入。
相比于傳統(tǒng)的方法讓discriminator對domain index進行分類,而我們讓discriminator直接重構(gòu)(reconstruct)出domain graph。
論文的貢獻在于:
提出使用圖來描述域關(guān)系,并開發(fā)圖-關(guān)系域適應(yīng)(GRDA)作為第一個在圖上跨域適應(yīng)的通用對抗性的domain adaption方法。.
理論分析表明,在balance狀態(tài)下,當域圖為clique時,提出的方法能保持均勻?qū)R的能力,而對其他類型的圖則能實現(xiàn)對齊。
最后通過充分的實驗驗證了方法在合成和真實數(shù)據(jù)集上提出的方法優(yōu)于最先進的DA方法。
3. 方法
首先明確下本文的應(yīng)用場景,他關(guān)注的是共N個域的無監(jiān)督domain adaption setting。每個domain 都有一個離散域索引,屬于源域索引集或目標域索引集。域之間的關(guān)系用一個域圖來描述,其鄰接矩陣a = [Aij],其中圖中的i和j個索引節(jié)點(域)。
已知來自源域(uf E Us)的標記數(shù)據(jù)(x, y,u),來自目標域(u, EUt)的未標記數(shù)據(jù)[, =1],以及由A描述的域圖,我們希望預(yù)測來自目標域的數(shù)據(jù)的標記[yte1]。注意,域圖是在域上定義的,每個域(節(jié)點)包含多個數(shù)據(jù)點。
概述。我們使用對抗學習框架跨圖關(guān)系域執(zhí)行適應(yīng)。本文提出的方法主要由三個成分組成:
編碼器E,它以數(shù)據(jù)和相關(guān)域索引u和鄰接矩陣a作為輸入,生成編碼。
預(yù)測器F,它基于編碼ei進行預(yù)測
圖判別器D,它指導編碼適應(yīng)圖關(guān)系域。
3.1 Predictor
定義優(yōu)化的loss為:
where the expectation is taken over the source-domain data distribution is a predictor loss function for the task (e.g., loss for regression).
3.2 Encoder and Node Embeddings
給定一個輸入元組(x, u, A),用編碼器E首先根據(jù)域索引和域的graph計算一個embedding的graph domain,然后將z和x,y輸入到神經(jīng)網(wǎng)絡(luò)中,得到最終的編碼e。理論上,任何節(jié)點的索引的embedding都應(yīng)該同樣有效,只要它們彼此不同,所以為了簡單起見,論文通過一個重構(gòu)損耗預(yù)先訓練embeddings:
where is the sigmoid function.
3.3 Graph Discriminator
whereare the discriminator's reconstructions of node embeddings. The expectation is taken over a pair of i.i.d. samples from the joint data distribution .
更具體的模型實現(xiàn)細節(jié)可以參考原文的附錄。
3.5 Theory
論文闡述并證明了兩個觀點:
用的是adversarial training,本質(zhì)上是在求一個minimax game的均衡點(equilibrium)。在傳統(tǒng)的DA方法上,因為discriminator做的是分類,我們可以很自然地證明,這個minimax game的均衡點就是會完全對齊所有domain。在任何domain graph的情況下,當GRDA訓練到最優(yōu)時是可以保證不同domain的feature會根據(jù)domain graph來對齊,而不是讓所有domain完全對齊。
傳統(tǒng)的DA方法,其實是提出的GRDA的一個特例。這個特例其實非常直觀:傳統(tǒng)的DA方法(完全對齊所有domain)會等價于當GRDA的domain graph是全連接圖(fully-connected graph or clique)時的情況。
4. 實驗
論文構(gòu)造了一個15個domain的toy dataset及其對應(yīng)的domain graph(如下圖的左邊)DG-15??梢钥吹剑珿RDA的accuracy可以大幅超過其他的方法,特別是其他方法在離source domain比較遠(從domain graph的角度)的target domain的準確率并不是很高,但GRDA卻能夠保持較高的準確率。
5. 結(jié)論
在本文中,論文確定了graph-relational domains的自適應(yīng)問題,并提出了一種通用的DA方法來解決這一問題。我們進一步提供了理論分析,表明我們的方法恢復了經(jīng)典DA方法的一致對齊,并實現(xiàn)了其他類型圖的非平凡對齊,從而自然地融合了由域圖表示的域信息。實證結(jié)果證明該方法非常有效
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7115瀏覽量
89332 -
模型
+關(guān)注
關(guān)注
1文章
3283瀏覽量
49001 -
深度學習
+關(guān)注
關(guān)注
73文章
5511瀏覽量
121372
原文標題:【域自適應(yīng)】Graph-Relational Domain Adaptation
文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論