0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深入了解圖神經(jīng)網(wǎng)絡(luò)背后的原理和其強(qiáng)大的表征能力

DPVg_AI_era ? 來源:lp ? 2019-03-01 09:09 ? 次閱讀

深度學(xué)習(xí)在圖像分類,機(jī)器翻譯等領(lǐng)域都展示了其強(qiáng)大的能力,但是在因果推理方面,深度學(xué)習(xí)依然是短板。圖神經(jīng)網(wǎng)絡(luò)在因果推理方面有巨大的潛力,有望成為 AI 的下一個(gè)拐點(diǎn)。本文將深入了解圖神經(jīng)網(wǎng)絡(luò)背后的原理和其強(qiáng)大的表征能力。

圖神經(jīng)網(wǎng)絡(luò)(GNNs)廣泛應(yīng)用于圖的表征學(xué)習(xí),其遵循鄰域聚合框架,通過遞歸聚合和轉(zhuǎn)換相鄰節(jié)點(diǎn)的特征向量來計(jì)算節(jié)點(diǎn)的表征向量。已經(jīng)提出了許多 GNN 的變體,并在節(jié)點(diǎn)和圖形分類任務(wù)上取得比較好的結(jié)果。然而,盡管 GNN 使圖形表征學(xué)習(xí)發(fā)生了革命性的變化,但是,對其表示屬性和局限性的理解還很有限。

本文譯介自MIT、斯坦福大學(xué)的ICLR-19論文:HOW POWERFUL ARE GRAPH NEURAL NETWORKS。

論文地址:https://arxiv.org/pdf/1810.00826.pdf

論文提出了一個(gè)在分析 GNN 捕獲不同圖結(jié)構(gòu)表現(xiàn)力的理論框架。本論文描述了各種流行的 GNN 變體的判別能力,如 Graph Convolutional Networks (圖卷積神經(jīng)網(wǎng)絡(luò)) 和 GraphSAGE,并表明他們無法學(xué)會(huì)區(qū)分某些簡單的圖結(jié)構(gòu)。然后,本論文開發(fā)了一個(gè)簡單的體系結(jié)構(gòu),可以證明其在 GNNs 類中是最具表現(xiàn)力的,并且它和 Weisfeiler-Lehman (圖同構(gòu)測試) 方法一樣強(qiáng)大。在許多圖分類基準(zhǔn)測試上,通過經(jīng)驗(yàn)驗(yàn)證了該理論發(fā)現(xiàn),并證明本論文的模型達(dá)到了最佳的性能。

介紹

學(xué)習(xí)圖結(jié)構(gòu)數(shù)據(jù),例如:分子、社會(huì)、生物和金融網(wǎng)絡(luò)等,需要有效的表征圖的結(jié)構(gòu)。最近,研究者們對使用Graph Neural Network (GNN)方法來對圖進(jìn)行表征學(xué)習(xí)產(chǎn)生了極大的興趣。GNN 大部分都遵循循環(huán)遞歸鄰域聚合(或者消息傳遞)的模式,其中每個(gè)節(jié)點(diǎn)聚合其相鄰節(jié)點(diǎn)的特征向量以計(jì)算其新的特征向量。在 k 輪聚合迭代后,通過其轉(zhuǎn)換的特征向量來表示該節(jié)點(diǎn),該向量捕獲節(jié)點(diǎn)的 k-hop 網(wǎng)絡(luò)鄰節(jié)點(diǎn)的結(jié)構(gòu)信息。然后,可以通過 pooling 來獲得整個(gè)圖結(jié)構(gòu)的表征,例如對圖中所有節(jié)點(diǎn)的表征向量求和。許多基于不同 neighborhod aggregation 的 GNN 變體和 graph-level 的 pooling scheme 已經(jīng)被許多學(xué)者提出。

根據(jù)經(jīng)驗(yàn),這些 GNNs 已經(jīng)在許多任務(wù)中達(dá)到最佳的性能,如節(jié)點(diǎn)分類,鏈接預(yù)測和圖分類。然而,新 GNN 的設(shè)計(jì)主要是基于經(jīng)驗(yàn)直覺,啟發(fā)式和實(shí)驗(yàn)試錯(cuò)。對于 GNN 的性質(zhì)和局限性,目前理論層面的解釋還比較少。GNN 的表征能力的正式分析還是有限的。

本論文提出了一個(gè)分析 GNN 表征能力的理論框架。從形式上描述了不同 GNN 變體在學(xué)習(xí)表征和區(qū)分各種圖結(jié)構(gòu)方面的表現(xiàn)力。該框架是受 GNNs 和 WL 測試(Weisfeiler-Lehman 圖同構(gòu)測試)緊密聯(lián)系的啟發(fā),WL 測試是以其強(qiáng)大的區(qū)分各種圖結(jié)構(gòu)能力而聞名。與 GNNs 相似,WL 測試通過聚合給定節(jié)點(diǎn)的鄰近節(jié)點(diǎn)的特征向量迭代更新其特征向量。WL 測試的強(qiáng)大之處是其注入聚合(injective aggregation)更新,它映射不同節(jié)點(diǎn)的鄰近節(jié)點(diǎn)到不同的特征向量。主要觀點(diǎn)是,如果 GNN 的聚合模式具有高度的表現(xiàn)力和能夠?yàn)樽⑷牒瘮?shù)建模的話,它就同 WL 測試一樣具有強(qiáng)大的區(qū)分能力。

為了數(shù)學(xué)形式化上述觀點(diǎn),首先抽象出一個(gè)節(jié)點(diǎn)的鄰近節(jié)點(diǎn)的特征向量作為多重集,該集合中可能有重復(fù)元素。然后,在 GNNS 中的領(lǐng)域聚合(neighbor aggregation)可以抽象為多集上的函數(shù)。我們嚴(yán)格學(xué)習(xí)不同多集函數(shù)的變體,并從理論上描述其識別能力,即不同的聚合函數(shù)可以區(qū)分不同的多重集。越具有區(qū)分力的多重集函數(shù),GNN 的潛在表征能力就越強(qiáng)。

本論文的主要結(jié)果總結(jié)如下:

1)我們發(fā)現(xiàn)在區(qū)分圖結(jié)構(gòu)方面,GNN 跟 WL 測試能力一樣強(qiáng)大。

2)我們發(fā)現(xiàn)在建立領(lǐng)域聚合(neighbor aggregation)和圖池函數(shù)(graph pooling)的情況下,得到的 GNN 和 WL 測試一樣強(qiáng)大。

3)我們識別無法通過流行的 GNN 變體區(qū)分的圖結(jié)構(gòu),例如 GCN(Kipf&Welling,2017)和 GraphSAGE(Hamilton 等,2017a),并且我們對基于 GNN 模型可以捕獲的各種圖結(jié)構(gòu)進(jìn)行了精確的描述。

4)我們開發(fā)了一個(gè)簡單的神經(jīng)網(wǎng)絡(luò)架構(gòu),圖同構(gòu)網(wǎng)絡(luò)(Graph Isomorphism Network)GIN,并證明其判別 / 表征能力等同于 WL 測試。

在圖分類數(shù)據(jù)集上,通過實(shí)驗(yàn)驗(yàn)證我們的理論,其中 GNN 的表達(dá)能力對于捕獲圖結(jié)構(gòu)至關(guān)重要。特別是,我們對基于各種聚合函數(shù)的 GNN 性能進(jìn)行了對比。我們的結(jié)果證實(shí)了最強(qiáng)大的 GNN(我們的圖同構(gòu)網(wǎng)絡(luò) GIN)具有很強(qiáng)的表征能力,可以近乎完美的擬合訓(xùn)練數(shù)據(jù),然而較弱的 GNN 變體有嚴(yán)重的欠擬合問題。此外,在許多圖分類的基準(zhǔn)測試集上,它的表征能力和性能優(yōu)于其他的 GNNs。

預(yù)備知識

首先,我們總結(jié)一些常見的 GNN 模型,順便介紹一下相關(guān)數(shù)學(xué)符號的含義。假設(shè) G = (V, E) 表示一個(gè)圖,圖的節(jié)點(diǎn)向量用 X (v) 表示,其中,v ∈ V 。有兩個(gè)比較感興趣的任務(wù):(1)節(jié)點(diǎn)分類,其中每個(gè)節(jié)點(diǎn) v ∈ V 都有一個(gè)相關(guān)的標(biāo)簽 y (v),目標(biāo)是學(xué)習(xí)節(jié)點(diǎn) v 的表征向量 h (v),節(jié)點(diǎn) v 的標(biāo)簽可以被函數(shù) y (v)=f (h (v)) 所預(yù)測。(2)圖分類,其中給定一組圖 {G1, ..., GN }? G 及其標(biāo)簽 {y1, ..., yN } ? Y,我們的目標(biāo)是學(xué)習(xí)一個(gè)表征向量 h (G),它有助于預(yù)測整個(gè)圖的標(biāo)簽 y (G) = g (h (G))。

圖神經(jīng)網(wǎng)絡(luò)

GNNs 利用圖結(jié)構(gòu)和節(jié)點(diǎn)特征 X (v) 來學(xué)習(xí)一個(gè)節(jié)點(diǎn)的表征向量 h (v),或者整個(gè)圖的表征向量 h (G)。

新式的 GNNs 都遵循領(lǐng)域聚合(neighborhood aggregation)策略,其中我們通過聚合它的鄰近節(jié)點(diǎn)的表征向量來迭代更新節(jié)點(diǎn)的表征向量。在 k 次迭代后,節(jié)點(diǎn)的表征可以在它的 k-hop 網(wǎng)絡(luò)鄰居中捕獲結(jié)構(gòu)信息。形式上,GNN 的第 k 層是:

其中,h {k}(v) 是節(jié)點(diǎn) v 在第 k 的迭代 / 層的特征向量。我們初始化 h {0}(v)=X (v),N (v) 是與 v 節(jié)點(diǎn)鄰近的一組節(jié)點(diǎn)。在 GNNs 中選擇函數(shù) AGGREGATE {k}(?) 和 COMBINE {k}(?) 非常關(guān)鍵。已經(jīng)提出了許多用于聚合的體系結(jié)構(gòu)。在 GraphSAGE 的 pooling 變體(Hamilton et al., 2017a),AGGREGATE 函數(shù)形式如下:

其中,W 是可以學(xué)習(xí)的矩陣,MAX 表示一個(gè) element-wise 的 max-pooling。在 GraphSAGE 的 COMBINE 步是一個(gè)線性映射的連接 W?[h {k-1}(v)|a {k}(v)]。在圖卷積網(wǎng)絡(luò)中(GCN)(Kipf & Welling, 2017),element-wise 的 mean pooling 被替代,AGGREGATE 和 COMBINE 步集成在一體如下:

許多其他的 GNNs 可以類似的表示為 Eq. 2.1 (Xu et al., 2018; Gilmer et al., 2017)。

對于節(jié)點(diǎn)分類問題,最后一次迭代的節(jié)點(diǎn)表征向量 h {K}(v) 用來做預(yù)測。對于圖分類問題,READOUT 函數(shù)從最后一次迭代中聚合節(jié)點(diǎn)特征來獲取整個(gè)圖的表征向量 h (G):

READOUT 函數(shù)可以是一個(gè)簡單的置換不變函數(shù),例如求和或者 graph-level 級別的 pooling 函數(shù) (Ying et al., 2018; Zhang et al., 2018)。

Weisfeiler-Lehman 測試

圖同構(gòu)問題指的是驗(yàn)證兩個(gè)圖在拓?fù)浣Y(jié)構(gòu)上是否相同。這是一個(gè)具有挑戰(zhàn)性的問題:因?yàn)楝F(xiàn)在很難知道計(jì)算的時(shí)間復(fù)雜度。WL(Weisfeiler-Lehman)測試是一種非常有效的一測試圖同構(gòu)的方法,它可以區(qū)分各種圖。

在 1 維的情況下,它類似于在 GNN 中的領(lǐng)域聚合。假設(shè)每個(gè)節(jié)點(diǎn)都有一個(gè)分類標(biāo)簽,WL 測試(1)迭代聚合節(jié)點(diǎn)標(biāo)簽和他們的鄰近節(jié)點(diǎn),(2)將聚合的標(biāo)簽 hash 成唯一的新標(biāo)簽。如果在某些迭代中兩個(gè)圖的節(jié)點(diǎn)標(biāo)簽不同,則該算法判定它們是不同的。

基于 WL 試驗(yàn),Shervashidze 等人(2011)提出了 WL 子樹內(nèi)核來測量圖之間的相似性。內(nèi)核使用在 WL 測試不同迭代中的節(jié)點(diǎn)標(biāo)簽計(jì)數(shù)作為圖的特征向量。直觀的來看,在 WL 測試的第 k 次迭代中,一個(gè)節(jié)點(diǎn)的標(biāo)簽表征該根節(jié)點(diǎn)的高度為 k 的子樹結(jié)構(gòu)(Figure 1)。因此,WL 子樹所考慮的圖的特征本質(zhì)上是圖中不同根子樹的計(jì)數(shù)。

理論框架:概述

我們首先概述了分析 GNNs 表達(dá)能力的框架。GNN 遞歸地更新每個(gè)節(jié)點(diǎn)的特征向量,以捕獲其周圍其他節(jié)點(diǎn)的網(wǎng)絡(luò)結(jié)構(gòu)和特征,即其根子樹結(jié)構(gòu)(圖 1)。在本文中,我們假設(shè)節(jié)點(diǎn)輸入特征是一個(gè)宇宙內(nèi)可數(shù)的數(shù)。對于有限圖,我們可以遞歸地證明在任何固定模型的深層節(jié)點(diǎn)特征向量也是一個(gè)宇宙內(nèi)可數(shù)的數(shù)。為了簡化符號,我們可以為每個(gè)特征向量分配一個(gè)唯一的標(biāo)簽∈{a,b,c……}。 然后,一組相鄰節(jié)點(diǎn)的特征向量形成多重集:同一元素可以出現(xiàn)多次,因?yàn)椴煌墓?jié)點(diǎn)可以具有相同的特征向量。

多重集定義:多重集是集合的一個(gè)廣義概念,它允許其元素有多個(gè)實(shí)例。更正式地講,多重集是一個(gè)二元組 X =(S,m),其中 S 是由其不同元素組成的 X 的基礎(chǔ)集合,而 m:S→N (≥1) 給出了元素的多樣性。

為了分析 GNN 的表達(dá)能力,我們分析了 GNN 何時(shí)將兩個(gè)節(jié)點(diǎn)映射到嵌入空間中的相同位置。直觀地說,最強(qiáng)大的 GNN 僅當(dāng)兩個(gè)節(jié)點(diǎn)具有相同的子樹結(jié)構(gòu),并且在對應(yīng)的節(jié)點(diǎn)上具有相同的特征時(shí),才會(huì)將它們映射到相同的位置。由于子樹結(jié)構(gòu)是通過節(jié)點(diǎn)鄰域遞歸定義的(圖 1),因此當(dāng) GNN 將兩個(gè)鄰域映射到相同的嵌入時(shí),我們可以遞歸地減少我們的分析。最強(qiáng)大的 GNN 永遠(yuǎn)不會(huì)將兩個(gè)不同的鄰域(即,特征向量的多重集)映射到相同的位置。這意味著它的聚合方案是單射的。 因此,我們將 GNN 的聚合方案抽象為其神經(jīng)網(wǎng)絡(luò)可以表示的多重集合上的一類函數(shù),并分析它們是否能夠表示單射的多重集函數(shù)。

接下來,我們使用這種推理開發(fā)一個(gè)最強(qiáng)大的 GNN。 在第 5 節(jié)中,我們研究了流行的 GNN 變體,并發(fā)現(xiàn)它們的聚合方案本質(zhì)上不是單射的,因此功能較弱,但它們可以捕獲圖形的其他有趣屬性。

構(gòu)建強(qiáng)大的圖神經(jīng)網(wǎng)絡(luò)

理想情況下,GNN 能夠(1)通過將它們映射到嵌入空間中的不同位置來區(qū)分不同的圖結(jié)構(gòu),以及(2)在嵌入空間中捕獲它們的結(jié)構(gòu)相似性。在本文中,我們主要關(guān)注第一部分,我們將簡要討論第二部分。然而,將不同的圖映射到不同的嵌入空間的能力意味著可以解決圖同構(gòu)問題。

在我們的分析中,通過一個(gè)稍微弱一點(diǎn)的標(biāo)準(zhǔn)來描述 GNN 的表達(dá)能力:魏斯費(fèi)勒 - 雷曼(WL)圖同構(gòu)測試,除少數(shù)特例外,該測試通常工作得很好,特別是規(guī)則圖(Cai 等人,1992;Douglas,2011;Evdokimov&Ponomarenko,1999)。

引理 2. 設(shè) G1 和 G2 為任何非同構(gòu)圖。如果一個(gè)圖神經(jīng)網(wǎng)絡(luò) A: G → R (d) 遵循領(lǐng)域聚合方案,將 G1 和 G2 映射到不同的嵌入,Weisfeiler-Lehman 圖同構(gòu)檢驗(yàn)也判定 G1 和 G2 不是同構(gòu)的。

因此,在區(qū)分不同圖方面任何基于聚合的 GNN 都至多與 WL 測試一樣強(qiáng)大。一個(gè)自然的問題是,在原則上是否存與 WL 測試一樣強(qiáng)大的 GNN? 我們在定理 3 中得到的答案是肯定的:如果鄰居聚合和圖池化函數(shù)是單射的,那么得到的 GNN 就像 WL 測試一樣強(qiáng)大。

定理 3.設(shè) A:G→R (d) 是一個(gè)遵循鄰域聚合方案的 GNN。 通過足夠的迭代,如果滿足以下條件,則 A 可以將通過 Weisfeiler-Lehman 測試的圖 G1 和 G2 為非同構(gòu)圖映射到不同的嵌入:

a) A 每次迭代聚合更新節(jié)點(diǎn)特征向量

b)A 的圖級別的 readout 函數(shù),運(yùn)行在節(jié)點(diǎn)特征的多重集上{h (k)(v)},是一個(gè)單射函數(shù)。

在可數(shù)集上,單射性很好地描述了一個(gè)函數(shù)是否保留了輸入的區(qū)別性。在不可數(shù)集上,節(jié)點(diǎn)特征是連續(xù)的,內(nèi)射性和判別性的概念被 “削弱”。在本文中,我們假設(shè)輸入節(jié)點(diǎn)特征來自可數(shù)集。鑒于輸入節(jié)點(diǎn)特征的可計(jì)數(shù)性假設(shè),人們可能會(huì)問,GNN 更深層的節(jié)點(diǎn)特征的可數(shù)性是否仍然適用? 引理 4 表示是,即可數(shù)性可以跨層傳播。

引理 4. 假設(shè)輸入特征空間 X 是可數(shù)的,g (k) 是由 GNN 的第 k 層參數(shù)化的函數(shù),k=1,..,L。其中,g (1) 被定義在有限多重集 X ? X 上,g (k) 的范圍,節(jié)點(diǎn)的隱含特征 h {k}(v) 空間,在 k=1,...,L 都是可數(shù)的。

在這里,除了區(qū)分不同的圖之外,還值得討論 GNN 的一個(gè)重要好處,也就是說,捕捉圖結(jié)構(gòu)的相似性。注意,WL 測試中的節(jié)點(diǎn)特征向量本質(zhì)上是一種獨(dú)熱編碼(one-hot 編碼),因此不能捕獲子樹之間的相似性。相反,滿足定理 3 標(biāo)準(zhǔn)的 GNN,通過學(xué)習(xí)將子樹嵌入低維空間來推廣 WL 測試。這使得 GNN 不僅可以區(qū)分不同的結(jié)構(gòu),而且可以學(xué)習(xí)將相似的圖結(jié)構(gòu)映射到相似的嵌入,并捕獲圖結(jié)構(gòu)之間的依賴關(guān)系。捕捉節(jié)點(diǎn)標(biāo)簽的結(jié)構(gòu)相似性對泛化有幫助,特別是在不同的圖中當(dāng)子樹的共現(xiàn)稀疏或存在噪聲邊和節(jié)點(diǎn)特征時(shí)(Yanardag 和 Vishwanathan,2015)。

圖異構(gòu)網(wǎng)絡(luò)(GIN)

接下來,我們開發(fā)了一個(gè)可證明滿足定理 3 中條件的模型,從而推廣了 WL 測試。 我們將結(jié)果體系結(jié)構(gòu)命名為 Graph Isomorphism Network(GIN)。為了模擬領(lǐng)域聚合的單射多重集函數(shù),我們發(fā)展了一個(gè) “深多重集” 的理論,即用神經(jīng)網(wǎng)絡(luò)參數(shù)化通用多重集函數(shù)。我們的下一個(gè)引理表明,求和聚合器可以代表多重集合的單射,事實(shí)上,是多重集上的通用函數(shù)。

引理 5. 定義如下:

該引理擴(kuò)展了設(shè)置 (Zaheer et al., 2017) 從集合到多重集。深多重集和集合之間的一個(gè)重要區(qū)別是某些單射集合函數(shù),例如均值聚合器,不是多重集函數(shù)。利用引理 5 中通用多重集函數(shù)的建模機(jī)制作為構(gòu)建塊,現(xiàn)在我們提出一種聚合方案,可以表示節(jié)點(diǎn)對和其鄰居的多重集合上的通用函數(shù),從而滿足定理 3a 中的單射性條件。 我們的下一個(gè)推論在許多這樣的聚合方案中提供了簡單而具體的公式。

推論 6. 定義如下:

由于通用逼近定理(Hornik 等,1989; Hornik,1991),我們可以使用多層感知器(MLP)來推導(dǎo)和學(xué)習(xí)推論 6 中的 f 和 φ,在實(shí)際應(yīng)用中,我們用一個(gè) MLP 對 f (k+1) ? φ (k) 進(jìn)行建模,因?yàn)?MLP 可以表示函數(shù)的組成。在第一個(gè)迭代中,如果輸入特征是一個(gè)熱編碼,那么在求和之前不需要 MLP,因?yàn)樗鼈兊那蠛褪菃紊涞?。我們可以制作一個(gè)可學(xué)習(xí)的參數(shù)或固定的標(biāo)量。然后,GIN 更新節(jié)點(diǎn)表征如下:

通常,可能存在許多其他強(qiáng)大的 GNNs。 雖然 GIN 很簡單,但是它是最強(qiáng)大的 GNN 中的一個(gè)。

讀取不同部分的子樹結(jié)構(gòu)

圖級讀出(readout)的一個(gè)重要方面是,隨著迭代次數(shù)的增加,對應(yīng)于子樹結(jié)構(gòu)的節(jié)點(diǎn)表征變得更加精細(xì)和全局。足夠數(shù)量的迭代是實(shí)現(xiàn)良好區(qū)分力的關(guān)鍵。 然而,特征的早期迭代有時(shí)可能更好地泛化。為了考慮所有的結(jié)構(gòu)信息,GIN 從模型的所有深度 / 迭代使用信息。 我們通過類似于跳躍知識網(wǎng)絡(luò)(JK-Nets)(Xu 等人,2018)的架構(gòu)來實(shí)現(xiàn)這一點(diǎn),其中在所有的迭代中我們使用連接后的圖的表征向量替換了 Eq.2.4:

根據(jù)定理 3 和推論 6,如果 GIN 使用對來自相同迭代的所有節(jié)點(diǎn)特征求和來取代 Eq.4.2 中的 READOUT(在求和之前我們不需要額外的 MLP,原因與方程 4.1 相同),它可以推廣 WL 測試和 WL 子樹核。

能力不強(qiáng)但仍然有趣的其他 GNNs

接下來我們研究不滿足定理 3 中條件的 GNN,包括GCN(Kipf&Welling,2017)和GraphSAGE(Hamilton 等,2017a)。

我們對 Eq. 4.1 中聚合器的兩個(gè)方面進(jìn)行消融研究:(1)使用 1 層的感知器代替 MLP;(2)利用平均或最大池而不是求和。

令人驚訝的是我們觀察到這些 GNN 變體被簡單的圖所迷惑,并且沒有 WL 測試強(qiáng)大。 盡管如此,使用平均聚合器的模型像 GCN 在節(jié)點(diǎn)分類任務(wù)中還是表現(xiàn)良好。 為了更好地理解這一點(diǎn),我們精確地描述了不同 GNN 變體能夠和不能夠捕獲圖的哪些內(nèi)容,并討論學(xué)習(xí)圖的含義。

1- 層的感知機(jī)并不充分

引理 5 中的函數(shù) f 有助于將不同的多重集合映射到唯一的嵌入。它可以通過 MLP 通過通用逼近定理參數(shù)化(Hornik,1991)。盡管如此,許多現(xiàn)有的 GNN 使用 1- 層感知器 σ°W 代替(Duvenaud 等人,2015; Kipf&Welling,2017; Zhang 等人,2018),線性映射后跟非線性激活函數(shù),如 ReLU。 這種 1- 層映射是廣義線性模型的例子(Nelder&Wedderburn,1972)。因此,我們對了解 1- 層感知器是否足以進(jìn)行圖學(xué)習(xí)非常感興趣。引理 7 表明確實(shí)存在網(wǎng)絡(luò)鄰域(多重集合),具有 1- 層感知器的模型永遠(yuǎn)無法區(qū)分。

引理 7. 定義如下:

引理 7 證明的主要思想是 1 層感知器的行為很像線性映射,因此 GNN 層退化為簡單地對鄰域特征求和。我們的證據(jù)建立在線性映射中缺少偏差項(xiàng)的事實(shí)上。利用偏差項(xiàng)和足夠大的輸出維數(shù),1- 層感知器可能能夠區(qū)分不同的多重集。 盡管如此,與使用 MLP 的模型不同,1- 層感知器(即使具有偏置項(xiàng))也不是多重集函數(shù)的通用逼近器。

因此,即使具有 1- 層感知器的 GNN 在某種程度上可以將不同的圖嵌入到不同的位置,這種嵌入也可能不能充分地捕獲結(jié)構(gòu)相似性,并且對于簡單的分類器(例如,線性分類器)來說可能難以擬合。 在第 7 節(jié)中,我們將憑經(jīng)驗(yàn)看到具有 1- 層感知器的 GNN,當(dāng)應(yīng)用于圖分類時(shí),有時(shí)會(huì)嚴(yán)重欠擬合,并且在測試精度方面通常表現(xiàn)不及 MLP 的 GNN。

混淆平均值和最大池的結(jié)構(gòu)

如果我們將 h (X)=sum (f (x)) ,其中 x∈X,中的求和替換為 GCN 和 GraphSAGE 中的均值或最大池,會(huì)發(fā)生什么?平均和最大池聚合器仍然是定義良好的多重集函數(shù),因?yàn)樗鼈兪侵脫Q不變的。但是,它們不是單射的。

圖 2 根據(jù)三個(gè)聚合器的表示能力對其進(jìn)行排序,圖 3 說明了平均池和最大池聚合器對結(jié)構(gòu)對無法區(qū)分。在這里,節(jié)點(diǎn)顏色表示不同的節(jié)點(diǎn)特征,我們假設(shè) GNN 在將它們與中心節(jié)點(diǎn)組合之前先聚合鄰居。

在圖 3a 中,每個(gè)節(jié)點(diǎn)具有相同的特征 a,并且 f (a) 在所有節(jié)點(diǎn)上是相同的(對于任何函數(shù) f)。當(dāng)執(zhí)行鄰域聚合時(shí),f (a) 上的均值或最大值仍為 f (a),并且通過歸納,我們總是在任何地方獲得相同的節(jié)點(diǎn)表示。因此,均值和最大池聚合器無法捕獲任何結(jié)構(gòu)信息。相反,求和聚合器可以區(qū)分結(jié)構(gòu),因?yàn)?2?f (a) 和 3?f (a) 給出了不同的值。相同的參數(shù)可以應(yīng)用于任何未標(biāo)記的圖。如果節(jié)點(diǎn)度不是常量值,則可以用作節(jié)點(diǎn)輸入特征,原則上,均值可以覆蓋求,但最大池不能。

圖 3a 表明均值和最大值難以區(qū)分具有重復(fù)特征的節(jié)點(diǎn)的圖。假設(shè) h (color)(r 代表紅色,g 代表綠色)表示由 f 轉(zhuǎn)換后的節(jié)點(diǎn)特征。圖 3b 顯示藍(lán)色節(jié)點(diǎn)附近的最大值產(chǎn)生 max (h (g),h (r)) 和 max (h (g),h (r),h (r)),這兩個(gè)值折疊成相同的表示。因此,最大池?zé)o法區(qū)分它們。相比之下,求和聚合器仍然有效,因?yàn)?1/2*(h (g)+h (r)) 和 1/3*(h (g)+h (r)+h (r)) 通常是不等同的。同樣地,在圖 3c 中,平均值和最大值均為失敗 1/2*(h (g)+h (r)) 和 1/4*(h (g)+h (g)+h (r)+h (r))。

平均學(xué)習(xí)分布

為了描述平均聚合器可以區(qū)分多重集的類,考慮示例 X1 = (S, m) and X2 = (S, k?m),其中 X1 和 X2 具有相同的一組不同元素的集合,但 X2 包含 X1 的每個(gè)元素的 k 個(gè)副本。任何平均聚合器都將 X1 和 X2 映射到相同的嵌入,因?yàn)樗恍枰獙蝹€(gè)元素的特征取平均值。因此,平均值可以捕獲多重集中元素的分布(或者比例),而不是精確的多重集。

推論 8.定義如下:

對于任務(wù)而言,如果圖中的統(tǒng)計(jì)和分布信息比精確的結(jié)構(gòu)更為重要,則平均聚合器可能表現(xiàn)良好。此外,當(dāng)節(jié)點(diǎn)特征多樣且很少重復(fù)時(shí),平均聚合器與求和聚合器一樣強(qiáng)大。這就可以解釋為什么,盡管存在第 5.2 節(jié)中提到的一些限制,但帶有平均聚合器的 GNN 對于節(jié)點(diǎn)分類任務(wù)還是有效,例如對文章主題進(jìn)行分類和社區(qū)檢測,其中節(jié)點(diǎn)特征豐富,并且鄰域特征的分布為任務(wù)提供了一個(gè)強(qiáng)有力的信號。

具有不同元素的最大池學(xué)習(xí)集

圖 3 中的示例說明最大池認(rèn)為具有相同的特征的多個(gè)節(jié)點(diǎn)僅為一個(gè)節(jié)點(diǎn)(即,將多重集合視為一個(gè)集合)。 最大池不捕獲確切的結(jié)構(gòu)和分布。 但是,它可能適用于某些識別任務(wù),這些任務(wù)中識別元素或 “骨架” 更重要,而不是區(qū)分確切的結(jié)構(gòu)或分布。( 齊等人.2017)憑經(jīng)驗(yàn)表明,最大池聚合器學(xué)習(xí)識別 3D 點(diǎn)云的骨架,并且它對噪聲和異常值具有魯棒性。 為了完整起見,下一個(gè)推論顯示最大池聚合器捕獲多重集的基礎(chǔ)集。

推論 9. 定義如下

實(shí)驗(yàn)設(shè)置

我們評估和比較 GIN 和不太強(qiáng)大的 GNN 變體的訓(xùn)練和測試性能。

數(shù)據(jù)集

我們使用 9 個(gè)圖分類基準(zhǔn):4 個(gè)生物信息學(xué)數(shù)據(jù)集(MUTAG,PTC,NCI1,PROTEINS)和 5 個(gè)社交網(wǎng)絡(luò)數(shù)據(jù)集(COLLAB,IMDB-BINARY,IMDB-MULTI,REDDIT-BINARY 和 REDDIT-MULTI5K)(Yanardag&Vishwanathan,2015)。

在生物信息圖中,節(jié)點(diǎn)具有分類輸入特征;在社交網(wǎng)絡(luò)中,它們沒有任何特征。 對于 REDDIT 數(shù)據(jù)集,我們將所有節(jié)點(diǎn)特征向量設(shè)置為相同(因此,這里的特征是無信息的); 對于其他社交圖,我們使用節(jié)點(diǎn)度的獨(dú)熱編碼。

模型和配置

我們評估 GIN(方程 4.1 和 4.2)和不太強(qiáng)大的 GNN 變體。在 GIN 框架下,我們考慮兩種變體:1)通過梯度下降,學(xué)習(xí)方程式 4.1 中的 ε 的 GIN,我們稱之為 GIN-ε;(2)更簡單(稍微不那么強(qiáng)大)的 GIN,其中 ε 在方程式中 4.1 固定為 0,我們稱之為 GIN-0。

正如我們將要看到的,GIN-0 顯示出強(qiáng)大的經(jīng)驗(yàn)性能:GIN-0 不僅與 GIN-ε 一樣擬合的訓(xùn)練數(shù)據(jù)好,它還表現(xiàn)出良好的泛化性,在測試精度方面略微但始終優(yōu)于 GIN-ε。對于能力較弱的 GNN 變體,我們考慮使用 mean 或 max-pooling 替換 GIN-0 聚合中的求和的架構(gòu),或者用 1- 層感知器替換 MLP,即線性映射后面接 ReLU。在圖 4 和表 1 中,模型由它使用的聚合器 / 感知器命名。我們對 GIN 和所有 GNN 變體應(yīng)用相同的圖級 readout(公式 4.2 中的 READOUT),特別是生物信息學(xué)數(shù)據(jù)集的求和 readout 以及由于更好的測試性能而在社交數(shù)據(jù)集上的平均 readout。

以下(Yanardag&Vishwanathan,2015; Niepert 等,2016),我們使用 LIB-SVM 進(jìn)行 10 倍交叉驗(yàn)證(Chang&Lin,2011)。我們公布了通過 cv 進(jìn)行的 10- 交叉驗(yàn)證 validate 集的準(zhǔn)確度的平均值和標(biāo)準(zhǔn)差。對于所有的配置,應(yīng)用 5 個(gè) GNN 層(包括輸入層),并且所有 MLP 具有 2 個(gè)層。BN 標(biāo)準(zhǔn)化(Ioffe&Szegedy,2015)應(yīng)用于每個(gè)隱藏層。我們使用 Adam 優(yōu)化器(Kingma&Ba,2015),初始學(xué)習(xí)率為 0.01,并且每 50 個(gè) epochs 將學(xué)習(xí)率衰減 0.5。我們針對每個(gè)數(shù)據(jù)集調(diào)優(yōu)的超參數(shù)是:(1)生物信息圖的 hidden units 的大小∈{16,32} 和社交圖的大小為 64; (2)批量大?。╞atch size)∈{32,128}; (3)在 dense 層后,dropout 率∈{0,0.5}(Srivastava 等,2014); (4)epochs 的數(shù)量。

基準(zhǔn)線

我們將上面的 GNN 與一些性能最佳的圖分類基線進(jìn)行了比較:

(1)WL 子樹內(nèi)核(Shervashidze 等,2011),其中使用了 C-SVM(Chang&Lin,2011) 作為分類器。 我們調(diào)優(yōu)的超參數(shù)是 SVM 中的 C 和 WL 迭代的數(shù)量∈{1,2,...,6};

(2)性能最佳的深度學(xué)習(xí)架構(gòu)擴(kuò)散 - 卷積神經(jīng)網(wǎng)絡(luò)(DCNN)(Atwood&Towsley,2016)、PATCHY-SAN(Niepert 等,2016)和 Deep Graph CNN(DGCNN)(Zhang et al.,2018);

(3)Anonymous Walk Embeddings(AWL)(Ivanov&Burnaev,2018)。

對于深度學(xué)習(xí)方法和 AWL,我們報(bào)告了原始論文中報(bào)告的準(zhǔn)確性。

實(shí)驗(yàn)結(jié)果

訓(xùn)練集性能

通過比較它們的訓(xùn)練精度,我們驗(yàn)證了 GNNs 的強(qiáng)大表征能力的理論分析。圖 4 顯示了具有相同超參數(shù)設(shè)置的 GIN 和不太強(qiáng)大的 GNN 變種的訓(xùn)練曲線。

首先,理論上最強(qiáng)大的 GNN,即 GIN-ε (Sum–MLP),和 GIN-0 能夠完美擬合所有的訓(xùn)練數(shù)據(jù)。在我們的實(shí)驗(yàn)中,與在 GIN-0 中把 ε 固定為 0 相比,在擬合訓(xùn)練數(shù)據(jù)時(shí),用 GIN-ε 顯式學(xué)習(xí) ε 沒有任何收益。相比之下,在許多數(shù)據(jù)集中,使用平均 / 最大池或 1- 層感知機(jī)的 GNN 變體嚴(yán)重欠擬合。特別是,訓(xùn)練精度模式與我們通過模型的表征能力進(jìn)行的排名一致:具有 MLP 的 GNN 變體比具有 1- 層感知器的 GNN 變體具有更高的訓(xùn)練精度,具有求和聚合器的 GNN 比具有平均和最大池聚合器的 GNN 更好的擬合訓(xùn)練集。

然而,在我們的數(shù)據(jù)集上,GNN 的訓(xùn)練精度從未超過 WL 子樹內(nèi)核的精度,后者具有與 WL 測試相同的區(qū)分能力。例如,在 IMDBBINARY 上,沒有一個(gè)模型能夠完全擬合訓(xùn)練集,而且 GNN 最多能達(dá)到與 wl 內(nèi)核相同的訓(xùn)練精度。此模式與我們的結(jié)果一致,即 WL 測試為基于聚合的 GNN 的表示能力提供了一個(gè)上限。我們的理論結(jié)果集中在表征能力上,還沒有考慮到優(yōu)化(例如局部極?。?。盡管如此,實(shí)驗(yàn)結(jié)果與我們的理論非常吻合。

測試集性能

接下來,我們比較測試集精度。雖然我們的理論結(jié)果并不能直接說明 GNN 的泛化能力,但有理由期待具有較強(qiáng)表達(dá)力的 GNN 能夠準(zhǔn)確地捕獲感興趣的圖結(jié)構(gòu),因此泛化能力非常好。表 1 比較了 GINs (SUM-MLP)、其他 GNN 變種以及最佳基準(zhǔn)線的測試精度。

結(jié)論

在本文中,我們建立了 GNN 表達(dá)能力推理的理論基礎(chǔ),并對流行的 GNN 變體的表達(dá)能力進(jìn)行了嚴(yán)格的論證。在此過程中,我們還在鄰域聚合框架下設(shè)計(jì)了一個(gè)可以證明是最強(qiáng)大的 GNN。未來工作的一個(gè)有趣方向是超越鄰域聚合(或消息傳遞)框架,以追求更強(qiáng)大的圖學(xué)習(xí)架構(gòu)。理解和改進(jìn) GNN 的泛化性質(zhì)也是很有意思的。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4773

    瀏覽量

    100880
  • 機(jī)器翻譯
    +關(guān)注

    關(guān)注

    0

    文章

    139

    瀏覽量

    14912
  • GNN
    GNN
    +關(guān)注

    關(guān)注

    1

    文章

    31

    瀏覽量

    6357

原文標(biāo)題:圖神經(jīng)網(wǎng)絡(luò)將成AI下一拐點(diǎn)!MIT斯坦福一文綜述GNN到底有多強(qiáng)

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    labview BP神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)

    是classes(層級嗎?),希望有前輩能夠詳細(xì)的幫我講解下這個(gè)范例!?。≈x謝?。。。。ū救艘褜P神經(jīng)網(wǎng)絡(luò)的理論知識有了了解
    發(fā)表于 02-22 16:08

    【PYNQ-Z2試用體驗(yàn)】基于PYNQ的神經(jīng)網(wǎng)絡(luò)自動(dòng)駕駛小車 - 項(xiàng)目規(guī)劃

    ,神經(jīng)網(wǎng)絡(luò)技術(shù)的第三次發(fā)展浪潮仍在繼續(xù),在其背后,高性能CPU、GPU和FPGA、ASIC以強(qiáng)大的算力為技術(shù)的應(yīng)用落地提供了有力的支持。然而目前基于FPGA平臺搭建神經(jīng)網(wǎng)絡(luò)作為控制器,
    發(fā)表于 03-02 23:10

    【案例分享】ART神經(jīng)網(wǎng)絡(luò)與SOM神經(jīng)網(wǎng)絡(luò)

    今天學(xué)習(xí)了兩個(gè)神經(jīng)網(wǎng)絡(luò),分別是自適應(yīng)諧振(ART)神經(jīng)網(wǎng)絡(luò)與自組織映射(SOM)神經(jīng)網(wǎng)絡(luò)。整體感覺不是很難,只不過一些最基礎(chǔ)的概念容易理解不清。首先ART神經(jīng)網(wǎng)絡(luò)是競爭學(xué)習(xí)的一個(gè)代表,
    發(fā)表于 07-21 04:30

    人工神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)方法有哪些?

    人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)是一種類似生物神經(jīng)網(wǎng)絡(luò)的信息處理結(jié)構(gòu),它的提出是為了解決一些非線性,非平穩(wěn),復(fù)雜的實(shí)際問題。那有哪些辦法能實(shí)現(xiàn)人工神經(jīng)
    發(fā)表于 08-01 08:06

    如何設(shè)計(jì)BP神經(jīng)網(wǎng)絡(luò)圖像壓縮算法?

    ,并能在腦海中重現(xiàn)這些圖像信息,這不僅與人腦的海量信息存儲能力有關(guān),還與人腦的信息處理能力,包括數(shù)據(jù)壓縮能力有關(guān)。在各種神經(jīng)網(wǎng)絡(luò)中,多層前饋神經(jīng)網(wǎng)絡(luò)
    發(fā)表于 08-08 06:11

    如何構(gòu)建神經(jīng)網(wǎng)絡(luò)?

    原文鏈接:http://tecdat.cn/?p=5725 神經(jīng)網(wǎng)絡(luò)是一種基于現(xiàn)有數(shù)據(jù)創(chuàng)建預(yù)測的計(jì)算系統(tǒng)。如何構(gòu)建神經(jīng)網(wǎng)絡(luò)?神經(jīng)網(wǎng)絡(luò)包括:輸入層:根據(jù)現(xiàn)有數(shù)據(jù)獲取輸入的層隱藏層:使用反向傳播優(yōu)化輸入變量權(quán)重的層,以提高模型的預(yù)測
    發(fā)表于 07-12 08:02

    基于BP神經(jīng)網(wǎng)絡(luò)的PID控制

    最近在學(xué)習(xí)電機(jī)的智能控制,上周學(xué)習(xí)了基于單神經(jīng)元的PID控制,這周研究基于BP神經(jīng)網(wǎng)絡(luò)的PID控制。神經(jīng)網(wǎng)絡(luò)具有任意非線性表達(dá)能力,可以通過對系統(tǒng)性能的學(xué)習(xí)來實(shí)現(xiàn)具有最佳組合的PID控
    發(fā)表于 09-07 07:43

    神經(jīng)網(wǎng)絡(luò)移植到STM32的方法

    問題,一個(gè)是神經(jīng)網(wǎng)絡(luò)的移植,另一個(gè)是STM32的計(jì)算速度。神經(jīng)網(wǎng)絡(luò)的移植網(wǎng)絡(luò)采用的是最簡單的BP神經(jīng)網(wǎng)絡(luò),基本原理可以自己去了解一下,大概就
    發(fā)表于 01-11 06:20

    卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用

    模型(generative adversarial network,GAN),具有完全相同的兩路網(wǎng)絡(luò) 結(jié)構(gòu)以及權(quán)值的孿生神經(jīng)網(wǎng)絡(luò)模型 SiameseNet,以 及通過線性運(yùn)算生成其他冗余特征
    發(fā)表于 08-02 10:39

    神經(jīng)網(wǎng)絡(luò)背后的原理和強(qiáng)大表征能力

    此外,在 ICLR 受邀演講上,Jure Leskovec 教授還就深度生成模型做了演講。在這次演講中,Jure 闡述了生成模型的方法和應(yīng)用,并詳細(xì)介紹了他的最新成果,GraphRNN 和 Graph Convolutional Policy Network。
    的頭像 發(fā)表于 06-02 09:22 ?1.2w次閱讀

    淺談神經(jīng)網(wǎng)絡(luò)在自然語言處理中的應(yīng)用簡述

    近幾年,神經(jīng)網(wǎng)絡(luò)因其強(qiáng)大表征能力逐漸取代傳統(tǒng)的機(jī)器學(xué)習(xí)成為自然語言處理任務(wù)的基本模型。然而經(jīng)典的神經(jīng)網(wǎng)絡(luò)模型只能處理歐氏空間中的數(shù)據(jù),自然
    的頭像 發(fā)表于 04-26 14:57 ?3329次閱讀
    淺談<b class='flag-5'>圖</b><b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>在自然語言處理中的應(yīng)用簡述

    深入了解神經(jīng)網(wǎng)絡(luò)

    本章將介紹用于解決實(shí)際問題的深度學(xué)習(xí)架構(gòu)的不同模塊。前一章使用PyTorch的低級操作構(gòu)建了如網(wǎng)絡(luò)架構(gòu)、損失函數(shù)和優(yōu)化器這些模塊。本章將介紹用于解決真實(shí)問題的神經(jīng)網(wǎng)絡(luò)的一些重要組件,以及
    的頭像 發(fā)表于 07-08 10:22 ?721次閱讀
    <b class='flag-5'>深入了解</b><b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>

    什么是神經(jīng)網(wǎng)絡(luò)?什么是卷積神經(jīng)網(wǎng)絡(luò)

    在介紹卷積神經(jīng)網(wǎng)絡(luò)之前,我們先回顧一下神經(jīng)網(wǎng)絡(luò)的基本知識。就目前而言,神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)算法的核心,我們所熟知的很多深度學(xué)習(xí)算法的背后其實(shí)都是神經(jīng)網(wǎng)
    的頭像 發(fā)表于 02-23 09:14 ?3586次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)和bp神經(jīng)網(wǎng)絡(luò)的區(qū)別

    不同的神經(jīng)網(wǎng)絡(luò)模型,它們在結(jié)構(gòu)、原理、應(yīng)用等方面都存在一定的差異。本文將從多個(gè)方面對這兩種神經(jīng)網(wǎng)絡(luò)進(jìn)行詳細(xì)的比較和分析。 引言 神經(jīng)網(wǎng)絡(luò)是一種模擬人腦神經(jīng)元連接和信息傳遞的計(jì)算模型,它
    的頭像 發(fā)表于 07-02 14:24 ?4309次閱讀

    深度神經(jīng)網(wǎng)絡(luò)與基本神經(jīng)網(wǎng)絡(luò)的區(qū)別

    在探討深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks, DNNs)與基本神經(jīng)網(wǎng)絡(luò)(通常指傳統(tǒng)神經(jīng)網(wǎng)絡(luò)或前向神經(jīng)網(wǎng)絡(luò))的區(qū)別時(shí),我們需要從多個(gè)維度進(jìn)行
    的頭像 發(fā)表于 07-04 13:20 ?943次閱讀