今天為大家解讀的是由京東硅谷研發(fā)中心首席科學(xué)家吳凌飛博士等研究者最新發(fā)表的GNN for NLP綜述,幾乎覆蓋了圍繞NLP任務(wù)的所有GNN相關(guān)技術(shù),是迄今為止GNN for NLP領(lǐng)域最全面最新的綜述性文獻(xiàn)。
深度學(xué)習(xí)已經(jīng)成為應(yīng)對各種NLP任務(wù)的主導(dǎo)方法,盡管輸入文本通常被表示為序列化的tokens,但圖結(jié)構(gòu)的形式往往可以對許多NLP問題進(jìn)行更好的表達(dá)。因此,有必要針對NLP任務(wù)來開發(fā)新的圖上的深度學(xué)習(xí)技術(shù)。在這項(xiàng)綜述中,作者對用于NLP任務(wù)的GNNs進(jìn)行了全面的概述,并提出了一個(gè)新的GNNs for NLP的分類體系,它沿著三個(gè)方面系統(tǒng)地組織了現(xiàn)有研究,包括:圖的構(gòu)建、圖表示學(xué)習(xí)和基于圖的編碼器-解碼器模型。論文還進(jìn)一步介紹了大量正在應(yīng)用GNNs驅(qū)動(dòng)NLP的應(yīng)用,并總結(jié)了相應(yīng)的基準(zhǔn)數(shù)據(jù)集、評估指標(biāo)和開源代碼。最后,論文討論了在NLP中充分利用GNNs的挑戰(zhàn)以及未來的研究方向。這是第一份針對自然語言處理任務(wù)的圖神經(jīng)網(wǎng)絡(luò)的全面綜述。
1. 介紹
傳統(tǒng)的文本數(shù)據(jù)建模方式
傳統(tǒng)的NLP任務(wù)中,文本序列被認(rèn)為是一個(gè)由tokens組成的袋子,如BoW(詞袋模型)和TF-IDF(詞頻-逆文檔頻率)。隨著詞嵌入技術(shù)的成功,句子通常被表示為一個(gè)由tokens組成的序列。一些流行的深度學(xué)習(xí)技術(shù),如RNN和CNN被廣泛用于建模文本序列。
文本數(shù)據(jù)的圖結(jié)構(gòu)表達(dá)
有大量的NLP問題可以用圖結(jié)構(gòu)進(jìn)行最佳表達(dá)。例如,文本序列中的句子結(jié)構(gòu)信息(即句法解析樹)可以用于增強(qiáng)原始序列數(shù)據(jù)的表示。同樣,序列數(shù)據(jù)中的語義信息(即語義解析圖)也可以被利用來增強(qiáng)原始序列數(shù)據(jù)。因此,這些圖結(jié)構(gòu)的數(shù)據(jù)可以編碼實(shí)體tokens之間復(fù)雜的成對關(guān)系,以學(xué)習(xí)更由信息量的表示。
基于GNN的NLP任務(wù)
圖上深度學(xué)習(xí)和NLP的交叉點(diǎn)上的研究浪潮影響了各種NLP任務(wù)。不同的GNNs變體在許多NLP任務(wù)中取得了相當(dāng)大的成功,如分類任務(wù):句子分類,語義角色標(biāo)注,關(guān)系提?。簧扇蝿?wù):機(jī)器翻譯,問題生成和摘要生成等。
GNN應(yīng)用于NLP的挑戰(zhàn)
將原始文本序列數(shù)據(jù)自動(dòng)轉(zhuǎn)化為圖結(jié)構(gòu)的數(shù)據(jù)。大多數(shù)NLP任務(wù)使用文本序列作為原始輸入,從文本序列中自動(dòng)構(gòu)建圖數(shù)據(jù)以利用底層結(jié)構(gòu)信息是利用圖神經(jīng)網(wǎng)絡(luò)處理NLP問題的關(guān)鍵步驟。
恰當(dāng)?shù)膱D表示學(xué)習(xí)技術(shù)。需要使用專門設(shè)計(jì)的GNN來學(xué)習(xí)不同圖結(jié)構(gòu)數(shù)據(jù)的獨(dú)特特征,如無向、有向、多關(guān)系和異質(zhì)圖。
有效地建模復(fù)雜數(shù)據(jù)。因?yàn)樵S多NLP任務(wù)涉及學(xué)習(xí)基于圖的輸入和高度結(jié)構(gòu)化的輸出數(shù)據(jù)之間的映射,如序列、樹,以及具有多種類型節(jié)點(diǎn)和邊的圖數(shù)據(jù)。
本文提出的分類體系
從三個(gè)維度來組織用于NLP任務(wù)的GNNs:圖的構(gòu)建;圖表示學(xué)習(xí);編碼器-解碼器模型;以及對應(yīng)的NLP應(yīng)用。
針對用于NLP任務(wù)的GNNs,提出了一個(gè)新的分類體系。沿著三個(gè)軸線系統(tǒng)地組織了現(xiàn)有的用于NLP的GNN的研究:圖的構(gòu)建、圖表示學(xué)習(xí)和基于圖的編碼器-解碼器模型。
對各種NLP任務(wù)中最先進(jìn)的GNNs技術(shù)進(jìn)行了最全面的概述。對基于領(lǐng)域知識(shí)和語義空間的各種圖構(gòu)建方法、各種圖結(jié)構(gòu)數(shù)據(jù)的圖表示學(xué)習(xí)方法、基于GNNs的編碼器-解碼器模型提供了詳細(xì)的描述和比較。
總結(jié)了將GNNs充分用于NLP任務(wù)的各種突出挑戰(zhàn),并對未來的研究方向進(jìn)行了討論和建議。
2. 用于NLP任務(wù)的圖算法
這一章中,首先從圖的視角回顧了NLP問題,簡要介紹了NLP領(lǐng)域存在的多種多樣的圖結(jié)構(gòu)以及不同層次的圖結(jié)構(gòu);然后,簡要介紹了一些傳統(tǒng)的用于解決NLP問題的圖算法,包括:Random walk,graph clustering,graph matching,label propagation 等;最后總結(jié)了傳統(tǒng)圖算法的局限性以及與最新GNN算法之間的聯(lián)系。
2.1 從圖視角看NLP
自然語言的表示方式反映了我們對自然語言的特殊看法,并對處理和理解自然語言的方式有根本性的影響。一般來說,有三種不同的表示自然語言的方式。
bag of tokens:最簡單的方式是將自然語言表示為一袋tokens,這種方式完全忽略了文本中tokens出現(xiàn)的具體位置,而只考慮其在文本中出現(xiàn)的次數(shù)。采取這種觀點(diǎn)的最具代表性的NLP技術(shù)是話題模型。
sequence of tokens:更自然的方式是將自然語言表示為一個(gè)tokens序列,這就是人類通常說和寫自然語言的方式。與上述詞袋方式相比,這種觀點(diǎn)能夠捕捉到更豐富的文本信息,例如,哪兩個(gè)tokens是連續(xù)的,以及一個(gè)詞對局部語境中共出現(xiàn)了多少次。采取這種觀點(diǎn)的最具代表性的NLP技術(shù)包括線性鏈CRF,它在預(yù)測中實(shí)現(xiàn)了順序依賴,以及word2vec,它通過預(yù)測目標(biāo)單詞的上下文單詞來學(xué)習(xí)單詞嵌入。
represent natural language as a graph:第三種方式是將自然語言表現(xiàn)為圖。圖在NLP中是無處不在的。雖然將文本視為序列數(shù)據(jù)可能是最明顯的,但在NLP界,將文本表示為各種圖的做法由來已久。常見的文本或知識(shí)的圖表示包括依賴圖、成分圖、AMR圖、IE圖、詞匯網(wǎng)絡(luò)和知識(shí)圖譜。此外,還可以構(gòu)建一個(gè)包含多個(gè)層次元素的文本圖,如文檔、段落、句子和單詞。與上述兩種觀點(diǎn)相比,這種自然語言的觀點(diǎn)能夠捕捉到文本元素之間更豐富的關(guān)系。許多傳統(tǒng)的基于圖的方法(如隨機(jī)游走、標(biāo)簽傳播)已經(jīng)成功地應(yīng)用于具有挑戰(zhàn)性的NLP問題,包括詞義消歧、命名消歧、共指解決、情感分析和文本聚類。
2.2 用于NLP任務(wù)的圖方法
在本小節(jié)中,將介紹各種傳統(tǒng)的基于圖的算法,這些算法已經(jīng)成功應(yīng)用于NLP的應(yīng)用。首先簡要說明一些有代表性的基于圖的算法和它們在NLP領(lǐng)域的應(yīng)用。然后,進(jìn)一步討論它們與GNN的聯(lián)系。
2.2.1 隨機(jī)游走算法(RANDOM WALK ALGORITHMS )
隨機(jī)游走
是一類基于圖的算法,在圖中產(chǎn)生隨機(jī)路徑??梢詮膱D中的任何一個(gè)節(jié)點(diǎn)開始,根據(jù)一定的轉(zhuǎn)移概率反復(fù)選擇在每個(gè)時(shí)間訪問一個(gè)隨機(jī)的鄰近節(jié)點(diǎn)。然后,隨機(jī)游走中所有被訪問的節(jié)點(diǎn)就形成了一條隨機(jī)路徑。在隨機(jī)游走收斂后,人們可以得到一個(gè)圖中所有節(jié)點(diǎn)的靜態(tài)分布,該分布可以用來通過對概率得分進(jìn)行排名,選擇圖中結(jié)構(gòu)重要性高的最突出的節(jié)點(diǎn),或者通過計(jì)算兩個(gè)隨機(jī)游走分布的相似性來衡量兩個(gè)圖的關(guān)聯(lián)性。
應(yīng)用
隨機(jī)游走算法已被應(yīng)用于各種NLP任務(wù)中,包括文本的語義相似性度量和語義網(wǎng)絡(luò)上的語義距離、詞義消歧、名稱消歧、查詢擴(kuò)展、關(guān)鍵詞提取、名稱消歧、擴(kuò)展查詢、關(guān)鍵詞提取,以及跨語言信息檢索等。
2.2.2 圖聚類算法(GRAPH CLUSTERING ALGORITHMS )
圖聚類算法
常見的圖聚類算法包括譜聚類、隨機(jī)游走聚類和min-cut聚類。譜聚類算法利用圖的拉普拉斯矩陣的頻譜(特征值),在使用K-means等現(xiàn)有算法進(jìn)行聚類前進(jìn)行降維。隨機(jī)漫步聚類算法通過在圖上進(jìn)行t步隨機(jī)漫步來操作,因此,每個(gè)節(jié)點(diǎn)被表示為一個(gè)概率向量,表示圖中所有其它節(jié)點(diǎn)的t步生成概率?;趫D聚類的目的,小的t值是更可取的,因?yàn)橄氩蹲骄植拷Y(jié)構(gòu)信息而不是全局結(jié)構(gòu)信息。min-cut算法也可用于將圖劃分為多個(gè)簇。
應(yīng)用
圖聚類算法已被成功應(yīng)用于解決文本聚類任務(wù)。例如,Erkan提出使用從有向生成圖(包含n個(gè)文檔節(jié)點(diǎn))上的t步隨機(jī)游走得出的n-dim概率分布作為語料庫中每個(gè)文檔的向量表示。然后,圖聚類算法作用于文檔表示,以生成文檔簇。
2.2.3 圖匹配算法(GRAPH MATCHING ALGORITHMS)
圖匹配算法
圖匹配算法的目的是計(jì)算兩個(gè)圖之間的相似度。Graph Edit Distance 是最常用的測量兩個(gè)圖的不相似性的方法。它將距離計(jì)算為將一個(gè)圖轉(zhuǎn)化為另一個(gè)圖所需的變化(即添加、刪除、替換)的數(shù)量。
應(yīng)用
圖匹配算法在文本推斷任務(wù)中有所應(yīng)用,該任務(wù)旨在決定一個(gè)給定的句子是否可以從文本中推斷出來。
2.2.4 標(biāo)簽傳播算法(LABEL PROPAGATION ALGORITHMS)
標(biāo)簽傳播算法
標(biāo)簽傳播算法(LPAs)是一類基于圖的半監(jiān)督算法,它將標(biāo)簽從有標(biāo)簽的數(shù)據(jù)點(diǎn)傳播到之前沒有標(biāo)簽的數(shù)據(jù)點(diǎn)。LPA是通過在圖上迭代傳播和聚集標(biāo)簽來操作的。在每次迭代中,每個(gè)節(jié)點(diǎn)都會(huì)根據(jù)其鄰居節(jié)點(diǎn)擁有的標(biāo)簽改變其標(biāo)簽。因此,標(biāo)簽信息會(huì)在圖中擴(kuò)散。
應(yīng)用
LPA在網(wǎng)絡(luò)科學(xué)文獻(xiàn)中被廣泛用于發(fā)現(xiàn)復(fù)雜網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu)。在NLP的文獻(xiàn)中,LPA已經(jīng)成功地應(yīng)用于詞義消歧和情感分析。這些應(yīng)用通常集中在標(biāo)記數(shù)據(jù)稀少的半監(jiān)督學(xué)習(xí)環(huán)境中,并利用LPA算法將標(biāo)簽從有限的標(biāo)記例子傳播到大量類似的未標(biāo)記的例子,并假設(shè)類似的例子應(yīng)該有類似的標(biāo)簽。
2.2.5 局限性以及與GNN的聯(lián)系
局限性
首先,它們的表達(dá)能力有限,主要側(cè)重于捕捉圖的結(jié)構(gòu)信息,但不考慮節(jié)點(diǎn)和邊特征,而這些特征對許多NLP的應(yīng)用也非常重要。其次,對于傳統(tǒng)的基于圖的算法,沒有統(tǒng)一的學(xué)習(xí)框架。不同的基于圖的算法有非常不同的屬性和設(shè)置,并且只適用于一些特定的用例。
與GNN的聯(lián)系
傳統(tǒng)基于圖的算法的上述局限性要求建立一個(gè)統(tǒng)一的基于圖的學(xué)習(xí)框架,該框架對圖結(jié)構(gòu)和節(jié)點(diǎn)/邊屬性的建模具有強(qiáng)大的表達(dá)能力。GNN作為一類特殊的神經(jīng)網(wǎng)絡(luò)獲得了越來越多的關(guān)注,它可以為任意的圖結(jié)構(gòu)數(shù)據(jù)建模。大多數(shù)GNN的變體可以被視為一個(gè)基于消息傳遞的學(xué)習(xí)框架。與傳統(tǒng)的基于消息傳遞的算法(如LPA)不同的是,GNN的操作方式是通過幾個(gè)神經(jīng)層對節(jié)點(diǎn)/邊特征進(jìn)行轉(zhuǎn)換、傳播和聚合,從而學(xué)習(xí)更好的圖表示。作為一個(gè)通用的基于圖的學(xué)習(xí)框架,GNNs可以應(yīng)用于各種與圖相關(guān)的任務(wù),如節(jié)點(diǎn)分類、鏈接預(yù)測和圖分類。
3. 圖神經(jīng)網(wǎng)絡(luò)
在上一章中,已經(jīng)說明了各種基于圖的傳統(tǒng)方法在不同的NLP任務(wù)中的應(yīng)用。本章中,將闡述GNNs的基礎(chǔ)理論和方法,能夠直接在圖結(jié)構(gòu)的數(shù)據(jù)上操作。并詳細(xì)介紹了圖濾波器(Spectral-based Graph Filters,Spatial-based Graph Filters,Attention-based Graph Filters,Recurrent-based Graph Filters)和圖池化方法(Flat Graph Pooling,Hierarchical Graph Pooling)。
3.1 Foundations
圖神經(jīng)網(wǎng)絡(luò)本質(zhì)上是圖表示學(xué)習(xí)模型,可以應(yīng)用于節(jié)點(diǎn)級別的任務(wù)和圖級別的任務(wù)。圖神經(jīng)網(wǎng)絡(luò)為圖中的每個(gè)節(jié)點(diǎn)學(xué)習(xí)嵌入,并將節(jié)點(diǎn)嵌入聚集起來產(chǎn)生圖的嵌入。一般來說,節(jié)點(diǎn)嵌入的學(xué)習(xí)過程利用了輸入的節(jié)點(diǎn)嵌入和圖結(jié)構(gòu),可以總結(jié)為:
即輸入鄰居節(jié)矩陣和 層的節(jié)點(diǎn)狀態(tài),可以更新得到下一層的節(jié)點(diǎn)嵌入,不同的模型在于圖濾波器的選擇和參數(shù)。
池化操作來聚合節(jié)點(diǎn)嵌入,以生成圖級別的嵌入。在GNN模型中,圖池化將一個(gè)圖及其節(jié)點(diǎn)嵌入作為輸入,然后生成一個(gè)具有較少節(jié)點(diǎn)的較小的圖及其相應(yīng)的新節(jié)點(diǎn)嵌入。圖池化操作可以總結(jié)為:
3.2 方法
3.2.1 圖濾波器
圖濾波器存在多種實(shí)現(xiàn)方式,大致可分為基于譜域的圖濾波器、基于空間域的圖濾波器、基于注意力的圖濾波器和基于遞歸的圖濾波器。從概念上講,基于譜域的圖濾波器是基于譜圖理論的,而基于空域的方法則是利用圖空間上的鄰居節(jié)點(diǎn)來計(jì)算節(jié)點(diǎn)嵌入。一些基于譜域的圖濾波器可以被轉(zhuǎn)換為基于空間的圖濾波?;谧⒁饬Φ膱D濾波器受到自注意力機(jī)制的啟發(fā),對不同的鄰居節(jié)點(diǎn)分配不同的注意力權(quán)重。基于遞歸的圖濾波器引入了門控機(jī)制,模型參數(shù)在不同的GNN層之間共享。
3.2.2 圖池化
圖池化層用于以圖為重點(diǎn)的下游任務(wù)生成圖級表示,如基于學(xué)習(xí)到的節(jié)點(diǎn)嵌入進(jìn)行圖分類和預(yù)測。圖級別的任務(wù)來說,需要整個(gè)圖的表示。為此,需要對節(jié)點(diǎn)嵌入信息和圖結(jié)構(gòu)信息進(jìn)行總結(jié)。圖池化層可以分為兩類:flat圖池化和分層圖池化。flat圖池化在單個(gè)步驟中直接從節(jié)點(diǎn)嵌入中生成圖級別表示。相比之下,分層圖池化包含幾個(gè)圖池化層。
4. 用于NLP任務(wù)的圖構(gòu)建方法
上一章討論了給定圖輸入時(shí),GNN的基本基礎(chǔ)和方法。不幸的是,對于大多數(shù)NLP任務(wù)來說,典型的輸入是文本序列而不是圖。為了利用GNN的力量,如何從文本序列中構(gòu)建一個(gè)圖輸入成為一個(gè)艱難的步驟。在本章重點(diǎn)介紹兩種主要的圖構(gòu)建方法,即靜態(tài)圖構(gòu)建(Dependency Graph Construction,Constituency Graph Construction,AMR Graph Construction,Discourse Graph Construction,information extraction graph,Discourse Graph Construction,Knowledge Graph Construction,Knowledge Graph Construction,Similarity Graph Construction,Co-occurrence Graph Construction。Topic Graph Construction,App-driven Graph Construction)和動(dòng)態(tài)圖構(gòu)建,此外介紹了多種圖相似度度量準(zhǔn)則,用于構(gòu)建各種NLP任務(wù)中的圖結(jié)構(gòu)輸入。
4.1 靜態(tài)圖構(gòu)建
靜態(tài)圖構(gòu)建方法的目的是在預(yù)處理期間構(gòu)建圖結(jié)構(gòu),通常是利用現(xiàn)有的關(guān)系解析工具(如依存分析)或手動(dòng)定義的規(guī)則。從概念上講,靜態(tài)圖包含了隱藏在原始文本序列中的不同領(lǐng)域/外部知識(shí),它用豐富的結(jié)構(gòu)化信息豐富了原始文本的內(nèi)容。
4.1.1 靜態(tài)圖構(gòu)建方法
依賴圖構(gòu)建(Dependency Graph Construction)
依賴圖被廣泛用于捕捉給定句子中不同對象之間的依賴關(guān)系。從形式上看,給定一個(gè)段落,可以通過使用各種NLP解析工具(例如Stanford CoreNLP)獲得依存分析樹(例如句法依存樹或語義依存關(guān)系樹)。然后,從依存分析樹中提取依賴關(guān)系,并將其轉(zhuǎn)換為依賴性圖。由于給定段落有順序信息,而圖的節(jié)點(diǎn)是無序的,可以引入順序的 link,在圖結(jié)構(gòu)中保留這種重要信息。有代表性的依存圖構(gòu)建方法,給定輸入段和其提取的分析樹,包括三個(gè)關(guān)鍵步驟。1)構(gòu)建依賴關(guān)系,2)構(gòu)建順序關(guān)系,3)最終的圖轉(zhuǎn)換。
成分圖構(gòu)建(Constituency Graph Construction)
成分圖是另一個(gè)廣泛使用的靜態(tài)圖,能夠捕捉一個(gè)或多個(gè)句子中基于短語的句法關(guān)系。與依存分析不同的是,依存分析只關(guān)注單個(gè)詞之間一對一的對應(yīng)關(guān)系(即詞級),而構(gòu)成分析則對一個(gè)或幾個(gè)對應(yīng)詞的組合進(jìn)行建模(即短語級)。首先解釋成分關(guān)系的基本概念,然后說明成分圖的構(gòu)建過程。構(gòu)成圖的例子如圖2所示。
在語言學(xué)中,成分關(guān)系是指遵循短語結(jié)構(gòu)語法的關(guān)系,而不是依存關(guān)系和依存語法。一般來說,成分關(guān)系是由主語(名詞短語NP)— 謂語(動(dòng)詞短語VP)關(guān)系衍生出來的。與依存關(guān)系解析樹不同的是,所有的節(jié)點(diǎn)都有相同的類型,成分分析樹區(qū)分了終端節(jié)點(diǎn)和非終端節(jié)點(diǎn),非終端類別標(biāo)記分析樹的內(nèi)部節(jié)點(diǎn),葉子節(jié)點(diǎn)標(biāo)記為終端類別。節(jié)點(diǎn)集可以表示為:1)非終端節(jié)點(diǎn)集2) 終端節(jié)點(diǎn)集。構(gòu)成關(guān)系集合與樹的邊相關(guān)。成分圖由非終端節(jié)點(diǎn)和終端節(jié)點(diǎn)組成,以及成分邊和序列邊。對于原文中相鄰的每個(gè)單詞節(jié)點(diǎn)對,在它們之間添加一條具有特定序列類型的無向邊,用來保留順序信息。
抽象語義表示圖構(gòu)建(AMR Graph Construction)
AMR圖是有根、有標(biāo)注、有向、無環(huán)的圖,它被廣泛用于表示非結(jié)構(gòu)化的具體自然文本的抽象概念之間的高級語義關(guān)系。與句法上的特異性不同,AMR是高層次的語義抽象。更具體地說,在語義上相似的不同句子可能共享相同的AMR解析結(jié)果,例如,"保羅描述自己是一個(gè)戰(zhàn)士 "和 "保羅對自己的描述:一個(gè)戰(zhàn)士",如圖3所示。與之前介紹的依賴樹和成分樹類似,AMR圖是由AMR解析樹衍生出來的。
信息抽取圖構(gòu)建(Information Extraction Graph Construction)
信息抽取圖(IE Graph)旨在提取結(jié)構(gòu)信息來表示自然句子之間的高級信息,例如基于文本的文檔。這些提取出來的關(guān)系,捕捉到遠(yuǎn)距離句子之間的關(guān)系,在許多NLP任務(wù)中很有幫助。在下文中,為給定段落構(gòu)建IE圖的過程分為三個(gè)基本步驟。1)指代消解,2)構(gòu)建IE關(guān)系,3)圖的構(gòu)建。
話語圖構(gòu)建(Discourse Graph Construction)
當(dāng)候選文檔太長時(shí),許多NLP任務(wù)會(huì)受到長距離依賴性的挑戰(zhàn)。話語圖描述了兩個(gè)句子之間的邏輯聯(lián)系,可以有效地解決這種挑戰(zhàn)。
知識(shí)圖譜構(gòu)建(Knowledge Graph Construction)
捕捉實(shí)體和關(guān)系的知識(shí)圖譜(KG)可以大大促進(jìn)許多NLP應(yīng)用中的學(xué)習(xí)和推理。KG可以表示為G(V, E),它通常由知識(shí)庫中的元素構(gòu)建。形式上,定義三元組作為知識(shí)庫的基本元素,包括是源實(shí)體,目標(biāo)實(shí)體和關(guān)系類型。然后,在知識(shí)庫中添加兩個(gè)節(jié)點(diǎn),即源節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn),并從節(jié)點(diǎn)v1到節(jié)點(diǎn)v2添加一條邊類型為rel的有向邊。
構(gòu)建KG的第一件事是獲取給定查詢中的術(shù)語實(shí)例。然后,通過一些匹配算法(如最大子串匹配)將術(shù)語實(shí)例與KG中的概念聯(lián)系起來。這些概念被看作是提取的子圖中的初始節(jié)點(diǎn)。下一步是獲取初始節(jié)點(diǎn)在KG中的1跳鄰居。此外,人們可以通過應(yīng)用一些圖節(jié)點(diǎn)相關(guān)性模型,如個(gè)性化的PageRank(PPR)算法,來計(jì)算鄰居與初始節(jié)點(diǎn)的相關(guān)性。然后根據(jù)結(jié)果,進(jìn)一步修剪出相關(guān)性分?jǐn)?shù)低于置信度閾值的邊,并刪除孤立的鄰居。剩余的最終子圖隨后被用來給任何圖表示學(xué)習(xí)模塊提供信息。
共指圖構(gòu)建(Coreference Graph Construction)
在語言學(xué)中,當(dāng)某個(gè)段落中的兩個(gè)或多個(gè)術(shù)語指代同一個(gè)對象時(shí),就會(huì)出現(xiàn)共指。許多工作表明,這種現(xiàn)象有助于更好地理解語料庫的復(fù)雜結(jié)構(gòu)和邏輯,解決歧義。為了有效地利用共指信息,共指圖用來顯式的建模隱性共指關(guān)系。給定一組短語,共指圖可以連接文本語料庫中指代同一實(shí)體的節(jié)點(diǎn)(短語)。
相似圖構(gòu)建(Similarity Graph Construction)
相似性圖旨在量化節(jié)點(diǎn)之間的相似性,在許多NLP任務(wù)中被廣泛使用。由于相似性圖通常是面向應(yīng)用的,因此我們重點(diǎn)關(guān)注構(gòu)建實(shí)體、句子和文檔等各種類型元素的相似性圖的基本程序,而忽略了具體的應(yīng)用細(xì)節(jié)。相似性圖的構(gòu)建是在預(yù)處理過程中進(jìn)行的,而不是以端到端的方式與其余學(xué)習(xí)系統(tǒng)共同訓(xùn)練。圖6中顯示了一個(gè)相似性圖的例子。
共現(xiàn)圖構(gòu)建(Co-occurrence Graph Construction)
共現(xiàn)圖旨在捕捉文本中詞與詞之間的共現(xiàn)關(guān)系,這在許多NLP任務(wù)中被廣泛使用,共現(xiàn)關(guān)系描述了在固定大小的上下文窗口內(nèi)共同出現(xiàn)的兩個(gè)詞的頻率,是捕捉語料庫中詞之間語義關(guān)系的一個(gè)重要特征。共現(xiàn)圖的例子見圖7。
話題圖構(gòu)建(Topic Graph Construction)
話題圖是建立在幾個(gè)文檔上的,其目的是對不同話題之間的高層次語義關(guān)系進(jìn)行建模。給定一組文檔,首先用一些話題建模算法,如LDA,學(xué)習(xí)潛在的話題。然后構(gòu)建話題圖,只有當(dāng)文檔具有該話題時(shí),那么在文檔節(jié)點(diǎn)和話題節(jié)點(diǎn)之間構(gòu)建一條無向邊。
應(yīng)用驅(qū)動(dòng)圖構(gòu)建(App-driven Graph Construction)
應(yīng)用驅(qū)動(dòng)圖指的是為特定的NLP任務(wù)專門設(shè)計(jì)的圖。在一些NLP任務(wù)中,用特定應(yīng)用的方法通過結(jié)構(gòu)化的形成來表示非結(jié)構(gòu)化的數(shù)據(jù)是很常見的。例如,SQL語言可以自然地通過SQL解析樹來表示。因此,它可以被轉(zhuǎn)換為SQL圖。由于這些圖在領(lǐng)域知識(shí)的基礎(chǔ)上過于專業(yè)化,所以沒有統(tǒng)一的模式來總結(jié)如何建立一個(gè)應(yīng)用驅(qū)動(dòng)的圖。圖9是這種應(yīng)用驅(qū)動(dòng)圖的一個(gè)例子,如SQL圖。
4.1.2 混合圖構(gòu)建和討論
以前的大多數(shù)靜態(tài)圖構(gòu)建方法只考慮節(jié)點(diǎn)之間的一種特定關(guān)系。盡管得到的圖在某種程度上很好地捕捉了結(jié)構(gòu)信息,但它們在利用不同類型的圖關(guān)系方面也是有限的。為了解決這一局限性,人們越來越關(guān)注通過將幾個(gè)圖組合在一起構(gòu)建混合圖,以豐富圖中的語義信息。
4.2 動(dòng)態(tài)圖構(gòu)建
盡管靜態(tài)圖的構(gòu)建具有將數(shù)據(jù)的先驗(yàn)知識(shí)編碼到圖結(jié)構(gòu)中的優(yōu)勢,但它有幾個(gè)局限性:1)為了構(gòu)建一個(gè)性能合理的圖的拓?fù)浣Y(jié)構(gòu),需要大量的人力和領(lǐng)域知識(shí);2)人工構(gòu)建的圖結(jié)構(gòu)可能容易出錯(cuò)(例如,有噪音或不完整);3)由于圖構(gòu)建階段和圖表示學(xué)習(xí)階段是不相干的,在圖構(gòu)建階段引入的錯(cuò)誤不能被糾正,可能會(huì)累積到后面的階段,這可能導(dǎo)致性能下降。4)圖的構(gòu)建過程往往只由機(jī)器學(xué)習(xí)從業(yè)者的見解來決定,對于下游的預(yù)測任務(wù)來說可能是次優(yōu)的。
為了應(yīng)對上述挑戰(zhàn),最近關(guān)于NLP的GNN的嘗試(Chen等人,2020e,f;Liu等人,2021b,2019c)開始探索動(dòng)態(tài)圖的構(gòu)建,而不需要借助人工或領(lǐng)域?qū)I(yè)知識(shí)。大多數(shù)動(dòng)態(tài)圖構(gòu)建方法旨在動(dòng)態(tài)學(xué)習(xí)圖結(jié)構(gòu)(即加權(quán)鄰接矩陣),圖構(gòu)建模塊可以與后續(xù)的圖表示學(xué)習(xí)模塊共同優(yōu)化,以端到端的方式面向下游任務(wù)。如圖10所示,這些動(dòng)態(tài)圖構(gòu)建方法通常包括一個(gè)圖相似性度量學(xué)習(xí)組件,用于通過考慮嵌入空間中的成對節(jié)點(diǎn)相似性來學(xué)習(xí)鄰接矩陣,以及一個(gè)圖稀疏化組件,用于從學(xué)到的全連接圖中提取稀疏圖。將固有的圖結(jié)構(gòu)和學(xué)習(xí)到的隱含圖結(jié)構(gòu)結(jié)合起來,有利于提高學(xué)習(xí)性能。此外,為了有效地進(jìn)行圖結(jié)構(gòu)和表征的聯(lián)合學(xué)習(xí),人們提出了各種學(xué)習(xí)范式。GNN的圖結(jié)構(gòu)學(xué)習(xí)本身就是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)趨勢性研究問題,并且已經(jīng)在NLP之外被廣泛研究然而,在本綜述將重點(diǎn)介紹其在NLP領(lǐng)域的最新進(jìn)展,將動(dòng)態(tài)圖構(gòu)建和圖結(jié)構(gòu)學(xué)習(xí)交替使用。
4.2.1 圖相似度度量技術(shù)
基于節(jié)點(diǎn)屬性包含學(xué)習(xí)隱式圖結(jié)構(gòu)的有用信息的假設(shè),最近有工作將圖結(jié)構(gòu)學(xué)習(xí)問題作為定義在節(jié)點(diǎn)嵌入空間的相似度量學(xué)習(xí)問題。學(xué)習(xí)到的相似性度量函數(shù)以后可以應(yīng)用于未見過的節(jié)點(diǎn)嵌入集來推斷圖結(jié)構(gòu),從而實(shí)現(xiàn)歸納式圖結(jié)構(gòu)學(xué)習(xí)。對于部署在像圖這樣的非歐幾里得領(lǐng)域的數(shù)據(jù),歐幾里得距離不一定是衡量節(jié)點(diǎn)相似性的最佳指標(biāo)。各種相似性度量函數(shù)已用于GNN的圖結(jié)構(gòu)學(xué)習(xí)。根據(jù)所利用的信息源的類型,將這些度量函數(shù)分為兩類:基于節(jié)點(diǎn)嵌入的相似性度量學(xué)習(xí)和結(jié)構(gòu)感知的相似性度量學(xué)習(xí)。
基于節(jié)點(diǎn)嵌入的相似度度量學(xué)習(xí)
基于節(jié)點(diǎn)嵌入的相似性度量函數(shù)被設(shè)計(jì)為通過計(jì)算嵌入空間中的成對節(jié)點(diǎn)相似性來學(xué)習(xí)加權(quán)鄰接矩陣。常見的度量函數(shù)包括基于注意力的度量函數(shù)和基于余弦的度量函數(shù)。
基于注意力機(jī)制的相似度度量函數(shù)
迄今為止提出的大多數(shù)相似性度量函數(shù)都是基于注意力機(jī)制的。為了提高基于點(diǎn)積的注意力機(jī)制的學(xué)習(xí)能力,Chen等人通過引入可學(xué)習(xí)的參數(shù),提出了一個(gè)改良的點(diǎn)積,表述如下:
是一個(gè)非負(fù)的權(quán)重向量,提升節(jié)點(diǎn)嵌入不同維度的影響力。
Chen et al. 通過引入一個(gè)可學(xué)習(xí)的權(quán)重矩陣設(shè)計(jì)了一個(gè)更具有表達(dá)能力的點(diǎn)積方式:
Chen等人(2020e)將vanilla余弦相似度擴(kuò)展為多頭加權(quán)余弦相似度,以從多個(gè)角度捕捉成對的節(jié)點(diǎn)相似度,如下:
基于Cosine相似度的度量函數(shù)
Chen等人(2020e)將香vanilla余弦相似性擴(kuò)展為多頭加權(quán)余弦相似性,以從多個(gè)角度捕捉成對節(jié)點(diǎn)的相似性:
結(jié)構(gòu)感知的相似度學(xué)習(xí)
受結(jié)構(gòu)感知 transformers 的啟發(fā),最近的方法采用了結(jié)構(gòu)感知的相似性度量函數(shù),在節(jié)點(diǎn)信息之外還額外考慮了內(nèi)在圖的現(xiàn)有邊信息。例如,Liu等人(2019c)提出了一個(gè)學(xué)習(xí)成對節(jié)點(diǎn)相似性的結(jié)構(gòu)感知注意機(jī)制,如下:
是邊的嵌入表示。Liu et al. (2021b) 提出了結(jié)構(gòu)感知的全局注意力機(jī)制:
4.2.2 圖稀疏化技術(shù)
現(xiàn)實(shí)世界中的大多數(shù)圖都是稀疏的圖。相似性度量函數(shù)考慮任何一對節(jié)點(diǎn)之間的關(guān)系,并返回一個(gè)完全連接的圖,這不僅計(jì)算成本高,而且還可能引入噪音,如不重要的邊。因此,對所學(xué)的圖結(jié)構(gòu)明確地強(qiáng)制執(zhí)行稀疏性是有益的。除了在相似度量函數(shù)中應(yīng)用ReLU函數(shù),還采用了各種圖稀疏化技術(shù)來提高所學(xué)圖形結(jié)構(gòu)的稀疏性。
Chen等人(2020f,d)應(yīng)用kNN式的稀疏化操作,從相似度學(xué)習(xí)函數(shù)計(jì)算的節(jié)點(diǎn)相似度矩陣中獲得稀疏的鄰接矩陣:
其中,對于每個(gè)節(jié)點(diǎn),只保留K個(gè)最近的鄰居(包括它自己)和相關(guān)的相似度分?jǐn)?shù),其余的相似度分?jǐn)?shù)被屏蔽掉。Chen等人(2020e)通過只考慮每個(gè)節(jié)點(diǎn)的ε-鄰居來執(zhí)行稀疏的鄰接矩陣:
其中,S中小于非負(fù)閾值ε的元素全部被屏蔽掉(即設(shè)置為零)。
4.2.3 結(jié)合INTRINSIC圖結(jié)構(gòu)和隱式圖結(jié)構(gòu)
最近的研究表明,如果在進(jìn)行動(dòng)態(tài)圖構(gòu)建時(shí)完全丟棄內(nèi)在圖結(jié)構(gòu),可能會(huì)損害下游任務(wù)的性能。這可能是因?yàn)?intrinsic 圖通常仍然帶有關(guān)于下游任務(wù)的最佳圖結(jié)構(gòu)的豐富和有用的信息。因此,他們提出將學(xué)習(xí)到的隱式圖結(jié)構(gòu)與intrinsic圖結(jié)構(gòu)結(jié)合起來,基于這樣的假設(shè):學(xué)習(xí)到的隱式圖有可能是intrinsic圖結(jié)構(gòu)的 "轉(zhuǎn)變"(例如,子結(jié)構(gòu)),是對intrinsic圖結(jié)構(gòu)的補(bǔ)充。另一個(gè)潛在的好處是納入intrinsic圖結(jié)構(gòu)可能有助于加速訓(xùn)練過程,提高訓(xùn)練的穩(wěn)定性。
4.2.4 學(xué)習(xí)范式
大多數(shù)現(xiàn)有的GNN動(dòng)態(tài)圖構(gòu)建方法包括兩個(gè)關(guān)鍵的學(xué)習(xí)組件:圖結(jié)構(gòu)學(xué)習(xí)(即相似性度量學(xué)習(xí))和圖表示學(xué)習(xí)(即GNN模塊),最終目標(biāo)是學(xué)習(xí)與某些下游預(yù)測任務(wù)相關(guān)的優(yōu)化圖結(jié)構(gòu)和表示。如何優(yōu)化這兩個(gè)獨(dú)立的學(xué)習(xí)組件以達(dá)到相同的最終目標(biāo)成為一個(gè)重要問題。這里我們強(qiáng)調(diào)三個(gè)有代表性的學(xué)習(xí)范式。1)最直接的策略(Chen等人,2020f,d;Liu等人,2021b)是以端到端的方式聯(lián)合優(yōu)化整個(gè)學(xué)習(xí)系統(tǒng),以實(shí)現(xiàn)下游(半)監(jiān)督預(yù)測任務(wù);2)另一個(gè)常見的策略(Yang等人,2018b;Liu等人,2019c;Huang等人,2020a)是自適應(yīng)學(xué)習(xí)每個(gè)堆疊GNN層的輸入圖結(jié)構(gòu)以反映中間圖表示的變化。這類似于transformer 如何在每一層學(xué)習(xí)不同的加權(quán)全連接圖;3)與上述兩種范式不同,Chen等人(2020e)提出了一個(gè)迭代式的圖學(xué)習(xí)框架,即在更好的圖表示的基礎(chǔ)上學(xué)習(xí)更好的圖結(jié)構(gòu),同時(shí)以迭代的方式學(xué)習(xí)更好的圖表示。因此,這種迭代學(xué)習(xí)范式反復(fù)完善圖結(jié)構(gòu)和圖表示,以達(dá)到最佳的下游性能。
5. 用于NLP的圖表示學(xué)習(xí)
上一章介紹了各種圖構(gòu)建方法,包括靜態(tài)圖構(gòu)建和動(dòng)態(tài)圖構(gòu)建。本章將討論各種圖表示學(xué)習(xí)技術(shù),這些技術(shù)直接在構(gòu)建的圖上操作,用于各種NLP任務(wù)。圖表示學(xué)習(xí)的目標(biāo)是找到一種方法,通過機(jī)器學(xué)習(xí)模型將圖的結(jié)構(gòu)和屬性信息納入低維嵌入。一般來說,從原始文本數(shù)據(jù)構(gòu)建的圖可能是同質(zhì)圖或異質(zhì)圖。因此,在第5.1節(jié)中,將討論同質(zhì)圖的各種圖表示學(xué)習(xí)方法,包括原始同質(zhì)圖和一些從異質(zhì)圖轉(zhuǎn)換過來的方案。在第5.2節(jié),將討論基于GNN的作用于多關(guān)系圖的方法,在第5.3節(jié),討論處理異質(zhì)圖的GNN。
數(shù)學(xué)上表示任意圖 , 是節(jié)點(diǎn)集合, 是邊集合, 是節(jié)點(diǎn)類型結(jié)合, 是邊的類型集合, 是任意元素的個(gè)數(shù), 是節(jié)點(diǎn)類型的指示函數(shù)( 表示節(jié)點(diǎn) 的類型), 是邊類型的指示函數(shù)。
5.1 GNNs for Homogeneous Graphs
根據(jù)定義,對于圖 ,當(dāng)滿足被稱為同質(zhì)圖。大多數(shù)圖神經(jīng)網(wǎng)絡(luò),如GCN、GAT和GraphSage,都是為同質(zhì)圖設(shè)計(jì)的,然而,這并不能很好地適配許多NLP任務(wù)。例如,給定一個(gè)自然語言文本,構(gòu)建的依賴圖是包含多種關(guān)系的任意圖,傳統(tǒng)的GNN方法無法直接利用。因此,在本小節(jié)中,將首先討論將任意圖轉(zhuǎn)換為同質(zhì)圖的各種策略,包括靜態(tài)圖和動(dòng)態(tài)圖。然后,討論考慮雙向編碼的圖神經(jīng)網(wǎng)絡(luò)。
5.1.1 靜態(tài)圖
處理靜態(tài)圖的GNN通常包括兩個(gè)階段,即轉(zhuǎn)換邊信息和節(jié)點(diǎn)表示學(xué)習(xí)。
將邊信息轉(zhuǎn)換為相鄰矩陣
邊被看作是節(jié)點(diǎn)之間的連接信息。在這種情況下,丟棄邊類型信息,保留連接信息,將異質(zhì)圖轉(zhuǎn)換成同質(zhì)圖。得到這樣的圖后,可以將圖的拓?fù)浣Y(jié)構(gòu)表示為統(tǒng)一的鄰接矩陣A。有向圖可以通過平均兩個(gè)方向的邊權(quán)重轉(zhuǎn)化為無向圖。邊權(quán)重被重新縮放,其最大邊緣權(quán)重為1,然后再送入GNN。
節(jié)點(diǎn)表示學(xué)習(xí)
給定初始節(jié)點(diǎn)嵌入X和鄰接矩陣A,基于經(jīng)典的GNNs技術(shù)提取節(jié)點(diǎn)表示。對于無向圖,大多數(shù)工作主要采用圖表示學(xué)習(xí)算法,如GCN、GGNN、GAT、GraphSage等,并將它們堆疊起來,探索圖中的深層語義關(guān)聯(lián)。當(dāng)涉及到有向圖時(shí),少數(shù)GNN方法如GGNN、GAT仍然有效。而對于其他不能直接應(yīng)用于有向圖的GNN,簡單的策略是忽略方向(即把有向圖轉(zhuǎn)換為無向圖)。然而,這種方法允許信息在沒有約束的情況下雙向傳播。為了解決這個(gè)問題,人們做了很多努力來使GNN適應(yīng)于有向圖。對于GCN,一些基于空間的GCN算法是為有向圖設(shè)計(jì)的,如DCNN。GraphSage通過修改聚合函數(shù),通過指定邊方向并分別聚合,可以很容易地?cái)U(kuò)展到有向圖上。
5.1.2 動(dòng)態(tài)圖
動(dòng)態(tài)圖旨在與下游任務(wù)共同學(xué)習(xí)圖結(jié)構(gòu)。早期的工作主要采用遞歸網(wǎng)絡(luò),將圖節(jié)點(diǎn)嵌入作為RNN的狀態(tài)編碼,這可以看作是GGNN的雛形。然后,經(jīng)典的GNN如GCN、GAT、GGNN 被用來有效地學(xué)習(xí)圖嵌入。最近的研究者采用基于注意力或基于度量學(xué)習(xí)的機(jī)制,從非結(jié)構(gòu)化文本中學(xué)習(xí)隱含的圖結(jié)構(gòu)。圖結(jié)構(gòu)的學(xué)習(xí)過程是通過端到端的方式與下游任務(wù)共同進(jìn)行的。
5.1.3 雙向圖嵌入
前面介紹了從靜態(tài)同質(zhì)圖中構(gòu)建和學(xué)習(xí)節(jié)點(diǎn)嵌入的典型技術(shù)。在本小節(jié)中,詳細(xì)討論了如何處理邊方向。在現(xiàn)實(shí)中,許多圖都是有向無環(huán)圖(DAG),其信息是沿著特定的邊方向傳播的。一些研究者允許信息在兩個(gè)方向上平等傳播,另一些研究者則拋棄了包含在出邊中的信息,這兩種情況對于最終的表示學(xué)習(xí)會(huì)損失一些重要結(jié)構(gòu)信息。為了解決這個(gè)問題,提出了雙向圖神經(jīng)網(wǎng)絡(luò)(bidirectional GNN),以交錯(cuò)的方式從傳入和傳出的邊上學(xué)習(xí)節(jié)點(diǎn)表示。
5.2 用于多關(guān)系圖的GNN
現(xiàn)實(shí)中許多圖都有各種邊類型,如知識(shí)圖、AMR圖等,代表和學(xué)習(xí)多關(guān)系圖,當(dāng)|R|>1并且|T|=1時(shí),被定義為多關(guān)系圖。在本節(jié)中將介紹不同的技術(shù),這些技術(shù)可以表示和學(xué)習(xí)多關(guān)系圖。
5.2.1 多關(guān)系圖的形成
由于異質(zhì)圖在NLP領(lǐng)域普遍存在,如知識(shí)圖譜、AMR圖等,大多數(shù)研究者提出將其轉(zhuǎn)換為多關(guān)系圖,可以通過5.2.2小節(jié)和5.2.3小節(jié)的關(guān)系GNN學(xué)習(xí),多關(guān)系圖表示為 , 并且 . 為了獲得多關(guān)系圖,技術(shù)上我們忽略了節(jié)點(diǎn)類型,設(shè)置初始邊的類型為"default",對于每一個(gè)邊,為其添加一個(gè)逆向邊,類型為"reverse",并為每個(gè)節(jié)點(diǎn)添加自環(huán)"self',因此就獲得了多關(guān)系圖: 且 .
5.2.2 多關(guān)系GNNs
多關(guān)系GNN是經(jīng)典GNN對多關(guān)系圖的擴(kuò)展,其節(jié)點(diǎn)類型相同,但邊類型不同。它們最初是用來編碼特定關(guān)系圖的,如知識(shí)圖譜和解析圖,這些圖在相同類型的節(jié)點(diǎn)之間有復(fù)雜的關(guān)系。一般來說,大多數(shù)多關(guān)系GNN采用特定類型的參數(shù)對關(guān)系進(jìn)行單獨(dú)建模。經(jīng)典的方法有:R-GCN、R-GGNN 和 R-GAT。
R-GCN
R-GCN是消息傳遞GCN框架的自然延伸,該框架在局部圖鄰域運(yùn)行,根據(jù)標(biāo)簽類型對傳入的節(jié)點(diǎn)進(jìn)行分組,然后對每一組分別應(yīng)用消息傳遞。因此,節(jié)點(diǎn)vi的鄰居節(jié)點(diǎn)的聚合過程被定義為:
R-GGNN
關(guān)系型GGNN最初是用于graph-to-sequence問題,它能夠捕捉到長距離的關(guān)系。與R-GCN類似,R-GGNN使用特定關(guān)系的權(quán)重來更好地捕捉節(jié)點(diǎn)之間特定關(guān)系的相關(guān)性。R-GGNN的傳播過程可以概括為:
R-GAT
Wang等人提出擴(kuò)展經(jīng)典的GAT以適應(yīng)多關(guān)系圖。直觀地說,具有不同關(guān)系的鄰居節(jié)點(diǎn)應(yīng)該具有不同的影響力。Wang等人(2020b)提出用額外的關(guān)系頭來擴(kuò)展同質(zhì)GAT。從技術(shù)上講,他們提出的關(guān)系結(jié)點(diǎn)表示為:
Gating Mechanism
多關(guān)系圖神經(jīng)網(wǎng)絡(luò)在堆疊若干層以利用遠(yuǎn)處鄰居之間的隱性關(guān)聯(lián)時(shí)也面臨過平滑問題。為了解決這個(gè)問題,在多關(guān)系圖神經(jīng)網(wǎng)絡(luò)中引入了門控機(jī)制,即通過門控將節(jié)點(diǎn)的輸入特征和聚合特征結(jié)合起來。直觀地說,門控機(jī)制可以被看作是原始信號和學(xué)習(xí)到的信息之間的權(quán)衡。它調(diào)節(jié)了多少更新信息被傳播到下一步,從而防止模型徹底覆蓋過去的信息。這里以經(jīng)典的R-GCN為例來介紹門控機(jī)制,它實(shí)際上可以擴(kuò)展到任意的變體。激活之前的表示為:
其中 表示聚合函數(shù)。最終,節(jié)點(diǎn)的最終表示是先前嵌入和GNN輸出表示 的門控組合:
為門向量。
5.2.3 GRAPH TRANSFORMER
Transformer 架構(gòu)在NLP領(lǐng)域取得了巨大成功,transformer的自注意力機(jī)制是全連接隱式圖學(xué)習(xí)的一個(gè)特殊程序,因此GNN和transformer 的概念產(chǎn)生了連接。然而,傳統(tǒng)的 transformer 未能利用結(jié)構(gòu)信息。在GAT的啟發(fā)下,許多文獻(xiàn)通過開發(fā)結(jié)構(gòu)感知的自注意力機(jī)制,將結(jié)構(gòu)信息納入transformer。
self-attention
在本節(jié)中,將討論多關(guān)系圖的結(jié)構(gòu)感知自注意力技術(shù)。對自注意力機(jī)制作一個(gè)簡單的回顧,省略了多頭機(jī)制,只介紹自注意的功能,自注意力的輸入為:,輸出表示 為:
對于圖 transformer 來說,查詢、鍵和值都是指節(jié)點(diǎn)的嵌入:即 。有各種結(jié)合了結(jié)構(gòu)知識(shí)的關(guān)系圖的圖 transformer,根據(jù)自注意力的功能可以分為兩類。一類是基于R-GAT的方法,它采用類似關(guān)系GAT的特征聚合方式。另一類是保留全連接圖,同時(shí)將結(jié)構(gòu)感知的關(guān)系信息納入到自注意功能中。
R-GAT Based Graph Transformer
基于GAT的圖 transformer采用了類似GAT的特征聚合,它利用了圖連接性的歸納偏置。在技術(shù)上,首先用特定類型的聚合步驟聚合鄰居,然后通過前饋層進(jìn)行融合,具體如下:
Structure-aware Self-attention Based Graph Transformer
與基于R-GAT的圖transformer純粹依靠給定的圖結(jié)構(gòu)不同,基于結(jié)構(gòu)感知的自注意的圖transformer保留了原有的自注意架構(gòu),允許非鄰接節(jié)點(diǎn)的通信。首先討論結(jié)構(gòu)感知的自我注意機(jī)制,然后介紹其獨(dú)特的邊嵌入表示法。
Shaw等人嘗試對神經(jīng)機(jī)器翻譯任務(wù)中詞(節(jié)點(diǎn))之間的相對關(guān)系進(jìn)行建模。在技術(shù)上,他們在計(jì)算節(jié)點(diǎn)相似度時(shí)考慮了關(guān)系嵌入:
受Shaw等人(2018)的啟發(fā),Xiao等提出擴(kuò)展傳統(tǒng)的自注意力架構(gòu),將隱空間中節(jié)點(diǎn)對之間的關(guān)系嵌入顯式編碼為:
為了采用雙向關(guān)系,Cai和Lam(2020c)對傳統(tǒng)的自注意力進(jìn)行了如下擴(kuò)展:
給定每種關(guān)系上學(xué)習(xí)到的注意力,邊的嵌入表示是納入結(jié)構(gòu)信息的下一個(gè)關(guān)鍵步驟。Shaw等人(2018)簡單地學(xué)習(xí)了相對位置編碼,即節(jié)點(diǎn)的絕對位置。從技術(shù)上講,他們采用了個(gè)潛在標(biāo)簽 ,并映射對節(jié)點(diǎn)對 ,將 到一個(gè)特定的標(biāo)簽嵌入,從而得到邊的嵌入。
Zhu等人(2019b);Cai和Lam(2020c)通過從節(jié)點(diǎn)到節(jié)點(diǎn) 的路徑來學(xué)習(xí)邊的表示。Zhu等人(2019b)將路徑視為一個(gè)字符串,將其添加到詞匯表中,使其向量化。還進(jìn)一步提出了其他方法來學(xué)習(xí)標(biāo)簽沿路徑的嵌入,例如:1)取平均值,2)求和,3)用自注意力來編碼,4)用CNN濾波器來編碼。Cai和Lam(2020c)提出了基于最短路徑的關(guān)系編碼器。具體來說,他們首先沿著路徑獲取標(biāo)簽的嵌入序列。然后,他們采用雙向的GRU進(jìn)行序列編碼。前向和后向GRU網(wǎng)絡(luò)的最后一個(gè)隱藏狀態(tài)最終被連接起來以表示關(guān)系嵌入。
5.3 Graph Neural Networks for Heterogeneous Graph
現(xiàn)實(shí)中的大多數(shù)圖有多種節(jié)點(diǎn)和邊的類型,如知識(shí)圖譜,AMR圖,它們被稱為異質(zhì)圖。從形式上看,對于一個(gè)圖G,滿足 或者 1,那么稱其為異質(zhì)圖。除了將異質(zhì)圖轉(zhuǎn)化為關(guān)系圖外,如上一小節(jié)所介紹的,有時(shí)還需要充分利用節(jié)點(diǎn)和邊的類別信息。因此,在第5.3.1小節(jié)中,首先介紹了異質(zhì)圖的預(yù)處理技術(shù)。然后,在第5.3.2和5.3.3小節(jié)中,將介紹兩種專門針對異質(zhì)圖的典型圖表示學(xué)習(xí)方法。
5.3.1 LEVI 圖轉(zhuǎn)換技術(shù)
由于大多數(shù)現(xiàn)有的GNN方法只針對同質(zhì)條件而設(shè)計(jì),在處理大量的邊類型時(shí),會(huì)有大量的計(jì)算負(fù)擔(dān)(例如,一個(gè)AMR圖可能包含100多種邊類型),因此,在異質(zhì)圖中有效的做法是將邊視為節(jié)點(diǎn)。最重要的圖轉(zhuǎn)換技術(shù)是Levi Graph Transformation,對于每一個(gè)具有特定標(biāo)簽的邊,生成一個(gè)新的節(jié)點(diǎn)。得到的圖是一個(gè)簡化的異質(zhì)levi圖,它具有單一的邊類型,但節(jié)點(diǎn)類型不受限制,然后可以由第5.3小節(jié)中描述的異質(zhì)GNN進(jìn)行學(xué)習(xí)。
5.3.2 基于元路徑的異質(zhì) GNN
Meta-path
元路徑是連接兩個(gè)對象的復(fù)合關(guān)系,是一種廣泛使用的捕捉語義的結(jié)構(gòu)。以電影數(shù)據(jù)IMDB為例,有三種類型的節(jié)點(diǎn),包括電影、演員和導(dǎo)演。元路徑Movie → Actor →Movie,涵蓋了兩部電影和一個(gè)演員,描述了co-actor的關(guān)系。因此,異質(zhì)圖中節(jié)點(diǎn)之間的不同關(guān)系可以很容易地通過元路徑展示出來。首先提供了異質(zhì)圖的meta-level 描述,以便更好地理解。
遵循異質(zhì)信息網(wǎng)絡(luò)(HIN)的設(shè)定,給出了網(wǎng)絡(luò)模式的概念。網(wǎng)絡(luò)模式是異質(zhì)圖的元模板:節(jié)點(diǎn)類型的映射 以及邊類型的映射 ,將其表示為 ,網(wǎng)絡(luò)模式上的元路徑表示為:, 是模式的節(jié)點(diǎn), 是對應(yīng)的關(guān)系節(jié)點(diǎn)。元路徑集合為 ,將其表示為。元路徑是網(wǎng)絡(luò)模式上的一條路徑,表示為異質(zhì)圖G(V, E)的節(jié)點(diǎn)類型映射。V→T和邊類型映射。對于每一個(gè)元路徑上的節(jié)點(diǎn) ,表示為。然后將網(wǎng)絡(luò)模式與異質(zhì)如圖結(jié)合起來,對于每一個(gè)異質(zhì)圖的節(jié)點(diǎn)以及一個(gè)元路徑 ,定義基于元路徑的鄰居為,其中包含所有節(jié)點(diǎn),包括由元路徑 鏈接的自己。在概念上,鄰居集可以有多跳節(jié)點(diǎn),這取決于元路徑的長度。
大多數(shù)基于元路徑的GNN方法采用基于注意力的聚合策略。從技術(shù)上講,它們一般可以分為兩個(gè)階段。1)沿著每條元路徑聚合鄰居,這可以被稱為 "節(jié)點(diǎn)級聚集"。在這之后,節(jié)點(diǎn)通過不同的元路徑接收鄰居的信息;2)接下來,應(yīng)用元路徑級別的注意力機(jī)制來學(xué)習(xí)不同元路徑的語義影響。通過這種方式,他們可以學(xué)習(xí)由多條元路徑連接的鄰居的最佳組合。
HAN
由于圖中節(jié)點(diǎn)的異質(zhì)性,不同的節(jié)點(diǎn)具有不同的特征空間,這給GNN處理各種初始節(jié)點(diǎn)嵌入帶來了很大挑戰(zhàn)。為解決這一問題,采用特定類型的變換,將各種節(jié)點(diǎn)投射到統(tǒng)一的特征空間:
Node-level Aggregation:對于在元路徑上,節(jié)點(diǎn)的鄰居節(jié)點(diǎn)集合,節(jié)點(diǎn)特征的聚合過程可以表示為:
Meta-path Level Aggregation:一般來說,不同的元路徑傳達(dá)了不同的語義信息。為此,旨在學(xué)習(xí)每個(gè)元路徑的重要性:從技術(shù)上講,對于每條元路徑,首先學(xué)習(xí)每個(gè)節(jié)點(diǎn)的語義級重要性。然后對它們進(jìn)行平均,得到元路徑級別的重要性:最終獲得節(jié)點(diǎn)表示:
5.3.3 基于R-GNN的異質(zhì)GNN
盡管元路徑是組織異質(zhì)圖的有效工具,但它需要額外的領(lǐng)域?qū)<抑R(shí)。為此,大多數(shù)研究人員通過使用特定類型的聚合,采用了R-GNN的類似想法。為了清楚起見,本文將這些方法命名為基于R-GNN的異質(zhì)GNN,并在下文中介紹這一類的幾個(gè)典型變體。
HGAT
HGAT(Linmei等人,2019)被提出用于編碼包含各種節(jié)點(diǎn)類型但單一邊類型的異質(zhì)圖。換句話說,邊只代表連接性。對于一個(gè)特定的節(jié)點(diǎn),不同類型的鄰居可能有不同的相關(guān)性。為了充分利用多樣化的結(jié)構(gòu)信息,HGAT首先專注于全局類型的相關(guān)性學(xué)習(xí),然后學(xué)習(xí)具體節(jié)點(diǎn)的表示。
MHGRN
MHGRN(Feng等人,2020b)是R-GCN的一個(gè)擴(kuò)展,它可以直接在異質(zhì)圖上利用多跳信息。一般來說,它借助關(guān)系路徑(如元路徑)的思想來建模兩個(gè)不具有k-hop連接節(jié)點(diǎn)的關(guān)系,并將現(xiàn)有的R-GNN擴(kuò)展到基于路徑的異構(gòu)圖表示學(xué)習(xí)范式。
HGT
HGT(Hu等人,2020c)是異質(zhì)圖的圖transformer,它在網(wǎng)絡(luò)模式之上建立節(jié)點(diǎn)之間的元關(guān)系,正如在基于元路徑的異質(zhì)GNN段落中討論的那樣。與之前大多數(shù)假設(shè)圖結(jié)構(gòu)是靜態(tài)的(即與時(shí)間無關(guān))的工作不同,他們提出了一個(gè)相對的時(shí)間編碼策略來學(xué)習(xí)時(shí)間依賴性。
6. 基于GNN 的編碼器-解碼器模型
編碼器-解碼器架構(gòu)是NLP領(lǐng)域最廣泛使用的機(jī)器學(xué)習(xí)框架之一,如Seq2Seq模型。鑒于GNN在建模圖結(jié)構(gòu)數(shù)據(jù)方面的巨大力量,最近,許多研究開發(fā)了基于GNN的編碼器-解碼器框架,包括Graph-to-Tree和Graph-to-Graph模型。在本節(jié)中,首先介紹典型的Seq2Seq模型,然后討論各種基于圖的編碼器-解碼器模型,用于各種NLP任務(wù)。
6.1 Sequence-to-Sequence Models
序列到序列學(xué)習(xí)是NLP領(lǐng)域中最廣泛使用的機(jī)器學(xué)習(xí)范式之一。在這一節(jié)中,首先對Seq2Seq學(xué)習(xí)進(jìn)行了簡要的概述,并介紹了一些典型的Seq2Seq技術(shù)。然后,指出Seq2Seq學(xué)習(xí)的一些已知的局限性以及它的解決方案,即納入更多結(jié)構(gòu)化的編碼器-解碼器模型作為原始Seq2Seq模型的替代,以編碼更復(fù)雜的數(shù)據(jù)結(jié)構(gòu)。
6.1.1 介紹
Seq2Seq模型用于解決一般的序列到序列問題(如機(jī)器翻譯)。Seq2Seq模型是一個(gè)端到端的編碼器-解碼器框架,它學(xué)習(xí)將一個(gè)可變長度的輸入序列到一個(gè)可變長度的輸出序列之間的映射。通常這個(gè)想法是使用一個(gè)基于RNN的編碼器來讀取輸入序列,建立一個(gè)固定維度的向量表示,然后使用一個(gè)基于RNN的解碼器來生成以編碼器輸出向量為條件的輸出序列。解碼器本質(zhì)上是一個(gè)RNN語言模型,只不過它是以輸入序列為條件的。最常見的Seq2Seq變體之一是應(yīng)用雙向LSTM編碼器對輸入序列進(jìn)行編碼,并應(yīng)用LSTM解碼器對輸出序列進(jìn)行解碼。其他Seq2Seq變體用門控遞歸單元(GRU)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)或 Transformer模型代替LSTM。
在最初的Seq2Seq架構(gòu)中,中間向量的表示成為信息瓶頸,因?yàn)樗鼘⑤斎胄蛄械呢S富信息總結(jié)為固定維度的嵌入,作為解碼器生成高質(zhì)量輸出序列的唯一知識(shí)源。為了提高原始Seq2Seq模型的學(xué)習(xí)能力,人們提出了許多有效的技術(shù)。
6.1.2 討論
許多NLP應(yīng)用自然地接納了圖結(jié)構(gòu)的輸入數(shù)據(jù),如依賴圖、構(gòu)成圖,AMR圖,IE圖和知識(shí)圖譜。與序列數(shù)據(jù)相比,圖結(jié)構(gòu)的數(shù)據(jù)能夠編碼對象之間豐富的句法或語義關(guān)系。此外,即使原始輸入最初是以序列形式表示的,它仍然可以從顯式地合并結(jié)構(gòu)信息中受益。上述情況基本上需要一個(gè)編碼器-解碼器框架來學(xué)習(xí)圖到X的映射,其中X可以代表序列、樹或甚至圖?,F(xiàn)有的Seq2Seq模型在學(xué)習(xí)從圖到適當(dāng)目標(biāo)的精確映射方面面臨著巨大的挑戰(zhàn),因?yàn)樗鼪]有能力對復(fù)雜的圖結(jié)構(gòu)數(shù)據(jù)進(jìn)行建模。
為了擴(kuò)展Seq2Seq模型以處理輸入為圖結(jié)構(gòu)數(shù)據(jù)的Graph-to-Sequence問題,人們進(jìn)行了各種嘗試。一個(gè)簡單直接的方法是直接將結(jié)構(gòu)化圖數(shù)據(jù)線性化為序列數(shù)據(jù),并將Seq2Seq模型應(yīng)用于所得到的序列。然而,這種方法遭受了巨大的信息損失,導(dǎo)致了性能的下降。RNN沒有能力對復(fù)雜的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行建模的根本原因在于它是一個(gè)線性鏈。鑒于此,一些研究工作已經(jīng)致力于擴(kuò)展Seq2Seq模型。例如,Tree2Seq(Eriguchi等人,2016)通過采用Tree-LSTM擴(kuò)展了Seq2Seq模型,該模型是鏈?zhǔn)浇Y(jié)構(gòu)LSTM對樹式結(jié)構(gòu)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的一種概括。Set2Seq是Seq2Seq模型的一個(gè)擴(kuò)展,它超越了序列,使用注意力機(jī)制處理輸入集。盡管這些Seq2Seq擴(kuò)展在某些類別的問題上取得了有希望的結(jié)果,但它們都不能以一種原則性的方式對任意圖結(jié)構(gòu)的數(shù)據(jù)進(jìn)行建模。
6.2 Graph-to-Sequence Models
為了解決上述Seq2Seq模型在編碼豐富復(fù)雜的數(shù)據(jù)結(jié)構(gòu)上的局限性,最近提出了一些用于NLP任務(wù)的graph-to-sequence的編碼器-解碼器模型。Graph2Seq模型通常采用一個(gè)基于GNN的編碼器和一個(gè)基于RNN/Transformer的解碼器。與Seq2Seq范式相比,Graph2Seq范式更善于捕捉輸入文本的豐富結(jié)構(gòu)信息,可以應(yīng)用于任意的圖結(jié)構(gòu)數(shù)據(jù)。與Seq2Seq模型相比,Graph2Seq模型在廣泛的NLP任務(wù)中顯示出優(yōu)越的性能,包括神經(jīng)機(jī)器翻譯,AMR-to-text、文本摘要、問題生成、KG-to-text、SQL-to-text 、code summarization和語義解析。
基于圖的編碼器
早期的Graph2Seq方法及其后續(xù)工作主要使用一些典型的GNN變體作為圖編碼器,包括GCN、GGNN、GraphSAGE和GAT。由于NLP圖中的邊緣向經(jīng)常編碼關(guān)于兩個(gè)頂點(diǎn)之間的語義關(guān)系的關(guān)鍵信息,因此捕獲文本的雙向信息往往是非常有幫助的。在Graph2Seq范式的文獻(xiàn)中,人們做了一些努力來擴(kuò)展現(xiàn)有的GNN模型以處理有向圖。最常見的策略是在進(jìn)行鄰居聚合時(shí),為不同的邊方向(即傳入/傳出/自環(huán)邊)引入單獨(dú)的模型參數(shù)。
除了邊方向信息,NLP應(yīng)用中的許多圖實(shí)際上是多關(guān)系圖,其中邊類型信息對下游任務(wù)非常重要。為了編碼邊類型信息,一些工作通過為不同的邊類型設(shè)置單獨(dú)的模型參數(shù)來擴(kuò)展它們。然而,在許多NLP應(yīng)用中(如KG相關(guān)任務(wù)),邊類型的總數(shù)很大,因此上述策略會(huì)有嚴(yán)重的可擴(kuò)展性問題。為此,一些工作提出通過將多關(guān)系圖轉(zhuǎn)換為Levi圖來繞過這個(gè)問題,然后利用現(xiàn)有為同質(zhì)圖設(shè)計(jì)的GNN作為編碼器。另一個(gè)普遍采用的技術(shù)是將邊嵌入明確納入消息傳遞機(jī)制。
節(jié)點(diǎn)/邊嵌入初始化
對于基于GNN的方法,節(jié)點(diǎn)和邊的初始化是非常關(guān)鍵的。雖然CNNs和RNNs都擅長捕捉文本中連續(xù)詞之間的局部依賴關(guān)系,但GNNs在捕捉圖中相鄰節(jié)點(diǎn)之間的局部依賴關(guān)系方面表現(xiàn)良好。許多關(guān)于Graph2Seq的工作表明,應(yīng)用CNN或雙向RNNs應(yīng)用基于GNN的編碼器之前,對詞嵌入序列進(jìn)行處理。還有研究探索了用BERT嵌入+BiRNNs或RoBERTa+BiRNNs初始化節(jié)點(diǎn)/邊緣嵌入。
序列解碼技術(shù)
由于Seq2Seq和Graph2Seq模型的主要區(qū)別在于編碼器,Seq2Seq模型中使用的常見解碼技術(shù),如注意機(jī)制、copying 機(jī)制、coverage 機(jī)制和scheduled sampling也可以在Graph2Seq模型中采用。為了使常見的解碼技術(shù)適應(yīng)Graph2Seq范式,例如,Chen等人(2020g)為了將包含多token序列的整個(gè)節(jié)點(diǎn)屬性從輸入圖復(fù)制到輸出序列,將token級復(fù)制機(jī)制擴(kuò)展到節(jié)點(diǎn)級復(fù)制機(jī)制。為了結(jié)合序列編碼器和圖編碼器的優(yōu)點(diǎn),Pan等人(2020);Sachan等人(2020)提出在將其輸出送入解碼器之前將其融合為一個(gè)單一的向量。Huang等人(2020b)分別為序列編碼器和圖形編碼器設(shè)計(jì)了獨(dú)立的注意力模塊。
6.3 Graph-to-Tree Models
與Graph2Seq模型考慮輸入端的結(jié)構(gòu)信息相比,許多NLP任務(wù)還包含以復(fù)雜結(jié)構(gòu)表示的輸出,如樹,在輸出端也有豐富的結(jié)構(gòu)信息,如句法解析,語義解析,math word 問題解決,考慮輸出的結(jié)構(gòu)信息是一個(gè)自然的選擇。為此,一些Graph2Tree模型被提出來,在輸入和輸出端都加入了結(jié)構(gòu)信息,使編碼-解碼過程中的信息流更加完整。
6.4 Graph-to-Graph Models
graph-to-graph模型通常用于解決圖轉(zhuǎn)換問題,是圖編碼器-解碼器模型。圖編碼器生成圖中每個(gè)節(jié)點(diǎn)的潛在表示,或通過GNNs為整個(gè)圖生成一個(gè)圖級別表示。然后,圖解碼器根據(jù)來自編碼器的節(jié)點(diǎn)級或圖級潛在表示生成輸出目標(biāo)圖。
Graph-to-Graph for NLP
由于自然語言或信息知識(shí)圖譜可以自然地被形式化為具有一組節(jié)點(diǎn)及其關(guān)系的圖,NLP領(lǐng)域的許多生成任務(wù)可以被形式化為一個(gè)圖的轉(zhuǎn)換問題,這可以進(jìn)一步通過graph-to-graph模型來解決。這樣一來,輸入和輸出句子的語義結(jié)構(gòu)信息就可以得到充分的利用和把握。兩個(gè)重要的NLP任務(wù)(即信息抽取和語義解析)可以被形式化為graph-to-graph的問題。
7. 應(yīng)用
在本章中,將討論大量使用GNN的典型NLP應(yīng)用,包括自然語言生成、機(jī)器閱讀理解、問題回答、對話系統(tǒng)、文本分類、文本匹配、話題建模、情感分類、知識(shí)圖譜、信息提取、語義和句法解析、推理和語義角色標(biāo)注。表3中提供了所有應(yīng)用的摘要及其子任務(wù)和評價(jià)指標(biāo)。
7.1 自然語言生成
自然語言生成(NLG)旨在給定各種形式的輸入,如文本、語音等,生成高質(zhì)量、連貫和可理解的自然語言,而我們只關(guān)注語言形式?,F(xiàn)代自然語言生成方法通常采取編碼器-解碼器的形式,將輸入序列編碼到潛在空間,并根據(jù)潛在表征預(yù)測出一個(gè)詞的集合。大多數(shù)現(xiàn)代NLG方法可以分為兩個(gè)步驟:編碼和解碼,它們由兩個(gè)模塊處理:編碼器和解碼器。在本節(jié)中,對基于auto-regressive graph-based的方法進(jìn)行了全面的概述,這些方法在這個(gè)蓬勃發(fā)展的領(lǐng)域中利用了編碼器中的圖結(jié)構(gòu),包括:1)神經(jīng)機(jī)器翻譯,2)摘要,3)問題生成,4)structural-data to text。
7.1.1 神經(jīng)機(jī)器翻譯
經(jīng)典的神經(jīng)機(jī)器翻譯(NMT)系統(tǒng)旨在將源語言的句子映射到目標(biāo)語言,而不改變其語義。大多數(shù)先前的工作采用了基于注意力的序列對序列學(xué)習(xí)圖,特別是基于RNN的語言模型。與傳統(tǒng)的機(jī)器翻譯模型相比,這些方法可以在沒有特定語言知識(shí)的情況下產(chǎn)生更好的性能。然而,這些方法存在著長依賴性的問題。隨著注意力機(jī)制的發(fā)展,完全基于注意力的模型,如Transformer,通過自注意力捕捉隱性關(guān)聯(lián),取得了突破性進(jìn)展,達(dá)到了新的水平。雖然這些取得了巨大的成功,但它們很少考慮到結(jié)構(gòu)信息,如句法結(jié)構(gòu)。最近,在強(qiáng)大的GNN的幫助下,許多研究者通過挖掘非結(jié)構(gòu)化文本中包含的結(jié)構(gòu)性知識(shí)進(jìn)一步提升了性能。
大多數(shù)基于GNN的NMT方法將傳統(tǒng)的seq2seq圖轉(zhuǎn)換成Graph2Seq架構(gòu)。它們首先將輸入文本轉(zhuǎn)換為圖結(jié)構(gòu)的數(shù)據(jù),然后采用基于GNN的編碼器來利用結(jié)構(gòu)信息。
7.1.2 摘要生成
自動(dòng)摘要生成是在保留關(guān)鍵信息內(nèi)容和整體意義的情況下產(chǎn)生一個(gè)簡明流暢的摘要的任務(wù)。這個(gè)任務(wù)有兩個(gè)主要的經(jīng)典設(shè)置:1)抽取式 2)生成式。傳統(tǒng)的方法只是將輸入視為序列,并應(yīng)用LSTM、Transformer等編碼器來學(xué)習(xí)潛在的表征,這些方法未能利用自然輸入中隱含的豐富結(jié)構(gòu)信息。許多研究人員發(fā)現(xiàn),結(jié)構(gòu)知識(shí)有利于解決一些挑戰(zhàn),例如長距離依賴性問題,因此提出了基于GNN的技術(shù),明確利用結(jié)構(gòu)信息來提高性能。
大多數(shù)基于GNN的摘要方法首先是構(gòu)建圖來表示給定的文本。然后,采用基于GNN的編碼器來學(xué)習(xí)圖的表示。之后,對于抽取式摘要模型,采用分類器來選擇候選子句來組成最終的總結(jié)。對于生成式摘要,大多采用語言解碼器,以最大化輸出的可能性來生成摘要。
7.1.3 結(jié)構(gòu)化數(shù)據(jù)到文本
盡管是自然文本,但許多NLP應(yīng)用都是以明確的圖結(jié)構(gòu)來表示數(shù)據(jù),如SQL查詢、知識(shí)圖、AMR等。結(jié)構(gòu)化數(shù)據(jù)的任務(wù)就是要從結(jié)構(gòu)化數(shù)據(jù)輸入中生成自然語言。傳統(tǒng)的工作應(yīng)用線性化機(jī)制,將結(jié)構(gòu)數(shù)據(jù)映射為序列數(shù)據(jù),并采用Seq2Seq架構(gòu)來生成文本。為了充分捕捉豐富的結(jié)構(gòu)信息,最近的研究集中在基于GNN的技術(shù)來處理這一任務(wù)。
大多數(shù)基于GNN的AMR-to-text和SQL-to-text方法通常構(gòu)建特定領(lǐng)域的圖,如AMR圖和基于SQL解析的圖來組織輸入。之后,應(yīng)用由GNN編碼器和序列解碼器組成的Graph2Seq來生成神經(jīng)語言輸出。
7.1.4 自然問題生成
自然問題生成(QG)任務(wù)旨在從某種形式的數(shù)據(jù)中生成自然語言問題,如KG、表格、文本或圖像,其中生成的問題需要從輸入數(shù)據(jù)中得到答案。大多數(shù)先前的工作采用了Seq2Seq架構(gòu),將輸入數(shù)據(jù)視為序列數(shù)據(jù),而不考慮其豐富的結(jié)構(gòu)信息。例如,在對輸入文本進(jìn)行編碼時(shí),以前的大多數(shù)方法通常會(huì)忽略與單詞序列相關(guān)的隱藏結(jié)構(gòu)信息,如依賴性解析樹。即使對于來自KG的QG的設(shè)置,大多數(shù)方法通常將KB子圖線性化為一個(gè)序列,并應(yīng)用一個(gè)序列編碼器。未能利用輸入數(shù)據(jù)的圖結(jié)構(gòu)可能會(huì)限制QG模型的有效性。對于在多個(gè)段落或文檔上進(jìn)行推理的來自文本的多跳QG,捕捉多個(gè)段落或文檔中不同實(shí)體提及的關(guān)系是有益的。總之,**對輸入數(shù)據(jù)的豐富結(jié)構(gòu)進(jìn)行建模對許多QG任務(wù)來說是很重要的。**最近,GNN已經(jīng)成功應(yīng)用于QG任務(wù)(Liu et al., 2019b; Chen et al., 2020f; Wang et al., 2020c)。
大多數(shù)基于GNN的QG方法采用Graph2Seq架構(gòu),其中基于GNN的編碼器用來對圖結(jié)構(gòu)的輸入數(shù)據(jù)進(jìn)行建模,序列解碼器被用來生成自然語言問題。
7.2 機(jī)器閱讀理解和問題回答
7.2.1 機(jī)器閱讀理解
機(jī)器閱讀理解(MRC)的任務(wù)旨在利用給定的段落回答一個(gè)自然語言問題。由于各種注意力機(jī)制的發(fā)展,MRC任務(wù)已經(jīng)取得了重大進(jìn)展,這些機(jī)制可以捕捉到問題和上下文之間的相互聯(lián)系??紤]到傳統(tǒng)的MRC設(shè)置主要集中在相對簡單的一跳推理上,最近,更多的研究工作被用于解決更具挑戰(zhàn)性的MRC設(shè)置。例如,多跳MRC任務(wù)是使用多個(gè)段落或文檔來回答一個(gè)自然語言問題,這需要多跳推理能力。Con- versational MRC任務(wù)是在對話中回答當(dāng)前的自然語言問題,并給出一段話和之前的問題和答案,這需要對對話歷史進(jìn)行建模的能力。數(shù)字性的MRC任務(wù)要求有對段落進(jìn)行數(shù)字推理的能力。這些具有挑戰(zhàn)性的MRC任務(wù)需要對對象之間的復(fù)雜關(guān)系進(jìn)行建模的學(xué)習(xí)能力。例如,在多跳MRC任務(wù)中,對多個(gè)文檔之間的關(guān)系以及文檔中提到的實(shí)體進(jìn)行建模是非常有益的。最近,GNN已經(jīng)成功應(yīng)用于各種類型的MRC任務(wù),包括多跳MRC,對話式MRC,以及numerical MRC。
基于GNN的MRC方法通常是通過首先構(gòu)建一個(gè)實(shí)體圖或?qū)哟螆D來捕捉圖中節(jié)點(diǎn)之間的豐富關(guān)系,然后應(yīng)用基于GNN的推理模塊對圖進(jìn)行復(fù)雜推理。假設(shè)GNN的輸出已經(jīng)編碼了節(jié)點(diǎn)本身及其鄰居結(jié)構(gòu)的語義,最后將應(yīng)用一個(gè)預(yù)測模塊來預(yù)測答案。為解決MRC任務(wù)而開發(fā)的圖構(gòu)建技術(shù)和圖表示技術(shù)在不同的方法中有所不同。
7.2.2 知識(shí)庫問題回答
在過去的幾年里,知識(shí)庫問題回答(KBQA)已經(jīng)成為一個(gè)重要的研究課題。KBQA的目標(biāo)是給定自然語言問題自動(dòng)從KG中找到答案。最近,由于其對對象之間關(guān)系建模的性質(zhì)能力,GNN已經(jīng)成功地應(yīng)用于執(zhí)行多跳KBQA任務(wù),這需要對KG的多條邊進(jìn)行推理以得出正確的答案。一個(gè)相關(guān)的任務(wù)是開放領(lǐng)域的QA,其目的是通過利用包括語料庫和KG的混合知識(shí)源來回答開放領(lǐng)域的問題。本文介紹并總結(jié)了最近KBQA研究中采用的一些有代表性的GNN相關(guān)技術(shù)。
7.2.3 開放域的問題回答
開放域問題回答的任務(wù)旨在給定一個(gè)大規(guī)模的開放域知識(shí)(如文檔、知識(shí)庫等),以確定自然問題的答案。基于知識(shí)的方法得益于通過圖結(jié)構(gòu)輕松獲得外部知識(shí)。然而,這些方法在知識(shí)庫和固定模式的信息缺失方面受到限制。為了回答來自海量和非結(jié)構(gòu)化文檔的問題,與基于知識(shí)庫的方法相比,這些方法可以獲取更多的信息,但在從冗余的外部文檔中檢索相關(guān)和關(guān)鍵信息方面存在困難。本文介紹并總結(jié)了最近開放域問題回答研究中一些有代表性的GNN相關(guān)技術(shù)。
7.2.4 社區(qū)問題回答
社區(qū)問題回答的任務(wù)旨在從QA論壇(如Stack Overflow或Quora)中檢索出相關(guān)答案。與傳統(tǒng)的MRC(QA)任務(wù)不同,CQA系統(tǒng)能夠利用隱性知識(shí)(嵌入在不同的社區(qū)中)或顯性知識(shí)(嵌入在所有解決的問題中)來回答每天發(fā)布的大量新問題。然而,越來越多的新問題可能會(huì)使沒有適當(dāng)協(xié)作支持的CQA系統(tǒng)因用戶的要求而變得超負(fù)荷。本文介紹并總結(jié)了最近CQA研究中采用的一些有代表性的GNN相關(guān)技術(shù)。
7.3 對話系統(tǒng)
對話系統(tǒng)是一個(gè)可以連續(xù)與人對話的計(jì)算機(jī)系統(tǒng)。為了建立一個(gè)成功的對話系統(tǒng),對對話中不同對話者或話語之間的依賴關(guān)系進(jìn)行建模很重要。由于能夠?qū)ο笾g的復(fù)雜關(guān)系進(jìn)行建模,最近,GNN已經(jīng)成功地應(yīng)用于各種對話系統(tǒng)相關(guān)的任務(wù),包括對話狀態(tài)跟蹤,旨在估計(jì)給定對話歷史的當(dāng)前對話狀態(tài);對話響應(yīng)生成,旨在給定對話歷史生成對話響應(yīng);以及下一個(gè)話語選擇,旨在給定對話歷史從候選列表中選擇下一個(gè)話語。本文介紹并總結(jié)了近期對話系統(tǒng)研究中采用的一些有代表性的GNN相關(guān)技術(shù)。
7.4 文本分類
傳統(tǒng)的文本分類方法嚴(yán)重依賴特征工程(如BOW、TF-IDF或更高級的基于圖形路徑的特征)進(jìn)行文本表示。為了從數(shù)據(jù)中自動(dòng)學(xué)習(xí) "好的 "文本表征,人們提出了各種無監(jiān)督的方法來學(xué)習(xí)單詞或文檔表征,包括word2vec、GloVe、話題模型、自動(dòng)編碼器和doc2vec。這些預(yù)訓(xùn)練的單詞或文檔嵌入可以進(jìn)一步被MLP、CNN或LSTM模塊所消耗,用于訓(xùn)練監(jiān)督下的文本分類器。為了更好地捕捉文本或語料庫中文件之間的關(guān)系,人們提出了各種基于圖的方法進(jìn)行文本分類。例如,Peng等人(2018)提出首先構(gòu)建一個(gè)詞的圖,然后將CNN應(yīng)用于規(guī)范化的子圖。Tang等人提出了一種基于網(wǎng)絡(luò)嵌入的方法,通過將部分標(biāo)記的文本語料轉(zhuǎn)換為異質(zhì)文本網(wǎng)絡(luò),以半監(jiān)督的方式進(jìn)行文本表示學(xué)習(xí)。最近,考慮到強(qiáng)大的表達(dá)能力,GNN已經(jīng)成功應(yīng)用于半監(jiān)督和監(jiān)督文本分類中。
基于GNN的文本分類方法通常是,首先構(gòu)建一個(gè)文檔圖或語料庫圖來捕捉圖中節(jié)點(diǎn)之間的豐富關(guān)系,然后應(yīng)用GNN來學(xué)習(xí)良好的文檔嵌入,這些嵌入隨后將被送入softmax層以產(chǎn)生一類標(biāo)簽的概率分布。為解決文本分類任務(wù)而開發(fā)的圖構(gòu)建技術(shù)和圖表示技術(shù)在不同的方法中有所不同。本文介紹并總結(jié)了最近的文本分類方法中采用的一些代表性的GNN相關(guān)技術(shù)。
7.5 文本匹配
現(xiàn)有的大多數(shù)文本匹配方法是通過一些神經(jīng)網(wǎng)絡(luò),如CNN或RNN,將每個(gè)文本映射到一個(gè)潛在的嵌入空間,然后根據(jù)文本表征之間的相似性計(jì)算匹配分?jǐn)?shù)。為了在不同的顆粒度水平上對兩個(gè)文本之間的豐富互動(dòng)進(jìn)行建模,通常會(huì)精心設(shè)計(jì)復(fù)雜的注意力或匹配組件。最近,有一些工作成功地探索了GNNs在文本匹配中對文本元素之間復(fù)雜的交互作用進(jìn)行建模的問題。本文介紹并總結(jié)了近期文本匹配方法中采用的一些有代表性的GNN相關(guān)技術(shù)。
7.6 話題建模
話題建模的任務(wù)旨在發(fā)現(xiàn)語料庫中出現(xiàn)的抽象的 "話題"。通常情況下,話題模型學(xué)習(xí)將一段文本表示為一個(gè)話題的混合物,而話題本身則表示為詞匯的混合物。經(jīng)典的話題模型包括基于圖模型的方法,基于自回歸模型的方法,以及基于自動(dòng)編碼器的方法。最近的工作通過明確地對文檔和詞之間的關(guān)系進(jìn)行建模,探索了基于GNN的方法進(jìn)行話題建模。本文介紹并總結(jié)了近期話題建模方法中采用的一些有代表性的GNN相關(guān)技術(shù)。
7.7 情感分析
情感分析任務(wù)旨在檢測一段文本的情感(即積極、消極或中立)。方面級的情感分類旨在識(shí)別文本在特定方面的情感極性,并受到更多關(guān)注。雖然大多數(shù)工作都集中在句子層面和單一領(lǐng)域的情感分類上,但在文檔層面和跨領(lǐng)域的情感分類上也有一些嘗試。早期的情感分類工作主要依賴于特征工程。最近的嘗試?yán)昧烁鞣N神經(jīng)網(wǎng)絡(luò)模型的表達(dá)能力,如LSTM、CNN或記憶網(wǎng)絡(luò)。最近,人們嘗試?yán)肎NN來更好地模擬文本的句法和語義,以完成情感分類任務(wù)。
基于GNN的情感分類方法通常是通過首先構(gòu)建文本的圖表示(如依賴樹),然后應(yīng)用GNN來學(xué)習(xí)良好的文本嵌入,這些嵌入將被用于預(yù)測情感的極性。為解決情感分類任務(wù)而開發(fā)的圖構(gòu)建技術(shù)和圖表示技術(shù)在不同的方法中有所不同。本文將介紹并總結(jié)最近的情感分類方法中采用的一些有代表性的GNN相關(guān)技術(shù)。
7.8 知識(shí)圖譜
知識(shí)圖譜(KG)以結(jié)構(gòu)化的形式表示現(xiàn)實(shí)世界的知識(shí),在學(xué)術(shù)界和工業(yè)界引起了很大的關(guān)注。KG可以表示為一組三元組集合。在KG方面有三個(gè)主要任務(wù),即知識(shí)圖譜嵌入(KGE),知識(shí)圖譜對齊(KGA),知識(shí)圖譜補(bǔ)全(KGC)。本文將對基于圖的KGC和KGA方法進(jìn)行概述。
7.9 信息抽取
信息抽取(IE)的目的是提取給定句子或文檔的實(shí)體對及其關(guān)系。IE是一項(xiàng)重要的任務(wù),因?yàn)樗兄趶姆墙Y(jié)構(gòu)化文本中自動(dòng)構(gòu)建知識(shí)圖譜。隨著深度神經(jīng)網(wǎng)絡(luò)的成功,基于神經(jīng)網(wǎng)絡(luò)的方法已被應(yīng)用于信息提取。然而,這些方法往往忽略了輸入文本的非局部和非序列化的上下文信息。此外,重疊關(guān)系的預(yù)測,即共享相同實(shí)體的一對實(shí)體的關(guān)系預(yù)測,也不能得到妥善解決。為了這些目的,GNN已經(jīng)被廣泛用于建立文本中實(shí)體和關(guān)系之間的交互模型。信息提取由兩個(gè)子任務(wù)組成:命名實(shí)體識(shí)別(NER)和關(guān)系提取(RE)。NER為句子中的每個(gè)詞預(yù)測一個(gè)標(biāo)簽,這通常被認(rèn)為是一個(gè)序列標(biāo)注任務(wù)。RE為文本中的每一對實(shí)體預(yù)測一個(gè)關(guān)系類型。當(dāng)輸入文本中的實(shí)體被注釋后,IE任務(wù)就退化為RE任務(wù)?;贕NN的IE方法通常通過pipeline的方式運(yùn)作。首先,構(gòu)建一個(gè)文本圖。然后,實(shí)體被識(shí)別,實(shí)體對之間的關(guān)系被預(yù)測。本文是對基于GNN的不同技術(shù)的介紹。
7.10 語義語法解析
在本節(jié)中主要討論GNN在解析方面的應(yīng)用,包括與語法相關(guān)的解析和與語義相關(guān)的解析。對于語法相關(guān)的解析,GNN已經(jīng)被用于依賴性解析和成分解析的任務(wù)。對于語義相關(guān)的解析,本文簡要介紹語義解析和AMR解析。
7.11 推理
推理是NLP的一個(gè)重要研究方向。近年來,GNN開始在NLP推理任務(wù)中發(fā)揮重要作用,如數(shù)學(xué)單詞問題解決,自然語言推理,常識(shí)推理等。本文將對這三個(gè)任務(wù)以及圖神經(jīng)網(wǎng)絡(luò)在這些方法中的應(yīng)用做一個(gè)簡要介紹。
7.12 語義角色標(biāo)注
語義角色標(biāo)注(SRL)問題旨在恢復(fù)一個(gè)句子的predicate-argument結(jié)構(gòu),即基本上確定 "誰對誰做了什么"、"何時(shí) "和 "何地"。對于每個(gè)謂詞,SRL模型必須識(shí)別所有的argument跨度,并為它們標(biāo)注語義角色。這樣的高層結(jié)構(gòu)可以作為語義信息,用于支持各種下游任務(wù),包括對話系統(tǒng)、機(jī)器閱讀和翻譯。最近的SRL工作大多可以分為兩類,即根據(jù)是否納入句法知識(shí),分為句法感知型和句法診斷型方法。大多數(shù)syntax-agnostic的工作采用深度BiLSTM或自注意編碼器來編碼自然句子的上下文信息,用各種評分器來預(yù)測基于BIO的語義角色的概率或predicate-argument-role元組。在句法和語義之間強(qiáng)烈的相互作用的激勵(lì)下,研究人員探索了各種方法,將句法知識(shí)整合到句法無關(guān)的模型中,考慮到語義表示與句法表示密切相關(guān)。例如,我們可以觀察到,句法依賴圖中的許多弧在語義依賴圖中都有反映。鑒于這些相似性以及許多語言都有精確的句法分析器,在預(yù)測語義時(shí)利用句法信息似乎是很自然的。
采用神經(jīng)序列模型,即LSTM,存在以下挑戰(zhàn):(1)由于句法關(guān)系的復(fù)雜樹狀結(jié)構(gòu),很難有效地將句法信息納入神經(jīng)SRL模型;(2)由于錯(cuò)誤的句法輸入的風(fēng)險(xiǎn),句法分析器是不可靠的,這可能導(dǎo)致錯(cuò)誤傳播和不理想的SRL性能。鑒于這種情況,GNN正在成為捕捉和納入基于深度神經(jīng)網(wǎng)絡(luò)的SRL模型中的語法模式的有力工具。在捕捉結(jié)構(gòu)化數(shù)據(jù)中的復(fù)雜關(guān)系模式方面,GNN的性質(zhì)使其很適合于為句子的句法依賴和成分結(jié)構(gòu)建模。
從形式上看,SRL可以被投射為一個(gè)序列標(biāo)注問題,即給定一個(gè)輸入句子,以及謂詞在句子中的位置,目標(biāo)是預(yù)測句子中的詞的語義角色的BIO序列;另一個(gè)是關(guān)于端到端的語義角色三元組提取,目的是一次性檢測所有可能的謂詞和它們相應(yīng)的arguments。從技術(shù)上講,給定一個(gè)句子,SRL模型會(huì)預(yù)測一組標(biāo)記的謂語-參數(shù)-角色三元組,而每個(gè)三元組包含一個(gè)可能的謂語標(biāo)記和兩個(gè)候選標(biāo)記。上述兩個(gè)問題都可以基于基于GNN的SRL模型來解決,它由兩部分組成,即圖的構(gòu)建和圖的表示學(xué)習(xí)。
8. 結(jié)論
在這篇文章中,我們對各種圖神經(jīng)網(wǎng)絡(luò)演化出的各種NLP問題進(jìn)行了全面的概述。具體來說,我們首先提供了典型的GNN模型的初步知識(shí),包括圖過濾器和圖池化方法。然后,提出了一個(gè)新的分類法,沿著三個(gè)維度系統(tǒng)地組織GNNs for NLP方法,即圖的構(gòu)造、圖表示學(xué)習(xí)和編碼器-解碼器模型。鑒于這些在NLP應(yīng)用每個(gè)階段的具體技術(shù),我們從圖構(gòu)建、圖表示學(xué)習(xí)和具體技術(shù)的角度討論了大量的NLP應(yīng)用。最后,為進(jìn)一步釋放GNN在NLP領(lǐng)域的巨大潛力,本文提供了這一思路的大體挑戰(zhàn)和未來方向。
責(zé)任編輯:lq6
-
nlp
+關(guān)注
關(guān)注
1文章
489瀏覽量
22049 -
GNN
+關(guān)注
關(guān)注
1文章
31瀏覽量
6354
原文標(biāo)題:萬字綜述,GNN在NLP中的應(yīng)用,建議收藏慢慢看
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論