近幾年來(lái),人工智能技術(shù)得到了飛速發(fā)展,其進(jìn)展突出體現(xiàn)在以知識(shí)圖譜(Knowledge Graph)為代表的知識(shí)工程和以圖神經(jīng)網(wǎng)絡(luò)(Graph Neural NetWorks, GNN)為代表的深度學(xué)習(xí)等相關(guān)領(lǐng)域。融合知識(shí)圖譜與圖神經(jīng)網(wǎng)絡(luò)已然成為研究人員進(jìn)一步完善知識(shí)圖譜學(xué)習(xí)與提升圖神經(jīng)網(wǎng)絡(luò)模型推理能力的重要技術(shù)思路。
知識(shí)圖譜是以圖的形式表現(xiàn)客觀世界中的實(shí)體及其之間關(guān)系的知識(shí)庫(kù),實(shí)體可以是真實(shí)世界中的物體或抽象的概念,關(guān)系則表示了實(shí)體間的聯(lián)系。因此,知識(shí)圖譜能夠以結(jié)構(gòu)化的形式表示人類知識(shí),通過(guò)知識(shí)表示和推理技術(shù),可以給人工智能系統(tǒng)提供可處理的先驗(yàn)知識(shí),讓其具有與人類一樣的解決復(fù)雜任務(wù)的能力[1~3]。如何更好地構(gòu)建、表示、補(bǔ)全、應(yīng)用知識(shí)圖譜,已經(jīng)成為認(rèn)知和人工智能領(lǐng)域重要的研究方向之一。
圖 神 經(jīng) 網(wǎng) 絡(luò) 的 概 念 最 早 于 2005 年 由 戈 里(Gori)等人[4] 提出,是一種專門用于處理圖結(jié)構(gòu)數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)模型。使用圖可以更準(zhǔn)確和靈活地對(duì)現(xiàn)實(shí)應(yīng)用中的數(shù)據(jù)建模,如在電子商務(wù)領(lǐng)域中的用戶 – 產(chǎn)品交互圖、化學(xué)領(lǐng)域的分子圖、醫(yī)藥領(lǐng)域的藥物副作用圖等。因此,研究者們?cè)O(shè)計(jì)了多種圖神經(jīng)網(wǎng)絡(luò)模型,包括圖卷積網(wǎng)絡(luò)(Graph Convolu-tional Network,GCN)[5~7]、圖注意力網(wǎng)絡(luò)(Graph Attention Network,GAT)[8] 等。此外,由于異質(zhì)圖具有更靈活的建模和融合信息的能力[9],研究者們還嘗試設(shè)計(jì)和應(yīng)用基于異質(zhì)圖的圖神經(jīng)網(wǎng)絡(luò)模型[10~12]。如何設(shè)計(jì)更合理的圖神經(jīng)網(wǎng)絡(luò)模型,使信息沿著圖結(jié)構(gòu)更合理地傳播,從而提升模型對(duì)圖結(jié)構(gòu)數(shù)據(jù)的擬合能力,是人工智能領(lǐng)域的一個(gè)熱點(diǎn)問(wèn)題。
近年來(lái),描述常識(shí)和事實(shí)的知識(shí)圖譜成為了學(xué)術(shù)界和工業(yè)界廣泛使用的知識(shí)表示方式,圖神經(jīng)網(wǎng)絡(luò)在信息傳播、關(guān)系歸納偏置上也展現(xiàn)了優(yōu)秀的性能[13]??紤]到知識(shí)圖譜本身恰好就是一種圖結(jié)構(gòu)數(shù)據(jù),因此采用圖構(gòu)建知識(shí)和數(shù)據(jù)之間的關(guān)聯(lián),同時(shí)應(yīng)用圖神經(jīng)網(wǎng)絡(luò)技術(shù),有望結(jié)合知識(shí)和數(shù)據(jù)實(shí)現(xiàn)更好的可解釋和可信人工智能技術(shù)。一方面,利用圖神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)節(jié)點(diǎn)、邊表示上的優(yōu)勢(shì),可以更好地學(xué)習(xí)知識(shí)圖譜的實(shí)體、關(guān)系的嵌入表示,改善關(guān)系抽取等任務(wù),幫助構(gòu)建知識(shí)圖譜,以及提高鏈接預(yù)測(cè)等任務(wù),幫助補(bǔ)全知識(shí)圖譜 ;另一方面,利用圖神經(jīng)網(wǎng)絡(luò)在信息傳播和推理上的優(yōu)勢(shì),可以更有效地在應(yīng)用任務(wù)中引入知識(shí)圖譜中的信息,從而改善如文本挖掘、推薦系統(tǒng)、計(jì)算機(jī)視覺(jué)等領(lǐng)域中的應(yīng)用效果,提供可解釋的模型。
本文將對(duì)知識(shí)圖譜與圖神經(jīng)網(wǎng)絡(luò)模型相融合的方法及應(yīng)用進(jìn)行綜述。主要包括以下內(nèi)容:
1 基于圖神經(jīng)網(wǎng)絡(luò)的知識(shí)圖譜學(xué)習(xí)與計(jì)算
由于知識(shí)圖譜可以表征實(shí)體之間結(jié)構(gòu)化的關(guān)系,如今已經(jīng)成為認(rèn)知和人工智能領(lǐng)域重要的研究方向。圖神經(jīng)網(wǎng)絡(luò)利用深度神經(jīng)網(wǎng)絡(luò)對(duì)圖數(shù)據(jù)中的拓?fù)浣Y(jié)構(gòu)信息和屬性特征信息進(jìn)行整合,進(jìn)而提供更精細(xì)的節(jié)點(diǎn)或子結(jié)構(gòu)的特征表示,并能很方便地以解耦或端到端的方式與下游任務(wù)結(jié)合,巧妙地滿足了知識(shí)圖譜對(duì)學(xué)習(xí)實(shí)體、關(guān)系的屬性特征和結(jié)構(gòu)特征的要求。本節(jié)主要從知識(shí)圖譜中的5個(gè)典型任務(wù)介紹基于圖神經(jīng)網(wǎng)絡(luò)的知識(shí)圖譜學(xué)習(xí)方法。
知識(shí)圖譜表示學(xué)習(xí)
知識(shí)圖譜表示學(xué)習(xí),即為知識(shí)圖譜中的實(shí)體和關(guān)系學(xué)習(xí)出一個(gè)低維度的向量表示,同時(shí)包含一些語(yǔ)義信息,從而得以在下游任務(wù)中更加方便地提取和利用知識(shí)圖譜中的信息,例如鏈接預(yù)測(cè)[10]、常識(shí)問(wèn)答[1]等。通過(guò)應(yīng)用圖神經(jīng)網(wǎng)絡(luò),在學(xué)習(xí)知識(shí)圖譜的表示時(shí),每個(gè)實(shí)體都將利用到與其相關(guān)的其他實(shí)體中的信息,打破了彼此之間的孤立性,從而學(xué)得更完整更豐富的實(shí)體、關(guān)系表示。略
圖1 知識(shí)圖譜的表示學(xué)習(xí)方法
信息抽取
信息抽取是指從非結(jié)構(gòu)化、半結(jié)構(gòu)化文檔或句子中提取結(jié)構(gòu)化信息的技術(shù),與知識(shí)圖譜的構(gòu)建有著密切的聯(lián)系,主要包括命名實(shí)體識(shí)別、實(shí)體消歧、關(guān)系抽取、指代消解等任務(wù)。近年來(lái),已有許多研究將圖神經(jīng)網(wǎng)絡(luò)應(yīng)用于知識(shí)圖譜的關(guān)系抽取任務(wù),而在其他任務(wù)上對(duì)圖神經(jīng)網(wǎng)絡(luò)的探索還較少。通過(guò)圖神經(jīng)網(wǎng)絡(luò)可以對(duì)句子內(nèi)或句間詞與詞的關(guān)聯(lián)關(guān)系進(jìn)行有效建模,從而更準(zhǔn)確地捕捉實(shí)體間的關(guān)系。略
圖2 基于圖神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取
實(shí)體對(duì)齊
實(shí)體對(duì)齊是將從知識(shí)圖譜中學(xué)習(xí)到的描述同一目標(biāo)的實(shí)體或概念進(jìn)行合并,再將合并后的實(shí)體集與開(kāi)放鏈接數(shù)據(jù)中抽取的實(shí)體進(jìn)行合并,旨在融合多個(gè)知識(shí)圖譜形成一個(gè)更完整的知識(shí)圖譜。由于圖神經(jīng)網(wǎng)絡(luò)具有識(shí)別同構(gòu)子圖的能力[24],而可對(duì)齊的實(shí)體對(duì)周圍通常有相似的鄰居,即具有一定的同構(gòu)特征,因此目前有許多研究者嘗試將圖神經(jīng)網(wǎng)絡(luò)用于實(shí)體對(duì)齊。略
圖3 基于圖神經(jīng)網(wǎng)絡(luò)的實(shí)體消歧方法GNED
鏈接預(yù)測(cè)
鏈接預(yù)測(cè)是用于預(yù)測(cè)知識(shí)圖譜中實(shí)體對(duì)之間所缺少關(guān)系的任務(wù),具有廣泛的應(yīng)用范圍,旨在解決知識(shí)圖譜不完整的問(wèn)題。鏈接預(yù)測(cè)與知識(shí)圖譜表示學(xué)習(xí)有著不可分割的聯(lián)系,一方面表示學(xué)習(xí)通常需要用鏈接預(yù)測(cè)評(píng)價(jià)優(yōu)劣[10, 15],另一方面鏈接預(yù)測(cè)的模型通常也會(huì)學(xué)得實(shí)體和關(guān)系的表示。許多工作利用圖神經(jīng)網(wǎng)絡(luò)為實(shí)體引入鄰實(shí)體和對(duì)應(yīng)關(guān)系的信息,學(xué)得更全面的實(shí)體表示,從而更準(zhǔn)確地預(yù)測(cè)實(shí)體之間的鏈接關(guān)系。略
知識(shí)推理
與鏈接預(yù)測(cè)相似,知識(shí)推理是從給定的知識(shí)圖譜中推導(dǎo)出實(shí)體與實(shí)體之間的新關(guān)系,但知識(shí)推理所獲得的關(guān)系通常需要在知識(shí)圖譜中進(jìn)行多跳的推理過(guò)程。知識(shí)推理是一些下游任務(wù)的重要支撐之一,如知識(shí)庫(kù)問(wèn)答[1~3]。由于圖神經(jīng)網(wǎng)絡(luò)在推理能力上的優(yōu)勢(shì)[13],近年來(lái)被一些研究者嘗試用于知識(shí)推理任務(wù)。略
圖4 基于圖神經(jīng)網(wǎng)絡(luò)的知識(shí)推理
2基于圖神經(jīng)網(wǎng)絡(luò)的知識(shí)圖譜應(yīng)用
描述常識(shí)和事實(shí)的知識(shí)圖譜是學(xué)術(shù)界和工業(yè)界廣泛使用的知識(shí)表示方式,采用圖構(gòu)建知識(shí)和數(shù)據(jù)之間的關(guān)聯(lián),是一種直接且有效的將知識(shí)和數(shù)據(jù)結(jié)合的方式。受益于圖神經(jīng)網(wǎng)絡(luò)技術(shù)在信息傳播和推理上的優(yōu)勢(shì),知識(shí)圖譜中的先驗(yàn)知識(shí)被有效地引入到應(yīng)用任務(wù)中。
文本挖掘
知識(shí)圖譜由自然語(yǔ)言構(gòu)建而來(lái),因此與文本挖掘的聯(lián)系頗深。知識(shí)圖譜在大部分的文本挖掘任務(wù)中都有大量的應(yīng)用,其中應(yīng)用最廣泛的是知識(shí)庫(kù)問(wèn)答任務(wù)。在文本分類、文本生成等任務(wù)中,知識(shí)圖譜也都扮演了非常重要的角色。略
圖5 融合知識(shí)圖譜的短文本分類方法HGAT
推薦系統(tǒng)
為了解決推薦系統(tǒng)中的稀疏性問(wèn)題和冷啟動(dòng)問(wèn)題,一種可行的思路是將知識(shí)圖譜作為外部信息整合到推薦系統(tǒng)中,使推薦系統(tǒng)具有常識(shí)推理能力。研究者們基于圖神經(jīng)網(wǎng)絡(luò)強(qiáng)大的聚合信息以及推理能力,設(shè)計(jì)了基于圖神經(jīng)網(wǎng)絡(luò)和知識(shí)圖譜的推薦系統(tǒng),有效地提升了推薦命中率。此外,圖神經(jīng)網(wǎng)絡(luò)的信息傳播與推理能力也為推薦結(jié)構(gòu)提供了一定的可解釋性。略
圖6 融合知識(shí)圖譜的推薦系統(tǒng)
計(jì)算機(jī)視覺(jué)
人類區(qū)別于現(xiàn)代計(jì)算機(jī)視覺(jué)算法的一個(gè)特征是獲得知識(shí)并使用該知識(shí)推理視覺(jué)世界的能力,從而可以通過(guò)很少的例子認(rèn)知視覺(jué)世界[49]。研究者們考慮到圖神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)節(jié)點(diǎn)和邊的表示方面的優(yōu)勢(shì),應(yīng)用了圖神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)利用圖像中的目標(biāo)與知識(shí)圖譜之間的關(guān)聯(lián)關(guān)系。略
圖7 融合知識(shí)圖譜的圖像分類
3 總結(jié)與展望
結(jié)合知識(shí)圖譜和圖神經(jīng)網(wǎng)絡(luò)的相關(guān)研究已經(jīng)成為人工智能領(lǐng)域的一個(gè)熱點(diǎn)方向。知識(shí)圖譜可以為各類學(xué)習(xí)任務(wù)提供良好的先驗(yàn)知識(shí),圖神經(jīng)網(wǎng)絡(luò)則可以更好地支持圖數(shù)據(jù)的學(xué)習(xí)任務(wù)。但是,目前基于圖神經(jīng)網(wǎng)絡(luò)的知識(shí)圖譜學(xué)習(xí)、計(jì)算與應(yīng)用的研究都還相對(duì)較少,未來(lái)仍有巨大的發(fā)展空間,例如基于圖神經(jīng)網(wǎng)絡(luò)的知識(shí)圖譜自動(dòng)構(gòu)建、基于異質(zhì)圖神經(jīng)網(wǎng)絡(luò)的知識(shí)融合、基于元路徑或圖神經(jīng)網(wǎng)絡(luò)的知識(shí)圖譜復(fù)雜推理、基于圖神經(jīng)網(wǎng)絡(luò)的可解釋性學(xué)習(xí)等。
自動(dòng)構(gòu)建當(dāng)前的知識(shí)圖譜高度依賴于人工構(gòu)建,構(gòu)建特定領(lǐng)域的知識(shí)圖譜又是企業(yè)應(yīng)用里不可或缺的現(xiàn)實(shí)需求。在學(xué)習(xí)建模實(shí)體的時(shí)間信息和實(shí)體動(dòng)力學(xué)方面,已有一些基于傳統(tǒng)深度學(xué)習(xí)的工作,但通常無(wú)法將知識(shí)圖譜作為一個(gè)整體對(duì)其動(dòng)態(tài)性進(jìn)行建模。因而,利用最近的一些動(dòng)態(tài)圖神經(jīng)網(wǎng)絡(luò)的方法例如圖時(shí)空網(wǎng)絡(luò),同時(shí)建模并預(yù)測(cè)微觀層面上的實(shí)體以及宏觀層面上的圖譜的變化規(guī)律,是一個(gè)值得關(guān)注的方向。
融合知識(shí)采用圖構(gòu)建知識(shí)和數(shù)據(jù)之間的關(guān)聯(lián)從而引入知識(shí)圖譜,是目前研究的一種主流思路之一。通常,真實(shí)數(shù)據(jù)中的交互關(guān)系有豐富的屬性特征(如用戶–商品交互圖中用戶和商品都帶有豐富的屬性特征),而知識(shí)圖譜則是關(guān)系特征豐富的,即相對(duì)更側(cè)重于結(jié)構(gòu)性。此外,知識(shí)圖譜中的本體概念層包含大量的謂詞邏輯規(guī)則知識(shí),如何設(shè)計(jì)更合適的圖神經(jīng)網(wǎng)絡(luò)模型彌補(bǔ)這三者之間的語(yǔ)義鴻溝,從而更好地融合知識(shí)圖譜中的先驗(yàn)知識(shí),將是一個(gè)研究難點(diǎn)。一種直接的思路是利用異質(zhì)圖神經(jīng)網(wǎng)絡(luò)的方法,考慮節(jié)點(diǎn)的異質(zhì)性和多模態(tài)性,從而用適合各類型的不同方式對(duì)不同的信息進(jìn)行融合。
復(fù)雜推理由于基于嵌入的方法在復(fù)雜的邏輯推理上有局限性,因而可以進(jìn)一步探討關(guān)系路徑和符號(hào)邏輯兩個(gè)方向。異質(zhì)圖上的元路徑定義了高階的語(yǔ)義關(guān)系,而知識(shí)圖譜可看作一種特殊的異質(zhì)圖,將基于異質(zhì)圖神經(jīng)網(wǎng)絡(luò)的消息傳遞與基于強(qiáng)化學(xué)習(xí)的路徑查找和約減相結(jié)合,是一種可行的處理復(fù)雜推理的思路。研究者們最近的工作將概率圖模型(如馬爾科夫網(wǎng))與圖神經(jīng)網(wǎng)絡(luò)相結(jié)合,旨在消息傳遞時(shí)發(fā)現(xiàn)并推理邏輯規(guī)則,而利用此類模型挖掘知識(shí)圖譜上的推理規(guī)則,也是一個(gè)值得注意的研究方向。
可解釋性深度學(xué)習(xí)的黑盒問(wèn)題被人詬病已久,圖神經(jīng)網(wǎng)絡(luò)的信息傳播機(jī)制相較傳統(tǒng)深度學(xué)習(xí)模型更具有可解釋性。知識(shí)圖譜提供了現(xiàn)實(shí)世界的事實(shí)知識(shí),利用圖神經(jīng)網(wǎng)絡(luò)模型尤其是概率圖神經(jīng)網(wǎng)絡(luò)應(yīng)用在知識(shí)圖譜中實(shí)現(xiàn)邏輯推理,從而顯式地生成基于知識(shí)圖譜的推理路徑,或許可以期待打開(kāi)深度學(xué)習(xí)的黑盒。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4777瀏覽量
100959 -
人工智能
+關(guān)注
關(guān)注
1792文章
47514瀏覽量
239236 -
知識(shí)圖譜
+關(guān)注
關(guān)注
2文章
132瀏覽量
7723
原文標(biāo)題:【長(zhǎng)文綜述】基于圖神經(jīng)網(wǎng)絡(luò)的知識(shí)圖譜研究進(jìn)展
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論