1 引言
最近,越來(lái)越多的研究開(kāi)始將深度學(xué)習(xí)方法應(yīng)用到圖數(shù)據(jù)領(lǐng)域。圖神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)具有明確關(guān)系的結(jié)構(gòu)場(chǎng)景,如物理系統(tǒng),分子結(jié)構(gòu)和知識(shí)圖譜中有著廣泛的研究?jī)r(jià)值和應(yīng)用前景,本文將介紹在KDD 2020上發(fā)表的兩個(gè)在這一場(chǎng)景下的最新工作。
第一個(gè)工作是Research Track的《ASGN: An Active Semi-supervised Graph Neural Network for Molecular Property Prediction》,提出了一種基于主動(dòng)學(xué)習(xí)的半監(jiān)督圖神經(jīng)網(wǎng)絡(luò)模型來(lái)對(duì)分子性質(zhì)進(jìn)行預(yù)測(cè)方法。
第二個(gè)工作是Research Track的《Hierarchical Attention Propagation for Healthcare Representation Learning》,基于注意力機(jī)制,提出了一種利用的層次信息表示醫(yī)學(xué)本體的表示學(xué)習(xí)模型。
2 ASGN: An Active Semi-supervised Graph Neural Network for Molecular Property Prediction
2.1 動(dòng)機(jī)與貢獻(xiàn)
分子性質(zhì)(如能量)預(yù)測(cè)是化學(xué)和生物學(xué)中的一個(gè)重要問(wèn)題。遺憾的是,許多監(jiān)督學(xué)習(xí)方法都存在著標(biāo)記分子在化學(xué)空間中稀缺的問(wèn)題,而這類屬性標(biāo)記通常是通過(guò)密度泛函理論(DFT)計(jì)算得到的,計(jì)算量非常大。一個(gè)有效的解決方案是使用半監(jiān)督方法使未標(biāo)記的分子也能參與訓(xùn)練。然而,學(xué)習(xí)大量分子的半監(jiān)督表示具有挑戰(zhàn)性,存在包括分子本質(zhì)和結(jié)構(gòu)的聯(lián)合表征,表征與屬性學(xué)習(xí)的沖突等問(wèn)題。本文作者提出了一個(gè)新的框架,結(jié)合了標(biāo)記和未標(biāo)記的分子來(lái)預(yù)測(cè)分子性質(zhì),稱為主動(dòng)半監(jiān)督圖神經(jīng)網(wǎng)絡(luò)(ASGN)。
2.2 模型
本文提出了一種新的主動(dòng)半監(jiān)督圖神經(jīng)網(wǎng)絡(luò)(ASGN)框架,通過(guò)在化學(xué)空間中合并標(biāo)記和未標(biāo)記的分子來(lái)預(yù)測(cè)分子的性質(zhì)。總體框架如圖2所示。
總體來(lái)講,本文使用教師模型和學(xué)生模型來(lái)迭代訓(xùn)練。每個(gè)模型都是一個(gè)圖神經(jīng)網(wǎng)絡(luò)。在教師模型中,使用半監(jiān)督的方式來(lái)獲得分子圖的一般表示。我們聯(lián)合訓(xùn)練分子的無(wú)監(jiān)督表示和基于屬性預(yù)測(cè)的embedding。在學(xué)生模型中,通過(guò)微調(diào)教師模型中的參數(shù)來(lái)處理?yè)p失沖突。之后,再使用學(xué)生模型為未標(biāo)記的數(shù)據(jù)集分配偽標(biāo)簽。作為對(duì)教師模型的反饋,教師模型可以從這些偽標(biāo)簽中學(xué)習(xí)學(xué)生模型學(xué)到的知識(shí)。同時(shí),為了提高標(biāo)記效率,作者使用了主動(dòng)學(xué)習(xí)來(lái)選擇新的有代表性的未標(biāo)記分子進(jìn)行標(biāo)記。然后再將它們添加到標(biāo)記的集合中,并反復(fù)fine-tune兩個(gè)模型,直到達(dá)到預(yù)設(shè)精度。整個(gè)模型的核心思想是利用教師模型輸出的embedding來(lái)尋找整個(gè)未標(biāo)記集合中最具有多樣化性質(zhì)的子集,然后再使用DFT等方法給這些分子分配基本的真值標(biāo)簽。之后,將它們添加到標(biāo)簽集中,并重復(fù)迭代以提高性能。
2.2.1 教師模型
在教師模型中,本文采用了半監(jiān)督學(xué)習(xí)方式。教師模型的損失函數(shù)由三部分組成,一個(gè)具有標(biāo)記的分子的性質(zhì)損失函數(shù)和兩個(gè)無(wú)監(jiān)督損失函數(shù)(分別從節(jié)點(diǎn)和圖層面)。
(1) 本文使用了一種消息傳遞圖神經(jīng)網(wǎng)絡(luò)(MPGNN),先將分子圖轉(zhuǎn)化為基于消息傳遞圖神經(jīng)網(wǎng)絡(luò)的表示向量,之后在預(yù)測(cè)和標(biāo)記(即中的標(biāo)記屬性)之間使用均方損失(MSE)來(lái)指導(dǎo)模型參數(shù)的優(yōu)化
(2)在節(jié)點(diǎn)級(jí)表示學(xué)習(xí)中,模型主要學(xué)習(xí)從分子圖的幾何信息中獲取領(lǐng)域知識(shí)。其主要思想是使用node embedding從表示中重建節(jié)點(diǎn)類型和拓?fù)洌ü?jié)點(diǎn)之間的距離)。具體地說(shuō),我們首先從圖2所示的圖中對(duì)一些節(jié)點(diǎn)和邊進(jìn)行隨機(jī)采樣,然后將這些節(jié)點(diǎn)的表示傳遞給MLP,并用它們重建節(jié)點(diǎn)類型和節(jié)點(diǎn)間的距離。從數(shù)學(xué)上講,本文最小化了以下交叉熵:
(3)雖然能夠重構(gòu)分子拓?fù)浣Y(jié)構(gòu)的節(jié)點(diǎn)嵌入可以有效地表示分子的結(jié)構(gòu),然而結(jié)合圖級(jí)表示學(xué)習(xí)對(duì)屬性預(yù)測(cè)等下游任務(wù)也是有益的。為了學(xué)習(xí)圖級(jí)表示,關(guān)鍵是利用化學(xué)空間中分子之間的相互關(guān)系,即相似的分子具有相似的性質(zhì)。本文提出了一種基于學(xué)習(xí)聚類的圖級(jí)表示方法。首先,計(jì)算網(wǎng)絡(luò)的圖級(jí)embedding。然后,我們使用一種基于隱式聚類的方法來(lái)為每個(gè)分子分配一個(gè)由隱式聚類過(guò)程生成的聚類ID,然后利用一個(gè)懲罰損失函數(shù)對(duì)模型進(jìn)行優(yōu)化,該過(guò)程迭代進(jìn)行直到達(dá)到局部最小值。
(4)總LOSS:
2.2.2 學(xué)生模型
在實(shí)際應(yīng)用中,直接優(yōu)化教師模型中的公式(10)對(duì)屬性預(yù)測(cè)的結(jié)果并不理想。由于教師模型中的優(yōu)化目標(biāo)之間存在沖突,每個(gè)聯(lián)合優(yōu)化目標(biāo)的性能都比單獨(dú)優(yōu)化的性能要差。尤其是當(dāng)帶標(biāo)記分子遠(yuǎn)少于無(wú)標(biāo)記分子時(shí),模型很少關(guān)注一個(gè)epoch內(nèi)對(duì)的優(yōu)化,但對(duì)于分子性質(zhì)的預(yù)測(cè)是本文最關(guān)心的問(wèn)題。因此,與只需學(xué)習(xí)分子性質(zhì)的模型相比,教師模型對(duì)于分子預(yù)測(cè)的損失要高得多。為了緩解這個(gè)問(wèn)題,本文引入了一個(gè)學(xué)生模型。具體過(guò)程為:使用教師模型,通過(guò)共同優(yōu)化上述對(duì)象函數(shù)來(lái)學(xué)習(xí)分子表示,當(dāng)教師模型的學(xué)習(xí)過(guò)程結(jié)束時(shí),我們將教師模型的權(quán)重轉(zhuǎn)移到學(xué)生模型上,并使用學(xué)生模型僅對(duì)標(biāo)記的數(shù)據(jù)集進(jìn)行fine-tuning,以學(xué)習(xí)與圖2所示公式(4)相同的分子性質(zhì):
在fine-tuning之后,我們使用學(xué)生模型來(lái)推斷整個(gè)未標(biāo)記的數(shù)據(jù)集,并為每個(gè)未標(biāo)記的數(shù)據(jù)分配一個(gè)偽標(biāo)簽,表示學(xué)生對(duì)其性質(zhì)的預(yù)測(cè),未標(biāo)記的數(shù)據(jù)集為
,其中為學(xué)生模型的參數(shù)。在下一次迭代中,教師模型還需要學(xué)習(xí)這樣的偽標(biāo)簽,公式(10)變成:
2.2.3 使用主動(dòng)學(xué)習(xí)進(jìn)行數(shù)據(jù)選擇
在模型中本文已經(jīng)把這些信息包括在有標(biāo)記和未標(biāo)記的分子中。然而,由于可用標(biāo)簽數(shù)量有限,準(zhǔn)確度仍可能不盡如人意,所以需要尋找新的標(biāo)簽數(shù)據(jù)來(lái)提高其性能。因此,在每一次迭代中,我們使用教師模型輸出的embedding迭代地選擇一個(gè)分子子集,并通過(guò)DFT計(jì)算其性質(zhì)(真值標(biāo)簽)。然后我們將這些通過(guò)主動(dòng)學(xué)習(xí)輸出的分子加入到標(biāo)記集中,以迭代的方式微調(diào)兩個(gè)模型。主動(dòng)學(xué)習(xí)的關(guān)鍵策略是在化學(xué)空間中中找到一小批最多樣化的分子來(lái)進(jìn)行標(biāo)記。一個(gè)經(jīng)過(guò)充分研究的測(cè)量多樣性的方法是從k-DPP中取樣。然而,由于子集選擇是NP難的,因此本文采用了貪婪近似,即k-中心法。用表示未標(biāo)記的數(shù)據(jù)集,用表示有標(biāo)記的數(shù)據(jù)集,我們采用一種貪婪的方法,在每次迭代中選擇一個(gè)子集,使標(biāo)記集和未標(biāo)記集之間的距離最大化。具體來(lái)說(shuō),對(duì)于第k批中的每個(gè)0
是兩個(gè)分子之間的距離。
2.3 實(shí)驗(yàn)
2.3.1 實(shí)驗(yàn)設(shè)置
? Datasets:
(1) QM9: 130,000 molecules, <9 heavy atoms
(2) OPV: 100,000 medium sized molecules
? Properties (All calculated by DFT)
(1) QM9:
(2) OPV:
2.3.2 實(shí)驗(yàn)結(jié)果
Results on QM9
Results on OPV
3 Hierarchical Attention Propagation for Healthcare Representation Learning
3.1 動(dòng)機(jī)與貢獻(xiàn)
醫(yī)學(xué)本體論被廣泛用于表示和組織醫(yī)學(xué)術(shù)語(yǔ)。例如ICD-9、ICD-10、UMLS等。本體論通常以層次結(jié)構(gòu)構(gòu)建,編碼不同醫(yī)學(xué)概念之間的多層次子類關(guān)系,允許概念之間有非常細(xì)微的區(qū)別。醫(yī)學(xué)本體論為將領(lǐng)域知識(shí)整合到醫(yī)療預(yù)測(cè)系統(tǒng)中提供了一個(gè)很好的途徑,并可以緩解數(shù)據(jù)不足的問(wèn)題,提高稀有類別的預(yù)測(cè)性能。為了整合這些領(lǐng)域知識(shí),Gram是一種最新的圖形注意力模型,它通過(guò)一種注意機(jī)制將醫(yī)學(xué)概念表示為其祖先embedding到本體中的加權(quán)和。盡管表現(xiàn)出了不錯(cuò)的性能,但Gram只考慮了概念的無(wú)序祖先,沒(méi)有充分地利用層次結(jié)構(gòu),因此表達(dá)能力有限。在本文中,我們提出了一種新的醫(yī)學(xué)本體嵌入模型HAP,該模型將注意力分層地傳播到整個(gè)本體結(jié)構(gòu)中,醫(yī)學(xué)概念自適應(yīng)地從層次結(jié)構(gòu)中的所有其他概念學(xué)習(xí)其embedding,而不僅僅是它的祖先。本文證明了HAP能夠?qū)W習(xí)到更具表現(xiàn)力的醫(yī)學(xué)概念embedding——從任意醫(yī)學(xué)概念embedding中能夠完全還原整個(gè)本體結(jié)構(gòu)。在兩個(gè)序列程序/診斷預(yù)測(cè)任務(wù)上的實(shí)驗(yàn)結(jié)果表明,HAP的embedding質(zhì)量?jī)?yōu)于Gram和其他baseline。此外,本文發(fā)現(xiàn)使用完整的本體并不總是最好的。有時(shí)只使用較低層次的概念比使用所有層次的效果要好。
3.2 模型
本文提出了一種新的醫(yī)學(xué)本體嵌入方法:
1)充分層次化知識(shí)的DAG(有向無(wú)環(huán)圖)
2)尊重層次內(nèi)節(jié)點(diǎn)的有序性。
HAP對(duì)模型進(jìn)行兩輪信息傳播,更新每一級(jí)節(jié)點(diǎn)的嵌入:第一次是自下而上的傳播,第二次是自上而下的傳播。
假設(shè)本體節(jié)點(diǎn)有L層,其中第一層只包括單個(gè)根節(jié)點(diǎn),第L層只有葉子醫(yī)療代碼。第2,3,……L ?1層可以包含中間類別節(jié)點(diǎn)或葉醫(yī)療代碼(因?yàn)槟承┽t(yī)療代碼沒(méi)有完整的L層)。一開(kāi)始,每個(gè)節(jié)點(diǎn)的embedding是由一個(gè)基本embedding 初始化的。在自底向上的信息傳播中,我們從第L-1層開(kāi)始依次更新節(jié)點(diǎn)的embedding,直到第一層。對(duì)于第層的某一節(jié)點(diǎn),本文通過(guò)使用注意力機(jī)制自適應(yīng)地將當(dāng)前embedding與第層的其子級(jí)embedding相結(jié)合來(lái)更新其embedding :
其中表示開(kāi)始更新-1層節(jié)點(diǎn)前節(jié)點(diǎn)的embedding,表示embedding大小。注意力權(quán)重的計(jì)算公式為:
其中是一個(gè)用于計(jì)算和之間標(biāo)量原始注意力的MLP。
自下而上的傳播從第二層直到根節(jié)點(diǎn)為止。同一級(jí)別的節(jié)點(diǎn)更新可以并行執(zhí)行,而上層節(jié)點(diǎn)的更新必須等到其所有較低級(jí)別都已更新為止。給定由自下而上傳播計(jì)算的embedding,HAP以自頂向下的方式執(zhí)行第二輪傳播。具體地說(shuō),我們從第二層,第三層……直到第L層順序更新節(jié)點(diǎn)的embedding。對(duì)于來(lái)自第-1層的節(jié)點(diǎn),使用一個(gè)使用一個(gè)類似的注意力機(jī)制自適應(yīng)地將當(dāng)前節(jié)點(diǎn)的embedding與來(lái)自第層的其父級(jí)embedding相結(jié)合來(lái)更新其embedding :
其中表示開(kāi)始更新+1層節(jié)點(diǎn)前節(jié)點(diǎn)的embedding。注意力權(quán)重的計(jì)算公式為:
最后,在兩輪傳播之后,每個(gè)節(jié)點(diǎn)都將其注意力傳播到整個(gè)知識(shí)DAG中。因此,每個(gè)節(jié)點(diǎn)的最終嵌入不僅有效地吸收了其祖先的知識(shí),還吸收了其后代、兄弟姐妹,甚至一些遙遠(yuǎn)節(jié)點(diǎn)的知識(shí)。此外,由于傳播順序與層次結(jié)構(gòu)嚴(yán)格一致,因此保留了節(jié)點(diǎn)排序信息。例如,在自頂向下的傳播階段,節(jié)點(diǎn)的祖先按順序逐級(jí)向下傳遞信息,而不是像(1)中那樣一次性傳遞信息。這使得HAP能夠從不同層次上區(qū)分祖先/后代,并對(duì)排序信息進(jìn)行編碼。
最終的醫(yī)學(xué)代碼嵌入用于順序程序/診斷預(yù)測(cè)任務(wù)。在之后,本文采用了端到端的RNN框架。將最終得到的embedding , ,…… 以列的形式進(jìn)行拼接得到embedding矩陣 ,注意一個(gè)訪問(wèn)記錄可以被表示為multi-hot向量。為了對(duì)于每一個(gè)屬于的醫(yī)學(xué)代碼都得到一個(gè)embedding向量,本文用與相乘并使用一個(gè)非線性變換:
之后我們依次將,,……,輸入RNN中,并對(duì)每一個(gè)訪問(wèn)輸出一個(gè)中間隱藏態(tài),隱藏狀態(tài)是通過(guò)過(guò)去所有的時(shí)間戳直到到t的訪問(wèn)給出的:
之后,對(duì)于下一時(shí)間戳的預(yù)測(cè)由下式給出:
我們使用分批梯度下降來(lái)最小化所有時(shí)間戳(除了時(shí)間戳1)的預(yù)測(cè)損失。單個(gè)患者的預(yù)測(cè)損失由下式得出:
3.3 實(shí)驗(yàn)
數(shù)據(jù)集設(shè)置:
結(jié)果:
?HAP (lv3): 所提出的HAP模型只使用最低的3個(gè)層次。也就是說(shuō),自下而上的傳播在L-2層停止,自頂向下的傳播也從L-2層開(kāi)始??梢园l(fā)現(xiàn)有時(shí)只使用較低層次的層次,就可以提供足夠的領(lǐng)域知識(shí),同時(shí)降低了計(jì)算復(fù)雜度。
? HAP (lv2): HAP模型只使用最低的2個(gè)層次.
責(zé)任編輯:lq
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4778瀏覽量
101003 -
函數(shù)
+關(guān)注
關(guān)注
3文章
4344瀏覽量
62849 -
模型
+關(guān)注
關(guān)注
1文章
3290瀏覽量
49020
原文標(biāo)題:【KDD20】圖神經(jīng)網(wǎng)絡(luò)在生物醫(yī)藥領(lǐng)域的應(yīng)用
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論