引言
2020年,自然語言處理領(lǐng)域頂級(jí)的國(guó)際學(xué)術(shù)會(huì)議EMNLP(Conference on Empirical Methods in Natural Language Processing)共錄取論文751篇
開放域信息抽取是信息抽取任務(wù)的另一個(gè)分支任務(wù),其中抽取的謂語和實(shí)體并不是特定的領(lǐng)域,也并沒有提前定義好實(shí)體類別。更一般的,開放域信息抽取的目的是抽取出所有輸入的文本中的形如 《主語,謂語,賓語》 的三元組。開放域信息抽取對(duì)于知識(shí)的構(gòu)建至關(guān)重要,可以減少人工標(biāo)注的成本和時(shí)間。
本次Fudan DISC實(shí)驗(yàn)室將分享EMNLP2020中關(guān)于開放域信息抽取和文本知識(shí)結(jié)構(gòu)化的3篇論文,介紹最新的開放域信息抽取的研究。
文章概覽
關(guān)于開放域信息抽取神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練方式的系統(tǒng)比較 (Systematic Comparison of Neural Architectures and Training Approaches for Open Information Extraction)
該文將神經(jīng)網(wǎng)絡(luò)基礎(chǔ)的OpenIE框架系統(tǒng)分解為三個(gè)基本模塊:嵌入塊、編碼塊和預(yù)測(cè)模塊。在探究各種組合時(shí),他們發(fā)現(xiàn):pre-training的語言模型+Transformer編碼器+LSTM預(yù)測(cè)層在OpenIE2016基準(zhǔn)上有了巨大的改進(jìn)(提升200%)。此外,他們還提到,NLL損失函數(shù)可能更偏向淺層預(yù)測(cè)。
OpenIE6:開放域信息的迭代網(wǎng)格標(biāo)記抽取以及并列短語分析 (OpenIE6: Iterative Grid Labeling and Coordination Analysis for Open Information Extraction)
該文將OpenIE任務(wù)的三元組抽取構(gòu)建為2-D(#extraction #words)網(wǎng)格標(biāo)記任務(wù),使得通過迭代抽取可以將一個(gè)句子中的所有三元組都有概率被模型識(shí)別出來。該文將他們的抽取方式稱為IGL(Iterative Grid Labeling),并在計(jì)算損失函數(shù)的時(shí)候加4種入關(guān)于詞性的軟約束,并在最終的loss計(jì)算時(shí)加起來作為約束懲罰項(xiàng)。實(shí)驗(yàn)結(jié)果表明了他們模型的有效。
DualTKB: 在文本和知識(shí)庫之間進(jìn)行雙重學(xué)習(xí) (DualTKB: A Dual Learning Bridge between Text and Knowledge Base)論文地址:https://www.aclweb.org/anthology/2020.emnlp-main.694.pdf
該文建立了多個(gè)任務(wù)將某些文本(選項(xiàng)A)或KB中的路徑三元組(選項(xiàng)B)作為輸入,然后兩個(gè)解碼器分別生成文本(A)或另一個(gè)三元組(B)。也就是說,你可以有多種路線,例如A-B(從文本中提取三元組)或B-B(知識(shí)圖譜補(bǔ)全)等。重復(fù)這個(gè)過程,你可以從文本中迭代提取更多三元組,或者對(duì)知識(shí)圖譜反向解碼為文本。
論文細(xì)節(jié)
1
任務(wù)定義
現(xiàn)有的OpenIE的任務(wù)定義主要分為兩種:1)序列標(biāo)注、2)子序列提取
其中序列標(biāo)注框架最為常見,下圖為用序列標(biāo)注任務(wù)設(shè)定的開放域信息抽取。例子中一共有7類標(biāo)簽
子序列通過模型生成大量的可能的子序列三元組組合,模型負(fù)責(zé)給這些候選組合進(jìn)行打分,并選出概率最高的幾個(gè)三元組作為抽取結(jié)果。
作者通過比較這兩種任務(wù)設(shè)定,總結(jié)出統(tǒng)一的OpenIE的任務(wù)設(shè)定:OpenIE任務(wù)將每一個(gè)問題定義為一個(gè)元組《X,Y》,其中將一個(gè)句子表示成有很多個(gè)詞語的序列,定義了一個(gè)合法的抽取結(jié)果集合。如果是建模為序列標(biāo)注問題,則是BIO標(biāo)簽;如果看作子序列提取問題,則是子序列集合。
方法
模型結(jié)構(gòu):文中對(duì)神經(jīng)網(wǎng)絡(luò)OpenIE的方法進(jìn)行全方位的總結(jié),作者將目前的框架分為了三個(gè)模塊:1)Embedding Module;2)Encoding Module;3)Prediction Module;各模塊的種類如下圖。
作者針對(duì)以上三個(gè)模塊進(jìn)行了不同組合,做了很多實(shí)驗(yàn)進(jìn)行比較哪種組合方式是最好的。
訓(xùn)練方法:在進(jìn)行訓(xùn)練的時(shí)候會(huì)遇到標(biāo)簽分類負(fù)樣本標(biāo)簽的數(shù)量遠(yuǎn)遠(yuǎn)大于其他標(biāo)簽數(shù)量的情況,作者對(duì)這個(gè)問題提出了三種解決方案。如下圖所示,第一種解決方案是在計(jì)算損失函數(shù)時(shí)不計(jì)算預(yù)測(cè)出標(biāo)簽的數(shù)據(jù);第二種是計(jì)算預(yù)測(cè)出標(biāo)簽和非標(biāo)簽的邊緣部分的損失函數(shù);第三種是只計(jì)算邊緣部分的非部分的損失函數(shù)值。
數(shù)據(jù)集和評(píng)價(jià)指標(biāo)數(shù)據(jù)集來自于OIE16的benchmark 數(shù)據(jù)集,評(píng)價(jià)指標(biāo)采用F1值和AUC-PR。
實(shí)驗(yàn)結(jié)果
從主實(shí)驗(yàn)可以看出最優(yōu)的組合是 ALBERT+Transformer+LSTM,并且用最后一種訓(xùn)練方式訓(xùn)練的模型。
作者對(duì)每個(gè)模塊和訓(xùn)練方式還進(jìn)行了消融實(shí)驗(yàn)如下。
該實(shí)驗(yàn)說明,embedding層使用Transformer效果最好。
該實(shí)驗(yàn)說明,預(yù)測(cè)層使用LSTM效果最好。
該實(shí)驗(yàn)說明,使用最后一種訓(xùn)練方式的效果是最好的。
2
論文動(dòng)機(jī)
文中介紹了目前OpenIE最主流的兩種框架:1)生成類的系統(tǒng)(通過迭代多次編碼輸入的文本,以進(jìn)行多次抽?。?;2)序列標(biāo)注系統(tǒng)。這兩種框架都存在弊端:1)生成系統(tǒng)多次重復(fù)encoding輸入的文本,會(huì)造成抽取速度慢,并不能很好的適應(yīng)大數(shù)據(jù)時(shí)代的大量網(wǎng)頁抽取場(chǎng)景;2)而序列標(biāo)注系統(tǒng),對(duì)于每個(gè)抽取都是獨(dú)立的,并不能獲取其他抽取內(nèi)容的信息。
任務(wù)定義
給定一句話作為輸入,然后抽取出一個(gè)集合作為抽取的結(jié)果,其中每個(gè)是一個(gè)的三元組。由于一句話中可能含有多個(gè)可抽取的三元組,如下圖。
作者將這個(gè)任務(wù)建模為一個(gè)在2-D網(wǎng)格上進(jìn)行迭代抽取的任務(wù),網(wǎng)格的大小為,橫坐標(biāo)為句子分詞,縱坐標(biāo)為抽取出的結(jié)果。例如,坐標(biāo)為的網(wǎng)格代表第n個(gè)詞的第m次的預(yù)測(cè)標(biāo)簽,如下圖。
方法
模型(Iterative Grid Labeling)
作者提出了一個(gè)迭代網(wǎng)格抽取方法,去完成這個(gè)網(wǎng)格抽取任務(wù),其實(shí)就是利用迭代抽取,然后將上一節(jié)定義的的網(wǎng)格填滿預(yù)測(cè)標(biāo)簽,模型圖如下:
該結(jié)構(gòu)一共迭代M次,每一次詞向量都需要經(jīng)過一個(gè)相同結(jié)構(gòu)的模塊如上圖,模塊中包含一個(gè)transformer 編碼器的self-att層、一個(gè)又多層感知機(jī)組成的標(biāo)簽分類器和一個(gè)標(biāo)簽嵌入層。每次迭代后詞向量編碼器的輸出會(huì)加入下一次的輸入中去,以達(dá)到迭代信息傳遞的作用。文中作者將該方法稱做IGL-OIE,訓(xùn)練得到的損失函數(shù)為。
網(wǎng)格約束
在進(jìn)行抽取的時(shí)候,作者提出了四種軟約束來限制抽取的結(jié)果,一共有四種:1)POS Coverage(POSC);2)Head Verb Coverage(HVC);3)Head Verb Exclusivitu(HVE);4)Extraction Count(EC)。POSC約束了句子中的每個(gè)名詞、動(dòng)詞、形容詞和副詞至少有一個(gè)要出現(xiàn)在抽取結(jié)果中;HVC約束了句中每一個(gè)頭動(dòng)詞(有意義的動(dòng)詞)至少出現(xiàn)在其中一個(gè)抽取結(jié)果的關(guān)系中;HVE約束了每個(gè)抽取結(jié)果的關(guān)系只能有一個(gè)動(dòng)詞;EC約束了所有抽取結(jié)果的數(shù)量要少于句中所有頭動(dòng)詞的數(shù)量。作者根據(jù)以上定義的約束,制定了以下四種損失函數(shù)懲罰項(xiàng):
,
,
,
,
,
。
將以上約束和抽取訓(xùn)練的loss加起來得到總的損失:
并列連詞檢測(cè)
作者利用網(wǎng)格抽取和前人的并列連詞抽取工具,設(shè)計(jì)了并列連詞檢測(cè)的方法稱做IGL-CA,如下圖
真正訓(xùn)練的時(shí)候先用IGL-CA將長(zhǎng)句根據(jù)并列連詞位置拆成簡(jiǎn)單句,再進(jìn)行IGL-OIE進(jìn)行抽取。
數(shù)據(jù)集和實(shí)驗(yàn)準(zhǔn)備
訓(xùn)練數(shù)據(jù)集來自于Open-IE4,同時(shí)也是用來訓(xùn)練IMoJIE的數(shù)據(jù)集。用于比較的模型有IMoJIE、RnnOIE、SenceOIE、SpanOIE、MinIE、ClasusIE、OpenIE4和OpenIE5。實(shí)驗(yàn)評(píng)價(jià)在CaRB、CaRB(1-1)、OIE6-C和Wire57-C上,并以F1和AUC作為評(píng)價(jià)指標(biāo)。
實(shí)驗(yàn)結(jié)果
從實(shí)驗(yàn)結(jié)果看出本文提出的OpenIE6在三個(gè)評(píng)價(jià)數(shù)據(jù)集上都取得了最好的成績(jī),而且當(dāng)加入了軟約束后速度加快了5倍,該模型在準(zhǔn)確率不降的基礎(chǔ)上,加快了推理速度。
作者還分析了各約束間的關(guān)系,發(fā)現(xiàn)最有用的是POSC約束。
3
動(dòng)機(jī)和貢獻(xiàn)
構(gòu)建知識(shí)圖譜是一項(xiàng)很費(fèi)人力的事情,這項(xiàng)工作提出了一種知識(shí)的轉(zhuǎn)換器,用于轉(zhuǎn)換純文本和知識(shí)圖。換句話說,如果給模型很多句子,模型就可以把這些句子變成一個(gè)圖存儲(chǔ)成知識(shí)圖譜。反過來,給模型一個(gè)圖,可以利用圖中節(jié)點(diǎn)和邊的關(guān)系,將圖還原成帶有知識(shí)的句子。
任務(wù)定義
任務(wù)1(文本路徑):
給定一句話,然后生成一個(gè)具有格式正確的實(shí)體和關(guān)系的路徑,該路徑和實(shí)體可以屬于已經(jīng)構(gòu)造的KB,也可以以一種實(shí)際有意義的方式對(duì)其進(jìn)行擴(kuò)展。此條件生成被構(gòu)造為稱為的翻譯任務(wù),其中。
任務(wù)2(路徑文本):
給定KB路徑,則生成描述性句子,將路徑中的實(shí)體和關(guān)系連貫地合并。此條件生成是稱為的翻譯任務(wù),其中。
下圖給定了一些標(biāo)記符號(hào):
方法
由于缺少KB和文本對(duì)應(yīng)的數(shù)據(jù)集,所以作者首先想到了采用自編嗎器的方式設(shè)計(jì)了四個(gè)無監(jiān)督的任務(wù):(1)文本到文本(AA)(2)圖到圖(BB)(3)文本到圖到文本(ABA)(4)圖到文本到圖(BAB)。這四個(gè)任務(wù)分別對(duì)應(yīng)上圖的、、和。計(jì)算公式如下:
由于作者采用的數(shù)據(jù)集是ConceptNet,然后作者找到了構(gòu)建ConceptNet的語料集合,然后作者采用實(shí)體和關(guān)系在文本中進(jìn)行模糊匹配的方式對(duì)齊了一些圖路徑和文本的訓(xùn)練對(duì),由于這個(gè)轉(zhuǎn)換是不準(zhǔn)確的所以只能是弱監(jiān)督學(xué)習(xí),在模型圖中對(duì)應(yīng)的任務(wù)是(1)圖到文本(BA)和(2)文本到圖(AB),損失函數(shù)如下:
實(shí)驗(yàn)設(shè)計(jì)
本文的實(shí)驗(yàn)選取了常識(shí)領(lǐng)域的文本數(shù)據(jù)OMCS,和常識(shí)知識(shí)圖譜ConceptNet(CN600K)。因?yàn)镃N600K中的部分三元組是從OMCS中抽取得來,所以部分文本和路徑所表達(dá)的知識(shí)是相同的。對(duì)于弱監(jiān)督數(shù)據(jù),文中使用Fuzzy Matching的方式對(duì)齊文本和路徑。需要注意的是,因?yàn)閷?duì)齊的數(shù)據(jù)是基于路徑和文本之間的相似度進(jìn)行選擇的,所以對(duì)齊的數(shù)據(jù)是有噪聲的。
文中涉及文本生成任務(wù)和知識(shí)圖譜補(bǔ)全任務(wù),所以評(píng)價(jià)指標(biāo)根據(jù)任務(wù)的不同有著變化??傮w來說,生成任務(wù)包括BLEU2、BLEU3、Rougel和F1;知識(shí)圖譜補(bǔ)全任務(wù)采用了常用的MRR和HITS@N指標(biāo)。由于作者還設(shè)計(jì)了一個(gè)通過一堆句子生成新圖的任務(wù),所以需要一個(gè)指標(biāo)來評(píng)價(jià)新圖和原來的圖有多少不同,因此引入了圖編輯距離(GED)來評(píng)價(jià)這個(gè)任務(wù)。
實(shí)驗(yàn)結(jié)果
文本路徑互轉(zhuǎn)的性能
從文本到文本的效果很好,但是如果通過中間圖轉(zhuǎn)化的話效果就會(huì)差很多,說明跨模態(tài)的知識(shí)遷移能力需要提高。
如果直接用路徑生成文本,效果就更差了,但是本文提出了一種新穎的思想。
知識(shí)圖譜補(bǔ)全任務(wù)
在知識(shí)圖譜補(bǔ)全任務(wù)上,本文提出的模型優(yōu)于前人的baseline,值得注意的是,代表了弱監(jiān)督的比例,從實(shí)驗(yàn)結(jié)果來看,并不是弱監(jiān)督越多越好,因?yàn)閹в泻芏嘣胍?。因此作者還對(duì)應(yīng)該加入多少弱監(jiān)督進(jìn)行了探索,實(shí)驗(yàn)結(jié)果如下:
發(fā)現(xiàn)大致是加入0.5比例的監(jiān)督效果是在最好的模型上表現(xiàn)提升較多。
編輯:lyn
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4779瀏覽量
101080 -
LSTM
+關(guān)注
關(guān)注
0文章
59瀏覽量
3781
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論