這是一篇關(guān)于實(shí)體關(guān)系聯(lián)合抽取的工作。關(guān)于現(xiàn)有的聯(lián)合抽取工作,作者提出了兩點(diǎn)不足之處:
Feature Confusiong: 用于同樣的特征表示進(jìn)行NER和RE(關(guān)系分類)兩項(xiàng)任務(wù),可能會(huì)對(duì)模型的學(xué)習(xí)造成誤解;
現(xiàn)有的基于Table-Filling方法去完成聯(lián)合抽取的工作,會(huì)將表結(jié)構(gòu)轉(zhuǎn)化成一個(gè)序列結(jié)構(gòu),這樣導(dǎo)致丟失了重要的結(jié)構(gòu)信息。
因此本文的工作有以下特點(diǎn):
針對(duì)NER和RE,分別學(xué)習(xí)出不同的序列表示(sequence representations)和表格表示(table representations); 這兩種表示能分別捕獲任務(wù)相關(guān)的信息,同時(shí)作者還涉及了一種機(jī)制使他們彼此交互;
保持表格的結(jié)構(gòu),通過(guò)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)捕捉二維表格中的結(jié)構(gòu)信息;同時(shí),引入BERT中的attention權(quán)重,進(jìn)行表格中元素表示的學(xué)習(xí)。
模型的核心部分包括以下模塊:
Text Embedding: 對(duì)于一個(gè)輸入的包含n個(gè)words的句子,其詞向量、字符向量和BERT詞向量的共同構(gòu)成了每個(gè)word的表示。
Table Encoder: 目標(biāo)在于學(xué)出 N×N 表格下的向量表示,表格第i行第j列的向量表示,與句子中的第i個(gè)和第j個(gè)詞相對(duì)應(yīng),如Figure1所示。文中使用基于GRU結(jié)構(gòu)的MD-RNN(多維RNN)作為Text Encoder,在更新表格中當(dāng)前cell的信息時(shí),通過(guò)MDRNN融合其上下左右四個(gè)方向上的信息,從而利用了表格的結(jié)構(gòu)特點(diǎn);同時(shí)引入當(dāng)前cell所對(duì)應(yīng)的兩個(gè)詞在Sequence Encoder下的表示,使得Table Encoder和Sequence Encoder之間發(fā)生信息的交流;
Sequence Encoder: Sequence Encoder的結(jié)構(gòu)與Transformer類似,不同之處在于將Transformer中的scaled dot-product attention 替換為文中提出的 table-guided attention。具體地,將Transformer中計(jì)算Q,K之間分值的過(guò)程直接替換為對(duì)應(yīng)兩個(gè)word在table中對(duì)應(yīng)的向量:
由于 T_ij 融合了四個(gè)方向上的信息,能夠更加充分的捕捉上下文信息以及詞與詞之間的關(guān)系,同時(shí)也使Table Encoder和Sequence Encoder之間產(chǎn)生了雙向的信息交流。
Exploit Pre-trained Attention Weights: Text Embeddings部分有用到BERT,因此將BERT中各個(gè)層上多頭attention每個(gè)頭上的atention權(quán)重堆疊起來(lái),得到張量T l ∈ R N × N × ( L l × A l ) T^{l} in mathbb{R}^{N imes N imes (L^l imes A^l)} T和 Text Embedding中每個(gè)詞的表示,來(lái)構(gòu)成Table的初始輸入:
作者通過(guò)在不同數(shù)據(jù)集上的實(shí)驗(yàn)證明了模型的有效性,并通過(guò)消融實(shí)驗(yàn)進(jìn)行了相關(guān)的分析。
責(zé)任編輯:xj
原文標(biāo)題:【EMNLP2020】用填表的方式進(jìn)行實(shí)體關(guān)系聯(lián)合抽取
文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
自然語(yǔ)言處理
+關(guān)注
關(guān)注
1文章
619瀏覽量
13611 -
nlp
+關(guān)注
關(guān)注
1文章
489瀏覽量
22066
原文標(biāo)題:【EMNLP2020】用填表的方式進(jìn)行實(shí)體關(guān)系聯(lián)合抽取
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論