1. 機(jī)器閱讀理解(MRC)、問(wèn)答系統(tǒng)(QA)與信息抽取
最近實(shí)體關(guān)系抽取與命名實(shí)體識(shí)別的SOTA模型排行榜中,有很多模型都使用了機(jī)器閱讀理解(MRC)和問(wèn)答系統(tǒng)(QA)中的思想和方法,比如HBT、ETL-span、Multi-turn QA和BERT_MRC等。MRC和QA中的思想和方法的使用,讓這些模型相比于傳統(tǒng)方法有很大提升。
在實(shí)體關(guān)系抽取任務(wù)中,最新的一些模型,如
HBT和ETL-span,用到了MRC中經(jīng)常使用的指針網(wǎng)絡(luò)法:通過(guò)多層標(biāo)注序列解決實(shí)體重疊問(wèn)題;
Multi-turn QA則使用了問(wèn)答系統(tǒng)的思想:通過(guò)問(wèn)答的形式一步一步抽取出主體、客體和關(guān)系。
這些模型在多個(gè)數(shù)據(jù)集上都達(dá)到了SOTA效果。相比于傳統(tǒng)的使用LSTM+CRF抽取特征做序列標(biāo)注,這些借鑒了MRC和QA技術(shù)的模型,無(wú)論是在抽取結(jié)果的準(zhǔn)確性還是對(duì)重疊實(shí)體關(guān)系的召回率方面,都有大幅度的提升。
同樣在命名實(shí)體識(shí)別任務(wù)中,也有如BERT_MRC這樣的模型,同時(shí)融合了MRC和QA領(lǐng)域的諸多思想方法,在多個(gè)數(shù)據(jù)集上達(dá)到了SOTA效果。
本文以信息抽取為核心,主要探討一下MRC和QA中經(jīng)常使用到的思想方法在信息抽取任務(wù)(包括實(shí)體關(guān)系抽取和命名實(shí)體識(shí)別)中的應(yīng)用。
2.MRC概述
2.0 寫(xiě)在前面
在分析MRC和QA在IE中的應(yīng)用之前,我們先對(duì)MRC做一個(gè)簡(jiǎn)單的概述。由于筆者對(duì)QA了解的不多,就不詳細(xì)介紹QA了,只分析一下QA中的一些方法是怎么應(yīng)用到信息抽取中的。
《Neural Machine Reading Comprehension: Methods and Trends》[1]是一篇MRC領(lǐng)域的綜述論文,它對(duì)MRC領(lǐng)域的任務(wù)目標(biāo),使用到的各種方法和思想和發(fā)展前景做了非常詳細(xì)的描述。
這里摘取其中一部分對(duì)MRC做一個(gè)簡(jiǎn)要的介紹。如果想對(duì)MRC有更深入的了解,推薦先去認(rèn)真閱讀一下這篇論文。
2.1 MRC的發(fā)展歷程
MRC的任務(wù)是讓機(jī)器根據(jù)給定的內(nèi)容回答問(wèn)題。
MRC在1970年代就已經(jīng)被提出,但是由于那時(shí)數(shù)據(jù)集規(guī)模都比較小,而且主要使用基于規(guī)則的方法,所以性能很差,難以投入實(shí)用。這一情況在深度學(xué)習(xí)方法投入使用之后有了改觀。基于深度學(xué)習(xí)方法的機(jī)器閱讀理解,稱(chēng)為神經(jīng)機(jī)器閱讀理解,目前正在迅速發(fā)展。
2015年-2018年期間與MRC領(lǐng)域的各個(gè)細(xì)分任務(wù)相關(guān)的論文數(shù)量
從上圖所示“2015年-2018年期間與MRC領(lǐng)域的各個(gè)細(xì)分任務(wù)相關(guān)的論文數(shù)量”可以看出,最近幾年MRC領(lǐng)域的論文數(shù)呈幾何級(jí)數(shù)式增長(zhǎng),這一領(lǐng)域正在迅速發(fā)展。
2.2 任務(wù)&評(píng)測(cè)標(biāo)準(zhǔn)
MRC的任務(wù)根據(jù)答案形式可以分為四類(lèi):完形填空、多項(xiàng)選擇、片段抽取、自由作答
2.2.1 完形填空
給定上下文,一個(gè)詞或?qū)嶓w被移除,完形填空任務(wù)要求模型使用正確的詞或?qū)嶓w進(jìn)行填空,最大化條件概率。
Cloze Texts/完形填空定義
2.2.2 多項(xiàng)選擇
給定上下文,問(wèn)題,候選答案列表,多項(xiàng)選擇任務(wù)要求模型從中選擇正確的答案,最大化條件概率。
與完形填空任務(wù)的區(qū)別就是答案不再局限于單詞或?qū)嶓w,并且候選答案列表是必須要提供的。
Multiple Choice/多項(xiàng)選擇定義
2.2.3 片段抽取
盡管完形填空和多項(xiàng)選擇一定程度上可以發(fā)揮機(jī)器閱讀理解的能力,但是這兩個(gè)任務(wù)有一定的局限性:
首先,單詞或?qū)嶓w可能不足以回答問(wèn)題,需要完整的句子進(jìn)行回答;
其次,在很多情形是沒(méi)有提供候選答案的。
所以片段抽取任務(wù)應(yīng)運(yùn)而生。給定上下文和問(wèn)題,。片段抽取任務(wù)要求模型從中抽取連續(xù)的子序列作為正確答案,最大化條件概率。
Span Extraction/片段抽取定義
2.2.4 自由作答
將答案局限于一段上下文是不現(xiàn)實(shí)的。為了回答問(wèn)題,機(jī)器需要在多個(gè)上下文中進(jìn)行推理并總結(jié)答案。自由回答任務(wù)是四個(gè)任務(wù)中最復(fù)雜的,也更適合現(xiàn)實(shí)的應(yīng)用場(chǎng)景。
給定上下文和問(wèn)題,在自由回答任務(wù)中正確答案可能是也可能不是中的一個(gè)子序列,即或。自由回答任務(wù)需要預(yù)測(cè)正確答案,并且最大化條件概率 。
Free Answer/自由回答定義
2.2.5 不同任務(wù)的比較
下面在五個(gè)維度上對(duì)上述四個(gè)任務(wù)進(jìn)行比較:
建立數(shù)據(jù)集難易程度(construction)、
理解及推理程度(understanding)、
答案形式復(fù)雜程度(flexibility)、
進(jìn)行評(píng)估的難易程度(evaluation)、
真實(shí)應(yīng)用程度(application)
五大維度比較
由上圖可以看出:
完形填空任務(wù)容易構(gòu)建數(shù)據(jù)集,容易評(píng)估,但是答案被單個(gè)單詞或者實(shí)體限制,理解程度不高,和真實(shí)世界不符;
多項(xiàng)選擇任務(wù)容易評(píng)估,建立數(shù)據(jù)集不是很難,但是合成數(shù)據(jù)集和實(shí)際應(yīng)用之間有差距;
片段抽取任務(wù)是一個(gè)適中的選擇,數(shù)據(jù)集容易建立,容易評(píng)估,但是答案被原始文本的片段限制,仍和真實(shí)世界有差距;
自由作答任務(wù)最接近真實(shí)情況,理解程度最高,但是難以建立數(shù)據(jù)集,難以有效評(píng)估,是現(xiàn)階段最具的挑戰(zhàn)性的任務(wù)。
上述四個(gè)任務(wù)類(lèi)型中,片段抽取和信息抽取的關(guān)系最為緊密,命名實(shí)體識(shí)別和實(shí)體關(guān)系抽取任務(wù)都是識(shí)別文本中的片段。
2.2.6 評(píng)測(cè)標(biāo)準(zhǔn)
主要的評(píng)測(cè)標(biāo)準(zhǔn)有常見(jiàn)的準(zhǔn)確率P、召回率R和F1值。在上述四個(gè)任務(wù)的前三個(gè)中,使用P、R、F1可以滿(mǎn)足要求。
自由作答在評(píng)測(cè)時(shí)使用P、R、F1則不太合適,自由作答需要使用用于自動(dòng)文摘評(píng)測(cè)的方法ROUGE和ROUGE-L,以及用于評(píng)價(jià)翻譯性能的BLEU。
2.3 MRC模型的結(jié)構(gòu)
在實(shí)體關(guān)系抽取中,模型可以分為pipline結(jié)構(gòu)和joint結(jié)構(gòu)。在MRC中,模型也有統(tǒng)一的結(jié)構(gòu)類(lèi)型:
MRC模型結(jié)構(gòu)
如上圖所示,MRC模型包含四個(gè)關(guān)鍵模塊:
Embeddings:將單詞映射為對(duì)應(yīng)的詞向量,可能還會(huì)加上POS、NER、question category等信息;
Feature Extraction 特征抽取層:抽取question和context的上下文信息,常用的有CNN、RNN、LSTM等;
Context-Question Interaction:context和question之間的相關(guān)性在預(yù)測(cè)答案中起著重要作用。有了這些信息,機(jī)器就能夠找出context中哪些部分對(duì)回答question更為重要。為了實(shí)現(xiàn)該目標(biāo),在該模塊中廣泛使用attention機(jī)制,單向或雙向,以強(qiáng)調(diào)與query相關(guān)的context的部分。為了充分提取它們的相關(guān)性,context和question之間的相互作用有時(shí)會(huì)執(zhí)行多跳,這模擬了人類(lèi)理解的重讀過(guò)程。
Answer Prediction:基于上述模塊獲得的信息整理后得出最終答案。因?yàn)镸RC任務(wù)根據(jù)答案形式分為了很多種,所以該模塊與不同任務(wù)相關(guān)。對(duì)于完形填空,該模塊輸出context中的一個(gè)單詞或一個(gè)實(shí)體;對(duì)于多項(xiàng)選擇,該模塊從候選答案中選擇正確答案。
2.4 常用方法
2.4.1 上下文-問(wèn)題的交互
提取出上下文和問(wèn)題之間的關(guān)聯(lián)后,模型就能找到答案預(yù)測(cè)的證據(jù)。根據(jù)模型如何提取問(wèn)題和答案之間的關(guān)系,可以將現(xiàn)在的方法分為兩類(lèi):單跳交互、多跳交互。
不論MRC模型使用哪種交互,在強(qiáng)調(diào)哪部分文本對(duì)于預(yù)測(cè)答案更重要方面,注意力機(jī)制扮演了重要角色。根據(jù)注意力機(jī)制是否被單向/雙向使用進(jìn)一步可分為兩類(lèi):單向注意力、雙向注意力。
單向注意力
單向注意力流通常是從查詢(xún)到文本的,根據(jù)問(wèn)題強(qiáng)調(diào)文中最相關(guān)的部分。如果某個(gè)文本詞語(yǔ)和問(wèn)題更相似,那它更有可能是答案詞語(yǔ)。
注意力權(quán)重:
單向注意力
雙向注意力
單向注意力將問(wèn)題句子編碼成了一個(gè)特征向量,無(wú)法將注意力放在問(wèn)題中的詞語(yǔ)。但是,實(shí)際上這些詞語(yǔ)對(duì)答案預(yù)測(cè)也很關(guān)鍵,所以單向注意力在提取文本和問(wèn)題/查詢(xún)之間的交互信息方面有不足。
為了解決單向注意力的缺點(diǎn),雙向注意力不僅計(jì)算“查詢(xún)-文本”注意力,也計(jì)算“文本-查詢(xún)”注意力,雙向查看,為雙方提供互補(bǔ)的信息。
雙向注意力
3. MRC和QA在信息抽取中的應(yīng)用
這一部分將詳細(xì)地介紹命名實(shí)體識(shí)別和實(shí)體關(guān)系抽取中的幾個(gè)SOTA模型,并重點(diǎn)分析一下MRC和QA中的思想和方法在這幾個(gè)模型中的使用,以及新的思想方法相比于信息抽取領(lǐng)域中傳統(tǒng)的序列標(biāo)注方法具體有哪些優(yōu)勢(shì)。
基于MRC和QA的實(shí)體識(shí)別/關(guān)系抽取方法
3.1 BERT_MRC
3.1.1 BERT_MRC思想與創(chuàng)新點(diǎn)概述
目前大多數(shù)命名實(shí)體識(shí)別模型都是針對(duì)的“非嵌套型”的NER(Flat NER);然而,在實(shí)際場(chǎng)景中“嵌套型”的NER(Nested NER)占了相當(dāng)?shù)谋壤?/p>
Nested NER
BERT_MRC受到近來(lái)機(jī)器閱讀理解問(wèn)答(MRC-QA)的啟發(fā),使用機(jī)器閱讀理解框架去合并處理Flat NER與Nested NER。
比如我們現(xiàn)在想要抽取 "PER" 類(lèi)型的實(shí)體,就可以提出一個(gè)問(wèn)題 “Which person is mentioned in the text” ,然后在文本中找答案,找到的答案就是PER類(lèi)型的實(shí)體。使用這種方法,無(wú)論是Flat NER還是Nested NER,都能很直觀地抽取出來(lái)。
BERT_MRC模型的創(chuàng)新點(diǎn)有:
基于MRC的方法抽取命名實(shí)體,該方法適用于Flat和Nested兩種類(lèi)型的NER。相比序列標(biāo)注方法,該方法簡(jiǎn)單直觀,可遷移性強(qiáng)。
通過(guò)實(shí)驗(yàn)表明,基于MRC的方法能夠讓問(wèn)題編碼一些先驗(yàn)語(yǔ)義知識(shí),從而能夠在小數(shù)據(jù)集下、遷移學(xué)習(xí)下表現(xiàn)更好。
我們先來(lái)回顧一下NER任務(wù)。給定一個(gè)文本序列,它的長(zhǎng)度為,要抽取出其中的每個(gè)實(shí)體,其中實(shí)體都屬于某種實(shí)體類(lèi)型。
假設(shè)該數(shù)據(jù)集的所有實(shí)體標(biāo)簽集合為,那么對(duì)其中的每個(gè)實(shí)體標(biāo)簽,比如地點(diǎn) "LOC",都有一個(gè)關(guān)于它的問(wèn)題。這個(gè)問(wèn)題可以是一個(gè)詞,也可以是一句話(huà)等等。
使用上述MRC中片段抽取的思想,輸入文本序列和問(wèn)題,是需要抽取的實(shí)體,BERT_MRC通過(guò)建模來(lái)實(shí)現(xiàn)實(shí)體抽取。
3.1.2 BERT_MRC問(wèn)題構(gòu)造
對(duì)于問(wèn)題的構(gòu)造是建模的重要環(huán)節(jié)。BERT_MRC使用“標(biāo)注說(shuō)明”作為每個(gè)標(biāo)簽的問(wèn)題。所謂“標(biāo)注說(shuō)明”,是在構(gòu)造某個(gè)數(shù)據(jù)集的時(shí)候提供給標(biāo)注者的簡(jiǎn)短的標(biāo)注說(shuō)明。比如標(biāo)注者要去標(biāo)注標(biāo)簽為 "LOC" 的所有實(shí)體,那么對(duì)應(yīng) "LOC" 的標(biāo)注說(shuō)明就是 “Find locations in the text, including non-geographical locations, mountain ranges and bodies of water”:
標(biāo)注說(shuō)明與問(wèn)題構(gòu)造
3.1.3 BERT_MRC網(wǎng)絡(luò)結(jié)構(gòu)與損失函數(shù)
在抽取實(shí)體的具體方法上,如下圖所示BERT_MRC使用了指針網(wǎng)絡(luò):
兩層標(biāo)注網(wǎng)絡(luò),一層標(biāo)記實(shí)體開(kāi)始位置,一層標(biāo)記實(shí)體結(jié)束位置;
如果一共個(gè)類(lèi)型的實(shí)體,則需要個(gè)這樣的標(biāo)注序列,每?jī)蓚€(gè)標(biāo)注序列一組,共組;
根據(jù) "1" 標(biāo)簽所在的標(biāo)簽組來(lái)確定實(shí)體的類(lèi)型。
指針網(wǎng)絡(luò)示意圖
BERT_MRC定義了三個(gè)損失函數(shù),分別計(jì)算開(kāi)始位置損失、結(jié)束位置損失和實(shí)體損失,訓(xùn)練時(shí)總的loss值是上述三個(gè)損失值之和:
BERT_MRC的損失函數(shù)
3.1.4 BERT_MRC實(shí)驗(yàn)結(jié)論
BERT_MRC的實(shí)驗(yàn)設(shè)置非常有意思。通過(guò)設(shè)置很多對(duì)比實(shí)驗(yàn),證明了很多有用的信息,下面是對(duì)BERT_MRC論文中的一些實(shí)驗(yàn)結(jié)論的總結(jié):
相比baseline,BERT_MRC能夠更好地解決數(shù)據(jù)稀疏問(wèn)題,主要原因是MRC中的問(wèn)題能夠編碼一部分先驗(yàn)信息。
指針網(wǎng)絡(luò)能有效解決實(shí)體重疊問(wèn)題,無(wú)論對(duì)non-BERT還是BERT模型,MRC都比non-MRC好。
針對(duì)BERT_MRC中問(wèn)題的構(gòu)建策略,BERT_MRC又提出了很多問(wèn)題的構(gòu)建方法,但是實(shí)驗(yàn)證明,上文提到的“標(biāo)注說(shuō)明“仍是最有效的方法。
引入MRC中的問(wèn)題后,由于問(wèn)題中編碼了一些先驗(yàn)信息,所以在標(biāo)簽遷移上效果較好。并且具有了一定的先驗(yàn)知識(shí)編碼能力。
3.2 Multi-turn QA
3.2.1 現(xiàn)存問(wèn)題
實(shí)體關(guān)系抽取的大多數(shù)模型都將實(shí)體關(guān)系聯(lián)合抽取的任務(wù)看作是一個(gè)三元組抽取任務(wù),而這樣的處理存在如下幾個(gè)問(wèn)題:
在形式化層面上:簡(jiǎn)單的三元組形式往往不能充分表現(xiàn)文本背后的結(jié)構(gòu)化信息,因?yàn)橥谖谋局写嬖趯蛹?jí)性的依賴(lài)關(guān)系。獨(dú)立地考慮兩種實(shí)體可能導(dǎo)致依賴(lài)關(guān)系的間斷,導(dǎo)致重要信息的缺失,從而影響模型的判斷。
在算法層面上:對(duì)于關(guān)系抽取任務(wù),大多數(shù)模型都是以標(biāo)記的 mention 作為輸入,而模型的主要目的是判斷兩個(gè) mention 是否存在某種關(guān)系,在這種情況下,模型難以捕捉詞匯、語(yǔ)法以及語(yǔ)義上的關(guān)系,特別是在如下幾種情形下:
長(zhǎng)距離依賴(lài)問(wèn)題:實(shí)體相距很遠(yuǎn);
實(shí)體重疊問(wèn)題:一個(gè)實(shí)體出現(xiàn)在多個(gè)三元組中;
關(guān)系交叉問(wèn)題:關(guān)系跨度相交。
3.2.2 Multi-turn QA創(chuàng)新點(diǎn)與思想概述
Multi-turn QA模型的創(chuàng)新點(diǎn)在于其將實(shí)體關(guān)系聯(lián)合抽取的任務(wù)當(dāng)作一個(gè)多輪問(wèn)答類(lèi)問(wèn)題來(lái)處理,即每種實(shí)體和每種關(guān)系都用一個(gè)問(wèn)答模板進(jìn)行刻畫(huà),從而這些實(shí)體和關(guān)系可以通過(guò)回答這些模板化的問(wèn)題來(lái)從上下文中進(jìn)行抽取。下面簡(jiǎn)單給出一個(gè)問(wèn)答模版:
基于多輪問(wèn)答的實(shí)體關(guān)系抽取示例
由此可見(jiàn),基于多輪問(wèn)答的實(shí)體關(guān)系抽取主要流程如下:
首先確定目標(biāo)實(shí)體;
然后,后根據(jù)目標(biāo)實(shí)體和候選關(guān)系類(lèi)別進(jìn)行提問(wèn)。
這樣的處理方法主要有如下幾個(gè)優(yōu)點(diǎn):
能夠很好地捕捉標(biāo)簽的層次依賴(lài)性:即隨著每一輪問(wèn)答的進(jìn)行,我們有序的獲得所需要的實(shí)體,這與多回合填充式對(duì)話(huà)系統(tǒng)類(lèi)似;
問(wèn)題的編碼能夠整合對(duì)關(guān)系分類(lèi)任務(wù)重要的一些先驗(yàn)信息:這些信息可以潛在地解決了現(xiàn)有關(guān)系抽取模型難以解決的問(wèn)題,如遠(yuǎn)距離實(shí)體對(duì),或是關(guān)系重疊問(wèn)題;
QA任務(wù)提供了一種很自然的方式來(lái)融合實(shí)體抽取和關(guān)系抽取任務(wù):因?yàn)?QA 任務(wù)對(duì)于沒(méi)有答案的問(wèn)題可以返回 None,則對(duì)于不存在相應(yīng)關(guān)系的問(wèn)題;如果返回的不是 None,則可以同時(shí)確定實(shí)體和關(guān)系。
Multi-turn QA算法流程
將實(shí)體關(guān)系抽取任務(wù)轉(zhuǎn)化為多輪問(wèn)答任務(wù)的算法如上所示,整個(gè)算法分如下幾個(gè)部分:
頭實(shí)體抽取(line 4 - 9):由于每一輪多輪對(duì)話(huà)都需要一個(gè)頭實(shí)體來(lái)作為 trigger,因此需要事先抽取句子中所有的頭實(shí)體,而抽取實(shí)體的過(guò)程可以看作一個(gè)抽取 entity_question 答案的過(guò)程。所有 entity_question 都存放在 EntityQuesTemplates 中,每一種 entity_question 都對(duì)應(yīng)一類(lèi)實(shí)體的抽?。?/p>
關(guān)系與尾實(shí)體抽取(line 10 - 24):ChainOfRelTemplates 定義了一個(gè)關(guān)系序列,我們需要根據(jù)這個(gè)關(guān)系序列來(lái)進(jìn)行多輪問(wèn)答。同時(shí),它也定義了每種關(guān)系的模板,為了生成對(duì)應(yīng)的問(wèn)題(第14行),我們要在模板槽(slot)中插入之前抽取的實(shí)體。然后,關(guān)系和尾實(shí)體就能通過(guò)回答問(wèn)題同時(shí)被抽取出來(lái)。如果回答是 None,就說(shuō)明沒(méi)有答案,即只有同時(shí)抽出頭實(shí)體,以及頭實(shí)體存在對(duì)應(yīng)的關(guān)系和尾實(shí)體被抽出時(shí),才算成功抽出一個(gè)滿(mǎn)足條件的三元組。
我們知道現(xiàn)階段常見(jiàn)的MRC模型都是通過(guò)指針網(wǎng)絡(luò)的方式,僅預(yù)測(cè)答案在 Context 中的開(kāi)始和結(jié)束位置,僅適用于單答案的情況。但對(duì)于實(shí)體識(shí)別任務(wù),在一段 Context 中可能有多個(gè)答案,所以這種方法并不合適。作者的做法是將其當(dāng)作以問(wèn)題為基礎(chǔ)的序列標(biāo)注問(wèn)題,或者說(shuō)將 2 個(gè) N-class 分類(lèi)任務(wù)轉(zhuǎn)換成個(gè) 5-class 分類(lèi)任務(wù),其中為句子長(zhǎng)度。
作者將 BERT 作為 baseline。訓(xùn)練時(shí),損失函數(shù)為兩個(gè)子任務(wù)的疊加,即:
3.3 HBT、ETL-span
這兩個(gè)模型的思想和方法非常相似,所以放在一起介紹。它們能達(dá)到SOTA的重要原因之一就是因?yàn)槭褂昧?strong>MRC中的指針網(wǎng)絡(luò)。
HBT和ETL-span的抽取過(guò)程和Multi-turn QA相似,它們將實(shí)體關(guān)系三元組的抽取分解成了多個(gè)步驟來(lái)完成。但在具體實(shí)現(xiàn)的細(xì)節(jié)上,HBT和ETL-span和使用多輪對(duì)話(huà)的Multi-turn QA有很多不同。
HBT和ETL-span將三元組的抽取任務(wù)建模為三個(gè)級(jí)別的問(wèn)題,從而能夠更好解決三元組重疊的問(wèn)題。其核心觀點(diǎn)就是不再將關(guān)系抽取的過(guò)程看作實(shí)體對(duì)的離散標(biāo)簽,而是將其看作兩個(gè)實(shí)體的映射關(guān)系,即,整個(gè)三元組抽取過(guò)程可以概括為:
抽取三元組中的 subject;
針對(duì)每一個(gè),抽取其對(duì)應(yīng)的 object。
HBT模型的整體結(jié)構(gòu)如下圖所示,主要包括如下幾個(gè)部分:
BERT Encoder:通過(guò) BERT 得到每個(gè)詞的詞表征,把BERT的輸出當(dāng)作詞向量使用;
Subject Tagger:該部分用于識(shí)別所有可能的subject對(duì)象。其通過(guò)對(duì)每一個(gè)位置的編碼結(jié)果用兩個(gè)分類(lèi)器(全連接層)進(jìn)行分類(lèi),來(lái)判斷其是否是實(shí)體的開(kāi)始或結(jié)束位置;
Relation-specific Object Taggers:針對(duì)每一個(gè) subject,都需要對(duì)其進(jìn)行之后的 object 進(jìn)行預(yù)測(cè)。由圖中可知,其與 Subject Tagger 基本一致,主要區(qū)別在于每一個(gè)關(guān)系類(lèi)別獨(dú)享一組 object 分類(lèi)器,同時(shí)還要將subject作為特征和BERT詞向量拼接后作為輸入。
HBT模型結(jié)構(gòu)
HBT的解碼方式和傳統(tǒng)的基于序列標(biāo)注的解碼方式有很大的不同:
HBT基于指針網(wǎng)絡(luò),確定實(shí)體span通過(guò)兩個(gè)分類(lèi)器來(lái)實(shí)現(xiàn),采用sigmod+BinaryCrossEntrpy的方式;
序列標(biāo)注則只訓(xùn)練一個(gè)分類(lèi)器,采用softmax+CrossEntropy的方式。
HBT的這種多層標(biāo)記結(jié)構(gòu)能夠很好地抽取出重疊實(shí)體和關(guān)系/由于增加了分類(lèi)器的數(shù)量,使得每個(gè)分類(lèi)器只用進(jìn)行二分類(lèi),而序列標(biāo)注的分類(lèi)器則需要進(jìn)行多分類(lèi),因此HBT對(duì)非重疊的實(shí)體和關(guān)系也有很好的效果。
ETL-span和HBT的結(jié)構(gòu)差不多,只是在編碼層上有一點(diǎn)不同。ETL-span利用模型的分層結(jié)構(gòu),將靠前步驟得到的一些句向量,位置向量作為特征,加入進(jìn)靠后的步驟,取得了不錯(cuò)的效果。而識(shí)別實(shí)體范圍,關(guān)系類(lèi)型的方法和HBT一樣,都采用了指針網(wǎng)絡(luò)。
ETL-span模型結(jié)構(gòu)
-
模型
+關(guān)注
關(guān)注
1文章
3283瀏覽量
49001 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1209瀏覽量
24767
原文標(biāo)題:3. MRC和QA在信息抽取中的應(yīng)用
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論