0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

MRC和QA中使用的思想方法在信息抽取任務(wù)中的應(yīng)用

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 作者:深度學(xué)習(xí)自然語(yǔ)言 ? 2022-10-25 10:48 ? 次閱讀

1. 機(jī)器閱讀理解(MRC)、問(wèn)答系統(tǒng)(QA)與信息抽取

最近實(shí)體關(guān)系抽取命名實(shí)體識(shí)別的SOTA模型排行榜中,有很多模型都使用了機(jī)器閱讀理解(MRC)和問(wèn)答系統(tǒng)(QA)中的思想和方法,比如HBT、ETL-span、Multi-turn QABERT_MRC等。MRCQA中的思想和方法的使用,讓這些模型相比于傳統(tǒng)方法有很大提升。

實(shí)體關(guān)系抽取任務(wù)中,最新的一些模型,如

HBTETL-span,用到了MRC中經(jīng)常使用的指針網(wǎng)絡(luò):通過(guò)多層標(biāo)注序列解決實(shí)體重疊問(wèn)題;

Multi-turn QA則使用了問(wèn)答系統(tǒng)的思想:通過(guò)問(wèn)答的形式一步一步抽取出主體、客體和關(guān)系

這些模型在多個(gè)數(shù)據(jù)集上都達(dá)到了SOTA效果。相比于傳統(tǒng)的使用LSTM+CRF抽取特征做序列標(biāo)注,這些借鑒了MRCQA技術(shù)的模型,無(wú)論是在抽取結(jié)果的準(zhǔn)確性還是對(duì)重疊實(shí)體關(guān)系的召回率方面,都有大幅度的提升。

同樣在命名實(shí)體識(shí)別任務(wù)中,也有如BERT_MRC這樣的模型,同時(shí)融合了MRCQA領(lǐng)域的諸多思想方法,在多個(gè)數(shù)據(jù)集上達(dá)到了SOTA效果。

本文以信息抽取為核心,主要探討一下MRC和QA中經(jīng)常使用到的思想方法在信息抽取任務(wù)(包括實(shí)體關(guān)系抽取和命名實(shí)體識(shí)別)中的應(yīng)用。

2.MRC概述

2.0 寫(xiě)在前面

在分析MRC和QA在IE中的應(yīng)用之前,我們先對(duì)MRC做一個(gè)簡(jiǎn)單的概述。由于筆者對(duì)QA了解的不多,就不詳細(xì)介紹QA了,只分析一下QA中的一些方法是怎么應(yīng)用到信息抽取中的。

《Neural Machine Reading Comprehension: Methods and Trends》[1]是一篇MRC領(lǐng)域的綜述論文,它對(duì)MRC領(lǐng)域的任務(wù)目標(biāo),使用到的各種方法思想發(fā)展前景做了非常詳細(xì)的描述。

這里摘取其中一部分對(duì)MRC做一個(gè)簡(jiǎn)要的介紹。如果想對(duì)MRC有更深入的了解,推薦先去認(rèn)真閱讀一下這篇論文。

2.1 MRC的發(fā)展歷程

MRC的任務(wù)是讓機(jī)器根據(jù)給定的內(nèi)容回答問(wèn)題。

MRC在1970年代就已經(jīng)被提出,但是由于那時(shí)數(shù)據(jù)集規(guī)模都比較小,而且主要使用基于規(guī)則的方法,所以性能很差,難以投入實(shí)用。這一情況在深度學(xué)習(xí)方法投入使用之后有了改觀。基于深度學(xué)習(xí)方法的機(jī)器閱讀理解,稱(chēng)為神經(jīng)機(jī)器閱讀理解,目前正在迅速發(fā)展。

ed6cdf0a-5397-11ed-a3b6-dac502259ad0.png2015年-2018年期間與MRC領(lǐng)域的各個(gè)細(xì)分任務(wù)相關(guān)的論文數(shù)量

從上圖所示“2015年-2018年期間與MRC領(lǐng)域的各個(gè)細(xì)分任務(wù)相關(guān)的論文數(shù)量”可以看出,最近幾年MRC領(lǐng)域的論文數(shù)呈幾何級(jí)數(shù)式增長(zhǎng),這一領(lǐng)域正在迅速發(fā)展。

2.2 任務(wù)&評(píng)測(cè)標(biāo)準(zhǔn)

MRC的任務(wù)根據(jù)答案形式可以分為四類(lèi):完形填空、多項(xiàng)選擇、片段抽取、自由作答

2.2.1 完形填空

給定上下文,一個(gè)詞或?qū)嶓w被移除,完形填空任務(wù)要求模型使用正確的詞或?qū)嶓w進(jìn)行填空,最大化條件概率。

edabbfc2-5397-11ed-a3b6-dac502259ad0.pngCloze Texts/完形填空定義

2.2.2 多項(xiàng)選擇

給定上下文,問(wèn)題,候選答案列表,多項(xiàng)選擇任務(wù)要求模型從中選擇正確的答案,最大化條件概率。

與完形填空任務(wù)的區(qū)別就是答案不再局限于單詞或?qū)嶓w,并且候選答案列表是必須要提供的。

edd3acee-5397-11ed-a3b6-dac502259ad0.pngMultiple Choice/多項(xiàng)選擇定義

2.2.3 片段抽取

盡管完形填空和多項(xiàng)選擇一定程度上可以發(fā)揮機(jī)器閱讀理解的能力,但是這兩個(gè)任務(wù)有一定的局限性:

首先,單詞或?qū)嶓w可能不足以回答問(wèn)題,需要完整的句子進(jìn)行回答;

其次,在很多情形是沒(méi)有提供候選答案的。

所以片段抽取任務(wù)應(yīng)運(yùn)而生。給定上下文和問(wèn)題,。片段抽取任務(wù)要求模型從中抽取連續(xù)的子序列作為正確答案,最大化條件概率。

ee300ab6-5397-11ed-a3b6-dac502259ad0.pngSpan Extraction/片段抽取定義

2.2.4 自由作答

將答案局限于一段上下文是不現(xiàn)實(shí)的。為了回答問(wèn)題,機(jī)器需要在多個(gè)上下文中進(jìn)行推理并總結(jié)答案。自由回答任務(wù)是四個(gè)任務(wù)中最復(fù)雜的,也更適合現(xiàn)實(shí)的應(yīng)用場(chǎng)景。

給定上下文和問(wèn)題,在自由回答任務(wù)中正確答案可能是也可能不是中的一個(gè)子序列,即或。自由回答任務(wù)需要預(yù)測(cè)正確答案,并且最大化條件概率 。

ee5c63d6-5397-11ed-a3b6-dac502259ad0.pngFree Answer/自由回答定義

2.2.5 不同任務(wù)的比較

下面在五個(gè)維度上對(duì)上述四個(gè)任務(wù)進(jìn)行比較:

建立數(shù)據(jù)集難易程度(construction)、

理解及推理程度(understanding)、

答案形式復(fù)雜程度(flexibility)、

進(jìn)行評(píng)估的難易程度(evaluation)、

真實(shí)應(yīng)用程度(application)

eecf9c5c-5397-11ed-a3b6-dac502259ad0.png五大維度比較

由上圖可以看出:

完形填空任務(wù)容易構(gòu)建數(shù)據(jù)集,容易評(píng)估,但是答案被單個(gè)單詞或者實(shí)體限制,理解程度不高,和真實(shí)世界不符;

多項(xiàng)選擇任務(wù)容易評(píng)估,建立數(shù)據(jù)集不是很難,但是合成數(shù)據(jù)集和實(shí)際應(yīng)用之間有差距;

片段抽取任務(wù)是一個(gè)適中的選擇,數(shù)據(jù)集容易建立,容易評(píng)估,但是答案被原始文本的片段限制,仍和真實(shí)世界有差距;

自由作答任務(wù)最接近真實(shí)情況,理解程度最高,但是難以建立數(shù)據(jù)集,難以有效評(píng)估,是現(xiàn)階段最具的挑戰(zhàn)性的任務(wù)。

上述四個(gè)任務(wù)類(lèi)型中,片段抽取和信息抽取的關(guān)系最為緊密,命名實(shí)體識(shí)別和實(shí)體關(guān)系抽取任務(wù)都是識(shí)別文本中的片段。

2.2.6 評(píng)測(cè)標(biāo)準(zhǔn)

主要的評(píng)測(cè)標(biāo)準(zhǔn)有常見(jiàn)的準(zhǔn)確率P、召回率RF1值。在上述四個(gè)任務(wù)的前三個(gè)中,使用P、R、F1可以滿(mǎn)足要求。

自由作答在評(píng)測(cè)時(shí)使用P、R、F1則不太合適,自由作答需要使用用于自動(dòng)文摘評(píng)測(cè)的方法ROUGE和ROUGE-L,以及用于評(píng)價(jià)翻譯性能的BLEU

2.3 MRC模型的結(jié)構(gòu)

在實(shí)體關(guān)系抽取中,模型可以分為pipline結(jié)構(gòu)和joint結(jié)構(gòu)。在MRC中,模型也有統(tǒng)一的結(jié)構(gòu)類(lèi)型:

ef346718-5397-11ed-a3b6-dac502259ad0.pngMRC模型結(jié)構(gòu)

如上圖所示,MRC模型包含四個(gè)關(guān)鍵模塊:

Embeddings:將單詞映射為對(duì)應(yīng)的詞向量,可能還會(huì)加上POS、NER、question category等信息;

Feature Extraction 特征抽取層:抽取question和context的上下文信息,常用的有CNN、RNN、LSTM等;

Context-Question Interactioncontext和question之間的相關(guān)性在預(yù)測(cè)答案中起著重要作用。有了這些信息,機(jī)器就能夠找出context中哪些部分對(duì)回答question更為重要。為了實(shí)現(xiàn)該目標(biāo),在該模塊中廣泛使用attention機(jī)制,單向或雙向,以強(qiáng)調(diào)與query相關(guān)的context的部分。為了充分提取它們的相關(guān)性,context和question之間的相互作用有時(shí)會(huì)執(zhí)行多跳,這模擬了人類(lèi)理解的重讀過(guò)程。

Answer Prediction:基于上述模塊獲得的信息整理后得出最終答案。因?yàn)镸RC任務(wù)根據(jù)答案形式分為了很多種,所以該模塊與不同任務(wù)相關(guān)。對(duì)于完形填空,該模塊輸出context中的一個(gè)單詞或一個(gè)實(shí)體;對(duì)于多項(xiàng)選擇,該模塊從候選答案中選擇正確答案。

2.4 常用方法

2.4.1 上下文-問(wèn)題的交互

提取出上下文和問(wèn)題之間的關(guān)聯(lián)后,模型就能找到答案預(yù)測(cè)的證據(jù)。根據(jù)模型如何提取問(wèn)題和答案之間的關(guān)系,可以將現(xiàn)在的方法分為兩類(lèi):單跳交互、多跳交互

不論MRC模型使用哪種交互,在強(qiáng)調(diào)哪部分文本對(duì)于預(yù)測(cè)答案更重要方面,注意力機(jī)制扮演了重要角色。根據(jù)注意力機(jī)制是否被單向/雙向使用進(jìn)一步可分為兩類(lèi):單向注意力、雙向注意力

單向注意力

單向注意力流通常是從查詢(xún)到文本的,根據(jù)問(wèn)題強(qiáng)調(diào)文中最相關(guān)的部分。如果某個(gè)文本詞語(yǔ)和問(wèn)題更相似,那它更有可能是答案詞語(yǔ)。

注意力權(quán)重:

ef610f34-5397-11ed-a3b6-dac502259ad0.png單向注意力

雙向注意力

單向注意力將問(wèn)題句子編碼成了一個(gè)特征向量,無(wú)法將注意力放在問(wèn)題中的詞語(yǔ)。但是,實(shí)際上這些詞語(yǔ)對(duì)答案預(yù)測(cè)也很關(guān)鍵,所以單向注意力在提取文本和問(wèn)題/查詢(xún)之間的交互信息方面有不足。

為了解決單向注意力的缺點(diǎn),雙向注意力不僅計(jì)算“查詢(xún)-文本”注意力,也計(jì)算“文本-查詢(xún)”注意力,雙向查看,為雙方提供互補(bǔ)的信息。

efcf2794-5397-11ed-a3b6-dac502259ad0.png雙向注意力

3. MRC和QA在信息抽取中的應(yīng)用

這一部分將詳細(xì)地介紹命名實(shí)體識(shí)別實(shí)體關(guān)系抽取中的幾個(gè)SOTA模型,并重點(diǎn)分析一下MRC和QA中的思想和方法在這幾個(gè)模型中的使用,以及新的思想方法相比于信息抽取領(lǐng)域中傳統(tǒng)的序列標(biāo)注方法具體有哪些優(yōu)勢(shì)。

f07ea106-5397-11ed-a3b6-dac502259ad0.png基于MRC和QA的實(shí)體識(shí)別/關(guān)系抽取方法

3.1 BERT_MRC

3.1.1 BERT_MRC思想與創(chuàng)新點(diǎn)概述

目前大多數(shù)命名實(shí)體識(shí)別模型都是針對(duì)的“非嵌套型”的NER(Flat NER);然而,在實(shí)際場(chǎng)景中“嵌套型”的NER(Nested NER)占了相當(dāng)?shù)谋壤?/p>

f0ad24c2-5397-11ed-a3b6-dac502259ad0.pngNested NER

BERT_MRC受到近來(lái)機(jī)器閱讀理解問(wèn)答(MRC-QA)的啟發(fā),使用機(jī)器閱讀理解框架去合并處理Flat NER與Nested NER。

比如我們現(xiàn)在想要抽取 "PER" 類(lèi)型的實(shí)體,就可以提出一個(gè)問(wèn)題 “Which person is mentioned in the text” ,然后在文本中找答案,找到的答案就是PER類(lèi)型的實(shí)體。使用這種方法,無(wú)論是Flat NER還是Nested NER,都能很直觀地抽取出來(lái)。

BERT_MRC模型的創(chuàng)新點(diǎn)有:

基于MRC的方法抽取命名實(shí)體,該方法適用于Flat和Nested兩種類(lèi)型的NER。相比序列標(biāo)注方法,該方法簡(jiǎn)單直觀,可遷移性強(qiáng)。

通過(guò)實(shí)驗(yàn)表明,基于MRC的方法能夠讓問(wèn)題編碼一些先驗(yàn)語(yǔ)義知識(shí),從而能夠在小數(shù)據(jù)集下、遷移學(xué)習(xí)下表現(xiàn)更好。

我們先來(lái)回顧一下NER任務(wù)。給定一個(gè)文本序列,它的長(zhǎng)度為,要抽取出其中的每個(gè)實(shí)體,其中實(shí)體都屬于某種實(shí)體類(lèi)型。

假設(shè)該數(shù)據(jù)集的所有實(shí)體標(biāo)簽集合為,那么對(duì)其中的每個(gè)實(shí)體標(biāo)簽,比如地點(diǎn) "LOC",都有一個(gè)關(guān)于它的問(wèn)題。這個(gè)問(wèn)題可以是一個(gè)詞,也可以是一句話(huà)等等。

使用上述MRC中片段抽取的思想,輸入文本序列和問(wèn)題,是需要抽取的實(shí)體,BERT_MRC通過(guò)建模來(lái)實(shí)現(xiàn)實(shí)體抽取。

3.1.2 BERT_MRC問(wèn)題構(gòu)造

對(duì)于問(wèn)題的構(gòu)造是建模的重要環(huán)節(jié)。BERT_MRC使用“標(biāo)注說(shuō)明”作為每個(gè)標(biāo)簽的問(wèn)題。所謂“標(biāo)注說(shuō)明”,是在構(gòu)造某個(gè)數(shù)據(jù)集的時(shí)候提供給標(biāo)注者的簡(jiǎn)短的標(biāo)注說(shuō)明。比如標(biāo)注者要去標(biāo)注標(biāo)簽為 "LOC" 的所有實(shí)體,那么對(duì)應(yīng) "LOC" 的標(biāo)注說(shuō)明就是 “Find locations in the text, including non-geographical locations, mountain ranges and bodies of water”:

f128ad40-5397-11ed-a3b6-dac502259ad0.png標(biāo)注說(shuō)明與問(wèn)題構(gòu)造

3.1.3 BERT_MRC網(wǎng)絡(luò)結(jié)構(gòu)與損失函數(shù)

在抽取實(shí)體的具體方法上,如下圖所示BERT_MRC使用了指針網(wǎng)絡(luò)

兩層標(biāo)注網(wǎng)絡(luò),一層標(biāo)記實(shí)體開(kāi)始位置,一層標(biāo)記實(shí)體結(jié)束位置;

如果一共個(gè)類(lèi)型的實(shí)體,則需要個(gè)這樣的標(biāo)注序列,每?jī)蓚€(gè)標(biāo)注序列一組,共組;

根據(jù) "1" 標(biāo)簽所在的標(biāo)簽組來(lái)確定實(shí)體的類(lèi)型。

f1a1b956-5397-11ed-a3b6-dac502259ad0.png指針網(wǎng)絡(luò)示意圖

BERT_MRC定義了三個(gè)損失函數(shù),分別計(jì)算開(kāi)始位置損失、結(jié)束位置損失實(shí)體損失,訓(xùn)練時(shí)總的loss值是上述三個(gè)損失值之和:

f1cf7c74-5397-11ed-a3b6-dac502259ad0.pngBERT_MRC的損失函數(shù)

3.1.4 BERT_MRC實(shí)驗(yàn)結(jié)論

BERT_MRC的實(shí)驗(yàn)設(shè)置非常有意思。通過(guò)設(shè)置很多對(duì)比實(shí)驗(yàn),證明了很多有用的信息,下面是對(duì)BERT_MRC論文中的一些實(shí)驗(yàn)結(jié)論的總結(jié):

相比baseline,BERT_MRC能夠更好地解決數(shù)據(jù)稀疏問(wèn)題,主要原因是MRC中的問(wèn)題能夠編碼一部分先驗(yàn)信息。

指針網(wǎng)絡(luò)能有效解決實(shí)體重疊問(wèn)題,無(wú)論對(duì)non-BERT還是BERT模型,MRC都比non-MRC好。

針對(duì)BERT_MRC中問(wèn)題的構(gòu)建策略,BERT_MRC又提出了很多問(wèn)題的構(gòu)建方法,但是實(shí)驗(yàn)證明,上文提到的“標(biāo)注說(shuō)明“仍是最有效的方法。

引入MRC中的問(wèn)題后,由于問(wèn)題中編碼了一些先驗(yàn)信息,所以在標(biāo)簽遷移上效果較好。并且具有了一定的先驗(yàn)知識(shí)編碼能力。

3.2 Multi-turn QA

3.2.1 現(xiàn)存問(wèn)題

實(shí)體關(guān)系抽取的大多數(shù)模型都將實(shí)體關(guān)系聯(lián)合抽取的任務(wù)看作是一個(gè)三元組抽取任務(wù),而這樣的處理存在如下幾個(gè)問(wèn)題:

在形式化層面上:簡(jiǎn)單的三元組形式往往不能充分表現(xiàn)文本背后的結(jié)構(gòu)化信息,因?yàn)橥谖谋局写嬖趯蛹?jí)性的依賴(lài)關(guān)系。獨(dú)立地考慮兩種實(shí)體可能導(dǎo)致依賴(lài)關(guān)系的間斷,導(dǎo)致重要信息的缺失,從而影響模型的判斷。

算法層面上:對(duì)于關(guān)系抽取任務(wù),大多數(shù)模型都是以標(biāo)記的 mention 作為輸入,而模型的主要目的是判斷兩個(gè) mention 是否存在某種關(guān)系,在這種情況下,模型難以捕捉詞匯、語(yǔ)法以及語(yǔ)義上的關(guān)系,特別是在如下幾種情形下:

長(zhǎng)距離依賴(lài)問(wèn)題:實(shí)體相距很遠(yuǎn);

實(shí)體重疊問(wèn)題:一個(gè)實(shí)體出現(xiàn)在多個(gè)三元組中;

關(guān)系交叉問(wèn)題:關(guān)系跨度相交。

3.2.2 Multi-turn QA創(chuàng)新點(diǎn)與思想概述

Multi-turn QA模型的創(chuàng)新點(diǎn)在于其將實(shí)體關(guān)系聯(lián)合抽取的任務(wù)當(dāng)作一個(gè)多輪問(wèn)答類(lèi)問(wèn)題來(lái)處理,即每種實(shí)體和每種關(guān)系都用一個(gè)問(wèn)答模板進(jìn)行刻畫(huà),從而這些實(shí)體和關(guān)系可以通過(guò)回答這些模板化的問(wèn)題來(lái)從上下文中進(jìn)行抽取。下面簡(jiǎn)單給出一個(gè)問(wèn)答模版:

f2000cae-5397-11ed-a3b6-dac502259ad0.png基于多輪問(wèn)答的實(shí)體關(guān)系抽取示例

由此可見(jiàn),基于多輪問(wèn)答的實(shí)體關(guān)系抽取主要流程如下:

首先確定目標(biāo)實(shí)體;

然后,后根據(jù)目標(biāo)實(shí)體和候選關(guān)系類(lèi)別進(jìn)行提問(wèn)。

這樣的處理方法主要有如下幾個(gè)優(yōu)點(diǎn):

能夠很好地捕捉標(biāo)簽的層次依賴(lài)性:即隨著每一輪問(wèn)答的進(jìn)行,我們有序的獲得所需要的實(shí)體,這與多回合填充式對(duì)話(huà)系統(tǒng)類(lèi)似;

問(wèn)題的編碼能夠整合對(duì)關(guān)系分類(lèi)任務(wù)重要的一些先驗(yàn)信息:這些信息可以潛在地解決了現(xiàn)有關(guān)系抽取模型難以解決的問(wèn)題,如遠(yuǎn)距離實(shí)體對(duì),或是關(guān)系重疊問(wèn)題;

QA任務(wù)提供了一種很自然的方式來(lái)融合實(shí)體抽取和關(guān)系抽取任務(wù):因?yàn)?QA 任務(wù)對(duì)于沒(méi)有答案的問(wèn)題可以返回 None,則對(duì)于不存在相應(yīng)關(guān)系的問(wèn)題;如果返回的不是 None,則可以同時(shí)確定實(shí)體和關(guān)系。

f232d738-5397-11ed-a3b6-dac502259ad0.pngMulti-turn QA算法流程

將實(shí)體關(guān)系抽取任務(wù)轉(zhuǎn)化為多輪問(wèn)答任務(wù)的算法如上所示,整個(gè)算法分如下幾個(gè)部分:

頭實(shí)體抽取(line 4 - 9):由于每一輪多輪對(duì)話(huà)都需要一個(gè)頭實(shí)體來(lái)作為 trigger,因此需要事先抽取句子中所有的頭實(shí)體,而抽取實(shí)體的過(guò)程可以看作一個(gè)抽取 entity_question 答案的過(guò)程。所有 entity_question 都存放在 EntityQuesTemplates 中,每一種 entity_question 都對(duì)應(yīng)一類(lèi)實(shí)體的抽?。?/p>

關(guān)系與尾實(shí)體抽取(line 10 - 24):ChainOfRelTemplates 定義了一個(gè)關(guān)系序列,我們需要根據(jù)這個(gè)關(guān)系序列來(lái)進(jìn)行多輪問(wèn)答。同時(shí),它也定義了每種關(guān)系的模板,為了生成對(duì)應(yīng)的問(wèn)題(第14行),我們要在模板槽(slot)中插入之前抽取的實(shí)體。然后,關(guān)系和尾實(shí)體就能通過(guò)回答問(wèn)題同時(shí)被抽取出來(lái)。如果回答是 None,就說(shuō)明沒(méi)有答案,即只有同時(shí)抽出頭實(shí)體,以及頭實(shí)體存在對(duì)應(yīng)的關(guān)系和尾實(shí)體被抽出時(shí),才算成功抽出一個(gè)滿(mǎn)足條件的三元組。

我們知道現(xiàn)階段常見(jiàn)的MRC模型都是通過(guò)指針網(wǎng)絡(luò)的方式,僅預(yù)測(cè)答案在 Context 中的開(kāi)始和結(jié)束位置,僅適用于單答案的情況。但對(duì)于實(shí)體識(shí)別任務(wù),在一段 Context 中可能有多個(gè)答案,所以這種方法并不合適。作者的做法是將其當(dāng)作以問(wèn)題為基礎(chǔ)的序列標(biāo)注問(wèn)題,或者說(shuō)將 2 個(gè) N-class 分類(lèi)任務(wù)轉(zhuǎn)換成個(gè) 5-class 分類(lèi)任務(wù),其中為句子長(zhǎng)度。

作者將 BERT 作為 baseline。訓(xùn)練時(shí),損失函數(shù)為兩個(gè)子任務(wù)的疊加,即:

3.3 HBT、ETL-span

這兩個(gè)模型的思想和方法非常相似,所以放在一起介紹。它們能達(dá)到SOTA的重要原因之一就是因?yàn)槭褂昧?strong>MRC中的指針網(wǎng)絡(luò)。

HBT和ETL-span的抽取過(guò)程和Multi-turn QA相似,它們將實(shí)體關(guān)系三元組的抽取分解成了多個(gè)步驟來(lái)完成。但在具體實(shí)現(xiàn)的細(xì)節(jié)上,HBT和ETL-span和使用多輪對(duì)話(huà)的Multi-turn QA有很多不同。

HBTETL-span將三元組的抽取任務(wù)建模為三個(gè)級(jí)別的問(wèn)題,從而能夠更好解決三元組重疊的問(wèn)題。其核心觀點(diǎn)就是不再將關(guān)系抽取的過(guò)程看作實(shí)體對(duì)的離散標(biāo)簽,而是將其看作兩個(gè)實(shí)體的映射關(guān)系,即,整個(gè)三元組抽取過(guò)程可以概括為:

抽取三元組中的 subject;

針對(duì)每一個(gè),抽取其對(duì)應(yīng)的 object。

HBT模型的整體結(jié)構(gòu)如下圖所示,主要包括如下幾個(gè)部分:

BERT Encoder:通過(guò) BERT 得到每個(gè)詞的詞表征,把BERT的輸出當(dāng)作詞向量使用;

Subject Tagger:該部分用于識(shí)別所有可能的subject對(duì)象。其通過(guò)對(duì)每一個(gè)位置的編碼結(jié)果用兩個(gè)分類(lèi)器(全連接層)進(jìn)行分類(lèi),來(lái)判斷其是否是實(shí)體的開(kāi)始或結(jié)束位置;

Relation-specific Object Taggers:針對(duì)每一個(gè) subject,都需要對(duì)其進(jìn)行之后的 object 進(jìn)行預(yù)測(cè)。由圖中可知,其與 Subject Tagger 基本一致,主要區(qū)別在于每一個(gè)關(guān)系類(lèi)別獨(dú)享一組 object 分類(lèi)器,同時(shí)還要將subject作為特征和BERT詞向量拼接后作為輸入。

f3e55696-5397-11ed-a3b6-dac502259ad0.pngHBT模型結(jié)構(gòu)

HBT的解碼方式和傳統(tǒng)的基于序列標(biāo)注的解碼方式有很大的不同:

HBT基于指針網(wǎng)絡(luò),確定實(shí)體span通過(guò)兩個(gè)分類(lèi)器來(lái)實(shí)現(xiàn),采用sigmod+BinaryCrossEntrpy的方式;

序列標(biāo)注則只訓(xùn)練一個(gè)分類(lèi)器,采用softmax+CrossEntropy的方式。

HBT的這種多層標(biāo)記結(jié)構(gòu)能夠很好地抽取出重疊實(shí)體和關(guān)系/由于增加了分類(lèi)器的數(shù)量,使得每個(gè)分類(lèi)器只用進(jìn)行二分類(lèi),而序列標(biāo)注的分類(lèi)器則需要進(jìn)行多分類(lèi),因此HBT對(duì)非重疊的實(shí)體和關(guān)系也有很好的效果。

ETL-span和HBT的結(jié)構(gòu)差不多,只是在編碼層上有一點(diǎn)不同。ETL-span利用模型的分層結(jié)構(gòu),將靠前步驟得到的一些句向量,位置向量作為特征,加入進(jìn)靠后的步驟,取得了不錯(cuò)的效果。而識(shí)別實(shí)體范圍,關(guān)系類(lèi)型的方法和HBT一樣,都采用了指針網(wǎng)絡(luò)。

f48f66d6-5397-11ed-a3b6-dac502259ad0.pngETL-span模型結(jié)構(gòu)

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3283

    瀏覽量

    49001
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1209

    瀏覽量

    24767

原文標(biāo)題:3. MRC和QA在信息抽取中的應(yīng)用

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    至芯科技之a(chǎn)ltera 系列FPGA教程 第三篇 數(shù)字系統(tǒng)設(shè)計(jì)思想方法

    至芯科技之a(chǎn)ltera 系列FPGA教程 第三篇 數(shù)字系統(tǒng)設(shè)計(jì)思想方法
    發(fā)表于 08-11 03:16

    文本信息抽取的分階段詳細(xì)介紹

    系統(tǒng)基于已有的標(biāo)注構(gòu)建一個(gè)學(xué)習(xí)模型,并用一個(gè)條件概率分布進(jìn)行表示。信息抽取系統(tǒng)則是根據(jù)得到的條件概率分布模型,對(duì)新的樣本進(jìn)行標(biāo)注。 文字單元具體的實(shí)現(xiàn)可以是一個(gè)文本、一個(gè)句子、一個(gè)
    發(fā)表于 09-16 15:03

    計(jì)算機(jī)解題的基本思想方法和步驟

    計(jì)算機(jī)解題的基本思想方法和步驟。是對(duì)要解決一個(gè)問(wèn)題或要完成一項(xiàng)任務(wù)所采取的方法和步驟的描述,包括需要什么數(shù)據(jù)(輸入什么數(shù)據(jù)、輸出什么結(jié)果)、采用什么結(jié)構(gòu)、使用什么語(yǔ)句以及如何安排這些語(yǔ)句等。通常使用自然語(yǔ)言、結(jié)構(gòu)化流程圖、偽代碼
    發(fā)表于 11-02 06:15

    基于子樹(shù)廣度的Web信息抽取

    提出一種新的網(wǎng)頁(yè)信息抽取方法,基于子樹(shù)的廣度可不加區(qū)分地對(duì)不同科技文獻(xiàn)網(wǎng)站的頁(yè)面信息進(jìn)行自動(dòng)抽取。對(duì)大量科技文獻(xiàn)網(wǎng)站進(jìn)行
    發(fā)表于 03-28 10:03 ?14次下載

    基于單DOM的自適應(yīng)WEB信息抽取方法

    傳統(tǒng)的輿情多為基于模板采集模式,基于減少人工維護(hù)的目的,文中提出一種基于單DOM樹(shù)特征預(yù)分類(lèi)的自適應(yīng)Web信息抽取方法,分為鏈接預(yù)分類(lèi)與
    發(fā)表于 11-06 11:26 ?5次下載
    基于單DOM的自適應(yīng)WEB<b class='flag-5'>信息</b><b class='flag-5'>抽取</b><b class='flag-5'>方法</b>

    基于本體約束的知識(shí)抽取方法

    信息抽取領(lǐng)域,命名實(shí)體識(shí)別方法可以為實(shí)體賦予正確的語(yǔ)義,實(shí)體關(guān)系抽取則可以明確兩個(gè)實(shí)體間的關(guān)系語(yǔ)義。但從知識(shí)的角度來(lái)看,無(wú)論是命名實(shí)體識(shí)別
    發(fā)表于 12-19 11:24 ?0次下載
    基于本體約束的知識(shí)<b class='flag-5'>抽取</b><b class='flag-5'>方法</b>

    基于WebHarvest的健康領(lǐng)域Web信息抽取方法

    針對(duì)Web信息抽取(WIE)技術(shù)健康領(lǐng)域應(yīng)用的問(wèn)題,提出了一種基于WebHarvest的健康領(lǐng)域Web信息抽取
    發(fā)表于 12-26 13:44 ?0次下載

    節(jié)點(diǎn)屬性的海量Web信息抽取方法

    為解決大數(shù)據(jù)場(chǎng)景下從海量Web頁(yè)面抽取有價(jià)值的信息,提出了一種基于節(jié)點(diǎn)屬性與正文內(nèi)容的海量Web信息抽取
    發(fā)表于 02-06 14:36 ?0次下載

    多跳問(wèn)答任務(wù):面向多跳問(wèn)答的分層圖網(wǎng)絡(luò)

    被進(jìn)一步研究: 現(xiàn)有工作會(huì)使用類(lèi)似信息檢索的思想來(lái)查找問(wèn)題相關(guān)的段落,然后用MRC任務(wù)類(lèi)似的方法
    的頭像 發(fā)表于 02-15 09:11 ?3860次閱讀

    抽取式摘要方法如何合理設(shè)置抽取單元?

    的核心問(wèn)題。抽取式摘要?jiǎng)t是文本摘要技術(shù)效果穩(wěn)定,實(shí)現(xiàn)簡(jiǎn)單的一類(lèi)方法,本文結(jié)合COLING 2020抽取式摘要相關(guān)的兩篇最新工作,對(duì)
    的頭像 發(fā)表于 05-03 18:23 ?1655次閱讀
    <b class='flag-5'>抽取</b>式摘要<b class='flag-5'>方法</b><b class='flag-5'>中</b>如何合理設(shè)置<b class='flag-5'>抽取</b>單元?

    匯總在事件抽取方向的相關(guān)廠商調(diào)研結(jié)果

    值得關(guān)注的是論元提?。ㄒ?b class='flag-5'>抽取)階段,除了CRF外,他們也嘗試了MRC(閱讀理解范式)、Biaffine。其中Biaffine思想來(lái)自論文Named Entity Recogniti
    的頭像 發(fā)表于 07-07 16:03 ?1069次閱讀

    實(shí)體關(guān)系抽取模型CasRel

    許多實(shí)驗(yàn)證明聯(lián)合學(xué)習(xí)方法由于考慮了兩個(gè)子任務(wù)之間的信息交互,大大提升了實(shí)體關(guān)系抽取的效果,所以目前針對(duì)實(shí)體關(guān)系抽取
    的頭像 發(fā)表于 07-21 14:11 ?3925次閱讀

    如何統(tǒng)一各種信息抽取任務(wù)的輸入和輸出

    信息抽取任務(wù)包括命名實(shí)體識(shí)別(NER)、關(guān)系抽取(RE)、事件抽取(EE)等各種各樣的任務(wù)。
    的頭像 發(fā)表于 09-20 15:25 ?1319次閱讀

    介紹一種信息抽取的大一統(tǒng)方法USM

    信息抽取任務(wù)具有多樣的抽取目標(biāo)和異構(gòu)的結(jié)構(gòu),而傳統(tǒng)的模型需要針對(duì)特定的任務(wù)進(jìn)行任務(wù)設(shè)計(jì)和標(biāo)簽標(biāo)注
    的頭像 發(fā)表于 02-15 14:13 ?862次閱讀

    Instruct-UIE:信息抽取統(tǒng)一大模型

    Instruct-UIE 統(tǒng)一了信息抽取任務(wù)訓(xùn)練方法,可以融合不同類(lèi)型任務(wù)以及不同的標(biāo)注規(guī)范,統(tǒng)一進(jìn)行訓(xùn)練。針對(duì)新的
    的頭像 發(fā)表于 04-25 10:46 ?1767次閱讀
    Instruct-UIE:<b class='flag-5'>信息</b><b class='flag-5'>抽取</b>統(tǒng)一大模型