前言
關(guān)系抽取是自然語言處理中一個比較基礎(chǔ)的任務(wù),除了關(guān)系抽取之外還有類似的任務(wù)如:屬性抽取等。這些任務(wù)也都可看成三元組抽取,即(subject,predicate,object)。常見的抽取范式包含:
基于pipeline的分布抽取方式,在已知兩個實體subject和object,去預(yù)測predicate。
聯(lián)合抽取方式,一個模型同時將subject,predicate和object抽取出來。
「現(xiàn)實的場景中還存在重疊關(guān)系情況,那么針對這種情況該如何解決呢?」,ACL2020有一篇論文:A Novel Cascade Binary Tagging Framework for Relational Triple Extraction[1]介紹了如何一種級聯(lián)的并解決嵌套的實體的三元組(文中介紹的是關(guān)系抽?。┏槿∧P?。下面我們來看看這篇論文介紹的內(nèi)容。
背景
早期基于pipeline的方法首先識別出語句中的所有實體,然后在對所有的實體對分類。這種方式的一個缺點是:實體識別過程中的誤差會被引入到關(guān)系抽取的環(huán)節(jié)中,如下圖中的Normal情況。
現(xiàn)有的聯(lián)合抽取模型中不能夠有效地解決:一個句子包含多個相互重疊的關(guān)系三元組。如下圖中的EPO和SEO。
前言
關(guān)系抽取是自然語言處理中一個比較基礎(chǔ)的任務(wù),除了關(guān)系抽取之外還有類似的任務(wù)如:屬性抽取等。這些任務(wù)也都可看成三元組抽取,即(subject,predicate,object)。常見的抽取范式包含:
基于pipeline的分布抽取方式,在已知兩個實體subject和object,去預(yù)測predicate。
聯(lián)合抽取方式,一個模型同時將subject,predicate和object抽取出來。
「現(xiàn)實的場景中還存在重疊關(guān)系情況,那么針對這種情況該如何解決呢?」,ACL2020有一篇論文:A Novel Cascade Binary Tagging Framework for Relational Triple Extraction[1]介紹了如何一種級聯(lián)的并解決嵌套的實體的三元組(文中介紹的是關(guān)系抽?。┏槿∧P?。下面我們來看看這篇論文介紹的內(nèi)容。
背景
早期基于pipeline的方法首先識別出語句中的所有實體,然后在對所有的實體對分類。這種方式的一個缺點是:實體識別過程中的誤差會被引入到關(guān)系抽取的環(huán)節(jié)中,如下圖中的Normal情況。
現(xiàn)有的聯(lián)合抽取模型中不能夠有效地解決:一個句子包含多個相互重疊的關(guān)系三元組。如下圖中的EPO和SEO。
EPO(Entity Pair Overlap)實體對的重疊,換句話說一個實體對包含多種關(guān)系,文中的例子就是一個人同時擔(dān)任一部電影中的導(dǎo)演和演員的角色。
SEO(Single Entity Overlap)單個實體的重疊,就是有多個關(guān)系共享一個實體。
在2020年,預(yù)訓(xùn)練模型大行其道的時期下,文中也是結(jié)合了Bert模型完成文本的特征抽取工作。文中的模型在當(dāng)時也達(dá)到了sota水平,下面我們看看模型的具體內(nèi)容。
模型結(jié)構(gòu)
關(guān)系三元組提取的目標(biāo)是識別句子中所有可能的三元組(主語、關(guān)系、賓語),其中一些三元組可能與主語或賓語共享相同的實體。數(shù)學(xué)表達(dá)如下:
具體如下:
BERT Encoder
在編碼器模塊中,使用預(yù)訓(xùn)練Bert模型提取語句的特征為,作為接下來的tagging模塊的輸入。
Cascade Decoder
該模塊主要分為兩個部分,首先從輸入的語句中監(jiān)測出subjects,即Subject Tagger。接著對候選的subject,檢查其可能的所有關(guān)系類型,即Relation-Specific Object Taggers。
Subject Tagger
在這個模塊中主要去識別輸入語句中可能存在的subjects。每一個token會輸出兩個結(jié)果:start和end,通過為每個token分配一個二進(jìn)制標(biāo)記(0/1)來分別檢測subject的開始和結(jié)束位置,該標(biāo)記指示當(dāng)前標(biāo)記是否對應(yīng)于subject的開始或結(jié)束位置。subject標(biāo)記器對每個token的詳細(xì)操作如下:
其中:
總結(jié)
實驗效果如下圖:
審核編輯:劉清
-
編碼器
+關(guān)注
關(guān)注
45文章
3643瀏覽量
134535 -
SEO
+關(guān)注
關(guān)注
0文章
48瀏覽量
9921
原文標(biāo)題:一種基于聯(lián)合方式的三元組抽取模型——CasRel
文章出處:【微信號:NLP_lover,微信公眾號:自然語言處理愛好者】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論