0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何用一種級聯(lián)的并解決嵌套的實體的三元組抽取模型?

自然語言處理愛好者 ? 來源:AIAS編程有道 ? 2023-02-08 09:28 ? 次閱讀

前言

關(guān)系抽取是自然語言處理中一個比較基礎(chǔ)的任務(wù),除了關(guān)系抽取之外還有類似的任務(wù)如:屬性抽取等。這些任務(wù)也都可看成三元組抽取,即(subject,predicate,object)。常見的抽取范式包含:

基于pipeline的分布抽取方式,在已知兩個實體subject和object,去預(yù)測predicate。

聯(lián)合抽取方式,一個模型同時將subject,predicate和object抽取出來。

「現(xiàn)實的場景中還存在重疊關(guān)系情況,那么針對這種情況該如何解決呢?」ACL2020有一篇論文:A Novel Cascade Binary Tagging Framework for Relational Triple Extraction[1]介紹了如何一種級聯(lián)的并解決嵌套的實體的三元組(文中介紹的是關(guān)系抽?。┏槿∧P?。下面我們來看看這篇論文介紹的內(nèi)容。

背景

早期基于pipeline的方法首先識別出語句中的所有實體,然后在對所有的實體對分類。這種方式的一個缺點是:實體識別過程中的誤差會被引入到關(guān)系抽取的環(huán)節(jié)中,如下圖中的Normal情況。

現(xiàn)有的聯(lián)合抽取模型中不能夠有效地解決:一個句子包含多個相互重疊的關(guān)系三元組。如下圖中的EPO和SEO。

前言

關(guān)系抽取是自然語言處理中一個比較基礎(chǔ)的任務(wù),除了關(guān)系抽取之外還有類似的任務(wù)如:屬性抽取等。這些任務(wù)也都可看成三元組抽取,即(subject,predicate,object)。常見的抽取范式包含:

基于pipeline的分布抽取方式,在已知兩個實體subject和object,去預(yù)測predicate。

聯(lián)合抽取方式,一個模型同時將subject,predicate和object抽取出來。

「現(xiàn)實的場景中還存在重疊關(guān)系情況,那么針對這種情況該如何解決呢?」,ACL2020有一篇論文:A Novel Cascade Binary Tagging Framework for Relational Triple Extraction[1]介紹了如何一種級聯(lián)的并解決嵌套的實體的三元組(文中介紹的是關(guān)系抽?。┏槿∧P?。下面我們來看看這篇論文介紹的內(nèi)容。

背景

早期基于pipeline的方法首先識別出語句中的所有實體,然后在對所有的實體對分類。這種方式的一個缺點是:實體識別過程中的誤差會被引入到關(guān)系抽取的環(huán)節(jié)中,如下圖中的Normal情況。

現(xiàn)有的聯(lián)合抽取模型中不能夠有效地解決:一個句子包含多個相互重疊的關(guān)系三元組。如下圖中的EPO和SEO。

poYBAGPi-w2AJZ6AAAEnKUp7tzg862.jpg

EPO(Entity Pair Overlap)實體對的重疊,換句話說一個實體對包含多種關(guān)系,文中的例子就是一個人同時擔(dān)任一部電影中的導(dǎo)演和演員的角色。

SEO(Single Entity Overlap)單個實體的重疊,就是有多個關(guān)系共享一個實體。

在2020年,預(yù)訓(xùn)練模型大行其道的時期下,文中也是結(jié)合了Bert模型完成文本的特征抽取工作。文中的模型在當(dāng)時也達(dá)到了sota水平,下面我們看看模型的具體內(nèi)容。

模型結(jié)構(gòu)

關(guān)系三元組提取的目標(biāo)是識別句子中所有可能的三元組(主語、關(guān)系、賓語),其中一些三元組可能與主語或賓語共享相同的實體。數(shù)學(xué)表達(dá)如下:
pYYBAGPi-z2AV6q0AAE7kBlmJ6c146.jpg
poYBAGPi-0WAfiwdAAHR72r561o641.jpg
pYYBAGPi-02AU1WiAAGqtlmaeF0972.jpg

具體如下:

BERT Encoder

編碼器模塊中,使用預(yù)訓(xùn)練Bert模型提取語句的特征為,作為接下來的tagging模塊的輸入。

Cascade Decoder

該模塊主要分為兩個部分,首先從輸入的語句中監(jiān)測出subjects,即Subject Tagger。接著對候選的subject,檢查其可能的所有關(guān)系類型,即Relation-Specific Object Taggers

Subject Tagger

在這個模塊中主要去識別輸入語句中可能存在的subjects。每一個token會輸出兩個結(jié)果:start和end,通過為每個token分配一個二進(jìn)制標(biāo)記(0/1)來分別檢測subject的開始和結(jié)束位置,該標(biāo)記指示當(dāng)前標(biāo)記是否對應(yīng)于subject的開始或結(jié)束位置。subject標(biāo)記器對每個token的詳細(xì)操作如下:

其中:

poYBAGPi-4SAdY1bAAHV6gAyWh4761.jpg
poYBAGPi-4yAJL5eAAHVFUr-aPY146.jpg
pYYBAGPi-5SANdB6AAFI8-CAJm4952.jpg

總結(jié)

實驗效果如下圖:
poYBAGPi-7GABYrMAAIcrLoLxoY399.jpg




審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3643

    瀏覽量

    134535
  • SEO
    SEO
    +關(guān)注

    關(guān)注

    0

    文章

    48

    瀏覽量

    9921

原文標(biāo)題:一種基于聯(lián)合方式的三元組抽取模型——CasRel

文章出處:【微信號:NLP_lover,微信公眾號:自然語言處理愛好者】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    乙烯裝置三元制冷技術(shù)

    乙烯裝置三元制冷技術(shù)摘 要 簡介了三元制冷系統(tǒng)的設(shè)計思路和工藝流程,針對開車運行過程中出現(xiàn)的問題,總結(jié)了處理方法。關(guān)鍵詞 乙烯 三元制冷 技術(shù) 在齊魯乙烯720kt/ a 改造工程中,額外增加的全部
    發(fā)表于 03-18 22:14

    回收電芯,回收庫存電芯,回收聚合物電芯,回收鋰電芯,回收動力電芯,三元電芯回收

    回收電芯,回收庫存電芯,回收聚合物電芯,回收鋰電芯,回收動力電芯三元電芯
    發(fā)表于 08-24 11:57

    根據(jù)mac地址創(chuàng)建五元組的步驟

    1. 確認(rèn)wifi的mac地址根據(jù)實際情況得到開發(fā)板wifi的mac地址,通常通過命令iwpriv wifi_debug get_mac可知。2. 創(chuàng)建特定五元組在生活物聯(lián)網(wǎng)平臺,本文以mac地址為
    發(fā)表于 03-08 07:37

    一種基于策略元素三元組的策略描述語言

    分析常用策略描述語言的缺點,總結(jié)策略的主要配置方式,分析策略的組成成員,提出策略主要元素ECA三元組給出其關(guān)系,設(shè)計一種基于ECA的策略描述語言,闡述其相關(guān)的詞法和
    發(fā)表于 04-09 09:22 ?19次下載

    一種基于結(jié)構(gòu)的本體分解方法

    RDF 三元組構(gòu)成的圖模型是本體表示方法的一種,主體和客體對應(yīng)圖中的結(jié)點,謂詞對應(yīng)圖中的邊。本文首先通過查詢獲取本體的三元組表示,生成對應(yīng)的圖;然后對圖做預(yù)處理,
    發(fā)表于 12-22 12:08 ?8次下載

    三元相圖基礎(chǔ)

    三元相圖基礎(chǔ) 三元相圖與二相圖的差別,在于增加了個成分變量。三元相圖的基本特點為: (1)完整的
    發(fā)表于 08-06 14:21 ?9562次閱讀

    基于句法語義依存分析的金融事件抽取

    是關(guān)注的重點.因此,本文聚焦于金融事件,抽取三元組事件ET(Sub,Pred,Obj).在中文財經(jīng)新聞中,存在大量事件嵌套和成分共享等現(xiàn)象,致使易岀現(xiàn)事件漏抽和事件成分缺失的情況.為了解決這些冋題,本文建立句法和語義依存分析相結(jié)
    發(fā)表于 03-24 14:03 ?8次下載
    基于句法語義依存分析的金融事件<b class='flag-5'>抽取</b>

    一種改進(jìn)的膠囊網(wǎng)絡(luò)知識圖譜補全方法

    為準(zhǔn)確表征知識圖譜中實體與關(guān)系屬性的關(guān)系,提出一種改進(jìn)的膠囊網(wǎng)絡(luò)知識圖譜補全方法。將表示多關(guān)系數(shù)據(jù)的三元組轉(zhuǎn)換為矩陣的形式與多個過濾器進(jìn)行卷積,產(chǎn)生不同特征圖并重構(gòu)為相應(yīng)的膠囊,每個膠囊代表
    發(fā)表于 03-30 15:18 ?13次下載
    <b class='flag-5'>一種</b>改進(jìn)的膠囊網(wǎng)絡(luò)知識圖譜補全方法

    融合實體信息的類別增強知識圖譜表示學(xué)習(xí)模型

    注意力機制捕獲實體類別和三元組關(guān)系之間的潛在相關(guān)性,結(jié)合不同實體類別對于某種特定關(guān)系的重要程度及實體類別信息進(jìn)行知識表示學(xué)習(xí)。在知識圖譜補全和三元組
    發(fā)表于 04-27 16:26 ?4次下載
    融合<b class='flag-5'>實體</b>信息的類別增強知識圖譜表示學(xué)習(xí)<b class='flag-5'>模型</b>

    可提高跨模態(tài)行人重識別算法精度的特征學(xué)習(xí)框架

    為了提升跨模態(tài)行人重識別算法的識別精度,提出了一種基于改進(jìn)困難三元組損失的特征學(xué)習(xí)框架。首先,改進(jìn)了傳統(tǒng)困難三元組損失,使其轉(zhuǎn)換為全局三元組損失。其次,基于跨模態(tài)行亼重識別中存在模態(tài)間
    發(fā)表于 05-10 11:06 ?9次下載

    介紹一種新穎的三元組對比學(xué)習(xí)訓(xùn)練框架

    在自然語言處理和知識圖譜領(lǐng)域的信息提取中,三元組抽取是必不可少的任務(wù)。
    的頭像 發(fā)表于 06-23 15:56 ?3429次閱讀
    介紹<b class='flag-5'>一種</b>新穎的<b class='flag-5'>三元組</b>對比學(xué)習(xí)訓(xùn)練框架

    本體自動化構(gòu)建方法—面向制造領(lǐng)域人機物三元數(shù)據(jù)融合

    控制機制,提出一種基于本體的人機物三元數(shù)據(jù)融合方法,研究復(fù)雜制造環(huán)境下的人機物三元數(shù)據(jù)融合建模.在抽取三元組時,區(qū)別于傳統(tǒng)的流水線式
    的頭像 發(fā)表于 05-11 17:30 ?3327次閱讀

    泰凌微電子三元組認(rèn)證功能實現(xiàn)

    App掃描廣播連接Device,Device主動上報三元組Confirm + Random(隨機數(shù)),App將廣播包里的Product_info + Mac_address上報云端查找三元組表格獲取Secret,云端再通過AE
    的頭像 發(fā)表于 11-23 10:24 ?1179次閱讀

    三元鋰電池的分類及應(yīng)用

    三元鋰電池,是指使用鎳鈷錳酸鋰或鎳鈷鋁酸鋰三元正極材料制成的一種鋰電池。三元材料分別指鎳、鈷和錳。
    的頭像 發(fā)表于 07-04 09:23 ?3241次閱讀

    三元鋰電池參數(shù) 三元鋰電池最佳工作溫度 三元鋰電池壽命般是幾年?

    三元鋰電池參數(shù) 三元鋰電池最佳工作溫度 三元鋰電池壽命般是幾年? 三元鋰電池是一種常見的鋰離子
    的頭像 發(fā)表于 11-21 16:05 ?1.7w次閱讀