0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

怎樣去增強(qiáng)PLM對(duì)于實(shí)體和實(shí)體間關(guān)系的理解?

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:TsinghuaNLP ? 作者:秦禹嘉 ? 2021-06-23 15:32 ? 次閱讀

近年來(lái),預(yù)訓(xùn)練語(yǔ)言模型(PLM)在各種下游自然語(yǔ)言處理任務(wù)中表現(xiàn)出卓越的性能,受益于預(yù)訓(xùn)練階段的自監(jiān)督學(xué)習(xí)目標(biāo),PLM 可以有效地捕獲文本中的語(yǔ)法和語(yǔ)義,并為下游 NLP 任務(wù)提供蘊(yùn)含豐富信息的語(yǔ)言表示。然而,傳統(tǒng)的預(yù)訓(xùn)練目標(biāo)并沒有對(duì)文本中的關(guān)系事實(shí)進(jìn)行建模,而這些關(guān)系事實(shí)對(duì)于文本理解至關(guān)重要。

在這篇被ACL 2021主會(huì)錄用的文章中,清華大學(xué)聯(lián)合騰訊微信模式識(shí)別中心與伊利諾伊大學(xué)厄巴納香檳分校(UIUC),提出了一種新穎的對(duì)比學(xué)習(xí)框架ERICA,幫助PLM深入了解文本中的實(shí)體及實(shí)體間關(guān)系。具體來(lái)說,作者提出了兩個(gè)輔助性預(yù)訓(xùn)練任務(wù)來(lái)幫助PLM更好地理解實(shí)體和實(shí)體間關(guān)系:(1)實(shí)體區(qū)分任務(wù),給定頭實(shí)體和關(guān)系,推斷出文本中正確的尾實(shí)體;(2)關(guān)系判別任務(wù),區(qū)分兩個(gè)關(guān)系在語(yǔ)義上是否接近,這在長(zhǎng)文本情景下涉及復(fù)雜的關(guān)系推理。實(shí)驗(yàn)結(jié)果表明,ERICA在不引入額外神經(jīng)網(wǎng)絡(luò)參數(shù)的前提下,僅僅對(duì)PLM進(jìn)行少量的額外訓(xùn)練,就可以提升典型PLM(例如BERT 和 RoBERTa)在多種自然語(yǔ)言理解任務(wù)上(包括關(guān)系抽取、實(shí)體類別區(qū)分、問題回答等)的性能。尤其是在低資源(low-resource)的設(shè)定下,性能的提升更加明顯。

一、問題背景

傳統(tǒng)的預(yù)訓(xùn)練目標(biāo)沒有對(duì)文本中的關(guān)系事實(shí)進(jìn)行顯式建模,而這些關(guān)系事實(shí)對(duì)于理解文本至關(guān)重要。為了解決這個(gè)問題,一些研究人員試圖改進(jìn) PLM 的架構(gòu)、預(yù)訓(xùn)練任務(wù)等,以更好地理解實(shí)體之間的關(guān)系。但是它們通常只對(duì)文本中的句子級(jí)別的單個(gè)關(guān)系進(jìn)行建模,不僅忽略了長(zhǎng)文本場(chǎng)景下多個(gè)實(shí)體之間的復(fù)雜關(guān)系,也忽略了對(duì)實(shí)體本身的理解,例如圖1中所展現(xiàn)的,對(duì)于長(zhǎng)文本來(lái)說,為了讓PLM更加充分理解地單個(gè)實(shí)體,我們需要考慮該實(shí)體和其他實(shí)體之間的復(fù)雜關(guān)系;而這些復(fù)雜的關(guān)系的理解通常涉及復(fù)雜的推理鏈,往往需要綜合多個(gè)句子的信息得出結(jié)論。針對(duì)這兩個(gè)痛點(diǎn),本文提出了實(shí)體區(qū)分任務(wù)和關(guān)系區(qū)分任務(wù)來(lái)增強(qiáng)PLM對(duì)于實(shí)體和實(shí)體間關(guān)系的理解。

二 、文檔級(jí)預(yù)訓(xùn)練數(shù)據(jù)收集

ERICA的訓(xùn)練依賴于大規(guī)模文檔級(jí)遠(yuǎn)程監(jiān)督數(shù)據(jù),該數(shù)據(jù)的構(gòu)造有三個(gè)階段:首先從wikipedia中爬取文本段落,然后用命名實(shí)體識(shí)別工具(例如spacy)進(jìn)行實(shí)體標(biāo)注,將所有獲得的實(shí)體和wikidata中標(biāo)注的實(shí)體對(duì)應(yīng)上,并利用遠(yuǎn)程監(jiān)督(distant supervision)信號(hào)獲得實(shí)體之間可能存在的關(guān)系,最終保留長(zhǎng)度在128到512之間,含有多于4個(gè)實(shí)體,實(shí)體間多于4個(gè)遠(yuǎn)程監(jiān)督關(guān)系的段落。注意這些遠(yuǎn)程監(jiān)督的關(guān)系中存在大量的噪聲,而大規(guī)模的預(yù)訓(xùn)練可以一定程度上實(shí)現(xiàn)降噪。作者也開源了由100萬(wàn)個(gè)文檔組成的大規(guī)模遠(yuǎn)程監(jiān)督預(yù)訓(xùn)練數(shù)據(jù)。

三 、實(shí)體與實(shí)體間關(guān)系的表示

鑒于每個(gè)實(shí)體可能在段落中出現(xiàn)多次,并且每次出現(xiàn)時(shí)對(duì)應(yīng)的描述(mention)可能也不一樣,作者在使用PLM對(duì)tokenize后的段落進(jìn)行編碼后,取每個(gè)描述的所有token均勻池化后的結(jié)果作為該描述的表示,接著對(duì)于全文中該實(shí)體所有的描述進(jìn)行第二次均勻池化,得到該實(shí)體在該文檔中的表示;對(duì)于兩個(gè)實(shí)體,它們之間的關(guān)系表示為兩個(gè)實(shí)體表示的簡(jiǎn)單拼接。以上是最簡(jiǎn)單的實(shí)體/實(shí)體間關(guān)系的表示方法,不需要引入額外的神經(jīng)網(wǎng)絡(luò)參數(shù)。作者在文中還探索了其它的表示方法,并驗(yàn)證了所有方法相比baseline都有一致的提升。

四 、實(shí)體區(qū)分任務(wù)

實(shí)體區(qū)分任務(wù)旨在給定頭實(shí)體和關(guān)系,從當(dāng)前文檔中尋找正確的尾實(shí)體。例如在上圖中,Sinaloa和Mexico具有country的遠(yuǎn)程關(guān)系,于是作者將關(guān)系country和頭實(shí)體Sinaloa拼接在原文檔的前面作為提示(prompt),在此條件下區(qū)分正確的尾實(shí)體的任務(wù)可以在對(duì)比學(xué)習(xí)的框架下轉(zhuǎn)換成拉近頭實(shí)體和正確尾實(shí)體的實(shí)體表示的距離,推遠(yuǎn)頭實(shí)體和文檔中其它實(shí)體(負(fù)樣本)的實(shí)體表示的距離,具體的公式如下所示:

aa6771d0-d061-11eb-9e57-12bb97331649.png

五、關(guān)系區(qū)分任務(wù)

關(guān)系區(qū)分任務(wù)旨在區(qū)分兩個(gè)關(guān)系的表示在語(yǔ)義空間上的相近程度。由于作者采用文檔級(jí)而非句子級(jí)的遠(yuǎn)程監(jiān)督,文檔中的關(guān)系區(qū)分涉及復(fù)雜的推理鏈。具體而言,作者隨機(jī)采樣多個(gè)文檔,并從每個(gè)文檔中得到多個(gè)關(guān)系表示,這些關(guān)系可能只涉及句子級(jí)別的推理,也可能涉及跨句子的復(fù)雜推理。之后基于對(duì)比學(xué)習(xí)框架,根據(jù)遠(yuǎn)程監(jiān)督的標(biāo)簽在關(guān)系空間中對(duì)不同的關(guān)系表示進(jìn)行訓(xùn)練,如前文所述,每個(gè)關(guān)系表示均由文檔中的兩個(gè)實(shí)體表示構(gòu)成。正樣本即具有相同遠(yuǎn)程監(jiān)督標(biāo)簽的關(guān)系表示,負(fù)樣本與此相反。作者在實(shí)驗(yàn)中還發(fā)現(xiàn)進(jìn)一步引入不具有遠(yuǎn)程監(jiān)督關(guān)系的實(shí)體對(duì)作為負(fù)樣本可以進(jìn)一步提升模型效果。由于進(jìn)行對(duì)比訓(xùn)練的兩個(gè)關(guān)系表示可能來(lái)自于多個(gè)文檔,也可能來(lái)自于單個(gè)文檔,因此文檔間/跨文檔的關(guān)系表示交互都得到了實(shí)現(xiàn)。巧妙的是,對(duì)于涉及復(fù)雜推理的關(guān)系,該方法不需要顯示地構(gòu)建推理鏈,而是“強(qiáng)迫”模型理解這些關(guān)系并在頂層的關(guān)系語(yǔ)義空間中區(qū)分這些關(guān)系。具體的公式如下所示:

aaa2d9dc-d061-11eb-9e57-12bb97331649.png

為了避免災(zāi)難性遺忘,作者將上述兩個(gè)任務(wù)同masked language modeling (MLM)任務(wù)一起訓(xùn)練,總的訓(xùn)練目標(biāo)如下所示:

aaaeafe6-d061-11eb-9e57-12bb97331649.png

六、實(shí)驗(yàn)結(jié)果

ERICA的訓(xùn)練不需要引入除了PLM之外的任何參數(shù),并且對(duì)于任意模型均能夠適配,具體的,作者采用了兩個(gè)經(jīng)典的PLM:BERT和RoBERTa,并對(duì)其進(jìn)行一定時(shí)間的post-training,最后在文檔級(jí)關(guān)系抽取、實(shí)體類別區(qū)分、問題回答等任務(wù)上進(jìn)行了測(cè)試,并對(duì)比了例如CorefBERT, SpanBERT, ERNIE, MTB,CP等基線模型,驗(yàn)證了ERICA框架的有效性。具體結(jié)果如下:

a) 文檔級(jí)關(guān)系抽取,模型需要區(qū)分文檔中的多個(gè)實(shí)體之間的關(guān)系,這需要PLM對(duì)實(shí)體間關(guān)系有較好的理解。

b) 實(shí)體類別區(qū)分,模型需要區(qū)分文本中的實(shí)體的具體類別,這需要PLM對(duì)實(shí)體本身有較好的理解。

c) 問題回答,作者測(cè)試了兩種常見的問題回答任務(wù):多選問答(multi-choice QA)和抽取式問答(extractive QA)。這需要PLM對(duì)實(shí)體和實(shí)體間關(guān)系有較好的理解。

七、分析

a) 消融分析(ablation study)。作者對(duì)ERICA框架中的所有組成成分進(jìn)行了細(xì)致的分析,并證明了這些組成成分對(duì)于模型整體效果的提升是缺一不可的。

b) 可視化分析。作者對(duì)經(jīng)過ERICA訓(xùn)練前后的PLM對(duì)實(shí)體和實(shí)體間關(guān)系的表示進(jìn)行了可視化,結(jié)果如下圖所示。通過ERICA的對(duì)比學(xué)習(xí)訓(xùn)練,PLM對(duì)于同類別的實(shí)體/實(shí)體關(guān)系的表示有明顯的聚類現(xiàn)象,這充分驗(yàn)證了ERICA能夠顯著增強(qiáng)PLM對(duì)實(shí)體和實(shí)體間關(guān)系的理解。

c) 此外,作者分析了遠(yuǎn)程監(jiān)督關(guān)系的多樣性/預(yù)訓(xùn)練文檔數(shù)量對(duì)于模型效果的提升。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),更加多樣的遠(yuǎn)程監(jiān)督關(guān)系與更大的預(yù)訓(xùn)練數(shù)據(jù)集對(duì)于性能的提升有積極的作用。

d) 除了使用均勻池化的方式來(lái)獲得實(shí)體/關(guān)系表示,作者也嘗試使用entity marker的表示方法來(lái)測(cè)試模型的性能。實(shí)驗(yàn)結(jié)果證明,ERICA對(duì)各種實(shí)體/關(guān)系表示方法均適用,進(jìn)一步驗(yàn)證了該架構(gòu)的通用性。

八、總結(jié)

在本文中,作者提出了ERICA框架,通過對(duì)比學(xué)習(xí)幫助PLM提高實(shí)體和實(shí)體間關(guān)系的理解。作者在多個(gè)自然語(yǔ)言理解任務(wù)上驗(yàn)證了該框架的有效性,包括關(guān)系提取、實(shí)體類別區(qū)分和問題問答。實(shí)驗(yàn)結(jié)果表明ERICA顯著優(yōu)于所有基線模型,尤其是在低資源的設(shè)定下,這意味著 ERICA 可以更好地幫助 PLM捕獲文本中的相關(guān)事實(shí)并綜合有關(guān)實(shí)體及其關(guān)系的信息。

責(zé)任編輯:lq6

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • PLM
    PLM
    +關(guān)注

    關(guān)注

    2

    文章

    121

    瀏覽量

    20874
  • 實(shí)體
    +關(guān)注

    關(guān)注

    0

    文章

    8

    瀏覽量

    7323

原文標(biāo)題:ERICA: 提升預(yù)訓(xùn)練語(yǔ)言模型實(shí)體與關(guān)系理解的統(tǒng)一框架

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    如何使用ar增強(qiáng)現(xiàn)實(shí)體驗(yàn)

    增強(qiáng)現(xiàn)實(shí)(AR)技術(shù)近年來(lái)得到了迅速發(fā)展,它通過在用戶的現(xiàn)實(shí)世界視野中疊加計(jì)算機(jī)生成的圖像、視頻或信息,為用戶提供了一種全新的交互方式。這種技術(shù)已經(jīng)被廣泛應(yīng)用于游戲、教育、零售、醫(yī)療等多個(gè)領(lǐng)域
    的頭像 發(fā)表于 11-11 10:03 ?387次閱讀

    南方智能推出三維地理實(shí)體生產(chǎn)軟件

    新型基礎(chǔ)測(cè)繪與實(shí)景三維中國(guó)建設(shè)持續(xù)推進(jìn),南方智能深度聚焦,基于自主研發(fā)的SmartGIS平臺(tái),打造以地理實(shí)體數(shù)據(jù)為核心的“生產(chǎn)、處理、質(zhì)檢、管理、可視化分析”實(shí)景三維系列軟件,提供全流程、按需定制的服務(wù)方案。
    的頭像 發(fā)表于 11-06 10:26 ?218次閱讀

    PLM系統(tǒng) PLM軟件 PLM項(xiàng)目管理系統(tǒng)軟件 PLM產(chǎn)品生命周期管理系統(tǒng)哪個(gè)好?

    隨著產(chǎn)品設(shè)計(jì)和制造日益復(fù)雜,市場(chǎng)競(jìng)爭(zhēng)日益激烈,產(chǎn)品生命周期管理(PLM)系統(tǒng)已經(jīng)成為許多企業(yè)提高競(jìng)爭(zhēng)力和創(chuàng)新能力的重要工具。PLM系統(tǒng)是一種端到端的產(chǎn)品開發(fā)管理解決方案,旨在整合產(chǎn)品開發(fā)的所有階段
    的頭像 發(fā)表于 10-23 15:18 ?256次閱讀

    傳音控股入選2023新型實(shí)體企業(yè)TOP100

    2023“新型實(shí)體企業(yè)TOP100”成果發(fā)布暨典型企業(yè)分享交流會(huì)在北京舉辦。大會(huì)上,中國(guó)企業(yè)評(píng)價(jià)協(xié)會(huì)發(fā)布了《2023新型實(shí)體企業(yè)TOP100發(fā)展報(bào)告》及榜單。傳音控股長(zhǎng)期深耕智能終端制造和移動(dòng)互聯(lián)領(lǐng)域,憑借領(lǐng)先的技術(shù)創(chuàng)新實(shí)力入選“2023新型
    的頭像 發(fā)表于 09-29 16:21 ?591次閱讀

    立訊精密上榜《2023新型實(shí)體企業(yè)TOP100》

    中國(guó)企業(yè)評(píng)價(jià)協(xié)會(huì)主辦的2023“新型實(shí)體企業(yè)TOP100”成果發(fā)布暨典型企業(yè)分享交流會(huì)上,發(fā)布了《2023年度新型實(shí)體企業(yè)TOP100發(fā)展報(bào)告》及“2023新型實(shí)體企業(yè)TOP100”榜單,集中呈現(xiàn)
    的頭像 發(fā)表于 09-29 09:51 ?335次閱讀

    信號(hào)的時(shí)域波形和頻譜關(guān)系是什么

    描述了信號(hào)在不同頻率成分上的分布。理解時(shí)域波形和頻譜之間的關(guān)系,對(duì)于信號(hào)的分析、處理和傳輸具有重要意義。 基本概念 2.1 信號(hào) 信號(hào)是信息的載體,可以是模擬信號(hào),也可以是數(shù)字信號(hào)。模擬信號(hào)是連續(xù)的,可以是時(shí)間的函數(shù)
    的頭像 發(fā)表于 07-15 14:27 ?1011次閱讀

    如何學(xué)習(xí)智能家居?8:Text文本實(shí)體使用方法

    hello,伙伴們最近一直在弄AiPi-Eyes-R3的資料,渲染、3D 外殼設(shè)計(jì)......一直沒時(shí)間開發(fā)新的 HomeAssistant MQTT 實(shí)體,最新的實(shí)體估計(jì)也是在本月初開發(fā)完的,一直
    的頭像 發(fā)表于 07-15 14:06 ?1603次閱讀
    如何學(xué)習(xí)智能家居?8:Text文本<b class='flag-5'>實(shí)體</b>使用方法

    美商務(wù)部將37家中企列入實(shí)體清單,中方堅(jiān)決反對(duì),并將采取維護(hù)措施

    另?yè)?jù)5月10日?qǐng)?bào)道,有記者向商務(wù)部詢問社交媒體上熱議的話題——美東部時(shí)間5月9日,美國(guó)商務(wù)部宣布將多家中國(guó)實(shí)體列入出口管制“實(shí)體清單”。發(fā)言人對(duì)此表示,中方堅(jiān)決反對(duì)。
    的頭像 發(fā)表于 05-11 09:31 ?587次閱讀

    剛剛,美國(guó)再拉黑37家中國(guó)實(shí)體!

    據(jù)百能云芯電.子元器.件商.城了解,今天,美國(guó)商務(wù)部工業(yè)與安全局(BIS) 根據(jù)出口管理?xiàng)l例 (EAR) 將 37 個(gè)中國(guó)實(shí)體添加到實(shí)體名單中,理由是這些企業(yè)參與了量子、無(wú)人機(jī)和高空監(jiān)視項(xiàng)目的技術(shù)
    的頭像 發(fā)表于 05-10 17:29 ?669次閱讀
    剛剛,美國(guó)再拉黑37家中國(guó)<b class='flag-5'>實(shí)體</b>!

    美國(guó)將11家中企列入實(shí)體清單,中方回應(yīng)

    早在2月23日,BIS已將93家來(lái)自俄羅斯、中國(guó)、土耳其等國(guó)的實(shí)體納入“實(shí)體清單”,其中8家為中國(guó)企業(yè)。中國(guó)駐美使館發(fā)言人劉鵬宇對(duì)此表示譴責(zé),認(rèn)為此舉屬于經(jīng)濟(jì)脅迫。
    的頭像 發(fā)表于 04-12 09:52 ?932次閱讀

    蘋果ReALM模型在實(shí)體識(shí)別測(cè)試中超越OpenAI GPT-4.0

    “我們的模型在識(shí)別各種類型實(shí)體方面都有顯著提升,即使是小尺寸模型,在屏幕實(shí)體識(shí)別準(zhǔn)確性上也已超過原有的系統(tǒng)5%以上。在與GPT-3.5和GPT-4.0的比較中,小型模型與GPT-4.0相媲美;更大的模型則表現(xiàn)更佳?!?/div>
    的頭像 發(fā)表于 04-02 11:23 ?485次閱讀

    愛立信成立新實(shí)體服務(wù)于美國(guó)政府機(jī)構(gòu)

    愛立信近期宣布成立了一項(xiàng)全新實(shí)體——愛立信聯(lián)邦技術(shù)集團(tuán)(Ericsson Federal Technologies Group,簡(jiǎn)稱EFTG)。這一新實(shí)體的誕生,旨在向美國(guó)聯(lián)邦政府的多個(gè)機(jī)構(gòu)提供前沿
    的頭像 發(fā)表于 03-22 11:27 ?852次閱讀

    ST25DV04可以讀取實(shí)體IC卡嗎?

    我最近打算使用ST25DV04做一個(gè)NFC卡,這款芯片可以讀取實(shí)體IC卡,獲取IC卡信息,并模擬IC卡刷卡嗎?
    發(fā)表于 03-18 07:04

    微軟是否將取消Xbox游戲實(shí)體光盤發(fā)售?

     針對(duì)Game File的采訪,微軟游戲部門CEO菲爾·斯賓塞(Phil Spencer)就公司的實(shí)體版Xbox游戲計(jì)劃做出回應(yīng)。他強(qiáng)調(diào),盡管微軟“秉持對(duì)實(shí)體媒介的支持”,但更多的 Xbox玩家傾向于數(shù)字購(gòu)買游戲。
    的頭像 發(fā)表于 02-21 14:24 ?738次閱讀

    傳iPhone16 Pro取消實(shí)體按鍵

    根據(jù)最新傳聞,蘋果在最新的iPhone 16 Pro工程機(jī)上做出了一項(xiàng)重大改變。這款新機(jī)型的操作按鈕已從實(shí)體按鍵轉(zhuǎn)變?yōu)殡娙菔桨存I,徹底取消了實(shí)體按鍵的設(shè)計(jì)。
    的頭像 發(fā)表于 01-15 15:26 ?1163次閱讀