0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

怎樣去增強PLM對于實體和實體間關系的理解?

深度學習自然語言處理 ? 來源:TsinghuaNLP ? 作者:秦禹嘉 ? 2021-06-23 15:32 ? 次閱讀

近年來,預訓練語言模型(PLM)在各種下游自然語言處理任務中表現(xiàn)出卓越的性能,受益于預訓練階段的自監(jiān)督學習目標,PLM 可以有效地捕獲文本中的語法和語義,并為下游 NLP 任務提供蘊含豐富信息的語言表示。然而,傳統(tǒng)的預訓練目標并沒有對文本中的關系事實進行建模,而這些關系事實對于文本理解至關重要。

在這篇被ACL 2021主會錄用的文章中,清華大學聯(lián)合騰訊微信模式識別中心與伊利諾伊大學厄巴納香檳分校(UIUC),提出了一種新穎的對比學習框架ERICA,幫助PLM深入了解文本中的實體及實體間關系。具體來說,作者提出了兩個輔助性預訓練任務來幫助PLM更好地理解實體和實體間關系:(1)實體區(qū)分任務,給定頭實體和關系,推斷出文本中正確的尾實體;(2)關系判別任務,區(qū)分兩個關系在語義上是否接近,這在長文本情景下涉及復雜的關系推理。實驗結果表明,ERICA在不引入額外神經(jīng)網(wǎng)絡參數(shù)的前提下,僅僅對PLM進行少量的額外訓練,就可以提升典型PLM(例如BERT 和 RoBERTa)在多種自然語言理解任務上(包括關系抽取、實體類別區(qū)分、問題回答等)的性能。尤其是在低資源(low-resource)的設定下,性能的提升更加明顯。

一、問題背景

傳統(tǒng)的預訓練目標沒有對文本中的關系事實進行顯式建模,而這些關系事實對于理解文本至關重要。為了解決這個問題,一些研究人員試圖改進 PLM 的架構、預訓練任務等,以更好地理解實體之間的關系。但是它們通常只對文本中的句子級別的單個關系進行建模,不僅忽略了長文本場景下多個實體之間的復雜關系,也忽略了對實體本身的理解,例如圖1中所展現(xiàn)的,對于長文本來說,為了讓PLM更加充分理解地單個實體,我們需要考慮該實體和其他實體之間的復雜關系;而這些復雜的關系的理解通常涉及復雜的推理鏈,往往需要綜合多個句子的信息得出結論。針對這兩個痛點,本文提出了實體區(qū)分任務和關系區(qū)分任務來增強PLM對于實體和實體間關系的理解。

二 、文檔級預訓練數(shù)據(jù)收集

ERICA的訓練依賴于大規(guī)模文檔級遠程監(jiān)督數(shù)據(jù),該數(shù)據(jù)的構造有三個階段:首先從wikipedia中爬取文本段落,然后用命名實體識別工具(例如spacy)進行實體標注,將所有獲得的實體和wikidata中標注的實體對應上,并利用遠程監(jiān)督(distant supervision)信號獲得實體之間可能存在的關系,最終保留長度在128到512之間,含有多于4個實體,實體間多于4個遠程監(jiān)督關系的段落。注意這些遠程監(jiān)督的關系中存在大量的噪聲,而大規(guī)模的預訓練可以一定程度上實現(xiàn)降噪。作者也開源了由100萬個文檔組成的大規(guī)模遠程監(jiān)督預訓練數(shù)據(jù)。

三 、實體與實體間關系的表示

鑒于每個實體可能在段落中出現(xiàn)多次,并且每次出現(xiàn)時對應的描述(mention)可能也不一樣,作者在使用PLM對tokenize后的段落進行編碼后,取每個描述的所有token均勻池化后的結果作為該描述的表示,接著對于全文中該實體所有的描述進行第二次均勻池化,得到該實體在該文檔中的表示;對于兩個實體,它們之間的關系表示為兩個實體表示的簡單拼接。以上是最簡單的實體/實體間關系的表示方法,不需要引入額外的神經(jīng)網(wǎng)絡參數(shù)。作者在文中還探索了其它的表示方法,并驗證了所有方法相比baseline都有一致的提升。

四 、實體區(qū)分任務

實體區(qū)分任務旨在給定頭實體和關系,從當前文檔中尋找正確的尾實體。例如在上圖中,Sinaloa和Mexico具有country的遠程關系,于是作者將關系country和頭實體Sinaloa拼接在原文檔的前面作為提示(prompt),在此條件下區(qū)分正確的尾實體的任務可以在對比學習的框架下轉(zhuǎn)換成拉近頭實體和正確尾實體的實體表示的距離,推遠頭實體和文檔中其它實體(負樣本)的實體表示的距離,具體的公式如下所示:

aa6771d0-d061-11eb-9e57-12bb97331649.png

五、關系區(qū)分任務

關系區(qū)分任務旨在區(qū)分兩個關系的表示在語義空間上的相近程度。由于作者采用文檔級而非句子級的遠程監(jiān)督,文檔中的關系區(qū)分涉及復雜的推理鏈。具體而言,作者隨機采樣多個文檔,并從每個文檔中得到多個關系表示,這些關系可能只涉及句子級別的推理,也可能涉及跨句子的復雜推理。之后基于對比學習框架,根據(jù)遠程監(jiān)督的標簽在關系空間中對不同的關系表示進行訓練,如前文所述,每個關系表示均由文檔中的兩個實體表示構成。正樣本即具有相同遠程監(jiān)督標簽的關系表示,負樣本與此相反。作者在實驗中還發(fā)現(xiàn)進一步引入不具有遠程監(jiān)督關系的實體對作為負樣本可以進一步提升模型效果。由于進行對比訓練的兩個關系表示可能來自于多個文檔,也可能來自于單個文檔,因此文檔間/跨文檔的關系表示交互都得到了實現(xiàn)。巧妙的是,對于涉及復雜推理的關系,該方法不需要顯示地構建推理鏈,而是“強迫”模型理解這些關系并在頂層的關系語義空間中區(qū)分這些關系。具體的公式如下所示:

aaa2d9dc-d061-11eb-9e57-12bb97331649.png

為了避免災難性遺忘,作者將上述兩個任務同masked language modeling (MLM)任務一起訓練,總的訓練目標如下所示:

aaaeafe6-d061-11eb-9e57-12bb97331649.png

六、實驗結果

ERICA的訓練不需要引入除了PLM之外的任何參數(shù),并且對于任意模型均能夠適配,具體的,作者采用了兩個經(jīng)典的PLM:BERT和RoBERTa,并對其進行一定時間的post-training,最后在文檔級關系抽取、實體類別區(qū)分、問題回答等任務上進行了測試,并對比了例如CorefBERT, SpanBERT, ERNIE, MTB,CP等基線模型,驗證了ERICA框架的有效性。具體結果如下:

a) 文檔級關系抽取,模型需要區(qū)分文檔中的多個實體之間的關系,這需要PLM對實體間關系有較好的理解。

b) 實體類別區(qū)分,模型需要區(qū)分文本中的實體的具體類別,這需要PLM對實體本身有較好的理解。

c) 問題回答,作者測試了兩種常見的問題回答任務:多選問答(multi-choice QA)和抽取式問答(extractive QA)。這需要PLM對實體和實體間關系有較好的理解。

七、分析

a) 消融分析(ablation study)。作者對ERICA框架中的所有組成成分進行了細致的分析,并證明了這些組成成分對于模型整體效果的提升是缺一不可的。

b) 可視化分析。作者對經(jīng)過ERICA訓練前后的PLM對實體和實體間關系的表示進行了可視化,結果如下圖所示。通過ERICA的對比學習訓練,PLM對于同類別的實體/實體關系的表示有明顯的聚類現(xiàn)象,這充分驗證了ERICA能夠顯著增強PLM對實體和實體間關系的理解。

c) 此外,作者分析了遠程監(jiān)督關系的多樣性/預訓練文檔數(shù)量對于模型效果的提升。實驗結果發(fā)現(xiàn),更加多樣的遠程監(jiān)督關系與更大的預訓練數(shù)據(jù)集對于性能的提升有積極的作用。

d) 除了使用均勻池化的方式來獲得實體/關系表示,作者也嘗試使用entity marker的表示方法來測試模型的性能。實驗結果證明,ERICA對各種實體/關系表示方法均適用,進一步驗證了該架構的通用性。

八、總結

在本文中,作者提出了ERICA框架,通過對比學習幫助PLM提高實體和實體間關系的理解。作者在多個自然語言理解任務上驗證了該框架的有效性,包括關系提取、實體類別區(qū)分和問題問答。實驗結果表明ERICA顯著優(yōu)于所有基線模型,尤其是在低資源的設定下,這意味著 ERICA 可以更好地幫助 PLM捕獲文本中的相關事實并綜合有關實體及其關系的信息。

責任編輯:lq6

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • PLM
    PLM
    +關注

    關注

    2

    文章

    131

    瀏覽量

    21010
  • 實體
    +關注

    關注

    0

    文章

    8

    瀏覽量

    7337

原文標題:ERICA: 提升預訓練語言模型實體與關系理解的統(tǒng)一框架

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦

    探秘定制鋰電池實體店:開啟專屬電力新體驗

    定制鋰電池實體店為我們提供了一種全新的電池選擇方式,讓我們能夠擺脫傳統(tǒng)鋰電池的束縛,擁有一款真正符合自己需求的專屬電力解決方案。如果你正在為電池的適配性、性能等問題煩惱,不妨走進身邊的定制鋰電池實體店,開啟屬于你的專屬電力新體驗。
    的頭像 發(fā)表于 01-15 17:06 ?201次閱讀
    探秘定制鋰電池<b class='flag-5'>實體</b>店:開啟專屬電力新體驗

    研發(fā)數(shù)據(jù)管理:從前PLM時代的Excel到PLM3.0、PLM 4.0

    SAP、Oracle、西門子都在裁員,國產(chǎn)PLM廠商是該亦步亦趨,還是實現(xiàn)PLM的國產(chǎn)替代?
    的頭像 發(fā)表于 01-10 16:23 ?170次閱讀

    如何使用ar增強現(xiàn)實體

    增強現(xiàn)實(AR)技術近年來得到了迅速發(fā)展,它通過在用戶的現(xiàn)實世界視野中疊加計算機生成的圖像、視頻或信息,為用戶提供了一種全新的交互方式。這種技術已經(jīng)被廣泛應用于游戲、教育、零售、醫(yī)療等多個領域
    的頭像 發(fā)表于 11-11 10:03 ?800次閱讀

    南方智能推出三維地理實體生產(chǎn)軟件

    新型基礎測繪與實景三維中國建設持續(xù)推進,南方智能深度聚焦,基于自主研發(fā)的SmartGIS平臺,打造以地理實體數(shù)據(jù)為核心的“生產(chǎn)、處理、質(zhì)檢、管理、可視化分析”實景三維系列軟件,提供全流程、按需定制的服務方案。
    的頭像 發(fā)表于 11-06 10:26 ?419次閱讀

    PLM系統(tǒng) PLM軟件 PLM項目管理系統(tǒng)軟件 PLM產(chǎn)品生命周期管理系統(tǒng)哪個好?

    隨著產(chǎn)品設計和制造日益復雜,市場競爭日益激烈,產(chǎn)品生命周期管理(PLM)系統(tǒng)已經(jīng)成為許多企業(yè)提高競爭力和創(chuàng)新能力的重要工具。PLM系統(tǒng)是一種端到端的產(chǎn)品開發(fā)管理解決方案,旨在整合產(chǎn)品開發(fā)的所有階段
    的頭像 發(fā)表于 10-23 15:18 ?388次閱讀

    傳音控股入選2023新型實體企業(yè)TOP100

    2023“新型實體企業(yè)TOP100”成果發(fā)布暨典型企業(yè)分享交流會在北京舉辦。大會上,中國企業(yè)評價協(xié)會發(fā)布了《2023新型實體企業(yè)TOP100發(fā)展報告》及榜單。傳音控股長期深耕智能終端制造和移動互聯(lián)領域,憑借領先的技術創(chuàng)新實力入選“2023新型
    的頭像 發(fā)表于 09-29 16:21 ?660次閱讀

    立訊精密上榜《2023新型實體企業(yè)TOP100》

    中國企業(yè)評價協(xié)會主辦的2023“新型實體企業(yè)TOP100”成果發(fā)布暨典型企業(yè)分享交流會上,發(fā)布了《2023年度新型實體企業(yè)TOP100發(fā)展報告》及“2023新型實體企業(yè)TOP100”榜單,集中呈現(xiàn)
    的頭像 發(fā)表于 09-29 09:51 ?431次閱讀

    信號的時域波形和頻譜關系是什么

    描述了信號在不同頻率成分上的分布。理解時域波形和頻譜之間的關系對于信號的分析、處理和傳輸具有重要意義。 基本概念 2.1 信號 信號是信息的載體,可以是模擬信號,也可以是數(shù)字信號。模擬信號是連續(xù)的,可以是時間的函數(shù)
    的頭像 發(fā)表于 07-15 14:27 ?1207次閱讀

    如何學習智能家居?8:Text文本實體使用方法

    hello,伙伴們最近一直在弄AiPi-Eyes-R3的資料,渲染、3D 外殼設計......一直沒時間開發(fā)新的 HomeAssistant MQTT 實體,最新的實體估計也是在本月初開發(fā)完的,一直
    的頭像 發(fā)表于 07-15 14:06 ?1718次閱讀
    如何學習智能家居?8:Text文本<b class='flag-5'>實體</b>使用方法

    美商務部將37家中企列入實體清單,中方堅決反對,并將采取維護措施

    另據(jù)5月10日報道,有記者向商務部詢問社交媒體上熱議的話題——美東部時間5月9日,美國商務部宣布將多家中國實體列入出口管制“實體清單”。發(fā)言人對此表示,中方堅決反對。
    的頭像 發(fā)表于 05-11 09:31 ?854次閱讀

    剛剛,美國再拉黑37家中國實體

    據(jù)百能云芯電.子元器.件商.城了解,今天,美國商務部工業(yè)與安全局(BIS) 根據(jù)出口管理條例 (EAR) 將 37 個中國實體添加到實體名單中,理由是這些企業(yè)參與了量子、無人機和高空監(jiān)視項目的技術
    的頭像 發(fā)表于 05-10 17:29 ?750次閱讀
    剛剛,美國再拉黑37家中國<b class='flag-5'>實體</b>!

    美國將11家中企列入實體清單,中方回應

    早在2月23日,BIS已將93家來自俄羅斯、中國、土耳其等國的實體納入“實體清單”,其中8家為中國企業(yè)。中國駐美使館發(fā)言人劉鵬宇對此表示譴責,認為此舉屬于經(jīng)濟脅迫。
    的頭像 發(fā)表于 04-12 09:52 ?1038次閱讀

    蘋果ReALM模型在實體識別測試中超越OpenAI GPT-4.0

    “我們的模型在識別各種類型實體方面都有顯著提升,即使是小尺寸模型,在屏幕實體識別準確性上也已超過原有的系統(tǒng)5%以上。在與GPT-3.5和GPT-4.0的比較中,小型模型與GPT-4.0相媲美;更大的模型則表現(xiàn)更佳?!?/div>
    的頭像 發(fā)表于 04-02 11:23 ?578次閱讀

    愛立信成立新實體服務于美國政府機構

    愛立信近期宣布成立了一項全新實體——愛立信聯(lián)邦技術集團(Ericsson Federal Technologies Group,簡稱EFTG)。這一新實體的誕生,旨在向美國聯(lián)邦政府的多個機構提供前沿
    的頭像 發(fā)表于 03-22 11:27 ?956次閱讀

    ST25DV04可以讀取實體IC卡嗎?

    我最近打算使用ST25DV04做一個NFC卡,這款芯片可以讀取實體IC卡,獲取IC卡信息,并模擬IC卡刷卡嗎?
    發(fā)表于 03-18 07:04