0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

介紹兩個few-shot NER中的challenge

深度學(xué)習(xí)自然語言處理 ? 來源:AI Station ? 作者:QI ? 2022-08-24 10:01 ? 次閱讀

01

Introduction-現(xiàn)有什么問題、怎么解決

此部分著重介紹了兩個few-shot NER中的challenge:limited information challenge和knowledge mismatch challenge。前者主要是指樣本數(shù)少,后者是指不同的數(shù)據(jù)集中同一個實體可能被分成了不同的類別標(biāo)簽。(比如“America”在Wikipedia被分為geographic , 在 OntoNotes中被分為GPE, 在WNUT17被分為location )

本文最重要的思想基于這樣一個假設(shè):不論是否是未知的實體類別,都可以用一個概念集中的若干概念來描述(all entity types can be described using the same set of concepts)。這樣可以解決knowledge mismatch challenge,而且在給了幾個少樣本后,可以根據(jù)這幾個少樣本構(gòu)建新實體類別到概念集的映射,這樣可以直接用映射后的若干概念識別實體,進而解決limited information challenge。下圖是實體類別到概念集的映射舉例。

93bd0394-22ce-11ed-ba43-dac502259ad0.jpg

02

SDNet: Self-describing Networks for FS-NER

2.1 SDNet核心部分: Mention describing、Entity generation

這部分將主要介紹SDNet怎么進行命名實體識別的,主要包括:Mention describing(從給的sentence構(gòu)建該實體的concept description)和Entity generation(根據(jù)給的實體類型逐個生成句子中的實體詞)。

以下圖為例,輸入一個sentence(以[MD]作為起始符),SDNet將輸出novel series這樣的concept description。輸入一個以[EG]作為起始符、實體類別名+相關(guān)的concept description以及待識別的sentence作為內(nèi)容的文本,SDNet將輸出Harry Potter is creative work.這樣的回答。這兩個過程分別對應(yīng)Mention describing和Entity generation。

93d176ee-22ce-11ed-ba43-dac502259ad0.png

2.2 模型工作流程

93dc6414-22ce-11ed-ba43-dac502259ad0.jpg

a、預(yù)訓(xùn)練階段

左上角的維基百科上有大量的句子,句子中的人物、地點、公司等都有相應(yīng)的維基百科給的標(biāo)簽和描述。預(yù)訓(xùn)練階段根據(jù)2.1部分介紹的模板,進行[MD]和[EG]兩個任務(wù)的Seq2Seq任務(wù)的訓(xùn)練。

b、微調(diào)與解碼階段

這部分對應(yīng)于Few-shot NER的少樣本階段。給了一些帶標(biāo)注的少量樣本句子,我們知道了這些句子中那些單詞是實體部分,把這些實體部分添加到以[MD]開頭的模板并輸入到SDNet中,模型會生成這些實體部分描述,并將生成的描述加入到新類別的概念描述集中,并在預(yù)測階段輸入添加了新類別的[EG]開頭的模板,根據(jù)生成的結(jié)果判斷待預(yù)測的句子中哪些單詞部分是該類別的實體。

以上圖中為例,給的少樣本中Iran是GPE類別的實體,SDNet先用[MD]開頭的模板生成了Iran是country的描述,將country加入到屬于GPE這個新類別的概念描述集合中,在預(yù)測階段用[EG]開頭的模板輸入GPE這個類別名、其包含的概念描述以及待識別的句子,生成屬于GPE的實體詞,完成實體識別。

c、Filtering Strategy

在眾多下游任務(wù)中,SDNet可能會遇到難以生成新實體類別描述的情況(或者或生成不準確的描述),因此SDNet在訓(xùn)練階段可以對于那些不去確定的instance生成other的描述詞。如果給少量樣本生成的描述詞中有0.5以上的other,將在最后的decode階段直接使用新實體類別名(如GPE)。(實驗部分可以看到這個策略帶來了一定的提升)

具體實現(xiàn)過程將不再贅述,可以看原文的第4部分,有對預(yù)訓(xùn)練和fintune階段的詳細介紹。

03

實驗部分

93f542f4-22ce-11ed-ba43-dac502259ad0.jpg

這種借助先驗知識的方式,在6個數(shù)據(jù)集上都取得了很好的效果,尤其是對一些之前的識別效果一直很差的(比如I2B2),這說明這種通用的實體概念集合在各種類別間是通用的。

04

評價

優(yōu)點

為少樣本NER引用外部知識提供了新思路,且提供了可直接使用的,通用的預(yù)訓(xùn)練模型,可以為后來的研究工作提供參考。

可能的缺陷

在很多新領(lǐng)域下(尤其涉及到domain transfer)的,可能會出現(xiàn)很多無法描述成概念集合的實體類別,出現(xiàn)大量的other,這時只能用實體類別名了,在完全不重疊的領(lǐng)域之間可能效果會不佳。

另外,預(yù)訓(xùn)練階段使用的維基百科,大量的是事件人物地點等這些廣泛且常用的,面對實際應(yīng)用中的非常見實體類別時,可能做不到很好的描述。

在大量的語料中進行訓(xùn)練,可能出現(xiàn)了“泄露”,當(dāng)然這只是一個猜測。




審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • SDNet
    +關(guān)注

    關(guān)注

    0

    文章

    4

    瀏覽量

    5697

原文標(biāo)題:ACL2022 | 基于自描述網(wǎng)絡(luò)的小樣本命名實體識別

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 0人收藏

    評論

    相關(guān)推薦
    熱點推薦

    在ADS828兩個輸入管腳IN+和IN-,當(dāng)兩個管腳的都接不同的輸入的時候,輸入值是如何計算的???

    在ADS828兩個輸入管腳IN+和IN-,當(dāng)兩個管腳的都接不同的輸入的時候,輸入值是如何計算的???是等于IN+的輸入電壓減去IN-的電壓嗎?
    發(fā)表于 02-06 06:25

    兩個晶體管能如何實現(xiàn)高效正弦波振蕩?

    在電子設(shè)計,振蕩器是一重要的組件,廣泛應(yīng)用于信號發(fā)生、無線通信和音頻設(shè)備。一般來說,設(shè)計一穩(wěn)定的正弦波振蕩器往往需要運算放大器或復(fù)雜的電路結(jié)構(gòu)。然而,是否可以僅用
    的頭像 發(fā)表于 01-07 12:00 ?499次閱讀
    <b class='flag-5'>兩個</b>晶體管能如何實現(xiàn)高效正弦波振蕩?

    EE-98:使用外部總線仲裁將兩個以上的ADSP-21065L組合到一多處理集群

    電子發(fā)燒友網(wǎng)站提供《EE-98:使用外部總線仲裁將兩個以上的ADSP-21065L組合到一多處理集群.pdf》資料免費下載
    發(fā)表于 01-05 09:38 ?0次下載
    EE-98:使用外部總線仲裁將<b class='flag-5'>兩個</b>以上的ADSP-21065L組合到一<b class='flag-5'>個</b>多處理集群<b class='flag-5'>中</b>

    ads1013有兩個模擬輸入,可以接不同的兩個模擬輸入嗎?

    ads1013有兩個模擬輸入,可以接不同的兩個模擬輸入嗎,驅(qū)動程序怎么分別讀兩個模擬輸入的轉(zhuǎn)換結(jié)果?
    發(fā)表于 12-02 08:02

    兩個開關(guān)電源可以并聯(lián)使用嗎

    兩個開關(guān)電源并聯(lián)使用是一相對復(fù)雜的話題,涉及到電子電路設(shè)計、電源管理、安全規(guī)范等多個方面。 1. 開關(guān)電源的基本原理 開關(guān)電源是一種通過電子開關(guān)元件(如晶體管、MOSFET等)快速切換來控制電流
    的頭像 發(fā)表于 10-09 16:04 ?4331次閱讀

    單相電機兩個繞組都在定子上嗎

    單相電機的兩個繞組,即起動線圈(或稱為輔助繞組、副繞組)和運行線圈(或稱為主繞組),都位于定子上 。這兩個繞組在電機起著關(guān)鍵作用,共同協(xié)作以產(chǎn)生旋轉(zhuǎn)磁場,從而使電機能夠運轉(zhuǎn)。 單相電機通常由一
    的頭像 發(fā)表于 09-03 15:10 ?1993次閱讀

    ad如何設(shè)置兩個元器件的距離

    在Altium Designer(簡稱AD)設(shè)置兩個元器件之間的距離,主要是通過設(shè)置元器件間的安全間距(Clearance)規(guī)則來實現(xiàn)的。這個規(guī)則定義了元器件之間、元器件與走線之間以及其他設(shè)計元素
    的頭像 發(fā)表于 09-02 15:31 ?1.6w次閱讀

    功放機AB兩個聲道輸出怎么接

    功放機AB兩個聲道輸出的接線方式,主要取決于您想要實現(xiàn)的音頻效果以及音箱的配置。以下將詳細介紹幾種常見的接線方式,以及它們各自的特點和適用場景。 一、基礎(chǔ)接線方式 在大多數(shù)情況下,功放機的AB兩個
    的頭像 發(fā)表于 08-23 10:40 ?8428次閱讀

    單穩(wěn)態(tài)觸發(fā)器的兩個工作狀態(tài)是什么

    單穩(wěn)態(tài)觸發(fā)器是一種數(shù)字邏輯電路,廣泛應(yīng)用于各種電子設(shè)備和系統(tǒng)。它具有兩個工作狀態(tài):穩(wěn)定狀態(tài)和暫態(tài)狀態(tài)。 單穩(wěn)態(tài)觸發(fā)器的工作原理 單穩(wěn)態(tài)觸發(fā)器是一種具有兩個穩(wěn)定狀態(tài)的觸發(fā)器,其中一
    的頭像 發(fā)表于 08-22 10:11 ?1063次閱讀

    兩個二極管反向串聯(lián)是什么元件

    兩個二極管反向串聯(lián)是一種常見的電路元件,通常被稱為雙向二極管或雙向穩(wěn)壓二極管。這種元件具有獨特的電氣特性,可以在正向和反向電壓下工作,廣泛應(yīng)用于各種電子電路。 一、雙向二極管的工作原理 基本結(jié)構(gòu)
    的頭像 發(fā)表于 08-16 16:05 ?7371次閱讀

    觸發(fā)器的兩個穩(wěn)定狀態(tài)分別是什么

    觸發(fā)器作為數(shù)字電路的基本邏輯單元,具有兩個穩(wěn)定狀態(tài),這兩個狀態(tài)通常用于表示二進制數(shù)碼的0和1。
    的頭像 發(fā)表于 08-12 11:01 ?2846次閱讀

    雙穩(wěn)態(tài)電路的兩個穩(wěn)定狀態(tài)是什么

    雙穩(wěn)態(tài)電路是一種具有兩個穩(wěn)定狀態(tài)的電子電路,廣泛應(yīng)用于數(shù)字電路、通信系統(tǒng)、存儲器等領(lǐng)域。 雙穩(wěn)態(tài)電路的基本概念 雙穩(wěn)態(tài)電路是一種具有兩個穩(wěn)定狀態(tài)的電路,即在沒有外部輸入信號的情況下,電路可以保持在
    的頭像 發(fā)表于 08-11 15:00 ?2511次閱讀

    雙穩(wěn)態(tài)觸發(fā)器的兩個基本性質(zhì)是什么

    雙穩(wěn)態(tài)觸發(fā)器(Bistable Trigger)是一種具有兩個穩(wěn)定狀態(tài)的邏輯電路,廣泛應(yīng)用于數(shù)字電路設(shè)計。它具有兩個基本性質(zhì):記憶性和切換性。 一、雙穩(wěn)態(tài)觸發(fā)器的基本概念 1.1 雙穩(wěn)態(tài)觸發(fā)器
    的頭像 發(fā)表于 08-11 10:08 ?1282次閱讀

    兩個路由器ip地址沖突怎么解決

    當(dāng)兩個路由器的IP地址發(fā)生沖突時,會導(dǎo)致網(wǎng)絡(luò)連接不穩(wěn)定或無法連接。以下是解決兩個路由器IP地址沖突的步驟: 確定沖突的IP地址 首先,需要確定兩個路由器的IP地址是否沖突。可以通過以下方法來檢查
    的頭像 發(fā)表于 07-09 11:35 ?9499次閱讀

    交流二元繼電器有哪兩個線圈

    交流二元繼電器是一種常見的電氣元件,廣泛應(yīng)用于各種電氣控制系統(tǒng)。它主要由兩個線圈組成,這兩個線圈分別是線圈1和線圈2。下面我們將詳細介紹兩個
    的頭像 發(fā)表于 06-29 09:43 ?1244次閱讀

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會員交流學(xué)習(xí)
    • 獲取您個性化的科技前沿技術(shù)信息
    • 參加活動獲取豐厚的禮品