0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

meta reweighting 策略來增強(qiáng)偽樣本的效果

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:深度學(xué)習(xí)自然語言 ? 2022-08-03 11:46 ? 次閱讀

自增強(qiáng)(self-augmentation)最近在提升低資源場景下的 NER 問題中得到了越來越多的關(guān)注,token 替換和表征混合是對于 NER 這類 token 級別的任務(wù)很有效的兩種自增強(qiáng)方法。值得注意的是,自增強(qiáng)的方法得到的增強(qiáng)數(shù)據(jù)有潛在的噪聲,先前的研究是對于特定的自增強(qiáng)方法設(shè)計特定的基于規(guī)則的約束來降低噪聲。

本文提出了一個聯(lián)合的 meta-reweighting 的策略來自然的進(jìn)行整合。我們提出的方法可以很容易的擴(kuò)展到其他自增強(qiáng)的方法中,實(shí)驗(yàn)表明,本文的方法可以有效的提升自增強(qiáng)方法的表現(xiàn)。

27892526-1258-11ed-ba43-dac502259ad0.png

命名實(shí)體識別旨在從非結(jié)構(gòu)化文本中抽取預(yù)先定義的命名實(shí)體,是 NLP 的一個基礎(chǔ)任務(wù)。近期,基于神經(jīng)網(wǎng)絡(luò)的方法推動 NER 任務(wù)不斷取得更好的表現(xiàn),但是其通常需要大規(guī)模的標(biāo)注數(shù)據(jù),這在真實(shí)場景中是不現(xiàn)實(shí)的,因此小樣本設(shè)置的 NER 更符合現(xiàn)實(shí)需求。

數(shù)據(jù)自增強(qiáng)是一個小樣本任務(wù)可行的解法,對于 token-level 的 NER 任務(wù),token 替換和表征混合是常用的方法。但自增強(qiáng)也有局限性,我們需要為每種特定的自增強(qiáng)方法單獨(dú)進(jìn)行一些設(shè)計來降低自增強(qiáng)所帶來的噪聲,緩解噪聲對效果的影響。本文提出了 meta-reweighting 框架將各類方法聯(lián)合起來。

首先,放寬前人方法中的約束,得到更多偽樣本。然而這樣會產(chǎn)生更多低質(zhì)量的增強(qiáng)樣本,為此,我們提出 meta reweighting 策略來控制增強(qiáng)樣本的質(zhì)量。同時,使用 example reweighting 機(jī)制可以很自然的將兩種方法結(jié)合在一起。實(shí)驗(yàn)表明,在小樣本場景下,本文提出的方法可以有效提升數(shù)據(jù)自增強(qiáng)方法的效果,在全監(jiān)督場景下本文的方法仍然有效。

27a37b9c-1258-11ed-ba43-dac502259ad0.png

Method

2.1 Baseline

本文的 basic 模型使用 BERT+BiLSTM+CRF 進(jìn)行 NER 任務(wù)。首先給定輸入序列 ,使用預(yù)訓(xùn)練的 BERT 得到每個 token 的表征。

27c1ad10-1258-11ed-ba43-dac502259ad0.png

然后使用 BiLSTM 進(jìn)一步抽取上下文的特征:

27cc3f14-1258-11ed-ba43-dac502259ad0.png

最后解碼過程使用 CRF 進(jìn)行解碼,先將得到的表征過一層線性層作為初始的標(biāo)簽分?jǐn)?shù),定義一個標(biāo)簽轉(zhuǎn)移矩陣 T 來建模標(biāo)簽之間的依賴關(guān)系。對于一個標(biāo)簽序列 ,其分?jǐn)?shù) 計算如下:

27d7cb86-1258-11ed-ba43-dac502259ad0.png

其中 W、b 和 T 是模型的參數(shù),最后使用維特比算法得到最佳的標(biāo)簽序列。訓(xùn)練的損失函數(shù)采用句子級別的交叉熵?fù)p失,對于給定的監(jiān)督樣本對 (X, Y),其條件概率 P(Y|X) 計算如下:

27e5d0f0-1258-11ed-ba43-dac502259ad0.png

其中 為候選標(biāo)簽序列。

2.2 自增強(qiáng)方法

27eea55e-1258-11ed-ba43-dac502259ad0.png

2.2.1 Token Substitution(TS)

token 替換是在原始的訓(xùn)練文本中對部分 token 進(jìn)行替換得到偽樣本。本文通過構(gòu)建同義詞詞典來進(jìn)行 token 替換,詞典中既包含實(shí)體詞也包含大量的普通詞。遵循前人的設(shè)置,我們將所有屬于同一實(shí)體類型的詞當(dāng)作同義詞,并且添加到實(shí)體詞典中,作者將其稱為 entity mention substitution (EMS)。同時,我們也將 token 替換擴(kuò)展到了“O”類型中,作者將其稱為 normal word substitution (NWS)。作者使用 word2vec 的方法,在 wikidata 上通過余弦相似度找到 k 個最近鄰的詞作為“O”類型詞的同義詞。這里作者設(shè)置了參數(shù) (此參數(shù)代表 EMS 的占比)來平衡 EMS 和 NWS 的比率,在 entity diversity 和 context diversity 之間達(dá)到更好的 trade-off。

2.2.2 Mixup for CRF

不同于 token 替換在原始文本上做增強(qiáng),mixup 是在表征上進(jìn)行處理,本文將 mixup 的方法擴(kuò)展到了 CRF 層。形式上,給定一個樣本對 和 ,首先用 BERT 得到其向量表示 和 。然后通過參數(shù) 將兩個樣本混合:

2800a5b0-1258-11ed-ba43-dac502259ad0.png

其中,n 為 , 從 分布中采樣。損失函數(shù)變?yōu)椋?/p>

280c5248-1258-11ed-ba43-dac502259ad0.png

2.3 Meta Reweighting

有別于句子級的分類任務(wù),NER 這類 token 級別的任務(wù)對于上下文高度敏感,一些低質(zhì)量的增強(qiáng)數(shù)據(jù)會嚴(yán)重影響模型的效果。在本文中,作者使用 meta reweighting 策略為 mini batch 中的訓(xùn)練數(shù)據(jù)分配樣本級的權(quán)重。

在少樣本設(shè)置中,我們希望少量的標(biāo)注樣本能夠引導(dǎo)增強(qiáng)樣本進(jìn)行模型參數(shù)更新。直覺上看,如果增強(qiáng)樣本的數(shù)據(jù)分布和其梯度下降的方向與標(biāo)注樣本相似,說明模型能夠從增強(qiáng)樣本中學(xué)到更多有用的信息。

算法流程如下:

2813ff66-1258-11ed-ba43-dac502259ad0.png

實(shí)驗(yàn)

3.1 實(shí)驗(yàn)設(shè)置

數(shù)據(jù)集采用 OntoNotes 4、OntoNotes 5、微博和 CoNLL03,所有數(shù)據(jù)集均采用 BIOES 標(biāo)注方式。

283e17ba-1258-11ed-ba43-dac502259ad0.png

對于 NWS,使用在 wikipedia 上訓(xùn)練的 GloVe 獲取詞向量,取 top5 最近鄰的詞作為同義詞, 取 0.2, 在 Beta (7, 7) 中進(jìn)行采樣,評價指標(biāo)使用 F1 值。3.2 主實(shí)驗(yàn)本文在小樣本設(shè)置和全監(jiān)督設(shè)置下都做了實(shí)驗(yàn),結(jié)果如下:

284dd362-1258-11ed-ba43-dac502259ad0.png

285dc22c-1258-11ed-ba43-dac502259ad0.png

287441aa-1258-11ed-ba43-dac502259ad0.png

3.3 分析

作者首先在 CoNLL03 5% 設(shè)置下做了增強(qiáng)數(shù)據(jù)量對實(shí)驗(yàn)結(jié)果的影響:

2887cdc4-1258-11ed-ba43-dac502259ad0.png

可以看出,在增強(qiáng)數(shù)據(jù)是原始訓(xùn)練數(shù)據(jù)的 5 倍之后,模型的效果就趨于平緩了,單純的增加增強(qiáng)樣本數(shù)并不能帶來效果上持續(xù)的增長。

作者在三種小樣本設(shè)置下對參數(shù) 的影響:

2894202e-1258-11ed-ba43-dac502259ad0.png

可以看出在 20% 時效果最好,而且相比之下,只使用 NWS 比只使用 EMS 效果更好??赡艿囊粋€原因是實(shí)體詞在文本中是稀疏的,NWS 能夠產(chǎn)生更多不同的偽樣本。

接著作者分析了 mixup 參數(shù) (Beta 分布參數(shù) )的取值:

289edc08-1258-11ed-ba43-dac502259ad0.png

因?yàn)楸疚?Beta 分布的兩個參數(shù)都取 ,其期望總是 0.5,當(dāng) 增大時,分布的方差減小,采樣更容易取到 0.5,實(shí)驗(yàn)結(jié)果表明當(dāng) 取 7 時整體效果最好。最后作者還分析了 mixup 添加在不同位置的不同結(jié)果:

28b24428-1258-11ed-ba43-dac502259ad0.png

總結(jié)

本文提出了 meta reweighting 策略來增強(qiáng)偽樣本的效果。是一篇很有啟發(fā)性的文章,從梯度的角度出發(fā),結(jié)合類似于 MAML 中 gradient by gradient 的思想,用標(biāo)注樣本來指導(dǎo)偽樣本訓(xùn)練,為偽樣本的損失加權(quán),對偽樣本的梯度下降的方向進(jìn)行修正使其與標(biāo)注樣本更加相似。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4779

    瀏覽量

    101088
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7134

    瀏覽量

    89457
  • 解碼
    +關(guān)注

    關(guān)注

    0

    文章

    183

    瀏覽量

    27427
收藏 人收藏

    評論

    相關(guān)推薦

    基于GPS衛(wèi)星的多徑效應(yīng)分析與研究

    采用衛(wèi)星技術(shù)增強(qiáng)GPS 定位系統(tǒng)提高定位性能是衛(wèi)星定位應(yīng)用的一個研究熱點(diǎn)。在對GPS 衛(wèi)星應(yīng)用中出現(xiàn)的多徑效應(yīng)做較為詳細(xì)的特點(diǎn)分析后
    發(fā)表于 12-19 13:55 ?12次下載

    基于支持樣本的快速增強(qiáng)學(xué)習(xí)算法

    針對確定性馬爾克夫決策過程,本文提出了一種基于支持樣本的快速增強(qiáng)學(xué)習(xí)算法。文章首先把學(xué)習(xí)問題形式化為一個確定性的馬爾可夫決策過程,并對問題空間中每個狀態(tài)的總
    發(fā)表于 01-22 12:18 ?5次下載

    采用衛(wèi)星技術(shù)增強(qiáng)GPS定位系統(tǒng)提高定位性能

    采用衛(wèi)星技術(shù)增強(qiáng)GPS定位系統(tǒng)提高定位性能是衛(wèi)星定位應(yīng)用的一個研究熱點(diǎn)。在對GPS衛(wèi)星應(yīng)用中出現(xiàn)的多徑效應(yīng)做較為詳細(xì)的特點(diǎn)分析后,開
    發(fā)表于 07-23 10:51 ?31次下載

    樣本支持向量機(jī)分類策略研究_胡紅宇

    樣本支持向量機(jī)分類策略研究_胡紅宇
    發(fā)表于 03-19 11:28 ?0次下載

    Meta與DassaultSystèmes攜手為Solidworks3DCAD軟件提供增強(qiáng)現(xiàn)實(shí)支持

    Meta公司已與DassaultSystèmes開展合作,為后者的Solidworks3DCAD軟件提供增強(qiáng)現(xiàn)實(shí)支持。 在推動Meta2成為正當(dāng)工作場所工具的另一次嘗試中,Meta
    發(fā)表于 02-08 07:25 ?1164次閱讀

    Bose推出了一款利用聲音實(shí)現(xiàn)增強(qiáng)現(xiàn)實(shí)效果的太陽眼鏡

    談及增強(qiáng)現(xiàn)實(shí),可能有人會想到的是那些頭戴式的顯示設(shè)備,其通過畫面讓人產(chǎn)生沉浸感。不過近期 Bose 則推出了一款利用聲音實(shí)現(xiàn)增強(qiáng)現(xiàn)實(shí)效果的太陽眼鏡 Bose Frames。
    發(fā)表于 12-12 15:02 ?3746次閱讀

    研究人員們提出了PBA的方法獲取更為有效的數(shù)據(jù)增強(qiáng)策略

    數(shù)據(jù)增強(qiáng)策略通常包括剪切、填充、翻轉(zhuǎn)和旋轉(zhuǎn)等,但這些基本策略對于深度網(wǎng)絡(luò)的訓(xùn)練還是太簡單,在對于數(shù)據(jù)增強(qiáng)策略和種類的研究相較于神經(jīng)網(wǎng)絡(luò)的研究
    的頭像 發(fā)表于 08-02 15:56 ?5649次閱讀

    一種基于標(biāo)簽半監(jiān)督學(xué)習(xí)的小樣本調(diào)制識別算法

    一種基于標(biāo)簽半監(jiān)督學(xué)習(xí)的小樣本調(diào)制識別算法 來源:《西北工業(yè)大學(xué)學(xué)報》,作者史蘊(yùn)豪等 摘 要:針對有標(biāo)簽樣本較少條件下的通信信號調(diào)制識別問題,提出了一種基于標(biāo)簽半監(jiān)督學(xué)習(xí)技術(shù)的小
    發(fā)表于 02-10 11:37 ?851次閱讀

    基于k近鄰與高斯噪聲的虛擬困難樣本增強(qiáng)方法

    然而在無監(jiān)督SimCSE中,作者僅使用dropout的方式進(jìn)行了正樣本增強(qiáng),沒有額外引入困難樣本,這在一定程度上限制了模型的能力。基于這個動機(jī),亞馬遜提出了一種基于k近鄰與高斯噪聲的虛擬困難
    的頭像 發(fā)表于 05-12 11:31 ?1172次閱讀

    一個聯(lián)合的meta-reweighting策略來自然的進(jìn)行整合

    增強(qiáng)所帶來的噪聲,緩解噪聲對效果的影響。本文提出了 meta-reweighting 框架將各類方法聯(lián)合起來。
    發(fā)表于 08-03 11:44 ?403次閱讀

    yolov5和YOLOX正負(fù)樣本分配策略

    整體上在正負(fù)樣本分配中,yolov7的策略算是yolov5和YOLOX的結(jié)合。因此本文先從yolov5和YOLOX正負(fù)樣本分配策略分析入手,后引入到Y(jié)OLOv7的解析中。
    發(fā)表于 08-14 11:45 ?2345次閱讀
    yolov5和YOLOX正負(fù)<b class='flag-5'>樣本</b>分配<b class='flag-5'>策略</b>

    Meta拒絕谷歌合作提議

    近日,科技巨頭Meta拒絕與谷歌母公司Alphabet進(jìn)行合作,原本的計劃是將Meta的混合現(xiàn)實(shí)頭顯產(chǎn)品Quest搭載谷歌的Android XR平臺。然而,盡管Meta作出了這一決定,谷歌方面依然保持開放態(tài)度,顯示出其在市場競爭
    的頭像 發(fā)表于 03-06 10:27 ?748次閱讀

    高通與Meta合作優(yōu)化Meta Llama 3,實(shí)現(xiàn)終端側(cè)運(yùn)行

    高通技術(shù)公司高級副總裁兼技術(shù)規(guī)劃和邊緣解決方案業(yè)務(wù)總經(jīng)理馬德嘉表示:“我們對Meta開放Meta Llama 3的策略表示贊賞,高通與Meta均致力于賦能開發(fā)者,推動AI創(chuàng)新。
    的頭像 發(fā)表于 04-22 09:51 ?496次閱讀

    Meta重組硬件部門Reality Labs,聚焦增強(qiáng)現(xiàn)實(shí)與元宇宙

    科技巨頭Facebook的母公司Meta近日宣布,對其硬件部門Reality Labs進(jìn)行了一次重大重組。此次重組是自2020年該部門更名以來規(guī)模最大的一次,標(biāo)志著Meta在不斷變化的戰(zhàn)略中更加專注于增強(qiáng)現(xiàn)實(shí)(AR)和元宇宙領(lǐng)域
    的頭像 發(fā)表于 06-20 10:58 ?721次閱讀

    Meta發(fā)布新AI模型Meta Motivo,旨在提升元宇宙體驗(yàn)

    Meta在人工智能領(lǐng)域邁出了重要一步。通過這款模型,Meta希望能夠?yàn)橛脩籼峁└幼匀?、流暢的元宇宙交互體驗(yàn)。數(shù)字代理在元宇宙中的動作將更加逼真,從而增強(qiáng)用戶的沉浸感和參與度。 除了Meta
    的頭像 發(fā)表于 12-16 10:34 ?468次閱讀