自增強(qiáng)(self-augmentation)最近在提升低資源場景下的 NER 問題中得到了越來越多的關(guān)注,token 替換和表征混合是對于 NER 這類 token 級別的任務(wù)很有效的兩種自增強(qiáng)方法。值得注意的是,自增強(qiáng)的方法得到的增強(qiáng)數(shù)據(jù)有潛在的噪聲,先前的研究是對于特定的自增強(qiáng)方法設(shè)計特定的基于規(guī)則的約束來降低噪聲。
本文提出了一個聯(lián)合的 meta-reweighting 的策略來自然的進(jìn)行整合。我們提出的方法可以很容易的擴(kuò)展到其他自增強(qiáng)的方法中,實(shí)驗(yàn)表明,本文的方法可以有效的提升自增強(qiáng)方法的表現(xiàn)。
命名實(shí)體識別旨在從非結(jié)構(gòu)化文本中抽取預(yù)先定義的命名實(shí)體,是 NLP 的一個基礎(chǔ)任務(wù)。近期,基于神經(jīng)網(wǎng)絡(luò)的方法推動 NER 任務(wù)不斷取得更好的表現(xiàn),但是其通常需要大規(guī)模的標(biāo)注數(shù)據(jù),這在真實(shí)場景中是不現(xiàn)實(shí)的,因此小樣本設(shè)置的 NER 更符合現(xiàn)實(shí)需求。
數(shù)據(jù)自增強(qiáng)是一個小樣本任務(wù)可行的解法,對于 token-level 的 NER 任務(wù),token 替換和表征混合是常用的方法。但自增強(qiáng)也有局限性,我們需要為每種特定的自增強(qiáng)方法單獨(dú)進(jìn)行一些設(shè)計來降低自增強(qiáng)所帶來的噪聲,緩解噪聲對效果的影響。本文提出了 meta-reweighting 框架將各類方法聯(lián)合起來。
首先,放寬前人方法中的約束,得到更多偽樣本。然而這樣會產(chǎn)生更多低質(zhì)量的增強(qiáng)樣本,為此,我們提出 meta reweighting 策略來控制增強(qiáng)樣本的質(zhì)量。同時,使用 example reweighting 機(jī)制可以很自然的將兩種方法結(jié)合在一起。實(shí)驗(yàn)表明,在小樣本場景下,本文提出的方法可以有效提升數(shù)據(jù)自增強(qiáng)方法的效果,在全監(jiān)督場景下本文的方法仍然有效。
Method
2.1 Baseline
本文的 basic 模型使用 BERT+BiLSTM+CRF 進(jìn)行 NER 任務(wù)。首先給定輸入序列 ,使用預(yù)訓(xùn)練的 BERT 得到每個 token 的表征。
然后使用 BiLSTM 進(jìn)一步抽取上下文的特征:
最后解碼過程使用 CRF 進(jìn)行解碼,先將得到的表征過一層線性層作為初始的標(biāo)簽分?jǐn)?shù),定義一個標(biāo)簽轉(zhuǎn)移矩陣 T 來建模標(biāo)簽之間的依賴關(guān)系。對于一個標(biāo)簽序列 ,其分?jǐn)?shù) 計算如下:
其中 W、b 和 T 是模型的參數(shù),最后使用維特比算法得到最佳的標(biāo)簽序列。訓(xùn)練的損失函數(shù)采用句子級別的交叉熵?fù)p失,對于給定的監(jiān)督樣本對 (X, Y),其條件概率 P(Y|X) 計算如下:
其中 為候選標(biāo)簽序列。
2.2 自增強(qiáng)方法
2.2.1 Token Substitution(TS)
token 替換是在原始的訓(xùn)練文本中對部分 token 進(jìn)行替換得到偽樣本。本文通過構(gòu)建同義詞詞典來進(jìn)行 token 替換,詞典中既包含實(shí)體詞也包含大量的普通詞。遵循前人的設(shè)置,我們將所有屬于同一實(shí)體類型的詞當(dāng)作同義詞,并且添加到實(shí)體詞典中,作者將其稱為 entity mention substitution (EMS)。同時,我們也將 token 替換擴(kuò)展到了“O”類型中,作者將其稱為 normal word substitution (NWS)。作者使用 word2vec 的方法,在 wikidata 上通過余弦相似度找到 k 個最近鄰的詞作為“O”類型詞的同義詞。這里作者設(shè)置了參數(shù) (此參數(shù)代表 EMS 的占比)來平衡 EMS 和 NWS 的比率,在 entity diversity 和 context diversity 之間達(dá)到更好的 trade-off。
2.2.2 Mixup for CRF
不同于 token 替換在原始文本上做增強(qiáng),mixup 是在表征上進(jìn)行處理,本文將 mixup 的方法擴(kuò)展到了 CRF 層。形式上,給定一個樣本對 和 ,首先用 BERT 得到其向量表示 和 。然后通過參數(shù) 將兩個樣本混合:
其中,n 為 , 從 分布中采樣。損失函數(shù)變?yōu)椋?/p>
2.3 Meta Reweighting
有別于句子級的分類任務(wù),NER 這類 token 級別的任務(wù)對于上下文高度敏感,一些低質(zhì)量的增強(qiáng)數(shù)據(jù)會嚴(yán)重影響模型的效果。在本文中,作者使用 meta reweighting 策略為 mini batch 中的訓(xùn)練數(shù)據(jù)分配樣本級的權(quán)重。
在少樣本設(shè)置中,我們希望少量的標(biāo)注樣本能夠引導(dǎo)增強(qiáng)樣本進(jìn)行模型參數(shù)更新。直覺上看,如果增強(qiáng)樣本的數(shù)據(jù)分布和其梯度下降的方向與標(biāo)注樣本相似,說明模型能夠從增強(qiáng)樣本中學(xué)到更多有用的信息。
算法流程如下:
實(shí)驗(yàn)
3.1 實(shí)驗(yàn)設(shè)置
數(shù)據(jù)集采用 OntoNotes 4、OntoNotes 5、微博和 CoNLL03,所有數(shù)據(jù)集均采用 BIOES 標(biāo)注方式。
對于 NWS,使用在 wikipedia 上訓(xùn)練的 GloVe 獲取詞向量,取 top5 最近鄰的詞作為同義詞, 取 0.2, 在 Beta (7, 7) 中進(jìn)行采樣,評價指標(biāo)使用 F1 值。3.2 主實(shí)驗(yàn)本文在小樣本設(shè)置和全監(jiān)督設(shè)置下都做了實(shí)驗(yàn),結(jié)果如下:
3.3 分析
作者首先在 CoNLL03 5% 設(shè)置下做了增強(qiáng)數(shù)據(jù)量對實(shí)驗(yàn)結(jié)果的影響:
可以看出,在增強(qiáng)數(shù)據(jù)是原始訓(xùn)練數(shù)據(jù)的 5 倍之后,模型的效果就趨于平緩了,單純的增加增強(qiáng)樣本數(shù)并不能帶來效果上持續(xù)的增長。
作者在三種小樣本設(shè)置下對參數(shù) 的影響:
可以看出在 20% 時效果最好,而且相比之下,只使用 NWS 比只使用 EMS 效果更好??赡艿囊粋€原因是實(shí)體詞在文本中是稀疏的,NWS 能夠產(chǎn)生更多不同的偽樣本。
接著作者分析了 mixup 參數(shù) (Beta 分布參數(shù) )的取值:
因?yàn)楸疚?Beta 分布的兩個參數(shù)都取 ,其期望總是 0.5,當(dāng) 增大時,分布的方差減小,采樣更容易取到 0.5,實(shí)驗(yàn)結(jié)果表明當(dāng) 取 7 時整體效果最好。最后作者還分析了 mixup 添加在不同位置的不同結(jié)果:
總結(jié)
本文提出了 meta reweighting 策略來增強(qiáng)偽樣本的效果。是一篇很有啟發(fā)性的文章,從梯度的角度出發(fā),結(jié)合類似于 MAML 中 gradient by gradient 的思想,用標(biāo)注樣本來指導(dǎo)偽樣本訓(xùn)練,為偽樣本的損失加權(quán),對偽樣本的梯度下降的方向進(jìn)行修正使其與標(biāo)注樣本更加相似。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4779瀏覽量
101088 -
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7134瀏覽量
89457 -
解碼
+關(guān)注
關(guān)注
0文章
183瀏覽量
27427
發(fā)布評論請先 登錄
相關(guān)推薦
評論