【導(dǎo)語(yǔ)】幾周前,XLNet 團(tuán)隊(duì)發(fā)布了新型預(yù)訓(xùn)練語(yǔ)言模型 XLNet,這個(gè)新模型在各項(xiàng)基準(zhǔn)測(cè)試中都優(yōu)于谷歌之前發(fā)布的BERT模型,其中模型XLNet-Large 的數(shù)據(jù)量更是 BERT 模型的 10 倍左右。那 XLnet 和 BERT 到底要選誰(shuí)?
這次 XLnet 團(tuán)隊(duì)進(jìn)行了一次對(duì)比實(shí)驗(yàn),為了確保對(duì)比的公正性,在對(duì)比實(shí)驗(yàn)中作者采用相同的環(huán)境和配置,相同的訓(xùn)練數(shù)據(jù),并確保在 BERT 和 XLNet 兩個(gè)模型的訓(xùn)練方法中,幾乎每個(gè)超參數(shù)(hyperparameter)都是相同的,這些超參數(shù)都是由 BERT作者發(fā)布,并在BERT中使用的。即是說,這些超參數(shù)是為BERT模型設(shè)計(jì)選擇的,很可能是針對(duì)BERT最優(yōu)化的,而非XLNet。具體超參數(shù)設(shè)置如下(兩個(gè)模型的超參數(shù)完全相同):
Batch-size: 256
訓(xùn)練步數(shù):1M
優(yōu)化器:Adam,學(xué)習(xí)率 1e-4,warmup 1萬(wàn),線性衰減
訓(xùn)練語(yǔ)料庫(kù):Wikipedia + BooksCorpus,在處理Wikipedia時(shí)使用了與BERT repo相同的工具,但出于某種原因,我們的Wiki語(yǔ)料庫(kù)僅有20億單詞,BERT使用了25億單詞,因此XLNet的訓(xùn)練數(shù)據(jù)略少于BERT。
模型結(jié)構(gòu)參數(shù):24層,1024個(gè)隱層,16 heads
微調(diào)(finetuning)超參數(shù)搜索空間
此外,作者還修改了一些數(shù)據(jù)相關(guān)的實(shí)現(xiàn)細(xì)節(jié),以便與BERT模型進(jìn)行一對(duì)一的比較。
在之前的實(shí)驗(yàn)中,預(yù)訓(xùn)練環(huán)節(jié),未被mask的token無(wú)法看到分類token CLS和分隔token SEP,而現(xiàn)階段的實(shí)現(xiàn)中可以看到了,與BERT模型保持一致。
在微調(diào)環(huán)節(jié),與BERT一樣,用“BERT格式”取代了普通的 XLNet格式,即使用[CLS, A, SEP, B, SEP]取代了[A, SEP, B, SEP, CLS]。
另外,我們考慮了BERT模型的三種變體,并報(bào)告了各個(gè)單獨(dú)任務(wù)的最佳微調(diào)結(jié)果。三種變體如下:
模型1(Model-I):BERT 作者發(fā)布的原始BERT模型
模型2(Model-II):同樣來自作者的中文全詞覆蓋模型
模型3(Model-III):由于考慮到下句預(yù)測(cè)(NSP)可能會(huì)影響表現(xiàn),我們使用BERT已發(fā)布的代碼針對(duì)沒有NSP loss的新模型進(jìn)行了預(yù)訓(xùn)練
注意:由于通過不同變體可以獲得各個(gè)任務(wù)的最佳表現(xiàn),以上設(shè)置也許會(huì)讓BERT模型更占優(yōu)勢(shì)。
GLUE 和 SQuAD上的開發(fā)設(shè)置結(jié)果,及 RACE 上的測(cè)試設(shè)置結(jié)果如下(并未使用數(shù)據(jù)增強(qiáng)、集成或多任務(wù)學(xué)習(xí)):
不同模型對(duì)比。XLNet-Large (as in paper)所使用的訓(xùn)練數(shù)據(jù)更多一些,batch size也稍大。BERT模型,針對(duì)每個(gè)數(shù)據(jù)集我們只報(bào)告3個(gè)變體中微調(diào)最優(yōu)的結(jié)果。
表格中有些觀測(cè)結(jié)果非常有趣:
使用相同的數(shù)據(jù),以及幾乎完全相同的訓(xùn)練方法來訓(xùn)練時(shí),針對(duì)所有數(shù)據(jù)集,XLNet都以相當(dāng)?shù)膬?yōu)勢(shì)勝過了BERT模型。
投入10倍多數(shù)據(jù)(對(duì)比XLNet-Large-wikibooks與XLNet-Large)的性能提升,要小于在11個(gè)基準(zhǔn)測(cè)試中將其中8個(gè)從BERT模型換成XLNet模型的性能提升。
在某些基準(zhǔn)測(cè)試(比如CoLA和MRPC)中,使用較少數(shù)據(jù)訓(xùn)練的模型,其表現(xiàn)要優(yōu)于使用較多數(shù)據(jù)訓(xùn)練的模型。
我們相信,從以上結(jié)果中我們也許可以得到一些結(jié)果了。
XLNet的性能提高了:觀測(cè)結(jié)果1與我們?cè)缙诨诨A(chǔ)模型的對(duì)比實(shí)驗(yàn)結(jié)果一致,證明在指定相同的訓(xùn)練條件時(shí),XLNet模型要優(yōu)于BERT模型。
XLNet-Large可以優(yōu)化到更佳:觀測(cè)結(jié)果2與觀測(cè)結(jié)果3似乎表明,我們之前發(fā)布的XLNet-Large(使用更多數(shù)據(jù)訓(xùn)練)并沒有充分利用數(shù)據(jù)規(guī)模。因此,我們會(huì)繼續(xù)研究相關(guān)方法,正確擴(kuò)展使用XLNet模型進(jìn)行語(yǔ)言預(yù)訓(xùn)練的規(guī)模。根據(jù)目前有限的觀測(cè)結(jié)果,我們推測(cè)以下訓(xùn)練細(xì)節(jié)可能發(fā)揮著重要作用:
數(shù)據(jù)相關(guān):數(shù)據(jù)規(guī)模、數(shù)據(jù)來源、數(shù)據(jù)清洗、數(shù)據(jù)編碼、數(shù)據(jù)格式化
優(yōu)化相關(guān):學(xué)習(xí)率(以及計(jì)劃)、batch size、訓(xùn)練步驟數(shù)、優(yōu)化器
重要的是:這些超參數(shù)可能彼此有高階交互效果。
Facebook AI近期 GLUE 排行榜,可能也說明了訓(xùn)練細(xì)節(jié)的重要性。
總之,本實(shí)驗(yàn)將算法/模型的影響,與類似訓(xùn)練細(xì)節(jié)、大型計(jì)算及大數(shù)據(jù)這樣的其他因素明確分離開來。根據(jù)以上結(jié)果,XLNet 團(tuán)隊(duì)認(rèn)為:算法與模型至少是與其他因素同等重要的,它們很可能都是實(shí)現(xiàn)自然語(yǔ)言理解最終目標(biāo)所必需的條件。
-
代碼
+關(guān)注
關(guān)注
30文章
4790瀏覽量
68654 -
語(yǔ)言模型
+關(guān)注
關(guān)注
0文章
526瀏覽量
10277 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24713
原文標(biāo)題:XLNet:公平PK,BERT你已經(jīng)被超過!
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論