0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

XLNet vs BERT,對(duì)比得明明白白!

WpOh_rgznai100 ? 來源:lq ? 2019-07-27 07:14 ? 次閱讀

【導(dǎo)語(yǔ)】幾周前,XLNet 團(tuán)隊(duì)發(fā)布了新型預(yù)訓(xùn)練語(yǔ)言模型 XLNet,這個(gè)新模型在各項(xiàng)基準(zhǔn)測(cè)試中都優(yōu)于谷歌之前發(fā)布的BERT模型,其中模型XLNet-Large 的數(shù)據(jù)量更是 BERT 模型的 10 倍左右。那 XLnet 和 BERT 到底要選誰(shuí)?

這次 XLnet 團(tuán)隊(duì)進(jìn)行了一次對(duì)比實(shí)驗(yàn),為了確保對(duì)比的公正性,在對(duì)比實(shí)驗(yàn)中作者采用相同的環(huán)境和配置,相同的訓(xùn)練數(shù)據(jù),并確保在 BERT 和 XLNet 兩個(gè)模型的訓(xùn)練方法中,幾乎每個(gè)超參數(shù)(hyperparameter)都是相同的,這些超參數(shù)都是由 BERT作者發(fā)布,并在BERT中使用的。即是說,這些超參數(shù)是為BERT模型設(shè)計(jì)選擇的,很可能是針對(duì)BERT最優(yōu)化的,而非XLNet。具體超參數(shù)設(shè)置如下(兩個(gè)模型的超參數(shù)完全相同):

Batch-size: 256

訓(xùn)練步數(shù):1M

優(yōu)化器:Adam,學(xué)習(xí)率 1e-4,warmup 1萬(wàn),線性衰減

訓(xùn)練語(yǔ)料庫(kù):Wikipedia + BooksCorpus,在處理Wikipedia時(shí)使用了與BERT repo相同的工具,但出于某種原因,我們的Wiki語(yǔ)料庫(kù)僅有20億單詞,BERT使用了25億單詞,因此XLNet的訓(xùn)練數(shù)據(jù)略少于BERT。

模型結(jié)構(gòu)參數(shù):24層,1024個(gè)隱層,16 heads

微調(diào)(finetuning)超參數(shù)搜索空間

此外,作者還修改了一些數(shù)據(jù)相關(guān)的實(shí)現(xiàn)細(xì)節(jié),以便與BERT模型進(jìn)行一對(duì)一的比較。

在之前的實(shí)驗(yàn)中,預(yù)訓(xùn)練環(huán)節(jié),未被mask的token無(wú)法看到分類token CLS和分隔token SEP,而現(xiàn)階段的實(shí)現(xiàn)中可以看到了,與BERT模型保持一致。

在微調(diào)環(huán)節(jié),與BERT一樣,用“BERT格式”取代了普通的 XLNet格式,即使用[CLS, A, SEP, B, SEP]取代了[A, SEP, B, SEP, CLS]。

另外,我們考慮了BERT模型的三種變體,并報(bào)告了各個(gè)單獨(dú)任務(wù)的最佳微調(diào)結(jié)果。三種變體如下:

模型1(Model-I):BERT 作者發(fā)布的原始BERT模型

模型2(Model-II):同樣來自作者的中文全詞覆蓋模型

模型3(Model-III):由于考慮到下句預(yù)測(cè)(NSP)可能會(huì)影響表現(xiàn),我們使用BERT已發(fā)布的代碼針對(duì)沒有NSP loss的新模型進(jìn)行了預(yù)訓(xùn)練

注意:由于通過不同變體可以獲得各個(gè)任務(wù)的最佳表現(xiàn),以上設(shè)置也許會(huì)讓BERT模型更占優(yōu)勢(shì)。

GLUE 和 SQuAD上的開發(fā)設(shè)置結(jié)果,及 RACE 上的測(cè)試設(shè)置結(jié)果如下(并未使用數(shù)據(jù)增強(qiáng)、集成或多任務(wù)學(xué)習(xí)):

不同模型對(duì)比。XLNet-Large (as in paper)所使用的訓(xùn)練數(shù)據(jù)更多一些,batch size也稍大。BERT模型,針對(duì)每個(gè)數(shù)據(jù)集我們只報(bào)告3個(gè)變體中微調(diào)最優(yōu)的結(jié)果。

表格中有些觀測(cè)結(jié)果非常有趣:

使用相同的數(shù)據(jù),以及幾乎完全相同的訓(xùn)練方法來訓(xùn)練時(shí),針對(duì)所有數(shù)據(jù)集,XLNet都以相當(dāng)?shù)膬?yōu)勢(shì)勝過了BERT模型。

投入10倍多數(shù)據(jù)(對(duì)比XLNet-Large-wikibooks與XLNet-Large)的性能提升,要小于在11個(gè)基準(zhǔn)測(cè)試中將其中8個(gè)從BERT模型換成XLNet模型的性能提升。

在某些基準(zhǔn)測(cè)試(比如CoLA和MRPC)中,使用較少數(shù)據(jù)訓(xùn)練的模型,其表現(xiàn)要優(yōu)于使用較多數(shù)據(jù)訓(xùn)練的模型。

我們相信,從以上結(jié)果中我們也許可以得到一些結(jié)果了。

XLNet的性能提高了:觀測(cè)結(jié)果1與我們?cè)缙诨诨A(chǔ)模型的對(duì)比實(shí)驗(yàn)結(jié)果一致,證明在指定相同的訓(xùn)練條件時(shí),XLNet模型要優(yōu)于BERT模型。

XLNet-Large可以優(yōu)化到更佳:觀測(cè)結(jié)果2與觀測(cè)結(jié)果3似乎表明,我們之前發(fā)布的XLNet-Large(使用更多數(shù)據(jù)訓(xùn)練)并沒有充分利用數(shù)據(jù)規(guī)模。因此,我們會(huì)繼續(xù)研究相關(guān)方法,正確擴(kuò)展使用XLNet模型進(jìn)行語(yǔ)言預(yù)訓(xùn)練的規(guī)模。根據(jù)目前有限的觀測(cè)結(jié)果,我們推測(cè)以下訓(xùn)練細(xì)節(jié)可能發(fā)揮著重要作用:

數(shù)據(jù)相關(guān):數(shù)據(jù)規(guī)模、數(shù)據(jù)來源、數(shù)據(jù)清洗、數(shù)據(jù)編碼、數(shù)據(jù)格式化

優(yōu)化相關(guān):學(xué)習(xí)率(以及計(jì)劃)、batch size、訓(xùn)練步驟數(shù)、優(yōu)化器

重要的是:這些超參數(shù)可能彼此有高階交互效果。

Facebook AI近期 GLUE 排行榜,可能也說明了訓(xùn)練細(xì)節(jié)的重要性。

總之,本實(shí)驗(yàn)將算法/模型的影響,與類似訓(xùn)練細(xì)節(jié)、大型計(jì)算及大數(shù)據(jù)這樣的其他因素明確分離開來。根據(jù)以上結(jié)果,XLNet 團(tuán)隊(duì)認(rèn)為:算法與模型至少是與其他因素同等重要的,它們很可能都是實(shí)現(xiàn)自然語(yǔ)言理解最終目標(biāo)所必需的條件。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 代碼
    +關(guān)注

    關(guān)注

    30

    文章

    4790

    瀏覽量

    68654
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    526

    瀏覽量

    10277
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1208

    瀏覽量

    24713

原文標(biāo)題:XLNet:公平PK,BERT你已經(jīng)被超過!

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    U盤免費(fèi)檢測(cè)軟件_閃存盤測(cè)試工具v2.09綠色版【明明白白買U盤】

    檢測(cè)軟件_閃存盤測(cè)試工具v2.09綠色版【明明白白買U盤】</strong></font><br/><
    發(fā)表于 04-13 12:35

    LabVIEW入門與提高范例教程

    `這個(gè)年代上個(gè)圖,看個(gè)明明白白比什么都重要,只有眼睛看到的才會(huì)稍微有點(diǎn)真實(shí)感,你下載了才會(huì)真的覺得真實(shí),不參假!~~由于論壇上傳附件有要求,只能把他分為四個(gè)部分,請(qǐng)諒解謝謝[hide][/hide]`
    發(fā)表于 10-21 10:17

    太厲害了,終于有人能把IGBT講得明明白白

    太厲害了,終于有人能把IGBT講得明明白白資料分享來自網(wǎng)絡(luò)資源
    發(fā)表于 09-22 22:14

    介紹XLNet的原理及其與BERT的不同點(diǎn)

    1、什么是XLNet?  首先,XLNet是一個(gè)類似于bert的模型,而不是一個(gè)完全不同的模型。但它是一個(gè)非常有前途和潛力的。總之,XLNet是一種廣義的自回歸預(yù)訓(xùn)練方法。  那么,什
    發(fā)表于 11-01 15:29

    了解畫面比例,明明白白選購(gòu)?fù)队澳?/a>

    了解畫面比例,明明白白選購(gòu)?fù)队澳?  隨著時(shí)代的發(fā)展,投影幕已經(jīng)成為了不少人構(gòu)建家庭影院必定選購(gòu)的商品??墒敲鎸?duì)不同比例的投影幕,比
    發(fā)表于 02-10 10:33 ?603次閱讀

    明明白白C指針

    發(fā)表于 09-04 20:51 ?0次下載

    明明白白學(xué)C#(大學(xué)霸)

    這本C#教程從入門到精通,非常適合國(guó)人的學(xué)習(xí)習(xí)慣,能夠幫助您在最短時(shí)間內(nèi)掌握C#學(xué)習(xí),簡(jiǎn)潔明了,如果有需要的話,大家可以下載了
    發(fā)表于 05-06 15:06 ?0次下載

    PSoC 4XX8 BLE 4.2系列數(shù)據(jù)手冊(cè)

    很不錯(cuò)的psoc4數(shù)據(jù)手冊(cè),明明白白,清清楚楚。
    發(fā)表于 12-10 13:55 ?11次下載

    你是嵌入式硬件設(shè)計(jì)的大神還是小白?

    提到“嵌入式”,想必各位攻城獅都不會(huì)陌生,今兒不管您水平幾何,咱們一起聊聊這“嵌入式”,大神&小白,您自個(gè)兒就明明白白。
    的頭像 發(fā)表于 09-18 17:51 ?3387次閱讀
    你是嵌入式硬件設(shè)計(jì)的大神還是小白?

    碾壓Bert?“屠榜”的XLnet對(duì)NLP任務(wù)意味著什么

    張俊林新作,一文帶你剖析XLnet的運(yùn)行機(jī)制,與BERT對(duì)比異同。
    的頭像 發(fā)表于 06-25 14:11 ?2509次閱讀

    XLNetBert比,有什么不同?要進(jìn)行改進(jìn)嗎?

    本文首先講講我對(duì)XLNetBert比,有什么異同?有什么模型方面的改進(jìn)?的理解
    的頭像 發(fā)表于 07-26 14:39 ?5140次閱讀
    <b class='flag-5'>XLNet</b>和<b class='flag-5'>Bert</b>比,有什么不同?要進(jìn)行改進(jìn)嗎?

    語(yǔ)言建模中XLNetBERT好在哪里

    XLNet可能會(huì)改變語(yǔ)言建模,這就是為什么它是任何NLP從業(yè)者的重要補(bǔ)充。在本文中,我們將討論XLNet背后的原理,它使它比BERT更好。為了更好地理解它,我們還將研究它之前的相關(guān)技術(shù)。
    的頭像 發(fā)表于 04-20 09:30 ?2573次閱讀

    什么是XLNet,它為什么比BERT效果好

    介紹最基本的XLNet的原理,理解XLNetBERT的直覺上的不同點(diǎn)。作者:Xu LIANG編譯:ronghuaiyang首發(fā):AI公園公眾號(hào)
    的頭像 發(fā)表于 12-10 19:10 ?708次閱讀

    基于serialX串口驅(qū)動(dòng)移植freemodbus

    之前,筆者寫過多篇 serialX 的文章,已經(jīng)把它的原理和理念完完全全明明白白講了,包括它的優(yōu)勢(shì)以及使用它需要注意的方面和可能遇到的問題。
    的頭像 發(fā)表于 10-13 14:54 ?847次閱讀

    為什么國(guó)外喜歡使用lora?看完你就明明白白!

    近年來,隨著物聯(lián)網(wǎng)的快速發(fā)展,各種無(wú)線通信技術(shù)也得到了廣泛應(yīng)用。其中,LoRa技術(shù)以其獨(dú)特的優(yōu)勢(shì)脫穎而出,在歐美等發(fā)達(dá)國(guó)家和地區(qū)備受青睞。 LoRa是一種基于擴(kuò)頻技術(shù)的超遠(yuǎn)距離無(wú)線通信方案,由Semtech公司開發(fā),并由LoRa聯(lián)盟制定開放標(biāo)準(zhǔn)LoRaWAN。它工作在免費(fèi)的ISM頻段,如歐洲的433MHz和868MHz,美國(guó)的915MHz等,無(wú)需申請(qǐng)昂貴的頻譜資源。 LoRa最大的特點(diǎn)就是超低功耗和超長(zhǎng)距離。得益于擴(kuò)頻技術(shù),LoRa發(fā)射功率可低至20mW,電池供電的終端設(shè)備可以工作5-10年之久。傳
    的頭像 發(fā)表于 07-02 09:06 ?569次閱讀