0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Multilingual多語(yǔ)言預(yù)訓(xùn)練語(yǔ)言模型的套路

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:圓圓的算法筆記 ? 作者:圓圓的算法筆記 ? 2022-05-05 15:23 ? 次閱讀

Multilingual是NLP中的研究熱點(diǎn)之一,其中的一個(gè)研究方向是如何構(gòu)建多語(yǔ)言預(yù)訓(xùn)練語(yǔ)言模型,實(shí)現(xiàn)不同語(yǔ)言的在隱空間的對(duì)齊,一個(gè)模型支持多語(yǔ)種的NLP任務(wù),同時(shí)利用數(shù)據(jù)豐富的語(yǔ)言提升數(shù)據(jù)較少的語(yǔ)言效果。這篇文章就為大家整理了Multilingual多語(yǔ)言預(yù)訓(xùn)練語(yǔ)言模型的套路,包括XLM、XLM-R、ERNIE-M、Unicoder、ALM等5個(gè)經(jīng)典模型,以及這些模型之間的演進(jìn)關(guān)系。

1XLM:多語(yǔ)言預(yù)訓(xùn)練的起點(diǎn)

隨著B(niǎo)ERT、GPT預(yù)訓(xùn)練語(yǔ)言模型的興起,這些方法也被自然而然的用在了多語(yǔ)言預(yù)訓(xùn)練任務(wù)上。通過(guò)在BERT、GPT等成熟的NLP模型結(jié)構(gòu)上同時(shí)學(xué)習(xí)多個(gè)語(yǔ)言的語(yǔ)料,并設(shè)計(jì)多語(yǔ)言對(duì)齊任務(wù),實(shí)現(xiàn)了Multilingual預(yù)訓(xùn)練語(yǔ)言模型,應(yīng)用到下游各種語(yǔ)言的任務(wù)中。

Facebook在Crosslingual language model pretraining(NIPS 2019)一文中提出XLM預(yù)訓(xùn)練多語(yǔ)言模型,整體思路基于BERT,并提出了針對(duì)多語(yǔ)言預(yù)訓(xùn)練的3個(gè)優(yōu)化任務(wù)。后續(xù)很多多語(yǔ)言預(yù)訓(xùn)練工作都建立在XLM的基礎(chǔ)上,我們來(lái)詳細(xì)看看XLM的整體訓(xùn)練過(guò)程。

首先,需要構(gòu)造一個(gè)多語(yǔ)言的vocabulary list。XLM讓所有語(yǔ)言共用同一個(gè)詞表,利用Byte Pair Encoding (BPE)的方法從所有語(yǔ)言中采樣文本構(gòu)造詞典。為了提升low-resource語(yǔ)言采樣比例,緩解預(yù)訓(xùn)練模型偏向high-resource語(yǔ)言,在采樣過(guò)程中會(huì)對(duì)各個(gè)語(yǔ)言采樣比例做一定的矯正。通過(guò)多種語(yǔ)言共用一個(gè)BPE詞表的方法,便于不同語(yǔ)言的token embedding在隱空間對(duì)齊,也能提取到不同語(yǔ)言共用的token。

模型預(yù)訓(xùn)練主要包括兩個(gè)任務(wù),分別是MLM和TLM。其中MLM和BERT中采用的方式類似,mask部分token進(jìn)行預(yù)測(cè)。TLM是Translation Language Model,這個(gè)任務(wù)為了引入多語(yǔ)言的對(duì)齊關(guān)系,將兩種語(yǔ)言的文本拼接到一起采用mask token的方式預(yù)測(cè)。這樣在預(yù)測(cè)過(guò)程中,既可以根據(jù)本語(yǔ)言的信息預(yù)測(cè),也可以根據(jù)另一種語(yǔ)言的信息預(yù)測(cè)。此外,XLM引入了language embedding,用來(lái)標(biāo)明每個(gè)位置上的token屬于哪個(gè)語(yǔ)言。XLM的兩個(gè)預(yù)訓(xùn)練任務(wù)如下圖所示。

04e82eea-cbbd-11ec-bce3-dac502259ad0.png

2XLM-R:更細(xì)致的XLM

Unsupervised cross-lingual representation learning at scale(ACL 2019)在XLM的基礎(chǔ)上進(jìn)一步分析了影響多語(yǔ)言預(yù)訓(xùn)練模型效果的因素,提出在100多種語(yǔ)言上預(yù)訓(xùn)練得到的XLM-R模型。下面列舉了本文中的核心實(shí)驗(yàn)結(jié)論,揭示了不同的多語(yǔ)言訓(xùn)練方式對(duì)效果的影響。

圖2顯示了隨著預(yù)訓(xùn)練過(guò)程引入語(yǔ)言種類的變化,low resource語(yǔ)言的效果先上升后下降。這是因?yàn)樵谀P蚦apacity一定的情況下,引入多種語(yǔ)言一方面會(huì)讓low resource語(yǔ)言獲得可遷移的知識(shí),另一方面過(guò)多的語(yǔ)言也稀釋了模型的capacity,每種語(yǔ)言能夠使用的capacity減少,導(dǎo)致效果下降。而high resource語(yǔ)言的效果隨著引入語(yǔ)言數(shù)量的增加是持續(xù)下降的。圖4顯示,增加模型尺寸可以緩解多語(yǔ)言稀釋capacity的問(wèn)題(7種語(yǔ)言和30種語(yǔ)言效果對(duì)比),但是引入100種語(yǔ)言后即使增加模型尺寸效果仍然不佳。

圖5展示了不同語(yǔ)言采樣權(quán)重變化的效果影響,low resource和high resource語(yǔ)言之間存在一定的矛盾性,因此隨著采樣偏向于high resource語(yǔ)言,low resource語(yǔ)言的效果越來(lái)越差。圖6則展示了詞典尺寸大小對(duì)效果的影響,詞典尺寸增大,對(duì)應(yīng)embedding層尺寸增加,可以比較明顯的提升多語(yǔ)言預(yù)訓(xùn)練模型效果。

051388ba-cbbd-11ec-bce3-dac502259ad0.png

基于以上這些實(shí)驗(yàn)的分析,作者提出了基于RoBerta的XLM-R,在100余種語(yǔ)言、2.5T的數(shù)據(jù)上預(yù)訓(xùn)練,取得了在XNLI數(shù)據(jù)集上相比基礎(chǔ)版XLM模型15%的效果提升。相比于XLM,XLM-R最大的區(qū)別之一是沒(méi)有使用TLM這個(gè)預(yù)訓(xùn)練任務(wù),所有預(yù)訓(xùn)練數(shù)據(jù)都是單語(yǔ)言的,不包括兩個(gè)語(yǔ)言對(duì)齊的數(shù)據(jù)。

3ERINE-M:回譯的引入

ERNIE-M: Enhanced multilingual representation by aligning cross-lingual semantics with monolingual corpora(EMNLP 2019)基于XLM-R提出了ERNIE-M模型,主要是在MMLM、TLM兩個(gè)任務(wù)以外,新引入了CAMLM(Cross-attention Masked Language Modeling)和BTMLM(Back-translation Masked Language Modeling)兩個(gè)額外的任務(wù)。其中CAMLM任務(wù)和TLM任務(wù)類似,都是用翻譯文本對(duì)作為輸入,預(yù)測(cè)被mask的token,區(qū)別在于TLM在預(yù)測(cè)一個(gè)mask token時(shí)可以同時(shí)參考兩種語(yǔ)言的所有信息,而CAMLM在預(yù)測(cè)source句子中被mask的token時(shí),只能使用target句子的信息;在預(yù)測(cè)target句子中被mask的token時(shí),只能使用source句子的信息。實(shí)現(xiàn)上做了一個(gè)mask的操作,強(qiáng)制讓模型只能用另一種語(yǔ)言的context預(yù)測(cè)本語(yǔ)言的mask token,提升模型的多語(yǔ)言對(duì)齊能力。CAMLM和MMLM、TLM等任務(wù)的區(qū)別如下圖所示。

0537bff0-cbbd-11ec-bce3-dac502259ad0.png

0551fa5a-cbbd-11ec-bce3-dac502259ad0.png

不論是TLM還是CAMLM,都需要使用parallel的句子,如果可用的parallel數(shù)據(jù)較少,就會(huì)影響對(duì)齊效果。因此,文中提出了第二個(gè)任務(wù)BTMLM,利用CAMLM學(xué)到的多語(yǔ)言之間的對(duì)齊關(guān)系,將回譯任務(wù)融入到預(yù)訓(xùn)練中。核心思路是,使用CAMLM預(yù)訓(xùn)練好的模型,根據(jù)單語(yǔ)言語(yǔ)料生成另一種語(yǔ)言的偽數(shù)據(jù),利用這個(gè)偽數(shù)據(jù)作為輸入,構(gòu)造parallel句子作為輸入。BTMLM的示意圖如下。第一步將單語(yǔ)言輸入后面接mask,利用CAMLM預(yù)訓(xùn)練多語(yǔ)言模型生成mask部分的token,得到偽樣本(即隱空間中當(dāng)前樣本在另一種樣本下的翻譯)。接下來(lái),將偽樣本作為輸入,以MLM為目標(biāo),同時(shí)使用源句子和偽樣本預(yù)測(cè)被mask掉的token。這種方式相當(dāng)于一種數(shù)據(jù)增強(qiáng)手段,通過(guò)模型自動(dòng)生成parallel數(shù)據(jù),緩解了parallel數(shù)據(jù)不足的問(wèn)題。

0580b502-cbbd-11ec-bce3-dac502259ad0.png

4Unicoder:多語(yǔ)言對(duì)齊任務(wù)的優(yōu)化

Unicoder: A Universal Language Encoder by Pre-training with Multiple Crosslingual Tasks(ACL 2019)提出了多語(yǔ)言預(yù)訓(xùn)練模型Unicoder。在XLM中,模型的訓(xùn)練任務(wù)主要是單語(yǔ)言的,Unicoder提出了3種新的多語(yǔ)言對(duì)齊任務(wù)來(lái)提升預(yù)訓(xùn)練多語(yǔ)言模型效果。

第一個(gè)任務(wù)是Cross-lingual Word Recovery,輸入是兩種語(yǔ)言的語(yǔ)句pair對(duì)(X,Y),然后利用attention的方法將X用Y表示,再利用這些表示還原X。這其實(shí)類似于一個(gè)基于attention的翻譯任務(wù),實(shí)現(xiàn)了不同語(yǔ)言之間的word alignment。

第二個(gè)任務(wù)是Cross-lingual Paraphrase Classification,是一個(gè)分類任務(wù)。輸入同樣是兩個(gè)語(yǔ)言的句子對(duì),預(yù)測(cè)這兩個(gè)句子是否表達(dá)的是同一個(gè)含義。數(shù)據(jù)集的構(gòu)造方法上,正樣本采用機(jī)器翻譯數(shù)據(jù)集的數(shù)據(jù)構(gòu)造正樣本。為了構(gòu)造hard負(fù)樣本,即語(yǔ)義在一定程度上相似但不是互為翻譯的文本對(duì),作者采用了Effective Parallel Corpus Mining using Bilingual Sentence Embeddings(2018)提出的hard negatives構(gòu)造方法。先使用隨機(jī)采樣的負(fù)樣本構(gòu)造簡(jiǎn)單負(fù)樣本訓(xùn)練一個(gè)baseline模型,再利用這個(gè)模型計(jì)算當(dāng)前樣本和所有負(fù)樣本相似度,取相似度最高且又不是正樣本的負(fù)樣本,作為hard negatives。

第三個(gè)任務(wù)是Cross-lingual Masked Language Model,將一些文檔級(jí)別翻譯較好的數(shù)據(jù)集的兩種語(yǔ)言進(jìn)行重組,得到多語(yǔ)言document,在這種多語(yǔ)言document上以Mask Language Model為優(yōu)化目標(biāo)訓(xùn)練。三種不同的預(yù)訓(xùn)練任務(wù)如下圖所示。

05ae38ba-cbbd-11ec-bce3-dac502259ad0.png

5ALM:樣本構(gòu)造上的創(chuàng)新

Alternating Language Modeling for Cross-Lingual Pre-Training(AAAI 2020)提出一種新的多語(yǔ)言模型預(yù)訓(xùn)練方式。之前的做法如XLM都是將多語(yǔ)言文本對(duì)拼接到一起,而本文提出的ALM方法通過(guò)將源語(yǔ)言中的部分短語(yǔ)替換成另一種語(yǔ)言,生成了多語(yǔ)言交替的樣本作為訓(xùn)練樣本,以Transformer為基礎(chǔ)在這種樣本上進(jìn)行Mask Language Model的學(xué)習(xí)。這種方法強(qiáng)制讓每次預(yù)測(cè)被mask掉的單詞時(shí),都要參考其他語(yǔ)言的信息,進(jìn)一步縮小了不同語(yǔ)言在隱空間的距離。

05ed04b4-cbbd-11ec-bce3-dac502259ad0.png

6總結(jié)

以上就是多語(yǔ)言預(yù)訓(xùn)練中5個(gè)經(jīng)典模型的介紹。除了本文介紹的預(yù)訓(xùn)練語(yǔ)言模型外,對(duì)比學(xué)習(xí)、meta-learning等方法在Multilingual中也有很多應(yīng)用。多語(yǔ)言任務(wù)還是非常重要的,尤其當(dāng)今很多企業(yè)都展開(kāi)國(guó)際化戰(zhàn)略,拓展海外市場(chǎng),多語(yǔ)言建模技術(shù)更成為不可缺少的能力。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    524

    瀏覽量

    10277
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1208

    瀏覽量

    24701
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    488

    瀏覽量

    22037

原文標(biāo)題:Multilingual預(yù)訓(xùn)練的那些套路

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    ChatGPT 的多語(yǔ)言支持特點(diǎn)

    )技術(shù)迎來(lái)了巨大的挑戰(zhàn)和機(jī)遇。ChatGPT,作為一個(gè)領(lǐng)先的語(yǔ)言模型,其多語(yǔ)言支持的特點(diǎn)成為了它在眾多應(yīng)用場(chǎng)景中不可或缺的優(yōu)勢(shì)。 1. 多語(yǔ)言理解能力 ChatGPT 的
    的頭像 發(fā)表于 10-25 17:30 ?789次閱讀

    科大訊飛發(fā)布訊飛星火4.0 Turbo大模型及星火多語(yǔ)言模型

    ,科大訊飛以其一貫的創(chuàng)新精神,開(kāi)創(chuàng)性地發(fā)布了星火多語(yǔ)言模型。這一創(chuàng)新之舉不僅進(jìn)一步鞏固了科大訊飛在中文和英文處理領(lǐng)域的領(lǐng)先地位,更將語(yǔ)言的支持范圍大幅擴(kuò)展,涵蓋了俄語(yǔ)、日語(yǔ)、阿拉伯語(yǔ)、韓語(yǔ)、法語(yǔ)、西班牙語(yǔ)、葡萄牙語(yǔ)以及
    的頭像 發(fā)表于 10-24 13:58 ?385次閱讀

    語(yǔ)言模型預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語(yǔ)言模型預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟,它通過(guò)在海量無(wú)標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練,使
    的頭像 發(fā)表于 07-11 10:11 ?433次閱讀

    預(yù)訓(xùn)練模型的基本原理和應(yīng)用

    預(yù)訓(xùn)練模型(Pre-trained Model)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)重要概念,尤其是在自然語(yǔ)言處理(NLP)和計(jì)算機(jī)視覺(jué)(CV)等領(lǐng)域中得到了廣泛應(yīng)用。
    的頭像 發(fā)表于 07-03 18:20 ?2833次閱讀

    語(yǔ)言模型:原理與工程時(shí)間+小白初識(shí)大語(yǔ)言模型

    語(yǔ)言模型進(jìn)行預(yù)訓(xùn)練,此處預(yù)訓(xùn)練為自然語(yǔ)言處理領(lǐng)域的
    發(fā)表于 05-12 23:57

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的應(yīng)用

    。 關(guān)于大語(yǔ)言模型是否具備與人類“系統(tǒng)2”相似的能力,存在廣泛的爭(zhēng)議。然而,隨著模型參數(shù)量的增加和大規(guī)模預(yù)訓(xùn)練的實(shí)施,大
    發(fā)表于 05-07 17:21

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的評(píng)測(cè)

    至關(guān)重要。 在大語(yǔ)言模型應(yīng)用中,翻譯類評(píng)測(cè)任務(wù)主要聚焦于兩大核心要求:高質(zhì)量翻譯和多語(yǔ)言適應(yīng)性。高質(zhì)量翻譯作為跨文化和跨地域信息傳播的基礎(chǔ),對(duì)全球化背景下的商業(yè)活動(dòng)、科研合作和多元文化交流具有至關(guān)重要
    發(fā)表于 05-07 17:12

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型預(yù)訓(xùn)練

    語(yǔ)言模型的核心特點(diǎn)在于其龐大的參數(shù)量,這賦予了模型強(qiáng)大的學(xué)習(xí)容量,使其無(wú)需依賴微調(diào)即可適應(yīng)各種下游任務(wù),而更傾向于培養(yǎng)通用的處理能力。然而,隨著學(xué)習(xí)容量的增加,對(duì)預(yù)
    發(fā)表于 05-07 17:10

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

    全面剖析大語(yǔ)言模型的核心技術(shù)與基礎(chǔ)知識(shí)。首先,概述自然語(yǔ)言的基本表示,這是理解大語(yǔ)言模型技術(shù)的前提。接著,詳細(xì)介紹自然
    發(fā)表于 05-05 12:17

    【大語(yǔ)言模型:原理與工程實(shí)踐】核心技術(shù)綜述

    的復(fù)雜模式和長(zhǎng)距離依賴關(guān)系。 預(yù)訓(xùn)練策略: 預(yù)訓(xùn)練是LLMs訓(xùn)練過(guò)程的第一階段,模型在大量的
    發(fā)表于 05-05 10:56

    【大語(yǔ)言模型:原理與工程實(shí)踐】揭開(kāi)大語(yǔ)言模型的面紗

    Transformer架構(gòu),利用自注意力機(jī)制對(duì)文本進(jìn)行編碼,通過(guò)預(yù)訓(xùn)練、有監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)等階段,不斷提升性能,展現(xiàn)出強(qiáng)大的語(yǔ)言理解和生成能力。 大語(yǔ)言
    發(fā)表于 05-04 23:55

    【大語(yǔ)言模型:原理與工程實(shí)踐】探索《大語(yǔ)言模型原理與工程實(shí)踐》

    處理中預(yù)訓(xùn)練架構(gòu)Transformer,以及這些技術(shù)在現(xiàn)實(shí)世界中的如何應(yīng)用。通過(guò)具體案例的分析,作者展示了大語(yǔ)言模型在解決實(shí)際問(wèn)題中的強(qiáng)大能力,同時(shí)也指出了當(dāng)前技術(shù)面臨的挑戰(zhàn)和局限性。
    發(fā)表于 04-30 15:35

    這個(gè)多語(yǔ)言包 怎么搜不到

    大家好,這個(gè)多語(yǔ)言包怎么搜不到 seven language lib 誰(shuí)有離線包不 感謝分享,
    發(fā)表于 03-24 10:06

    語(yǔ)言模型(LLMs)如何處理多語(yǔ)言輸入問(wèn)題

    研究者們提出了一個(gè)框架來(lái)描述LLMs在處理多語(yǔ)言輸入時(shí)的內(nèi)部處理過(guò)程,并探討了模型中是否存在特定于語(yǔ)言的神經(jīng)元。
    發(fā)表于 03-07 14:44 ?619次閱讀
    大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>(LLMs)如何處理<b class='flag-5'>多語(yǔ)言</b>輸入問(wèn)題

    語(yǔ)言模型中的語(yǔ)言與知識(shí):一種神秘的分離現(xiàn)象

    自然語(yǔ)言處理領(lǐng)域存在著一個(gè)非常有趣的現(xiàn)象:在多語(yǔ)言模型中,不同的語(yǔ)言之間似乎存在著一種隱含的對(duì)齊關(guān)系。
    發(fā)表于 02-20 14:53 ?525次閱讀
    大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>中的<b class='flag-5'>語(yǔ)言</b>與知識(shí):一種神秘的分離現(xiàn)象