0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

大語言模型的多語言機器翻譯能力分析

深度學習自然語言處理 ? 來源:南大NLP ? 2023-05-17 09:56 ? 次閱讀

01

研究動機

以ChatGPT為代表的大語言模型(Large Language Models, LLM)在機器翻譯(Machine Translation, MT)任務上展現(xiàn)出了驚人的潛力。通過情景學習(In-Context Learning,ICL),大語言模型可以根據(jù)任務示例和任務指令,在不更新模型參數(shù)的情況下,完成特定下游任務。然而,值得注意的是,這些大語言模型主要基于大規(guī)模的數(shù)據(jù)進行語言模型任務的學習,并沒有在大規(guī)模多語言翻譯數(shù)據(jù)上訓練過,我們非常好奇于:(1)大語言模型的多語言機器翻譯能力如何?(2)哪些因素會影響大語言模型的翻譯表現(xiàn)?為了探究這些問題,本文評測了XGLM[1],OPT[2],BLOOMZ[3],ChatGPT[4]等眾多熱門大語言模型在百余種語言上的翻譯能力,并且分析了在情景學習中各種因素對翻譯效果的影響。

02

貢獻

1. 本文在102種語言以及202個以英文為核心的翻譯方向上全面地評測了包括ChatGPT在內的熱門大語言模型的多語言機器翻譯能力。

2. 本文系統(tǒng)地報告了一系列大語言模型以及兩個有監(jiān)督基線的翻譯表現(xiàn),為后續(xù)大語言模型和多語言機器翻譯研究工作提供了有力參照。

3. 本文還發(fā)現(xiàn)了在機器翻譯任務上大語言模型展現(xiàn)出了一些新的工作模式。

03

實驗設定

為了全面地衡量大語言模型的多語言機器翻譯能力,本文選用Flores-101數(shù)據(jù)集[5]進行實驗。在應用大語言模型進行情景學習的過程中,本文設置任務示例數(shù)目為8,任務指令模版為“=”,其中“”和“”分別為源句和目標句對應的占位符。此外,本文也報告了M2M-100-12B[6]以及NLLB-1.3B[7]這兩個強大的傳統(tǒng)有監(jiān)督模型的多語言翻譯表現(xiàn)作為參照。

04

大語言模型多語言機器翻譯能力評測

在系統(tǒng)地評測大語言模型的多語言翻譯能力后,本文得出了以下主要結論:

1. 在評測的四種大語言模型中,ChatGPT展現(xiàn)了最好的多語言機器翻譯效果:相比于只經(jīng)過預訓練(pre-traing)的XGLM和OPT,經(jīng)過指令微調(instruction-tuning)的BLOOMZ和ChatGPT展現(xiàn)了更好的翻譯表現(xiàn)(表格1)。值得注意的是,BLOOMZ在七組翻譯方向上超過了有監(jiān)督基線模型,而ChatGPT在所有被評測的大語言模型中取得了最好的綜合翻譯表現(xiàn)。

2. 大語言模型翻譯其他語言到英語的表現(xiàn)往往比翻譯英語到其他語言的表現(xiàn)要好:此前的研究發(fā)現(xiàn)大語言模型在將其他語言翻譯到英語時往往有很好的表現(xiàn),而在將英語翻譯到其他語言時則表現(xiàn)較差。本文發(fā)現(xiàn)XGLM,OPT,BLOOMZ,ChatGPT也都存在這種偏好。但是,值得注意的是,ChatGPT已經(jīng)極大地改善了這種傾向。

表格 1 不同模型在各語系上的平均BLEU分數(shù)

8a31643c-f3de-11ed-90ce-dac502259ad0.png

3. 在大部分語言上,尤其是低資源語言,大語言模型的翻譯效果仍然落后于強大的有監(jiān)督基線模型:圖1中畫出來了ChatGPT和NLLB模型在各個語言上的翻譯表現(xiàn),可以看出在圖片的左半部分,ChatGPT可以取得與NLLB相似的性能,而在圖片的右半部分,在低資源語言翻譯上,ChatGPT仍然遠遠落后于傳統(tǒng)的有監(jiān)督基線模型。

8a3a66a4-f3de-11ed-90ce-dac502259ad0.png

圖 1 ChatGPT和NLLB在各語言上的翻譯表現(xiàn)對比

4. 指令微調過的大語言模型仍然可以從任務示例中受益:本文對比了BLOOMZ和ChatGPT這兩個經(jīng)過指令微調的模型在任務樣例數(shù)目分別為0和8時的翻譯表現(xiàn)(圖2),可以看出即使對于指令微調過的模型,提供任務示例依然可以進一步提升其翻譯能力。這也是本文在評測大語言模型翻譯能力同時提供任務示例和任務指令的原因。

8a4223a8-f3de-11ed-90ce-dac502259ad0.png

圖 2 BLOOMZ和ChatGPT在給定不同數(shù)目的任務示例時的翻譯表現(xiàn)對比

5. 在公開數(shù)據(jù)上評測大語言模型有數(shù)據(jù)泄漏的風險:為了考察數(shù)據(jù)泄漏對評測結果的影響,本文基于近期的英語新聞,人工構建了一個中-英-德三語無泄漏機器翻譯測試集。在該測試集上的測試結果顯示:XGLM和OPT在新標注測試集上取得了與公開測試集上相似的性能,而ChatGPT在英語-德語翻譯上性能出現(xiàn)大幅下降,BLOOMZ更是在四個測試方向上都出現(xiàn)性能下降的問題(圖3)。這說明BLOOMZ在Flores-101上取得很好的表現(xiàn)很可能是數(shù)據(jù)泄漏導致的。

8a4b142c-f3de-11ed-90ce-dac502259ad0.png

圖 3 不同模型在Flores-101測試集和無泄漏測試集上的翻譯表現(xiàn)

05

大語言模型機器翻譯能力影響因素分析

為了更好地理解大語言模型如何通過情景學習中完成翻譯任務,本文以XGLM為例分析了情景學習中諸多因素對翻譯效果的影響。以下介紹本文在關于任務指令和任務示例兩方面的相關發(fā)現(xiàn):

1. 與任務指令相關的發(fā)現(xiàn):

大語言模型在下游任務上的良好表現(xiàn)依賴于精心設計的指令:本文發(fā)現(xiàn)大語言模型在下游任務上的表現(xiàn)會隨著指令內容的不同而劇烈變化。并且在不同翻譯方向上,最好的指令也不同(表格2)在這些指令中,“=”取得了最高的平均BLEU分數(shù)。而“[SRC]: [TGT]: ”的效果是最差的。這說明在情景學習中,任務指令起著十分重要的作用。

即使是不合理的指令也可以引導大語言模型完成翻譯任務:直覺上,人們認為大語言模型理解了任務指令所以能夠完成指定的下游任務。但是本文發(fā)現(xiàn),在情景學習時使用任務無關的指令,大語言模型依然可以完成目標任務。例如,面對指令“ can be summarized as ”,模型依然可以生成翻譯而不是生成摘要。這樣的發(fā)現(xiàn)說明,以往的研究可能誤解了任務指令在情景學習中的作用。

表格 2 使用不同任務指令對翻譯效果的影響

8a561f70-f3de-11ed-90ce-dac502259ad0.png

2. 關于任務示例的發(fā)現(xiàn)

根據(jù)語義選擇示例與隨機選擇示例效果相當:為了研究任務示例對情景學習效果的影響,本文對比了包括隨機檢索、稀疏檢索、稠密檢索在內的多種任務示例選擇策略(圖4)。實驗結果表明當任務樣例數(shù)目從1增加到8時,BLEU分數(shù)會顯著提升。但是進一步增加樣例數(shù)目,BLEU分數(shù)基本變化不大,甚至會開始下降。相比于根據(jù)語義進行選擇,隨機選擇也可以取得相似的效果。并且即使根據(jù)目標句進行檢索,也沒有展現(xiàn)出明顯的優(yōu)勢。這些實驗結果表明,翻譯任務示例可以幫助大語言模型理解翻譯任務,但是大語言模型可能很難從語義相關的翻譯示例中直接獲取有幫助的翻譯知識。

8a5e21b6-f3de-11ed-90ce-dac502259ad0.png

圖4使用不同任務示例選擇策略對翻譯效果的影響

翻譯任務示例幫助大語言模型理解翻譯任務的核心特征:為了理解翻譯任務示例如何影響大語言模型理解翻譯任務,本文觀察了大語言模型在不同任務示例下的翻譯表現(xiàn)(表格3)。當使用不匹配的翻譯句對作為任務樣例時,大語言模型完全無法進行翻譯。這說明模型從翻譯任務示例中學習到需要保證源句和目標句語義一致。當使用詞級別或者段落級別翻譯對作為翻譯示例時,模型的翻譯質量顯著下降,這說明任務樣例的粒度也很重要。當使用重復的翻譯句對作為翻譯樣例時,模型的翻譯質量也會下降,這說明保持任務示例的多樣性也是保證模型下游任務性能的必要條件??傮w來說,這些對比實驗的結果說明大語言在情景學習中,通過任務樣例理解了翻譯任務的核心需求。

表格 3 在給定不同任務示例時XGLM的翻譯表現(xiàn)

8a652eac-f3de-11ed-90ce-dac502259ad0.png

使用跨語言任務示例也可能帶來翻譯性能提升:本文發(fā)現(xiàn)在機器翻譯的情景學習中,使用不同語言對的翻譯句對作為任務示例并不一定會導致翻譯質量下降。例如,在進行德語-英語翻譯時,如果使用跨語言任務示例會導致翻譯質量下降;而在進行漢語-英語翻譯時,使用跨語言任務示例則可以大幅提升翻譯性能(圖5)。這顯示了跨語言任務示例在情景學習中的潛在用途。

8a6a597c-f3de-11ed-90ce-dac502259ad0.png

圖 5 使用跨語言翻譯任務示例的效果

在上下文末尾位置的任務示例對于大語言模型的行為有著更大的影響:本文發(fā)現(xiàn)使用與目標翻譯方向相反的翻譯句對作為任務示例時,大語言模型完全無法進行正確的翻譯。利用這種特性,本文考察了在上下文的不同位置的任務示例對大語言模型的翻譯行為的影響程度。表格4中的實驗結果表明,在使用相同數(shù)量的反向任務示例時,反向任務示例出現(xiàn)在上下文的末尾位置時,大語言模型的翻譯表現(xiàn)會更差。這說明在末尾位置的任務示例對于大語言模型的行為有著更大的影響。

表格 4 反轉任務示例翻譯方向對翻譯效果的影響

8a776126-f3de-11ed-90ce-dac502259ad0.png

06

總結

本文系統(tǒng)地評測了包括ChatGPT在內的一系列大語言模型在102種語言,202個以英文為核心的翻譯方向上的多語言機器翻譯能力,探究了使用大語言模型進行多語言機器翻譯的優(yōu)勢與挑戰(zhàn)。我們發(fā)現(xiàn)即使是最強的大語言模型(ChatGPT),仍然在83.33%的翻譯方向上落后于強大的有監(jiān)督基線模型(NLLB)。經(jīng)過進一步的分析實驗,我們發(fā)現(xiàn)在機器翻譯任務上,大語言模型展現(xiàn)出了一些新的工作模式:例如,在情景學習時,任務指令的語義可以被大語言模型所忽視;使用跨語言任務示例可以提升低資源機器翻譯效果。更重要的是,我們發(fā)現(xiàn)BLOOMZ在公開數(shù)據(jù)集上的表現(xiàn)是被高估的,而如何公平地比較不同語言模型的能力將是大語言模型時代的一個重要話題。





審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Opt
    Opt
    +關注

    關注

    2

    文章

    18

    瀏覽量

    15128
  • 語言模型
    +關注

    關注

    0

    文章

    533

    瀏覽量

    10303
  • ChatGPT
    +關注

    關注

    29

    文章

    1566

    瀏覽量

    7868

原文標題:大語言模型的多語言機器翻譯能力分析

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    多語言開發(fā)的流程詳解

    現(xiàn)在不少應用都是要求有多語言切換的, 使用QT開發(fā)上位機也同樣需要做多語言功能, 不過QT是自帶了多語言翻譯功能, 可以很方便的借助原生工具進行, 下面就簡單來看看
    的頭像 發(fā)表于 11-30 09:08 ?1146次閱讀

    基于機器翻譯增加的跨語言機器閱讀理解算法

    近日,阿里云人工智能平臺 PAI 與華南理工大學朱金輝教授團隊、達摩院自然語言處理團隊合作在自然語言處理頂級會議 EMNLP2023 上發(fā)表基于機器翻譯增加的跨語言
    的頭像 發(fā)表于 12-12 10:28 ?610次閱讀
    基于<b class='flag-5'>機器翻譯</b>增加的跨<b class='flag-5'>語言</b><b class='flag-5'>機器</b>閱讀理解算法

    機器翻譯三大核心技術原理 | AI知識科普

    并不在同一體系下,句法順序有很大程度上的出入,直接拼接起來的翻譯結果,效果往往并不理想。于是科研人員提出了第二個規(guī)則機器翻譯的方法,引用語言學的相關知識,對源語言的句子進行句法的
    發(fā)表于 07-06 10:30

    神經(jīng)機器翻譯的方法有哪些?

    之間的翻譯,也就是通過只訓練一個模型就能夠支持在多個語言之間的翻譯。盡管目前最流行的Transformer模型已經(jīng)大大推動了
    發(fā)表于 11-23 12:14

    SoC多語言協(xié)同驗證平臺技術研究

    SoC基于IP設計的特點使驗證項目中多語言VIP(Verification IP)協(xié)同驗證的需求不斷增加,給驗證工作帶來了很大的挑戰(zhàn)。為了解決多語言VIP在SoC驗證環(huán)境靈活重用的問題。提出了一種
    發(fā)表于 12-31 09:25 ?12次下載

    谷歌再次發(fā)布BERT的多語言模型和中文模型

    為了評估這些系統(tǒng),我們使用了XNLI dataset,它是MultiNLI的一個版本,其中dev集和test集已經(jīng)(由人類)翻譯成15種語言。需要注意的是,訓練集是機器翻譯的(我們使用的是XNLI提供的
    的頭像 發(fā)表于 11-08 09:50 ?6077次閱讀

    阿里宣布完成全球首個多語言實時翻譯的電商直播

    今日,阿里宣布完成全球首個多語言實時翻譯的電商直播,該直播實現(xiàn)了將中文直播內容精準翻譯成英語、俄語、西班牙語等語言
    的頭像 發(fā)表于 10-27 11:39 ?1984次閱讀

    人工智能翻譯mRASP:可翻譯32種語言

    包括以了解信息或以交流信息為目的的機器翻譯。 多語言翻譯機器翻譯需要面臨的一大技術現(xiàn)實。其中,一個理想的模型是一個統(tǒng)一的具備多種
    的頭像 發(fā)表于 12-01 14:03 ?3250次閱讀
    人工智能<b class='flag-5'>翻譯</b>mRASP:可<b class='flag-5'>翻譯</b>32種<b class='flag-5'>語言</b>

    多語言翻譯新范式的工作:機器翻譯界的BERT

    今天給大家介紹EMNLP2020的一篇關于多語言翻譯新范式的工作multilingual Random Aligned Substitution Pre-training (mRASP)[1],核心
    的頭像 發(fā)表于 03-31 17:24 ?3012次閱讀
    <b class='flag-5'>多語言</b><b class='flag-5'>翻譯</b>新范式的工作:<b class='flag-5'>機器翻譯</b>界的BERT

    Multilingual多語言預訓練語言模型的套路

    Facebook在Crosslingual language model pretraining(NIPS 2019)一文中提出XLM預訓練多語言模型,整體思路基于BERT,并提出了針對多語言預訓練的3個優(yōu)化任務。后續(xù)很多
    的頭像 發(fā)表于 05-05 15:23 ?3014次閱讀

    多語言任務在內的多種NLP任務實現(xiàn)

    WeLM是一個百億級別的中文模型,能夠在零樣本以及少樣本的情境下完成包括對話-采訪、閱讀理解、翻譯、改寫、續(xù)寫、多語言閱讀理解在內的多種NLP任務,并具備記憶能力、自我糾正和檢查
    發(fā)表于 10-13 11:52 ?635次閱讀

    借助機器翻譯來生成偽視覺-目標語言對進行跨語言遷移

    然而之前的基于機器翻譯的CCR工作大多忽略了這個問題,它們通常使用大規(guī)模的預訓練模型在通過機器翻譯得到的大規(guī)模多語言視覺-語言語料庫上進行大
    的頭像 發(fā)表于 10-14 14:59 ?891次閱讀

    基于LLaMA的多語言數(shù)學推理大模型

    MathOctopus在多語言數(shù)學推理任務中,表現(xiàn)出了強大的性能。MathOctopus-7B 可以將LLmMA2-7B在MGSM不同語言上的平均表現(xiàn)從22.6%提升到40.0%。更進一步,MathOctopus-13B也獲得了比ChatGPT更好的性能。
    發(fā)表于 11-08 10:37 ?490次閱讀
    基于LLaMA的<b class='flag-5'>多語言</b>數(shù)學推理大<b class='flag-5'>模型</b>

    語言模型(LLMs)如何處理多語言輸入問題

    研究者們提出了一個框架來描述LLMs在處理多語言輸入時的內部處理過程,并探討了模型中是否存在特定于語言的神經(jīng)元。
    發(fā)表于 03-07 14:44 ?663次閱讀
    大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>(LLMs)如何處理<b class='flag-5'>多語言</b>輸入問題

    ChatGPT 的多語言支持特點

    )技術迎來了巨大的挑戰(zhàn)和機遇。ChatGPT,作為一個領先的語言模型,其多語言支持的特點成為了它在眾多應用場景中不可或缺的優(yōu)勢。 1. 多語言理解
    的頭像 發(fā)表于 10-25 17:30 ?847次閱讀