論文名稱:Cross-lingual Prompting: Improving Zero-shot Chain-of-Thought Reasoning across Languages
論文作者:覃立波,陳麒光,車(chē)萬(wàn)翔等
原創(chuàng)作者:陳麒光
論文鏈接:https://arxiv.org/abs/2310.14799
出處:哈工大SCIR
最后一個(gè)名額:帶你沖刺ACL2024
0. Take-away messages
?本文引入了簡(jiǎn)單有效的Cross-Lingual Prompting (CLP),其中包含cross-lingual alignment prompting (CAP) 和 task-specific solver prompting (TSP),它們能夠幫助思維鏈(CoT)范式在不同語(yǔ)言間進(jìn)行有效地對(duì)齊,共同改進(jìn)了跨語(yǔ)言的零樣本 CoT 推理。
?進(jìn)一步地,提出了Cross-Lingual Self-consistent Prompting (CLSP),利用不同語(yǔ)言專家的知識(shí)和不同語(yǔ)言間更加多樣的思考方式,集成了多個(gè)推理路徑,顯著地提高了self-consistency的跨語(yǔ)言性能。CLSP 都能夠在CLP的基礎(chǔ)上更進(jìn)一步地有效提高零樣本跨語(yǔ)言 CoT 性能。
?對(duì)多個(gè)基準(zhǔn)的廣泛評(píng)估表明,CLP 在各類任務(wù)上甚至取得了比機(jī)器翻譯用戶請(qǐng)求更加優(yōu)異的性能(在各個(gè)多語(yǔ)言數(shù)據(jù)集上平均準(zhǔn)確率至少提高了1.8%)。在此基礎(chǔ)上,CLSP能夠進(jìn)一步地提高CLP的性能,在多個(gè)基準(zhǔn)上都取得了超過(guò)6%的提升。
1. 背景與動(dòng)機(jī)
1.1 背景
LLM能夠在訓(xùn)練和測(cè)試過(guò)程中無(wú)需修改模型參數(shù),實(shí)現(xiàn)零樣本推理,受到越來(lái)越多的關(guān)注。具體來(lái)說(shuō),零樣本思維鏈 (CoT) 只需要附加提示 Let's think step by step! ,就可以從大型語(yǔ)言模型中誘導(dǎo)強(qiáng)大的推理能力,并在各種任務(wù)上展示出驚人的性能,包括算術(shù)推理、常識(shí)推理甚至具身規(guī)劃。
圖 1:傳統(tǒng)單語(yǔ)言CoT示例 以傳統(tǒng)CoT為例,提供提示 Let's think step by step! 針對(duì)英文請(qǐng)求以進(jìn)行分步推理。最終,LLM通過(guò)多步推理給出了相應(yīng)的答案68 years。
1.2 動(dòng)機(jī)
全世界有200多個(gè)國(guó)家和7000多種語(yǔ)言。隨著全球化的加速,迫切需要將當(dāng)前的CoT推廣到不同的語(yǔ)言中。盡管零樣本CoT取得了顯著的成功,但其推理能力仍然難以推廣到不同的語(yǔ)言。
圖 2:跨語(yǔ)言CoT示例 與請(qǐng)求的語(yǔ)言和 CoT 輸出相同的傳統(tǒng) CoT 場(chǎng)景不同,跨語(yǔ)言 CoT 要求 LLM 通過(guò)提供觸發(fā)語(yǔ)句Let's think in English step by step!。 當(dāng)前零樣本跨語(yǔ)言推理仍處于一個(gè)非常早期的階段,沒(méi)有考慮跨語(yǔ)言間的顯式對(duì)齊。為了更好地將CoT零樣本地泛化到不同語(yǔ)言上,我們提出了cross-lingual-prompting (CLP),旨在有效地彌合不同語(yǔ)言之間的差距。具體來(lái)說(shuō),CLP 由兩個(gè)部分組成:(1) cross-lingual alignment prompting (CAP) 和(2) task-specific solver prompting (TSP)。在第一步中,CLP首先要求模型逐步地理解英語(yǔ)任務(wù),對(duì)齊了不同語(yǔ)言之間的表示。在第二步中,CLP要求模型根據(jù)上一步理解的內(nèi)容逐步地完成最終的任務(wù)。此外,受self-consistency工作的啟發(fā),我們提出了Cross-Lingual Self-consistent Prompting (CLSP),使模型能夠集成不同語(yǔ)言專家的不同推理路徑。 總的來(lái)說(shuō),簡(jiǎn)單而有效的CLP和CLSP方法可以極大地增強(qiáng)跨語(yǔ)言場(chǎng)景的推理能力。
2. Prompting設(shè)計(jì)
2.1 CLP設(shè)計(jì)
為了激發(fā)LLM的跨語(yǔ)言推理能力,我們引入了跨語(yǔ)言提示(CLP)作為解決方案。具體來(lái)說(shuō),CLP 由兩個(gè)部分組成:(1) cross-lingual alignment prompting (CAP) 和 (2) task-specific solver prompting (TSP)。
圖 3:Cross-Lingual Prompting (CLP) 示意圖
2.1.1 Cross-lingual Alignment Prompting (CAP)
跨語(yǔ)言對(duì)齊是跨語(yǔ)言遷移的核心挑戰(zhàn)。因此,為了更好地捕獲對(duì)齊信息,我們首先引入了cross-lingual alignment prompting。該prompt的表述如下:
圖 4:跨語(yǔ)言對(duì)齊提示 (CAP) 示意圖 具體來(lái)說(shuō),給定請(qǐng)求句子 X,我們首先要求 LLM 扮演 在多語(yǔ)言理解方面的專家,來(lái)理解跨語(yǔ)言問(wèn)題。此外,對(duì)齊提示將從源語(yǔ)言 Ls 到目標(biāo)語(yǔ)言 Lt 進(jìn)行逐步地對(duì)齊。
2.1.2 Task-specific Solver Prompting (TSP)
實(shí)現(xiàn)跨語(yǔ)言對(duì)齊后,我們進(jìn)一步提出task-specific solver prompting 以促進(jìn)多語(yǔ)言環(huán)境中的多步推理。
圖 5:Task-specific Solver Prompting (TSP) 示意圖 具體來(lái)說(shuō),給定 目標(biāo)語(yǔ)言 和從上一步獲得的對(duì)齊文本 ,我們提示 LLM 參與解析目標(biāo)任務(wù)。LLM嘗試根據(jù)之前對(duì)齊的跨語(yǔ)言理解進(jìn)行進(jìn)一步的多步推理以確定最終結(jié)果。此外,我們提供了一個(gè)答案提取的指令來(lái)格式化模型的答案,其定義為:
圖 6:答案提取指令示意圖
2.2 CLSP設(shè)計(jì)
在我們的研究中,我們觀察到LLM在不同語(yǔ)言中表現(xiàn)出不同的推理路徑。受Self-consistency的啟發(fā),我們提出了一種Cross-lingual Self-consistent Prompting (CLSP) 來(lái)整合不同語(yǔ)言的推理知識(shí)(如圖7所示)。
圖 7:Cross-lingual Self-consistent Prompting (CLSP) 示意圖 具體來(lái)說(shuō),對(duì)于推理過(guò)程中的每個(gè)步驟,我們要求LLM以不同的目標(biāo)語(yǔ)言生成跨語(yǔ)言對(duì)齊的回復(fù),并分別在各自目標(biāo)語(yǔ)言上進(jìn)行推理。我們通過(guò)投票機(jī)制保留在推斷推理結(jié)果中表現(xiàn)出高度一致性的答案。然后將這些一致推斷的答案視為最終結(jié)果。
3 主實(shí)驗(yàn)分析
表 1:在MGSM基準(zhǔn)上主實(shí)驗(yàn)的推理表現(xiàn) 從表1結(jié)果來(lái)看,我們有以下觀察結(jié)果:
GPT-3.5 表現(xiàn)出顯著的跨語(yǔ)言推理優(yōu)勢(shì)。在各種設(shè)置下,GPT-3.5 均大幅超越了 PaLM-540B 和 GPT-3 的少樣本結(jié)果。具體來(lái)說(shuō),與少樣本 PaLM-540B相比,零樣本GPT-3.5實(shí)現(xiàn)了 30.3%、2.3%、7.7% 和 14.2%的改進(jìn)。我們認(rèn)為是多語(yǔ)言SFT 和 RLHF 技術(shù)帶來(lái)了跨語(yǔ)言推理性能的顯著提高。
CLP 實(shí)現(xiàn)了最先進(jìn)的性能。CLP 超越了之前的所有基線,特別是優(yōu)于少樣本的PALM-540B(Translate-En),提高了 16.4%。這一改進(jìn)不能僅僅歸功于 GPT-3.5,因?yàn)镃LP 的平均準(zhǔn)確度甚至比擁有額外知識(shí)的高質(zhì)量機(jī)器翻譯(Translate-En) 高 2.2%。這些發(fā)現(xiàn)表明 CLP 超越了原始的文本翻譯,提供了自己的理解,能夠并進(jìn)一步增強(qiáng)了模型固有的跨語(yǔ)言理解能力。
CLSP 進(jìn)一步顯著提高了性能。CLSP 在所有語(yǔ)言中都比 CLP 表現(xiàn)出顯著的優(yōu)越性(平均準(zhǔn)確率提高了 6.1%)。這一觀察結(jié)果表明,整合不同語(yǔ)言的知識(shí)和不同語(yǔ)言間的思考路徑可以有效提高跨語(yǔ)言CoT的推理性能,驗(yàn)證了CLSP 的有效性。
4 CLP 分析
4.1 CLP能夠擁有更好的推理質(zhì)量
為了進(jìn)一步研究CLP為何有效,我們采用Roscoe 框架來(lái)評(píng)估模型思想鏈中推理路徑的質(zhì)量。
圖 8:Native-CoT 和 CLP 的推理路徑質(zhì)量 如圖8所示,我們發(fā)現(xiàn)CLP的推理路徑表現(xiàn)出更高的忠實(shí)度,在推理過(guò)程中與關(guān)鍵步驟表現(xiàn)出更好的一致性。具體來(lái)說(shuō),CLP的推理路徑優(yōu)勢(shì)可以總結(jié)為:
推理幻覺(jué)更少:CLP的推理路徑的Faithfulness得分提高了 1.6%,表明模型更好地理解了問(wèn)題陳述,并確保了清晰的推理鏈,而不會(huì)生成不相關(guān)或誤用的信息,更加可信。
推理更有依據(jù):此外,我們觀察到“Step”和“Chain”的Informativeness指標(biāo)分別提高了 2.8% 和 2.5%。它表明模型的推理在跨語(yǔ)言對(duì)齊之后可以提供更有根據(jù)的推理步驟。
邏輯鏈更完整:此外,CLP 在 Miss-step 指標(biāo)中也增強(qiáng)了 2.8%,表明模型的推理可以包含完整的邏輯鏈,從而帶來(lái)更好的性能。
4.2 二階段交互式提示比單輪提示效果更好
由于之前CLP分為了兩個(gè)階段,本節(jié)將探討兩階段交互式提示的有效性。
圖 9:二階段和單輪的CoT效果比較 與兩階段交互式提示(CLP)相比,我們觀察到單輪提示性能平均顯著下降 10.4%。我們認(rèn)為兩階段的交互提示可以更好地引出LLM強(qiáng)大的對(duì)話交互能力,從而提高表現(xiàn)。
4.3 CLP 并不是簡(jiǎn)單的翻譯
如表1 所示,我們可以發(fā)現(xiàn)CLP的平均準(zhǔn)確率甚至比機(jī)器翻譯請(qǐng)求高出2.2%,這表明CLP不是普通翻譯,而是利用了語(yǔ)言之間的語(yǔ)義對(duì)齊。 為了進(jìn)一步了解 CLP 為何比翻譯效果更好,我們隨機(jī)選擇了 200 個(gè)來(lái)自不同語(yǔ)言的樣本進(jìn)行細(xì)粒度探索。首先,我們發(fā)現(xiàn)CLP會(huì)自動(dòng)地采取7種不同的策略,大部分策略一定程度上都對(duì)最終的性能做出了貢獻(xiàn),這證明了CLP的有效性。
表 2:CLP自動(dòng)使用的策略的占比以及性能影響 此外,我們發(fā)現(xiàn)進(jìn)一步分解第一階段有助于改進(jìn)。將第 1 階段的行動(dòng)分解為 2-4 個(gè)策略可以顯著提高性能(至少 6.45%)。例如,通過(guò)將對(duì)齊過(guò)程分解為“問(wèn)題重述”和“解決初步解決”,就可以獲得優(yōu)異的性能,達(dá)到 64.71%(與 Native-CoT 相比提高了 11.77%)。
4.4 Prompt的選擇如何影響CLP?
我們利用不同的表述的跨語(yǔ)言對(duì)齊提示以驗(yàn)證CLP零樣本跨語(yǔ)言CoT的魯棒性。表3說(shuō)明了 4 種意思相同但表述不同的跨語(yǔ)言對(duì)齊提示的性能。
表 3:不同表述的CAP對(duì)CLP的影響分析 實(shí)驗(yàn)結(jié)果表明,雖然AVG Acc. 存在一定的波動(dòng)(最大差異超過(guò)4%)。但所有跨語(yǔ)言對(duì)齊提示相比En-CoT仍然可以提高性能。這進(jìn)一步驗(yàn)證了CLP的有效性。
4.5 CLP的泛化性分析
為了進(jìn)一步研究我們工作的通用性,我們從兩個(gè)方面驗(yàn)證CLP的泛化性:
圖 10:在其他多語(yǔ)言數(shù)據(jù)集上的準(zhǔn)確率表現(xiàn)
CLP 在其他多語(yǔ)言基準(zhǔn)上效果優(yōu)異。我們?cè)谄渌麖V泛使用的多語(yǔ)言推理數(shù)據(jù)集(即 XNLI 和 PAWS-X)上進(jìn)行了實(shí)驗(yàn)。從表4中的結(jié)果來(lái)看,我們觀察到 CLP 在大多數(shù)語(yǔ)言中都可以獲得更好的性能。與En-CoT相比,我們觀察到 XNLI 的平均改進(jìn)為 3.1%,PAWS-X 的平均改進(jìn)為 4.5%。
表 4:在其他開(kāi)源/較小的LLM上的準(zhǔn)確率表現(xiàn)
CLP 在其他 LLM 上表現(xiàn)優(yōu)異。為了更好地理解模型泛化,我們?cè)诰哂休^小 LLM 的 XCOPA 上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果(如表X所示)表明,在較小的法學(xué)碩士上,CLP 與 En-CoT 相比至少實(shí)現(xiàn)了 6.8% 的改進(jìn)。
4.6 CLP能夠通過(guò)上下文學(xué)習(xí)策略進(jìn)一步提升
近年來(lái),上下文學(xué)習(xí)(ICL)取得了驚人的結(jié)果,為了進(jìn)一步探索 CLP 在 ICL 框架內(nèi)的效果,我們進(jìn)行了一系列實(shí)驗(yàn)。對(duì)實(shí)證結(jié)果的后續(xù)分析得出以下觀察結(jié)果(實(shí)驗(yàn)在1000條抽樣結(jié)果上進(jìn)行):
表 5:CLP各個(gè)階段在ICL設(shè)置下的表現(xiàn)
在CAP中使用 ICL 可以顯著提高推理性能。如表5所示,CLP 比 MGSM 上的零樣本設(shè)置表現(xiàn)出顯著的 6.9% 改進(jìn)。這進(jìn)一步強(qiáng)調(diào)了我們的方法作為即插即用模塊的優(yōu)勢(shì),與 ICL 方法正交,以提高性能。
在TSP中使用 ICL 可以進(jìn)一步提高推理性能。如表5所示,結(jié)果顯示,在 Task-specific Solver Prompting (TSP) 中結(jié)合 Complex-CoT時(shí),性能額外提高了 1.1%。與其他 CoT 優(yōu)化方法相比,這進(jìn)一步鞏固了我們的方法的獨(dú)特性,強(qiáng)調(diào)了其適應(yīng)性以及為下游 CoT 推理技術(shù)提供更廣泛支持的能力。
CAP階段的示例選擇起著關(guān)鍵作用。我們對(duì)ICL策略的各種組合進(jìn)行了實(shí)驗(yàn)。如表5所示,如果依賴單一策略,則模型的平均性能顯著下降至63.5%,甚至遠(yuǎn)低于零樣本的效果。相反,當(dāng)在少樣本示例中采用更多樣化的策略時(shí),模型的性能顯示出顯著的改進(jìn),達(dá)到 75.9%。它表明更多樣化的策略樣本可以帶來(lái)更好的性能提升。
表 6:在示例中不同對(duì)齊策略數(shù)量對(duì)準(zhǔn)確率的影響(策略按照表2中的占比從大到小選?。?/p>
5. CLSP Analysis
5.1 CLSP 超越了原始的Self-consistency
為了驗(yàn)證 CLSP 的有效性,我們對(duì)原始的Self-consistency(VSC)進(jìn)行了實(shí)驗(yàn)。原始的Self-consistency 是指利用不同Temperature生成多條推理路徑,并通過(guò)投票的方式確定最終的答案。如圖11所示,與VSC相比,CLSP平均提高了大約 4.5%,驗(yàn)證了CLSP的有效性。
圖 11:CLSP和VSC在MGSM上各個(gè)語(yǔ)言的準(zhǔn)確率表現(xiàn) 此外,我們嘗試探索 CLSP 為何有效。我們使用所有正確的預(yù)測(cè)結(jié)果和手動(dòng)注釋的 CoT 推理路徑來(lái)評(píng)估跨語(yǔ)言 CoT 推理路徑(包括 CLSP 和 VSC)之間的對(duì)齊分?jǐn)?shù)。
圖 12:CLSP和VSC的不同的推理路徑與標(biāo)準(zhǔn)推理路徑的對(duì)齊分?jǐn)?shù) 如圖12所示,CLSP生成的對(duì)齊分?jǐn)?shù)的方差明顯高于VSC。它表明 CLSP 更好地集成了語(yǔ)言知識(shí),從而提高了最終的跨語(yǔ)言 CoT 性能。
5.2 集成更多的語(yǔ)言并不能帶來(lái)更多的提升
一個(gè)自然出現(xiàn)的問(wèn)題是,“在CLSP中集成大量語(yǔ)言是否會(huì)帶來(lái)更好的整體表現(xiàn)?”為了回答這個(gè)問(wèn)題,我們探討了CoT表現(xiàn)與集成的語(yǔ)言數(shù)量之間的關(guān)系。
圖 13:Common Crawl 2021數(shù)據(jù)集語(yǔ)言分布 一些研究表明LLM的表現(xiàn)與每種語(yǔ)言的預(yù)訓(xùn)練數(shù)據(jù)比例高度相關(guān)。因此,我們檢查了廣泛使用的多語(yǔ)言預(yù)訓(xùn)練數(shù)據(jù)集 Common Crawl 2021 中的語(yǔ)言分布(如圖13所示)。
圖 14:集成語(yǔ)言數(shù)量對(duì)最終性能的影響 根據(jù)比例,我們按照語(yǔ)言的降序和升序逐步整合每種語(yǔ)言。各自的比例。圖14中的結(jié)果表明,在高資源設(shè)置中,隨著添加更多語(yǔ)言,性能會(huì)提高。然而,當(dāng)合并低資源語(yǔ)言時(shí),性能會(huì)隨著語(yǔ)言數(shù)量的增加而下降。 這些發(fā)現(xiàn)表明,語(yǔ)言整合的有效性不僅僅取決于整合的語(yǔ)言數(shù)量。每種語(yǔ)言的預(yù)訓(xùn)練數(shù)據(jù)量,尤其是高資源語(yǔ)言,起著至關(guān)重要的作用??紤]到可用資源和影響,平衡多種語(yǔ)言至關(guān)重要。
5.3 CLSP泛化性研究
為了進(jìn)一步驗(yàn)證 CLSP 的有效性,我們?cè)?XCOPA 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),這是一個(gè)廣泛采用的基準(zhǔn),用于評(píng)估 11 種不同語(yǔ)言的常識(shí)推理技能。
表 7:XCOPA上CLSP的表現(xiàn) 正如表7 中所示的結(jié)果所示,與基線相比,我們觀察到 CLP 性能平均顯著提高了 4.7%。此外,與 CLP 相比,CLSP 的性能進(jìn)一步提高了 7.4%。這些結(jié)果表明,除了在數(shù)學(xué)推理方面表現(xiàn)出色之外,CLSP 在解決常識(shí)推理任務(wù)方面也表現(xiàn)出顯著的有效性。
6. 結(jié)論
在這項(xiàng)工作中,我們引入了跨語(yǔ)言思維鏈的Cross-lingual Prompting (CLP)。具體來(lái)說(shuō),CLP 由 cross-lingual alignment prompting 和 task-specific solver prompting 組成,用于跨語(yǔ)言對(duì)齊表示并在跨語(yǔ)言設(shè)置中生成最終推理路徑。
此外,我們提出了Cross-Lingual Self-consistent Prompting (CLSP)來(lái)有效利用跨語(yǔ)言的知識(shí),這進(jìn)一步提高了 CLP 的性能。
大量實(shí)驗(yàn)表明,CLP 和 CLSP 在跨語(yǔ)言 CoT 中都能取得良好的性能。
歡迎感興趣的同學(xué)閱讀我們的論文,對(duì)于cross-lingual alignment prompting中不同策略的思考,該問(wèn)題對(duì)跨語(yǔ)言的相關(guān)研究是非常有價(jià)值的。
-
CLP
+關(guān)注
關(guān)注
0文章
5瀏覽量
7148 -
模型
+關(guān)注
關(guān)注
1文章
3279瀏覽量
48976 -
機(jī)器翻譯
+關(guān)注
關(guān)注
0文章
139瀏覽量
14918
原文標(biāo)題:6. 結(jié)論
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論