作者|湯昕宇
隨著大語言模型的發(fā)展,其在執(zhí)行許多自然語言處理任務(wù)上取得了巨大的成功。但是,大語言模型對(duì)于提示是非常敏感的,提示中微小的變化都會(huì)導(dǎo)致大語言模型在執(zhí)行任務(wù)時(shí)產(chǎn)生巨大的性能波動(dòng)。因此,許多工作對(duì)大語言模型的提示進(jìn)行了研究。本文主要從增強(qiáng)的提示方法,提示的自動(dòng)優(yōu)化和關(guān)于提示的分析三個(gè)方面,調(diào)研了大語言模型提示的最新進(jìn)展。
增強(qiáng)的提示方法
盡管基本的CoT提示策略在復(fù)雜推理任務(wù)中展示出了強(qiáng)大的能力,但它仍然面臨著一些問題,比如推理過程存在錯(cuò)誤和不穩(wěn)定等。因此,一系列的研究通過增強(qiáng)的提示方法激發(fā)大語言模型的能力,從而完成更通用的任務(wù)。
Explanation Selection Using Unlabeled Data for Chain-of-Thought Prompting
作者:Xi Ye, Greg Durrett
https://arxiv.org/abs/2302.04813
這篇論文討論了如何優(yōu)化大語言模型的解釋式提示,以提高其在文本推理任務(wù)上的表現(xiàn)。
作者提出了一種新穎的兩階段框架,以黑盒方式優(yōu)化這些解釋式提示。首先,為每個(gè)提示中的樣例生成多種候選解釋,并使用兩個(gè)指標(biāo):對(duì)數(shù)似然和新例子上的準(zhǔn)確性來評(píng)估這些解釋。然后,通過評(píng)估這些組合對(duì)來尋找最有效的解釋組合。文章證明了這種方法在各種文本推理任務(wù)上,包括問答、數(shù)學(xué)推理和自然語言推理中,能夠提高提示的有效性。
此外,這篇工作還強(qiáng)調(diào)了他們評(píng)估的指標(biāo)的有效性,有助于識(shí)別和優(yōu)先考慮效果最好的解釋組合,從而優(yōu)化所需的計(jì)算資源。
Explanation Selection Using Unlabeled Data for Chain-of-Thought Prompting
CoF-CoT: Enhancing Large Language Models with Coarse-to-Fine Chain-of-Thought Prompting for Multi-domain NLU Tasks
作者:Hoang H. Nguyen, Ye Liu, Chenwei Zhang, Tao Zhang, Philip S. Yu
https://arxiv.org/abs/2310.14623
盡管思維鏈的方法在推理任務(wù)中頗受歡迎,但其在自然語言理解任務(wù)中的潛力尚未被充分挖掘。
本文受到大語言模型進(jìn)行多步推理的啟發(fā),提出了從粗到細(xì)的思維鏈(CoF-CoT)方法,該方法將自然語言理解任務(wù)分解為多個(gè)推理步驟,用基于語義的抽象意義表示結(jié)構(gòu)化知識(shí)作為中間步驟,以捕捉話語的細(xì)微差別和多樣結(jié)構(gòu),以便大語言模型獲取并利用關(guān)鍵概念以從不同的粒度解決任務(wù)。
CoF-CoT
Chain of Code: Reasoning with a Language Model-Augmented Code Emulator
作者:Chengshu Li, Jacky Liang, Andy Zeng, Xinyun Chen, Karol Hausman, Dorsa Sadigh, Sergey Levine, Li Fei-Fei, Fei Xia, Brian Ichter
https://arxiv.org/abs/2312.04474
代碼提供了構(gòu)建復(fù)雜程序和進(jìn)行精確計(jì)算的通用語法結(jié)構(gòu),當(dāng)與代碼解釋器配對(duì)時(shí),大語言模型可以利用編寫代碼的能力來改進(jìn)思維鏈推理。因此,代碼可以幫助語言模型更好地進(jìn)行推理,特別是在涉及邏輯和語義混合的任務(wù)中。
本文提出了代碼鏈(Chain of Code),旨在提升語言模型在處理邏輯、算術(shù)以及語義任務(wù)時(shí)的推理能力。利用大語言模型將語義子任務(wù)格式轉(zhuǎn)化為靈活的偽代碼,解釋器可以明確捕捉到未定義的行為,并將其交給大語言模型來模擬執(zhí)行。實(shí)驗(yàn)表明,“代碼鏈”在各種基準(zhǔn)測試中都超越了“思維鏈”(Chain of Thought)和其他基線方法;在BIG-Bench Hard測試中,“代碼鏈”達(dá)到了84%的準(zhǔn)確率,比“思維鏈”高出12%。
Chain of Code
Tree Prompting: Efficient Task Adaptation without Fine-Tuning
作者:John X. Morris, Chandan Singh, Alexander M. Rush, Jianfeng Gao, Yuntian Deng
https://arxiv.org/abs/2310.14034
盡管提示是讓語言模型適應(yīng)新任務(wù)的常用方法,但在較小的語言模型中,相比于基于梯度的微調(diào)方法,這種方法在準(zhǔn)確度上通常較低。
針對(duì)這一挑戰(zhàn),本文提出了一種“樹形提示(Tree Prompting)”的方法。這種方法建立了一個(gè)決策樹狀的提示系統(tǒng),將多個(gè)語言模型調(diào)用串聯(lián)起來,協(xié)同完成特定任務(wù)。在推理階段,每一次對(duì)語言模型的調(diào)用都依靠決策樹來高效地確定,基于前一次調(diào)用的結(jié)果進(jìn)行決定。實(shí)驗(yàn)結(jié)果表明,在各種分類任務(wù)的數(shù)據(jù)集上,樹形提示不僅提升了準(zhǔn)確性,而且與微調(diào)方法相比更具有競爭力。
Tree Prompting
Everything of Thoughts: Defying the Law of Penrose Triangle for Thought Generation
作者:Ruomeng Ding, Chaoyun Zhang, Lu Wang, Yong Xu, Minghua Ma, Wei Zhang, Si Qin, Saravan Rajmohan, Qingwei Lin, Dongmei Zhang
https://arxiv.org/abs/2311.04254
有效的思維設(shè)計(jì)需要考慮三個(gè)關(guān)鍵方面:性能、效率和靈活性。然而,現(xiàn)有的思維設(shè)計(jì)最多只能體現(xiàn)這三個(gè)屬性中的兩個(gè)。為了突破現(xiàn)有思維范式的“彭羅斯三角形定律”局限,本文引入了一種創(chuàng)新的思維提示方法,稱為“Everything of Thought”(XoT)。
XoT運(yùn)用了預(yù)訓(xùn)練的強(qiáng)化學(xué)習(xí)和蒙特卡洛樹搜索,將外部領(lǐng)域知識(shí)整合進(jìn)思維中,從而增強(qiáng)大語言模型的能力,并使其能夠高效地泛化到未見過的問題。通過利用蒙特卡羅搜索和大語言模型的協(xié)作思維修正框架,這種方法可以自主地產(chǎn)生高質(zhì)量的全面認(rèn)知映射,并且只需最少的大語言模型的交互。此外,XoT賦予了大語言模型進(jìn)行無約束思維的能力,為具有多重解決方案的問題提供靈活的認(rèn)知映射。實(shí)驗(yàn)表明,XoT在包括24點(diǎn)游戲、8數(shù)碼、口袋魔方等多個(gè)具有挑戰(zhàn)性的多解決方案問題上超過了現(xiàn)有方法。
XoT
提示優(yōu)化方法
提示是利用大語言模型解決各種任務(wù)的主要方法。由于提示的質(zhì)量在很大程度上會(huì)影響大語言模型在特定任務(wù)中的表現(xiàn),因此出現(xiàn)了一系列研究,旨在通過手動(dòng)創(chuàng)建或自動(dòng)優(yōu)化來生成適當(dāng)?shù)娜蝿?wù)提示。雖然手動(dòng)創(chuàng)建任務(wù)提示更直觀,但這個(gè)過程非常耗時(shí),更重要的是,模型對(duì)精心設(shè)計(jì)的提示非常敏感——不恰當(dāng)?shù)奶崾緦?dǎo)致任務(wù)表現(xiàn)不佳。因此,一系列的研究自動(dòng)優(yōu)化離散提示,以激發(fā)大語言模型解決特定任務(wù)的能力。
Prompt Optimization via Adversarial In-Context Learning
作者:Xuan Long Do, Yiran Zhao, Hannah Brown, Yuxi Xie, James Xu Zhao, Nancy F. Chen, Kenji Kawaguchi, Michael Qizhe Xie, Junxian He
https://arxiv.org/abs/2312.02614
adv-ICL方法借鑒了對(duì)抗生成網(wǎng)絡(luò)的思想,通過采用三個(gè)不同的大語言模型,分別作為生成器、辨別器和提示修改器來優(yōu)化提示。在這個(gè)對(duì)抗性學(xué)習(xí)框架中,生成器和鑒別器之間進(jìn)行類似于傳統(tǒng)對(duì)抗性學(xué)習(xí)的雙邊游戲,其中生成器嘗試生成足夠逼真的輸出以欺騙鑒別器。
具體來說,在每一輪中,首先給定包含一個(gè)任務(wù)指令和幾個(gè)樣例的輸入,生成器產(chǎn)生一個(gè)輸出。然后,辨別器的任務(wù)是將生成器的輸入輸出對(duì)分類為模型生成的數(shù)據(jù)還是真實(shí)數(shù)據(jù)?;诒鎰e器的損失,提示修改器會(huì)提出對(duì)生成器和辨別器提示的編輯,選擇最能改善對(duì)抗性損失的文本修改方法以優(yōu)化提示。實(shí)驗(yàn)表明,adv-ICL在11個(gè)生成和分類任務(wù)上取得了顯著的提升,包括總結(jié)、算術(shù)推理、機(jī)器翻譯、數(shù)據(jù)到文本生成,以及MMLU和Big-Bench Hard基準(zhǔn)測試。
adv-ICL
Black-Box Prompt Optimization: Aligning Large Language Models without Model Training
作者:Jiale Cheng, Xiao Liu, Kehan Zheng, Pei Ke, Hongning Wang, Yuxiao Dong, Jie Tang, Minlie Huang
https://arxiv.org/abs/2311.04155
雖然大語言模型在多種任務(wù)中展現(xiàn)了令人印象深刻的成功,但這些模型往往與人類的意圖不完全對(duì)齊。為了使大語言模型更好地遵循用戶指令,現(xiàn)有的方法主要集中在對(duì)模型進(jìn)行額外的訓(xùn)練上。然而,額外訓(xùn)練大語言模型通常計(jì)算開銷很大;并且,黑盒模型往往無法進(jìn)行用戶需求的訓(xùn)練。
本文提出了BPO的方法,從不同的視角——通過優(yōu)化用戶的提示,來適應(yīng)大語言模型的輸入理解,從而在不更新大語言模型參數(shù)的情況下實(shí)現(xiàn)用戶意圖。實(shí)驗(yàn)表明,通過BPO對(duì)齊的大語言模型在性能上可以勝過使用PPO和DPO對(duì)齊的相同模型,并且將BPO與PPO或DPO結(jié)合,還可以帶來額外的性能提升。
BPO
Robust Prompt Optimization for Large Language Models Against Distribution Shifts
作者:Moxin Li, Wenjie Wang, Fuli Feng, Yixin Cao, Jizhi Zhang, Tat-Seng Chua
https://arxiv.org/abs/2305.13954
大語言模型在多種自然語言處理任務(wù)中展現(xiàn)了顯著的能力。然而,它們的效果高度依賴于任務(wù)的提示。本文發(fā)現(xiàn),雖然自動(dòng)的提示優(yōu)化技術(shù)使用帶標(biāo)注的任務(wù)數(shù)據(jù)能帶來性能上的提升,但這些自動(dòng)提示優(yōu)化的技術(shù)容易受到分布偏移的影響,這在實(shí)際應(yīng)用場景中是很常見的。基于此,本文提出了一個(gè)新問題,針對(duì)分布變化對(duì)大語言模型進(jìn)行穩(wěn)定的提示優(yōu)化,這要求在具有標(biāo)簽的源數(shù)據(jù)上優(yōu)化的提示同時(shí)能夠泛化到未標(biāo)記的目標(biāo)數(shù)據(jù)上。
為了解決這個(gè)問題,本文提出了一種名為“泛化提示優(yōu)化”(Generalized Prompt Optimization)的框架,將來自目標(biāo)組的未標(biāo)記數(shù)據(jù)納入提示優(yōu)化中。廣泛的實(shí)驗(yàn)結(jié)果表明,本文提出的框架在未標(biāo)注的目標(biāo)數(shù)據(jù)上有顯著的性能提升,并且在源數(shù)據(jù)上保持了性能。這表明該方法在在面對(duì)分布變化時(shí),展現(xiàn)出處理真實(shí)世界數(shù)據(jù)時(shí)的有效性和魯棒性。
Robust Prompt Optimization
InstOptima: Evolutionary Multi-objective Instruction Optimization via Large Language Model-based Instruction Operators
作者:Heng Yang, Ke Li
https://arxiv.org/abs/2310.17630
在大語言模型中,基于指令的語言建模受到了顯著的關(guān)注。然而,指令工程的效率仍然較低,最近的研究集中在自動(dòng)化生成指令上,但它們主要旨在提高性能,而沒有考慮影響指令質(zhì)量的其他重要目標(biāo),例如指令長度和困惑度。
因此,本文提出了一種新穎的方法(InstOptima),將指令生成視為一個(gè)進(jìn)化的多目標(biāo)優(yōu)化問題。與基于文本編輯的方法不同,本文的方法利用大語言模型來模擬指令操作,包括變異和交叉。此外,本文的方法還為這些操作引入了一個(gè)目標(biāo)引導(dǎo)機(jī)制,允許大語言模型理解目標(biāo)并提高生成指令的質(zhì)量。實(shí)驗(yàn)結(jié)果證明了InstOptima在自動(dòng)化生成指令和提升指令質(zhì)量方面的有效性。
InstOptima
關(guān)于提示的分析
How are Prompts Different in Terms of Sensitivity?
作者:Sheng Lu, Hendrik Schuff, Iryna Gurevych
https://arxiv.org/abs/2311.07230
上下文學(xué)習(xí)(ICL)已成為十分受歡迎的學(xué)習(xí)范式之一。盡管目前有越來越多的工作關(guān)注于提示工程,但在比較不同模型和任務(wù)提示效果的方面,缺乏系統(tǒng)性地分析。因此,本文提出了一種基于函數(shù)敏感性的全面提示分析。
本文的分析揭示了敏感性是模型性能的一種無監(jiān)督代理指標(biāo),它與準(zhǔn)確度呈現(xiàn)出強(qiáng)烈的負(fù)相關(guān)關(guān)系。本文使用基于梯度的顯著性分?jǐn)?shù)展示了不同提示如何影響輸入對(duì)輸出的相關(guān)性,從而產(chǎn)生不同水平的敏感性。此外,本文引入了一種基于敏感性感知的解碼方式,將敏感性估計(jì)作為懲罰項(xiàng)納入標(biāo)準(zhǔn)的貪婪解碼中。實(shí)驗(yàn)表明,這種方法在輸入信息稀缺時(shí)十分有效。
How are Prompts Different in Terms of Sensitivity?
The language of prompting: What linguistic properties make a prompt successful?
作者:Alina Leidinger, Robert van Rooij, Ekaterina Shutova
https://arxiv.org/abs/2311.01967
盡管大語言模型的表現(xiàn)高度依賴于提示的選擇,目前仍缺乏對(duì)于提示的語言屬性如何與任務(wù)表現(xiàn)相關(guān)聯(lián)的系統(tǒng)性分析。
在這項(xiàng)工作中,文章研究了不同大小、預(yù)訓(xùn)練和指令調(diào)優(yōu)過的大語言模型,在語義上等價(jià)但在語言結(jié)構(gòu)上有所不同的提示上的表現(xiàn)。本文著重考察了諸如語氣、時(shí)態(tài)、情感等語法屬性,以及通過同義詞使用引入的詞匯-語義變化。研究結(jié)果與普遍的假設(shè)相悖,大語言模型在低困惑度的提示上達(dá)到最優(yōu)表現(xiàn),這些提示反映了預(yù)訓(xùn)練或指令調(diào)優(yōu)數(shù)據(jù)中使用的語言。提示在不同數(shù)據(jù)集或模型之間的可遷移性較差,且性能通常不能通過困惑度、詞頻、歧義性或提示長度來解釋。
審核編輯:黃飛
-
生成器
+關(guān)注
關(guān)注
7文章
316瀏覽量
21039 -
語言模型
+關(guān)注
關(guān)注
0文章
527瀏覽量
10286 -
自然語言處理
+關(guān)注
關(guān)注
1文章
618瀏覽量
13572
原文標(biāo)題:一文速覽大語言模型提示最新進(jìn)展
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論