0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Zero-shot-CoT是multi-task的方法

深度學習自然語言處理 ? 來源:NLP日志 ? 作者:NLP日志 ? 2022-06-15 10:53 ? 次閱讀

1 簡介

Prompt learning中的prompt如同一種心理暗示,可以驅使語言模型按照特定的方向去預測。就像一種解題技巧,只要加入了它,就能更準確的解決問題。在之前prompt系列的文章中,我們介紹過各種形式的prompt,也強調過一個合適的prompt對于下游任務的效果影響重大,為此如何尋找一個合適的prompt的顯得尤為重要。

今天介紹一個最近剛被發(fā)現(xiàn)的“寶藏prompt”,Let’s think step by step,通過使用特定的prompt“Let’s think step by step”和相應的兩階段prompt技巧,提高了大規(guī)模語言模型在的推理能力,在多個推理相關的zero-shot任務取得驚人的提升,遠超之前的zero-shot方法。

2背景

大規(guī)模預訓練語言模型借助于針對特定任務設計的prompt(無論是few shot還是zero shot),在單步驟的system-1任務上有著出色表現(xiàn),但是對于那些緩慢和需要多步推理的system-2任務表現(xiàn)不佳。(system-1跟system-2是心理學家定義的一些推理任務,可以理解為system-1是那些一步就可以推出答案的任務,,而system-2則是那些需要通過多步推理才能解決的任務)。

為了解決大規(guī)模語言模型在system-2任務中表現(xiàn)不佳的問題,CoT(Chain of thought prompting)被提出來,它將原本的few shot的樣例,調整為逐步推理的答案,從而讓語言模型去學習few shot樣例的逐步推理過程,從而控制模型推理能力的方向,在復雜的system-2任務中獲得明顯提升。細節(jié)可以見下圖中的樣例,其中左上角就是原本的few shot prompt,而右上角就是將few shot樣例調整為逐步推理樣例的CoT(為了跟后面的Zero-shot-CoT區(qū)分而稱為Few-shot- CoT),可以看出Few-shot-CoT是將few shot樣例里的推理過程展開了,讓語言模型能更好的學習其中的細節(jié)。

c009e2c2-ebed-11ec-ba43-dac502259ad0.png

圖1:Few-shot, Few-shot-CoT, Zero-shot, Zero-shot-CoT示例

3 Zero-shot-CoT

跟前面提及的Few-shot Cot不同,Zero-shot-CoT不需要經過調整的逐步推理的few shot樣例,也不同大多數(shù)prompt,它不依賴于特定的任務,可以利用當前問題逐步的推理過程推導得到一個簡單的prompt模版,從而控制語言模型預測的方向。Zero-shot Cot的核心是利用“Let’s think step by step”去抽取當前問題的逐步推理過程。雖然Zero-shot-CoT的概念很簡單,它的巧妙之處在于整個過程使用了兩次prompt,具體過程如下,同時可以查看下圖樣例加深理解。

a)推論抽取

首先將問題X通過一個簡單的模版”Q:[X].A:[Z]”調整為一個prompt,其中[X]是一個輸入槽位,通過問題X來填充,而[Z]是一個觸發(fā)器槽位,用一個人工構建的觸發(fā)器句子來填充,使得語言模型可以從中抽取回答問題X所需的逐步推理過程,論文中用的觸發(fā)器句子是“Let’s think step by step.”。然后將構造好的模版輸入到語言模型,從而生成后續(xù)的句子Z(可以使用任何解碼策略,論文為了簡便使用了貪婪解碼策略)。

b)答案抽取

將第一步構造好的模版Q:[X].A:[Z],生成的句子Z,和一個新的觸發(fā)器句子[A]拼接到一起輸入到同一個語言模型,利用語言模型生成的結果進行解析得到最終的答案。這一步的觸發(fā)器句子[A]跟第一步的觸發(fā)器句子不同,它依賴于具體的答案形式,例如圖中樣例用的觸發(fā)器句子是“Therefore, the answer (arabic numerals) is”

c02c2ab2-ebed-11ec-ba43-dac502259ad0.png

圖2: Zero-shot-Cot全過程

Zero-shot-CoT跟Few-shot-CoT的區(qū)別在于,對于每個任務,F(xiàn)ew-shot-CoT需要謹慎的人工工程將few shot樣例轉化為特定的答案格式,就是其中的逐步推理過程,而Zero-shot-CoT則不需要這些工程,只需要調用兩次語言模型即可實現(xiàn)。Zero-shot-CoT跟Zero-shot的區(qū)別在于,Zero-shot-Cot多了生成多步推論的過程,最終輸入語言模型的文本會更加豐富,語言模型能按照逐步推論的方向進行預測,從而更好的控制語言模型的輸出。

4 實驗結果

論文在算術推理跟常識推理相關的任務做了實驗,有以下一些實驗結論。

a)Zero-shot-CoT在需要多步推理的算術推理任務,符號推理任務,其他邏輯推理任務上大幅超越zero-shot,在不需要多步推理的算數(shù)推理任務上(SingleEq和AddSub)上跟zero-shot水平相當。在常識推理任務上,Zero-shot-Cot表現(xiàn)沒有提升。

c05b4054-ebed-11ec-ba43-dac502259ad0.png

圖3: Zero-shot-CoT跟Zero-shot在多個任務上的表現(xiàn)

b)在算術推理任務中,雖然Zero-shot-CoT不及Few-shot-CoT,但明顯優(yōu)于標準的Few-shot,即便是帶8個樣例的Fes-shot方法。

c06f2268-ebed-11ec-ba43-dac502259ad0.png

圖4: 在多步算法推理任務上多種方法的效果對比

c)對于常識推理問題,Zero-shot-CoT通常能生成靈活合理的推論,即便最終預測是錯誤的(下圖左邊樣例)。同時當模型發(fā)現(xiàn)很難將答案選項縮小時,Zero-shot-CoT經常輸出多個答案選項(下圖右邊樣例)。

c0b67492-ebed-11ec-ba43-dac502259ad0.png

圖5: Zero-shot-CoT在常識推理任務的若干bad case

5討論

a)語言模型規(guī)模跟zero-shot推理是否相關?

大規(guī)模語言模型能帶來更合理的推理。對于不需要多步推理的任務,zero-shot表現(xiàn)隨著語言模型規(guī)模的增長可能不增長或者增長非常緩慢,但是對于需要多步推理的任務,隨著語言模型規(guī)模的增長,zero-shot的效果飛速增長。

c0cd946a-ebed-11ec-ba43-dac502259ad0.png

圖6:模型規(guī)模的影響

b)Prompt的選擇是否影響Zero-shot-CoT

如果文本被撰寫成有利于深度推理的樣子,模型效果也會得到提升。不同的prompt會驅使模型表示出迥然不同的推理能力,具體的差異取決了實際句子。在論文實驗中,其中一個prompt”Let’s think step by step”取得最優(yōu)的效果。

c114572e-ebed-11ec-ba43-dac502259ad0.png

圖7:不同prompt對于Zero-shot-CoT的影響

c)大規(guī)模語言模型的推理能力

部分研究表明預訓練模型通常不擅長推理任務,但是通過讓它進行逐步推理可以極大程度的提升它的推理性能,而不是通過微調。論文的實驗也佐證了大規(guī)模語言模型是一個合適的zero-shot推理器。

d)Multi-task prompting

大多數(shù)prompt都是針對特定任務而設計的,但是Zero-shot-CoT是支持多任務的,具有更強的泛化能力,能應用到更多不同的任務中去。Zero-shot-CoT可以為作為一種參考,不僅加速應用大規(guī)模語言模型進行邏輯推理的研究,也加速發(fā)現(xiàn)其他大規(guī)模語言模型的廣泛感知能力的研究。

6總結

個人覺得,相比其他prompt相關的文章,Zero-shot-CoT通過兩階段的prompt過程設計,擺脫了prompt工程的限制,也不受限于具體的任務,更好的控制模型的預測方向。雖然思想跟Few-shot-CoT很像,但是擺脫了其中的精心設計的將few shot樣例轉化為合適的prompt的過程。這一點還是很有價值的。

但是,看完這個文章還是有不少的疑問。文章提及Zero-shot-CoT是multi-task的方法,但是只在推理相關的任務上進行實驗,Let’s think step by step”在非推理的任務上也會是最優(yōu)選擇嗎?在其他任務上,Zero-shot-CoT能取得多少增益?對于其他語言而言,找到自身最佳的“Let’s think step by step”只能把所有可能的prompt都測試一遍嗎?有其他自動化的手段嗎?有沒有跨語言的“Let’s think step by step”?

參考文獻

1.(2022,) Large Language Models are Zero-Shot Reasoners

https://arxiv.org/pdf/2205.11916.pdf

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 自動化
    +關注

    關注

    29

    文章

    5588

    瀏覽量

    79362
  • 語言模型
    +關注

    關注

    0

    文章

    527

    瀏覽量

    10286

原文標題:提示學習 | Let’s think step by step

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    智譜推出深度推理模型GLM-Zero預覽版

    近日,智譜公司正式發(fā)布了其深度推理模型GLM-Zero的預覽版——GLM-Zero-Preview。這款模型標志著智譜在擴展強化學習技術訓練推理模型方面的重大突破,成為其首個專注于增強AI推理能力
    的頭像 發(fā)表于 01-03 10:42 ?86次閱讀

    智譜GLM-Zero深度推理模型預覽版正式上線

    近日,智譜公司宣布其深度推理模型GLM-Zero的初代版本——GLM-Zero-Preview已正式上線。這款模型是智譜首個基于擴展強化學習技術訓練的推理模型,標志著智譜在AI推理領域邁出了重要一步
    的頭像 發(fā)表于 01-02 10:55 ?92次閱讀

    ?Banana Pi BPi-M4 Zero 開源硬件開發(fā)板評測試: 全志科技H618 方案設計

    Banana Pi 推出了全志 H618 開發(fā)系統(tǒng)的第二個版本,標記為 V2.0,名稱為 BPi-M4 Zero,采用 Raspberry Pi Zero 格式。不久前,我們寫過BPi-M4
    的頭像 發(fā)表于 12-03 17:58 ?374次閱讀
    ?Banana Pi BPi-M4 <b class='flag-5'>Zero</b> 開源硬件開發(fā)板評測試: 全志科技H618 方案設計

    COT型紋波電路的穩(wěn)定性分析與設計

    電子發(fā)燒友網站提供《COT型紋波電路的穩(wěn)定性分析與設計.pdf》資料免費下載
    發(fā)表于 09-18 11:18 ?0次下載
    <b class='flag-5'>COT</b>型紋波電路的穩(wěn)定性分析與設計

    Multi-Scaler IP的Linux示例以及Debug(上)

    本篇文章介紹了在 ZCU106 上創(chuàng)建 Video Multi-Scaler IP 的 AMD Vivado? Design Tool 和 Petalinux 工程;在 ZCU106 上 Run 生成的 Image,并測試生成的圖像文件,以及常見問題的 Debug。
    的頭像 發(fā)表于 09-18 10:03 ?404次閱讀
    <b class='flag-5'>Multi</b>-Scaler IP的Linux示例以及Debug(上)

    應用COT與Flybuck技術的低成本小功率輔助電源解決方案

    電子發(fā)燒友網站提供《應用COT與Flybuck技術的低成本小功率輔助電源解決方案.pdf》資料免費下載
    發(fā)表于 08-30 11:33 ?0次下載
    應用<b class='flag-5'>COT</b>與Flybuck技術的低成本小功率輔助電源解決方案

    AN-1481在恒定導通時間(COT)調節(jié)器設計中控制輸出紋波并實現(xiàn)ESR獨立性

    電子發(fā)燒友網站提供《AN-1481在恒定導通時間(COT)調節(jié)器設計中控制輸出紋波并實現(xiàn)ESR獨立性.pdf》資料免費下載
    發(fā)表于 08-26 11:40 ?0次下載
    AN-1481在恒定導通時間(<b class='flag-5'>COT</b>)調節(jié)器設計中控制輸出紋波并實現(xiàn)ESR獨立性

    OpenAI收購遠程協(xié)作公司Multi

    近日,人工智能領域的領軍企業(yè)OpenAI再度出手,收購了由前Dropbox產品經理Alexander Embiricos和前谷歌工程師Charley Ho聯(lián)合創(chuàng)辦的遠程協(xié)作公司Multi。這是繼收購Rockset之后,OpenAI在技術研發(fā)和業(yè)務拓展上的又一重要動作。
    的頭像 發(fā)表于 06-26 18:18 ?1037次閱讀

    TE推出的MULTI-BEAM Plus電源連接器具有哪些優(yōu)勢?-赫聯(lián)電子

      TE品牌推出的MULTI-BEAM Plus電源連接器滿足了市場對更高功率和更高性能的需求,其最高每功率電流觸點的最高電流為每觸點140 A,四個相鄰電源觸點的每觸點100A。更高的功率和信號
    發(fā)表于 06-23 17:02

    esp32同時讓wifi和藍牙工作,會出現(xiàn)wifi task看門狗復位的情況怎么解決?

    使用esp32-aliyun sdk的聯(lián)網,配合4.3的SDK來開發(fā),在開啟配網時候加上使用blufi來進行藍牙配網,同時開啟藍牙和wifi時候就會出現(xiàn)wifi task看門狗復位,具體的信息如下
    發(fā)表于 06-21 06:21

    兼容TPS54628DDAR 18V 6A COT同步降壓轉換器

    兼容TPS54628DDAR 18V 6A COT同步降壓轉換器,DTS54628DDAR是一款采用固定導通時間控制技術(COT)的同步降壓轉換器。DTS54628DDAR的主控制環(huán)路采用COT模式
    的頭像 發(fā)表于 06-13 10:59 ?531次閱讀
    兼容TPS54628DDAR 18V 6A <b class='flag-5'>COT</b>同步降壓轉換器

    請問STM32F030K6T6使用DMA的one shot模式采樣AD如何再次啟動?

    我想通過DMA采集ADC數(shù)據(jù),使用的芯片具體型號是STM32F030K6T6,發(fā)現(xiàn)DMA有one shot mode和circular mode。若使用one shot mode則只能觸發(fā)一次
    發(fā)表于 04-10 06:54

    verilog task和function區(qū)別

    verilog中的task和function都是用于實現(xiàn)模塊中的可重復的功能,并且可以接收參數(shù)和返回結果。但是它們在編寫和使用上有一些區(qū)別。下面將詳細介紹task和function的區(qū)別。 語法結構
    的頭像 發(fā)表于 02-22 15:53 ?1117次閱讀

    verilog中function和task的區(qū)別

    在Verilog中,F(xiàn)unction和Task是用于模塊化設計和重用代碼的兩種重要元素。它們允許開發(fā)人員將復雜的操作分解為更小的功能單元,并在需要時調用它們。雖然Function和Task在某些方面
    的頭像 發(fā)表于 02-22 15:40 ?1927次閱讀

    Multi-Channel PCIe QDMA&RDMA IP應用介紹

    基于PCI Express Integrated Block,Multi-Channel PCIe QDMA Subsystem實現(xiàn)了使用DMA地址隊列的獨立多通道、高性能Continous或
    發(fā)表于 02-22 14:34 ?1次下載