0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

有了Fine-tune-CoT方法,小模型也能做推理,完美逆襲大模型

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來源:機(jī)器之心 ? 2023-02-02 16:15 ? 次閱讀

大型語(yǔ)言模型可以用來教小得多的學(xué)生模型如何進(jìn)行一步一步地推理。本文方法顯著提高了小型 (~0.3B 參數(shù)) 模型在一系列任務(wù)上的性能,在許多情況下甚至可以達(dá)到或超過大型模型的性能。

語(yǔ)言模型(LMs)在各種下游任務(wù)中表現(xiàn)出色,這主要?dú)w功于它們通過 Transformer 架構(gòu)(Vaswani et al.,2017)和大量網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)獲得的可擴(kuò)展性。先前的語(yǔ)言模型研究遵循了在大型語(yǔ)料庫(kù)上預(yù)先訓(xùn)練,然后在下游任務(wù)上微調(diào)的范式(Raffel et al.,2020; Devlin et al.,2018)。最近,大型語(yǔ)言模型(LLMs)向人們展示了其上下文泛化能力:通過僅在幾個(gè)上下文樣例或純自然語(yǔ)言任務(wù)描述上調(diào)整就能完成下游任務(wù)(Brown et al.,2020; Sun et al.,2021)。

如果給語(yǔ)言模型生成一些 prompting,它還向人們展示了其解決復(fù)雜任務(wù)的能力。標(biāo)準(zhǔn) prompting 方法,即為使用少樣本的問答對(duì)或零樣本的指令的一系列方法,已經(jīng)被證明不足以解決需要多個(gè)推理步驟的下游任務(wù)(Chowdhery 等,2022)。

但是,最近的研究已經(jīng)證明,通過包含少數(shù)思維鏈(CoT)推理的樣本(Wang 等,2022b)或通過 promp 來讓模型逐步思考的方法(Kojima 等,2022)可以在大型語(yǔ)言模型中促成復(fù)雜的推理能力。

基于 promp 的思維鏈方法的主要缺點(diǎn)是它需要依賴于擁有數(shù)十億參數(shù)的巨大語(yǔ)言模型(Wei et al,2022b;Kojima et al,2022)。由于計(jì)算要求和推理成本過于龐大,這些模型難以大規(guī)模部署(Wei et al,2022b)。因此,來自韓國(guó)科學(xué)技術(shù)院的研究者努力使小型模型能夠進(jìn)行復(fù)雜的推理,以用于實(shí)際應(yīng)用。

有鑒于此,本文提出了一種名為微調(diào)思維鏈的方法,該方法旨在利用非常大的語(yǔ)言模型的思維鏈推理能力來指導(dǎo)小模型解決復(fù)雜任務(wù)。

08425786-a2c3-11ed-bfe3-dac502259ad0.png

論文鏈接:https://arxiv.org/pdf/2212.10071.pdf

項(xiàng)目地址:https://github.com/itsnamgyu/reasoning-teacher

為了詳細(xì)說明,本文應(yīng)用現(xiàn)有的零樣本思維鏈 prompting(Kojima 等人,2022)從非常大的教師模型中生成推理,并使用它們來微調(diào)較小的學(xué)生模型。

0852f578-a2c3-11ed-bfe3-dac502259ad0.png

研究者注意到,與標(biāo)準(zhǔn)的 prompting 類似,對(duì)于訓(xùn)練語(yǔ)言模型來解決復(fù)雜推理的任務(wù)來說,純微調(diào)往往是不夠的。雖然已經(jīng)有人嘗試用規(guī)定好的推理步驟對(duì)小模型進(jìn)行微調(diào)來解決這個(gè)問題,但這些方法需要巨量的推理注釋,而且往往還需要與特定任務(wù)匹配的訓(xùn)練設(shè)置(Nye 等人,2021;Cobbe 等人,2021)。

本文提出的方法,由于基于語(yǔ)言模型的教師具有顯著的零樣本推理能力(Kojima 等人,2022),無需手工制作推理注釋及特定任務(wù)設(shè)置,可以很容易地應(yīng)用于新的下游任務(wù)。從本質(zhì)上講,本文的方法保留了基于 prompting 的思維鏈的多功能性,同時(shí)模型規(guī)模還不是很大。

研究者還對(duì)本文中的方法提出了一種擴(kuò)展,稱為多樣化推理,這種擴(kuò)展方法通過為每個(gè)訓(xùn)練樣本生成多個(gè)推理方案來最大限度地提高對(duì)思維鏈進(jìn)行微調(diào)的教學(xué)效果。具體來說可以通過簡(jiǎn)單的重復(fù)隨機(jī)抽樣來實(shí)現(xiàn)。多樣化推理的動(dòng)機(jī)是,多種推理路徑可以用來解決復(fù)雜的第二類任務(wù)(Evans, 2010)。本文認(rèn)為,這種推理路徑的多樣性以及語(yǔ)言模板的加入可以大大有助于復(fù)雜推理的微調(diào)。

本文使用公開的 GPT-3 模型對(duì)思維鏈微調(diào)和各類任務(wù)及規(guī)模的多樣化推理進(jìn)行了實(shí)證評(píng)估。本文提出的微調(diào)方法在復(fù)雜任務(wù)的小模型中具備明顯的推理性能,而以前基于 prompting 的方法則只具有接近隨機(jī)的性能。

本文表明,在思維鏈微調(diào)方法下的小模型在某些任務(wù)中的表現(xiàn)甚至超過了它們的大模型老師。通過多樣化的推理,研究者發(fā)現(xiàn)維鏈微調(diào)方法的性能是高度可擴(kuò)展的,并且即使在很少的訓(xùn)練例子中也能具備較高的樣本效率和顯著的推理性能。研究者對(duì)思維鏈微調(diào)方法在眾多數(shù)據(jù)集上的表現(xiàn)進(jìn)行了徹底的樣本研究和消融實(shí)驗(yàn),在小模型上證明了其價(jià)值。在此過程中,本文揭示了微調(diào)在思維鏈推理中前作沒有被考慮到的一些重要細(xì)微差別。

方法概覽

本文提出了思維鏈微調(diào)方法,這是一種與下游任務(wù)無關(guān)的方法,可以在小型語(yǔ)言模型中實(shí)現(xiàn)思維鏈推理。該方法的核心思想是使用基于 prompting 的思維鏈方法從非常大的教師模型中生成推理樣本,然后使用生成的樣本對(duì)小型學(xué)生模型進(jìn)行微調(diào)。

這種方法保留了任務(wù)無偏的基于 prompt 思維鏈方法的優(yōu)點(diǎn),同時(shí)克服了其對(duì)過大模型的依賴性。為了最大限度地提高通用性,本文在教師模型上使用了最新的零樣本思維鏈 prompting 方法(Kojima 等人,2022),因?yàn)榇朔椒ú恍枰魏问止ぷ⑨尩耐评斫忉?。作者注意到,本文提出的方法其?shí)并不限于這種教師模型的 prompting 方式。文本將思維鏈微調(diào)方法拆解為三個(gè)步驟,如下圖所示。

086ae4c6-a2c3-11ed-bfe3-dac502259ad0.png

步驟 1—— 推理生成

首先,本文利用一個(gè)大型的教師模型來為一個(gè)給定的任務(wù)生成思維鏈推理解釋。本文定義一個(gè)由問題 Q^i 和其真實(shí)答案 a^i 組成為一個(gè)標(biāo)準(zhǔn)樣本 S^i,然后使用零樣本思維鏈來為教師模型生成一個(gè)推理08a771a2-a2c3-11ed-bfe3-dac502259ad0.png來解決問題 q^i,并生成最終的答案預(yù)測(cè)08b646b4-a2c3-11ed-bfe3-dac502259ad0.png。由此產(chǎn)生的文本序列,包括 prompt 和生成結(jié)果,均采取以下形式

08c3b5c4-a2c3-11ed-bfe3-dac502259ad0.png

第 2 步 —— 整理

為了制備用于微調(diào)的樣本,本文對(duì)生成的樣本進(jìn)行了過濾,并將其重新格式化為 prompt-completion 形式的成對(duì)數(shù)據(jù)。對(duì)于過濾,本文將教師模型的最終預(yù)測(cè)值08b646b4-a2c3-11ed-bfe3-dac502259ad0.png與真實(shí)答案 a^i 進(jìn)行比較,這與之前的一些工作是相同的(Zelikman 等人,2022;Huang 等人,2022)。對(duì)于所有這樣的實(shí)例 i,本文將(S_i ,08a771a2-a2c3-11ed-bfe3-dac502259ad0.png?,?08b646b4-a2c3-11ed-bfe3-dac502259ad0.png)重新打包成一個(gè)推理樣本09004fc0-a2c3-11ed-bfe3-dac502259ad0.png,也就是一個(gè) prompt-completion 形式的成對(duì)數(shù)據(jù)。由于本文提出的方法旨在為特定任務(wù)訓(xùn)練高效的模型,所以使用基于特殊字符的文本格式來盡量減少標(biāo)記的使用。具體來說,p_i 采用「###」的形式,c_i 采用

090e5f66-a2c3-11ed-bfe3-dac502259ad0.png

的形式。作者注意到,基于答案預(yù)測(cè)的過濾并不能確保推理的正確性,特別是對(duì)于可能出現(xiàn)隨機(jī)猜測(cè)的多選題。遺憾的是,以前的工作中這個(gè)問題還沒有得到解決。

步驟 3—— 微調(diào)

最后,本文使用開源的 OpenAI API 在集成的推理樣本上對(duì)一個(gè)小型的預(yù)訓(xùn)練學(xué)生模型進(jìn)行微調(diào)。本文使用與預(yù)訓(xùn)練時(shí)相同的訓(xùn)練目標(biāo),即自回歸語(yǔ)言建模目標(biāo),或者用 token 預(yù)測(cè)(Radford 等人,2018)。

多樣化推理

為了最大限度地提高思維鏈微調(diào)方法的對(duì)樣本的使用效率,本文提出可以為每個(gè)訓(xùn)練樣本生成多種推理解釋,從而增強(qiáng)微調(diào)數(shù)據(jù)。本文將此稱為多樣化推理。詳細(xì)來說,對(duì)于一個(gè)給定的樣本 S_i,本文不是采用貪心解碼策略的零樣本思維鏈方法來獲得單一的「解釋 — 答案」形式的成對(duì)數(shù)據(jù)091b7746-a2c3-11ed-bfe3-dac502259ad0.png,而是采用隨機(jī)抽樣策略,即用 T 代表溫度抽樣,然后獲得 D 批不同的生成數(shù)據(jù)

09288490-a2c3-11ed-bfe3-dac502259ad0.png

。隨后對(duì)推理樣本整理和微調(diào)工作就像上面一樣進(jìn)行。本文把 D 稱為推理的多樣性程度。多樣化推理的動(dòng)機(jī)是,多種推理路徑可以用來解決復(fù)雜的任務(wù),即第二類任務(wù)(Evans, 2010)。

在樣本研究中,研究者確認(rèn)多樣化推理樣本包含各種推理路徑以及語(yǔ)言模板,這一點(diǎn)也可以在細(xì)化的學(xué)生模型中觀察到。這與 Wang 等人(2022b);Zelikman 等人(2022);Huang 等人(2022)的成果類似,多樣化推理路徑被生成并被邊緣化以找到最優(yōu)答案。多樣化推理也與 Yoo 等人(2021)有相似之處,后者利用大模型語(yǔ)言模型的生成能力,合成的樣本來增加訓(xùn)練數(shù)據(jù)。

實(shí)驗(yàn)結(jié)果

下表將思維鏈微調(diào)方法的學(xué)生模型,與現(xiàn)有的對(duì)下游任務(wù)不敏感的方法 —— 零樣本學(xué)習(xí)(Kojima 等人,2022)以及標(biāo)準(zhǔn)的零樣本 prompt 和沒有任何推理的微調(diào)方法進(jìn)行對(duì)比,并記錄了準(zhǔn)確率。

思維鏈微調(diào)在相同的任務(wù)中性能明顯更突出,這顯示出使用較小的模型比零樣本思維鏈方法收益更大。

093aab66-a2c3-11ed-bfe3-dac502259ad0.png

上表還顯示,思維鏈微調(diào)對(duì)小模型非常有效。同樣地,本文還發(fā)現(xiàn)思維鏈微調(diào)在很多任務(wù)中的表現(xiàn)優(yōu)于 vanilla 微調(diào),如上表所示。

下表顯示,多樣化的推理可以顯著提高使用思維鏈微調(diào)的學(xué)生模型的性能。

0951c224-a2c3-11ed-bfe3-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3244

    瀏覽量

    48850
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    524

    瀏覽量

    10277
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2451

    瀏覽量

    2719

原文標(biāo)題:有了Fine-tune-CoT方法,小模型也能做推理,完美逆襲大模型

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    【大語(yǔ)言模型:原理與工程實(shí)踐】揭開大語(yǔ)言模型的面紗

    探索更大、更高效模型架構(gòu)和訓(xùn)練方法的空間。在實(shí)際應(yīng)用中,大語(yǔ)言模型的縮放定律推動(dòng)了自然語(yǔ)言處理等領(lǐng)域的發(fā)展,提升了應(yīng)用效果和用戶體驗(yàn)。此外,縮放定律的發(fā)現(xiàn)
    發(fā)表于 05-04 23:55

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的應(yīng)用

    ,它通過抽象思考和邏輯推理,協(xié)助我們應(yīng)對(duì)復(fù)雜的決策。 相應(yīng)地,我們?cè)O(shè)計(jì)兩類任務(wù)來檢驗(yàn)大語(yǔ)言模型的能力。一類是感性的、無需理性能力的任務(wù),類似于人類的系統(tǒng)1,如情感分析和抽取式問答等。大語(yǔ)言
    發(fā)表于 05-07 17:21

    基于LS-SVM模型的青霉素發(fā)酵軟測(cè)量方法

    針對(duì)青霉素發(fā)酵過程中的某些關(guān)鍵生物參數(shù)(如菌體濃度、基質(zhì)濃度、產(chǎn)物濃度)難以實(shí)時(shí)在線測(cè)量的問題,提出一種基于最小二乘支持向量機(jī)(LS-SVM)模型的軟測(cè)量方法。該方法用具有高斯核函數(shù)
    發(fā)表于 09-19 09:36

    COT控制模型邏輯是怎樣的

    COT控制模型邏輯是怎樣的
    發(fā)表于 03-11 06:25

    用tflite接口調(diào)用tensorflow模型進(jìn)行推理

    摘要本文為系列博客tensorflow模型部署系列的一部分,用于實(shí)現(xiàn)通用模型的部署。本文主要實(shí)現(xiàn)用tflite接口調(diào)用tensorflow模型進(jìn)行推理。相關(guān)源碼見鏈接引言本文為系列博客
    發(fā)表于 12-22 06:51

    【飛凌RK3568開發(fā)板試用體驗(yàn)】RKNN模型推理測(cè)試

    研的人工智能協(xié)處理器NPU,并且提供RKNN-Toolkit。今天就介紹一下如何使用RKNN模型進(jìn)行推理應(yīng)用程序開發(fā)。一、推理應(yīng)用程序的基本流程RKNN 是 瑞芯微(Rockchip
    發(fā)表于 12-08 19:06

    壓縮模型會(huì)加速推理嗎?

    你好我使用 STM32CUBE-AI v5.1.2 ApplicationTemplate 將簡(jiǎn)單的 CNN 導(dǎo)入到 STM32L462RCT我發(fā)現(xiàn)壓縮模型對(duì)推理時(shí)間沒有影響。aiRun 程序在 8
    發(fā)表于 01-29 06:24

    AscendCL快速入門——模型推理篇(上)

    一、概述本文介紹AscendCL模型推理相關(guān)知識(shí),介紹AscendCL接口加載離線模型,為離線模型
    發(fā)表于 08-24 11:04

    使用rk3588多npu推理模型,模型推理時(shí)間還增加了,這怎么解釋

    使用rk3588多npu推理模型,模型推理時(shí)間還增加了,這怎么解釋
    發(fā)表于 11-05 18:22

    HarmonyOS:使用MindSpore Lite引擎進(jìn)行模型推理

    場(chǎng)景介紹 MindSpore Lite 是一款 AI 引擎,它提供面向不同硬件設(shè)備 AI 模型推理的功能,目前已經(jīng)在圖像分類、目標(biāo)識(shí)別、人臉識(shí)別、文字識(shí)別等應(yīng)用中廣泛使用。 本文介紹
    發(fā)表于 12-14 11:41

    全新科學(xué)問答數(shù)據(jù)集ScienceQA讓深度學(xué)習(xí)模型推理思維鏈

    ,即在 GPT-3 模型中引入基于思維鏈的提示學(xué)習(xí),從而使得模型能在生成答案的同時(shí),生成相應(yīng)的推理解釋。GPT-3 (CoT) 在 ScienceQA 上實(shí)現(xiàn)
    的頭像 發(fā)表于 11-01 16:30 ?1366次閱讀

    LLM大模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語(yǔ)言模型)大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個(gè)研究熱點(diǎn),旨在提高模型在處理復(fù)雜任務(wù)時(shí)的效率和響應(yīng)速度。以下是對(duì)LLM大模型
    的頭像 發(fā)表于 07-24 11:38 ?896次閱讀

    Google Gemma 2模型的部署和Fine-Tune演示

    Google 近期發(fā)布最新開放模型 Gemma 2,目前與同等規(guī)模的開放模型相比,取得了明顯的優(yōu)勢(shì),同時(shí)在安全可控性上得到了顯著的增強(qiáng)。
    的頭像 發(fā)表于 08-09 17:04 ?540次閱讀
    Google Gemma 2<b class='flag-5'>模型</b>的部署和<b class='flag-5'>Fine-Tune</b>演示

    FPGA和ASIC在大模型推理加速中的應(yīng)用

    隨著現(xiàn)在AI的快速發(fā)展,使用FPGA和ASIC進(jìn)行推理加速的研究越來越多,從目前的市場(chǎng)來說,有些公司已經(jīng)專門做推理的ASIC,像Gro
    的頭像 發(fā)表于 10-29 14:12 ?452次閱讀
    FPGA和ASIC在大<b class='flag-5'>模型</b><b class='flag-5'>推理</b>加速中的應(yīng)用

    高效大模型推理綜述

    模型推理的文獻(xiàn)進(jìn)行了全面的綜述總結(jié)。首先分析模型推理效率低下的主要原因,即大模型參數(shù)規(guī)模、
    的頭像 發(fā)表于 11-15 11:45 ?390次閱讀
    高效大<b class='flag-5'>模型</b>的<b class='flag-5'>推理</b>綜述