国产精品不卡无码AV在线播放,欧美亚洲图色另类

大型語(yǔ)言模型可以用來教小得多的學(xué)生模型如何進(jìn)行一步一步地推理。本文方法顯著提高了小型 (~0.3B 參數(shù)) 模型在一系列任務(wù)上的性能，在許多情況下甚至可以達(dá)到或超過大型模型的性能。

語(yǔ)言模型（LMs）在各種下游任務(wù)中表現(xiàn)出色，這主要?dú)w功于它們通過 Transformer 架構(gòu)（Vaswani et al.，2017）和大量網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)獲得的可擴(kuò)展性。先前的語(yǔ)言模型研究遵循了在大型語(yǔ)料庫(kù)上預(yù)先訓(xùn)練，然后在下游任務(wù)上微調(diào)的范式（Raffel et al.，2020; Devlin et al.，2018）。最近，大型語(yǔ)言模型（LLMs）向人們展示了其上下文泛化能力：通過僅在幾個(gè)上下文樣例或純自然語(yǔ)言任務(wù)描述上調(diào)整就能完成下游任務(wù)（Brown et al.，2020; Sun et al.，2021）。

如果給語(yǔ)言模型生成一些 prompting，它還向人們展示了其解決復(fù)雜任務(wù)的能力。標(biāo)準(zhǔn) prompting 方法，即為使用少樣本的問答對(duì)或零樣本的指令的一系列方法，已經(jīng)被證明不足以解決需要多個(gè)推理步驟的下游任務(wù)（Chowdhery 等，2022）。

但是，最近的研究已經(jīng)證明，通過包含少數(shù)思維鏈（CoT）推理的樣本（Wang 等，2022b）或通過 promp 來讓模型逐步思考的方法（Kojima 等，2022）可以在大型語(yǔ)言模型中促成復(fù)雜的推理能力。

基于 promp 的思維鏈方法的主要缺點(diǎn)是它需要依賴于擁有數(shù)十億參數(shù)的巨大語(yǔ)言模型（Wei et al，2022b；Kojima et al，2022）。由于計(jì)算要求和推理成本過于龐大，這些模型難以大規(guī)模部署（Wei et al，2022b）。因此，來自韓國(guó)科學(xué)技術(shù)院的研究者努力使小型模型能夠進(jìn)行復(fù)雜的推理，以用于實(shí)際應(yīng)用。

有鑒于此，本文提出了一種名為微調(diào)思維鏈的方法，該方法旨在利用非常大的語(yǔ)言模型的思維鏈推理能力來指導(dǎo)小模型解決復(fù)雜任務(wù)。

論文鏈接：https://arxiv.org/pdf/2212.10071.pdf

項(xiàng)目地址：https://github.com/itsnamgyu/reasoning-te acher

為了詳細(xì)說明，本文應(yīng)用現(xiàn)有的零樣本思維鏈 prompting（Kojima 等人，2022）從非常大的教師模型中生成推理，并使用它們來微調(diào)較小的學(xué)生模型。

研究者注意到，與標(biāo)準(zhǔn)的 prompting 類似，對(duì)于訓(xùn)練語(yǔ)言模型來解決復(fù)雜推理的任務(wù)來說，純微調(diào)往往是不夠的。雖然已經(jīng)有人嘗試用規(guī)定好的推理步驟對(duì)小模型進(jìn)行微調(diào)來解決這個(gè)問題，但這些方法需要巨量的推理注釋，而且往往還需要與特定任務(wù)匹配的訓(xùn)練設(shè)置（Nye 等人，2021；Cobbe 等人，2021）。

本文提出的方法，由于基于語(yǔ)言模型的教師具有顯著的零樣本推理能力（Kojima 等人，2022），無需手工制作推理注釋及特定任務(wù)設(shè)置，可以很容易地應(yīng)用于新的下游任務(wù)。從本質(zhì)上講，本文的方法保留了基于 prompting 的思維鏈的多功能性，同時(shí)模型規(guī)模還不是很大。

研究者還對(duì)本文中的方法提出了一種擴(kuò)展，稱為多樣化推理，這種擴(kuò)展方法通過為每個(gè)訓(xùn)練樣本生成多個(gè)推理方案來最大限度地提高對(duì)思維鏈進(jìn)行微調(diào)的教學(xué)效果。具體來說可以通過簡(jiǎn)單的重復(fù)隨機(jī)抽樣來實(shí)現(xiàn)。多樣化推理的動(dòng)機(jī)是，多種推理路徑可以用來解決復(fù)雜的第二類任務(wù)（Evans, 2010）。本文認(rèn)為，這種推理路徑的多樣性以及語(yǔ)言模板的加入可以大大有助于復(fù)雜推理的微調(diào)。

本文使用公開的 GPT-3 模型對(duì)思維鏈微調(diào)和各類任務(wù)及規(guī)模的多樣化推理進(jìn)行了實(shí)證評(píng)估。本文提出的微調(diào)方法在復(fù)雜任務(wù)的小模型中具備明顯的推理性能，而以前基于 prompting 的方法則只具有接近隨機(jī)的性能。

本文表明，在思維鏈微調(diào)方法下的小模型在某些任務(wù)中的表現(xiàn)甚至超過了它們的大模型老師。通過多樣化的推理，研究者發(fā)現(xiàn)維鏈微調(diào)方法的性能是高度可擴(kuò)展的，并且即使在很少的訓(xùn)練例子中也能具備較高的樣本效率和顯著的推理性能。研究者對(duì)思維鏈微調(diào)方法在眾多數(shù)據(jù)集上的表現(xiàn)進(jìn)行了徹底的樣本研究和消融實(shí)驗(yàn)，在小模型上證明了其價(jià)值。在此過程中，本文揭示了微調(diào)在思維鏈推理中前作沒有被考慮到的一些重要細(xì)微差別。

方法概覽

本文提出了思維鏈微調(diào)方法，這是一種與下游任務(wù)無關(guān)的方法，可以在小型語(yǔ)言模型中實(shí)現(xiàn)思維鏈推理。該方法的核心思想是使用基于 prompting 的思維鏈方法從非常大的教師模型中生成推理樣本，然后使用生成的樣本對(duì)小型學(xué)生模型進(jìn)行微調(diào)。

這種方法保留了任務(wù)無偏的基于 prompt 思維鏈方法的優(yōu)點(diǎn)，同時(shí)克服了其對(duì)過大模型的依賴性。為了最大限度地提高通用性，本文在教師模型上使用了最新的零樣本思維鏈 prompting 方法（Kojima 等人，2022），因?yàn)榇朔椒ú恍枰魏问止ぷ⑨尩耐评斫忉?。作者注意到，本文提出的方法其?shí)并不限于這種教師模型的 prompting 方式。文本將思維鏈微調(diào)方法拆解為三個(gè)步驟，如下圖所示。

步驟 1—— 推理生成

首先，本文利用一個(gè)大型的教師模型來為一個(gè)給定的任務(wù)生成思維鏈推理解釋。本文定義一個(gè)由問題 Q^i 和其真實(shí)答案 a^i 組成為一個(gè)標(biāo)準(zhǔn)樣本 S^i，然后使用零樣本思維鏈來為教師模型生成一個(gè)推理來解決問題 q^i，并生成最終的答案預(yù)測(cè)。由此產(chǎn)生的文本序列，包括 prompt 和生成結(jié)果，均采取以下形式

第 2 步 —— 整理

為了制備用于微調(diào)的樣本，本文對(duì)生成的樣本進(jìn)行了過濾，并將其重新格式化為 prompt-completion 形式的成對(duì)數(shù)據(jù)。對(duì)于過濾，本文將教師模型的最終預(yù)測(cè)值與真實(shí)答案 a^i 進(jìn)行比較，這與之前的一些工作是相同的（Zelikman 等人，2022；Huang 等人，2022）。對(duì)于所有這樣的實(shí)例 i，本文將（S_i ,?,?）重新打包成一個(gè)推理樣本，也就是一個(gè) prompt-completion 形式的成對(duì)數(shù)據(jù)。由于本文提出的方法旨在為特定任務(wù)訓(xùn)練高效的模型，所以使用基于特殊字符的文本格式來盡量減少標(biāo)記的使用。具體來說，p_i 采用「###」的形式，c_i 采用

的形式。作者注意到，基于答案預(yù)測(cè)的過濾并不能確保推理的正確性，特別是對(duì)于可能出現(xiàn)隨機(jī)猜測(cè)的多選題。遺憾的是，以前的工作中這個(gè)問題還沒有得到解決。

步驟 3—— 微調(diào)

最后，本文使用開源的 OpenAI API 在集成的推理樣本上對(duì)一個(gè)小型的預(yù)訓(xùn)練學(xué)生模型進(jìn)行微調(diào)。本文使用與預(yù)訓(xùn)練時(shí)相同的訓(xùn)練目標(biāo)，即自回歸語(yǔ)言建模目標(biāo)，或者用 token 預(yù)測(cè)（Radford 等人，2018）。

多樣化推理

為了最大限度地提高思維鏈微調(diào)方法的對(duì)樣本的使用效率，本文提出可以為每個(gè)訓(xùn)練樣本生成多種推理解釋，從而增強(qiáng)微調(diào)數(shù)據(jù)。本文將此稱為多樣化推理。詳細(xì)來說，對(duì)于一個(gè)給定的樣本 S_i，本文不是采用貪心解碼策略的零樣本思維鏈方法來獲得單一的「解釋 — 答案」形式的成對(duì)數(shù)據(jù)，而是采用隨機(jī)抽樣策略，即用 T 代表溫度抽樣，然后獲得 D 批不同的生成數(shù)據(jù)

。隨后對(duì)推理樣本整理和微調(diào)工作就像上面一樣進(jìn)行。本文把 D 稱為推理的多樣性程度。多樣化推理的動(dòng)機(jī)是，多種推理路徑可以用來解決復(fù)雜的任務(wù)，即第二類任務(wù)（Evans, 2010）。

在樣本研究中，研究者確認(rèn)多樣化推理樣本包含各種推理路徑以及語(yǔ)言模板，這一點(diǎn)也可以在細(xì)化的學(xué)生模型中觀察到。這與 Wang 等人（2022b）；Zelikman 等人（2022）；Huang 等人（2022）的成果類似，多樣化推理路徑被生成并被邊緣化以找到最優(yōu)答案。多樣化推理也與 Yoo 等人（2021）有相似之處，后者利用大模型語(yǔ)言模型的生成能力，合成的樣本來增加訓(xùn)練數(shù)據(jù)。

實(shí)驗(yàn)結(jié)果

下表將思維鏈微調(diào)方法的學(xué)生模型，與現(xiàn)有的對(duì)下游任務(wù)不敏感的方法 —— 零樣本學(xué)習(xí)（Kojima 等人，2022）以及標(biāo)準(zhǔn)的零樣本 prompt 和沒有任何推理的微調(diào)方法進(jìn)行對(duì)比，并記錄了準(zhǔn)確率。

思維鏈微調(diào)在相同的任務(wù)中性能明顯更突出，這顯示出使用較小的模型比零樣本思維鏈方法收益更大。

上表還顯示，思維鏈微調(diào)對(duì)小模型非常有效。同樣地，本文還發(fā)現(xiàn)思維鏈微調(diào)在很多任務(wù)中的表現(xiàn)優(yōu)于 vanilla 微調(diào)，如上表所示。

下表顯示，多樣化的推理可以顯著提高使用思維鏈微調(diào)的學(xué)生模型的性能。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

模型

模型

+關(guān)注

關(guān)注
1

文章
3244

瀏覽量
48850
語(yǔ)言模型

語(yǔ)言模型

+關(guān)注

關(guān)注
0

文章
524

瀏覽量
10277
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2451

瀏覽量
2719

原文標(biāo)題：有了Fine-tune-CoT方法，小模型也能做推理，完美逆襲大模型

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

【大語(yǔ)言模型：原理與工程實(shí)踐】揭開大語(yǔ)言模型的面紗

了探索更大、更高效模型架構(gòu)和訓(xùn)練方法的空間。在實(shí)際應(yīng)用中，大語(yǔ)言模型的縮放定律推動(dòng)了自然語(yǔ)言處理等領(lǐng)域的發(fā)展，提升了應(yīng)用效果和用戶體驗(yàn)。此外，縮放定律的發(fā)現(xiàn)

發(fā)表于 05-04 23:55

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的應(yīng)用

，它通過抽象思考和邏輯推理，協(xié)助我們應(yīng)對(duì)復(fù)雜的決策。相應(yīng)地，我們?cè)O(shè)計(jì)了兩類任務(wù)來檢驗(yàn)大語(yǔ)言模型的能力。一類是感性的、無需理性能力的任務(wù)，類似于人類的系統(tǒng)1，如情感分析和抽取式問答等。大語(yǔ)言

發(fā)表于 05-07 17:21

基于LS-SVM逆模型的青霉素發(fā)酵軟測(cè)量方法

針對(duì)青霉素發(fā)酵過程中的某些關(guān)鍵生物參數(shù)(如菌體濃度、基質(zhì)濃度、產(chǎn)物濃度)難以實(shí)時(shí)在線測(cè)量的問題，提出一種基于最小二乘支持向量機(jī)（LS-SVM）逆模型的軟測(cè)量方法。該方法用具有高斯核函數(shù)

發(fā)表于 09-19 09:36

COT控制模型邏輯是怎樣的

COT控制模型邏輯是怎樣的

發(fā)表于 03-11 06:25

用tflite接口調(diào)用tensorflow模型進(jìn)行推理

摘要本文為系列博客tensorflow模型部署系列的一部分，用于實(shí)現(xiàn)通用模型的部署。本文主要實(shí)現(xiàn)用tflite接口調(diào)用tensorflow模型進(jìn)行推理。相關(guān)源碼見鏈接引言本文為系列博客

發(fā)表于 12-22 06:51

【飛凌RK3568開發(fā)板試用體驗(yàn)】RKNN模型推理測(cè)試

研的人工智能協(xié)處理器NPU，并且提供了RKNN-Toolkit。今天就介紹一下如何使用RKNN模型進(jìn)行推理應(yīng)用程序開發(fā)。一、推理應(yīng)用程序的基本流程RKNN 是瑞芯微（Rockchip

發(fā)表于 12-08 19:06

壓縮模型會(huì)加速推理嗎？

你好我使用 STM32CUBE-AI v5.1.2 ApplicationTemplate 將簡(jiǎn)單的 CNN 導(dǎo)入到 STM32L462RCT我發(fā)現(xiàn)壓縮模型對(duì)推理時(shí)間沒有影響。aiRun 程序在 8

發(fā)表于 01-29 06:24

AscendCL快速入門——模型推理篇（上）

一、概述本文介紹了AscendCL模型推理相關(guān)知識(shí)，介紹了AscendCL接口加載離線模型，為離線模型

發(fā)表于 08-24 11:04

使用rk3588多npu推理模型，模型總推理時(shí)間還增加了，這怎么解釋

使用rk3588多npu推理模型，模型總推理時(shí)間還增加了，這怎么解釋

發(fā)表于 11-05 18:22

HarmonyOS：使用MindSpore Lite引擎進(jìn)行模型推理

場(chǎng)景介紹 MindSpore Lite 是一款 AI 引擎，它提供了面向不同硬件設(shè)備 AI 模型推理的功能，目前已經(jīng)在圖像分類、目標(biāo)識(shí)別、人臉識(shí)別、文字識(shí)別等應(yīng)用中廣泛使用。本文介紹

發(fā)表于 12-14 11:41

全新科學(xué)問答數(shù)據(jù)集ScienceQA讓深度學(xué)習(xí)模型推理有了思維鏈

，即在 GPT-3 模型中引入基于思維鏈的提示學(xué)習(xí)，從而使得模型能在生成答案的同時(shí)，生成相應(yīng)的推理解釋。GPT-3 (CoT) 在 ScienceQA 上實(shí)現(xiàn)

發(fā)表于 11-01 16:30 ?1366次閱讀

LLM大模型推理加速的關(guān)鍵技術(shù)

LLM（大型語(yǔ)言模型）大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個(gè)研究熱點(diǎn)，旨在提高模型在處理復(fù)雜任務(wù)時(shí)的效率和響應(yīng)速度。以下是對(duì)LLM大模型

發(fā)表于 07-24 11:38 ?896次閱讀

Google Gemma 2模型的部署和Fine-Tune演示

Google 近期發(fā)布了最新開放模型 Gemma 2，目前與同等規(guī)模的開放模型相比，取得了明顯的優(yōu)勢(shì)，同時(shí)在安全可控性上得到了顯著的增強(qiáng)。

發(fā)表于 08-09 17:04 ?540次閱讀

FPGA和ASIC在大模型推理加速中的應(yīng)用

隨著現(xiàn)在AI的快速發(fā)展，使用FPGA和ASIC進(jìn)行推理加速的研究也越來越多，從目前的市場(chǎng)來說，有些公司已經(jīng)有了專門做推理的ASIC，像Gro

發(fā)表于 10-29 14:12 ?452次閱讀

高效大模型的推理綜述

大模型推理的文獻(xiàn)進(jìn)行了全面的綜述總結(jié)。首先分析了大模型推理效率低下的主要原因，即大模型參數(shù)規(guī)模、

發(fā)表于 11-15 11:45 ?390次閱讀

搜索歷史

有了Fine-tune-CoT方法，小模型也能做推理，完美逆襲大模型

評(píng)論

【大語(yǔ)言模型：原理與工程實(shí)踐】揭開大語(yǔ)言模型的面紗

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的應(yīng)用

基于LS-SVM逆模型的青霉素發(fā)酵軟測(cè)量方法

COT控制模型邏輯是怎樣的

用tflite接口調(diào)用tensorflow模型進(jìn)行推理

【飛凌RK3568開發(fā)板試用體驗(yàn)】RKNN模型推理測(cè)試

壓縮模型會(huì)加速推理嗎？

AscendCL快速入門——模型推理篇（上）

使用rk3588多npu推理模型，模型總推理時(shí)間還增加了，這怎么解釋

HarmonyOS：使用MindSpore Lite引擎進(jìn)行模型推理

全新科學(xué)問答數(shù)據(jù)集ScienceQA讓深度學(xué)習(xí)模型推理有了思維鏈

LLM大模型推理加速的關(guān)鍵技術(shù)

Google Gemma 2模型的部署和Fine-Tune演示

FPGA和ASIC在大模型推理加速中的應(yīng)用

高效大模型的推理綜述

搜索歷史

有了Fine-tune-CoT方法，小模型也能做推理，完美逆襲大模型

評(píng)論

有了Fine-tune-CoT方法，小模型也能做推理，完美逆襲大模型