久久五月丁香合缴情网,亚洲中文字幕乱码av波多ji

在近日舉辦的微軟開(kāi)發(fā)者大會(huì) Microsoft Build 2023 上，OpenAI 聯(lián)合創(chuàng)始人 Andrej Karpathy 做了一個(gè)題為《State of GPT》演講，其中他首先直觀地介紹了 GPT 的訓(xùn)練流程的各個(gè)階段，然后展示了如何使用 GPT 來(lái)完成任務(wù)并給出了直觀的示例，最后他還給出了一些非常具有實(shí)際意義的使用建議。機(jī)器之心詳細(xì)整理了該演講，以饗讀者。

如何訓(xùn)練 GPT？

首先，我們概括性地看看 GPT 大模型的訓(xùn)練流程。要記住，這是個(gè)新領(lǐng)域，變化很快?，F(xiàn)在的流程是這樣，以后新技術(shù)出現(xiàn)時(shí)可能會(huì)不一樣。

可以看到，GPT 的訓(xùn)練流程可粗略分為四個(gè)階段：預(yù)訓(xùn)練、監(jiān)督式微調(diào)、獎(jiǎng)勵(lì)建模、強(qiáng)化學(xué)習(xí)。

這四個(gè)階段按順序進(jìn)行。每個(gè)階段都有各自的數(shù)據(jù)集，每個(gè)階段也有各自用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的算法。第三行是所得到的模型。最后底部有一些備注信息。

在所有階段中，預(yù)訓(xùn)練階段所需的計(jì)算量是最大的，可以說(shuō) 99% 的訓(xùn)練計(jì)算時(shí)間和浮點(diǎn)運(yùn)算量都集中在這個(gè)階段。因?yàn)檫@一階段需要處理超大規(guī)模的互聯(lián)網(wǎng)數(shù)據(jù)集，可能需要數(shù)千 GPU 構(gòu)成的超級(jí)計(jì)算機(jī)工作幾個(gè)月時(shí)間。其它三個(gè)階段都算是微調(diào)（fine tuning）階段，所需的 GPU 數(shù)量和訓(xùn)練時(shí)間都少得多。

下面我們將分階段詳解 GPT 的整個(gè)訓(xùn)練流程。

預(yù)訓(xùn)練階段

預(yù)訓(xùn)練階段的目標(biāo)是得到一個(gè)基礎(chǔ)模型。

首先第一步：數(shù)據(jù)收集。這一階段需要海量的數(shù)據(jù)，下面給出了一個(gè)例子，這是來(lái)自 Meta 的 LLaMA 模型的數(shù)據(jù)混合（data mixture）方法：

可以看到，LLaMA 的預(yù)訓(xùn)練數(shù)據(jù)按不同比例混用了多個(gè)不同類(lèi)型的數(shù)據(jù)集，其中比例最大的是爬取自互聯(lián)網(wǎng)的 CommonCrawl 以及基于 CommonCrawl 構(gòu)建的 C4，此外還有 GitHub、維基百科等數(shù)據(jù)集。

收集到這些數(shù)據(jù)之后，還需要對(duì)它們進(jìn)行預(yù)處理，這一步也被稱(chēng)為「token 化」。簡(jiǎn)單來(lái)說(shuō)，這就是一個(gè)轉(zhuǎn)譯過(guò)程，即把原始文本轉(zhuǎn)譯成某種整數(shù)序列，因?yàn)檫@種整數(shù)序列就是 GPT 實(shí)際工作時(shí)所操作的本地表征。

這種從文本到 token 和整數(shù)的轉(zhuǎn)譯過(guò)程是無(wú)損的，而具體執(zhí)行這一過(guò)程的算法有好幾種。舉個(gè)例子，如上圖所示，我們可以使用一種名為字節(jié)對(duì)編碼（byte pair encoding）的技術(shù)，其工作方式是迭代式地合并短文本塊并將它們分組成 token。最后實(shí)際輸入 Transformer 的就是那些整數(shù)序列。

下面來(lái)看兩個(gè)示例模型 GPT-3 和 LLaMA 在預(yù)訓(xùn)練階段需要考慮的一些主要的超參數(shù)。Karpathy 表示由于他們還沒(méi)有發(fā)布有關(guān) GPT-4 的相關(guān)信息，因此在演講中使用了 GPT-3 的數(shù)據(jù)。

可以看到，詞匯庫(kù)的大小通常是 10000 數(shù)量級(jí)的；上下文長(zhǎng)度通常為 2000 或 4000 左右，而現(xiàn)在更是有長(zhǎng)達(dá) 10 萬(wàn)的。上下文長(zhǎng)度決定著 GPT 在預(yù)測(cè)序列的下一個(gè)整數(shù)時(shí)所查看的最大整數(shù)數(shù)量。

對(duì)于參數(shù)數(shù)量，可以看到 GPT-3 的為 1750 億，而 LLaMA 的為 650 億，但實(shí)際上 LLaMA 的性能表現(xiàn)遠(yuǎn)勝于 GPT-3。原因何在？因?yàn)?LLaMA 訓(xùn)練的 token 要長(zhǎng)得多，達(dá)到了 1.4 萬(wàn)億，而 GPT-3 僅有大約 3000 億。因此，評(píng)價(jià)一個(gè)模型時(shí)，光看參數(shù)數(shù)量是不夠的。

上圖中部的表格中給出了 Transformer 神經(jīng)網(wǎng)絡(luò)中一些需要設(shè)定的超參數(shù)，比如頭的數(shù)量、維度大小、學(xué)習(xí)率、層數(shù)等等。

下方則是一些訓(xùn)練超參數(shù)；比如為了訓(xùn)練 650 億參數(shù)的 LLaMA 模型，Meta 使用 2000 個(gè) GPU 訓(xùn)練了大約 21 天，資金成本大約為 500 萬(wàn)美元。這大概能體現(xiàn)出預(yù)訓(xùn)練階段各項(xiàng)成本的數(shù)量級(jí)。

接下來(lái)看實(shí)際的預(yù)訓(xùn)練過(guò)程究竟會(huì)發(fā)生什么。大致來(lái)說(shuō)，首先會(huì)把 token 分批組成 data batch。這些分配數(shù)據(jù)構(gòu)成數(shù)組，再被輸入到 Transformer 中。這些數(shù)組的大小為 B×T；其中 B 是分批大小，即堆疊的獨(dú)立樣本的行數(shù)；T 是最大上下文長(zhǎng)度。下圖給出了一個(gè)示例。

在圖中示例中，上下文長(zhǎng)度 T 僅為 10，但實(shí)際模型的 T 可達(dá)到 2000 或 4000 乃至更長(zhǎng)。也就是說(shuō)，實(shí)際模型的一行數(shù)據(jù)可以非常長(zhǎng)，比如一整個(gè)文檔。我們可以將許多文檔打包到各行中，并用這些特殊的文本結(jié)束 token <|endoftext|> 來(lái)分隔它們。簡(jiǎn)單來(lái)說(shuō)，這些 token 是告訴 Transformer 新文檔開(kāi)始的位置。比如圖中的 4 行文檔就轉(zhuǎn)換成了底部的 4×10 的數(shù)組。

現(xiàn)在，需要將這些數(shù)字輸入到 Transformer。這里我們僅看其中一個(gè)單元格（綠色），而實(shí)際上每個(gè)單元格都會(huì)經(jīng)歷同樣的處理流程。

這個(gè)綠色單元格會(huì)查看其之前的所有 token，即所有黃色單元格的 token。我們要將這里的全部上文輸入到 Transformer 神經(jīng)網(wǎng)絡(luò)，Transformer 則需要預(yù)測(cè)出該序列的下一個(gè) token，即圖中的紅色 token。

為了給出準(zhǔn)確的預(yù)測(cè)，神經(jīng)網(wǎng)絡(luò)需要調(diào)整其上百億個(gè)參數(shù)。每次調(diào)整后，神經(jīng)網(wǎng)絡(luò)對(duì)每個(gè)單元格 token 的預(yù)測(cè)分布就會(huì)不同。舉個(gè)例子，如果詞匯庫(kù)的大小為 50257 個(gè) token，那么我們就需要同樣多的數(shù)字，以便得到下一個(gè) token 的概率分布，其預(yù)測(cè)了下一個(gè) token 的可能值及相應(yīng)概率。

在圖中的示例中，下一個(gè)單元格應(yīng)該是 513，因此就可以將其用作監(jiān)督源來(lái)更新 Transformer 的權(quán)重。我們可以并行地對(duì)每個(gè)單元格采取同樣的操作。我們不斷更換數(shù)據(jù)批，努力讓 Transformer 有能力正確地預(yù)測(cè)序列的下一個(gè) token。

下面再看一個(gè)更具體的示例。這是《紐約時(shí)報(bào)》用莎士比亞作品訓(xùn)練的一個(gè)小型 GPT。這里給出了莎士比亞作品中的一小段以及在其上訓(xùn)練 GPT 的情況。

首先，在 GPT 初始化時(shí)，權(quán)重是完全隨機(jī)的，所以其輸出結(jié)果也是完全隨機(jī)的。隨著時(shí)間推移，訓(xùn)練時(shí)間越來(lái)越長(zhǎng)，GPT 不斷迭代，模型給出的結(jié)果樣本也就越來(lái)越連貫通順了。最后，可以看到 Transformer 學(xué)到了一些有關(guān)詞的東西，也知道應(yīng)該在哪些地方放置空格了。

在實(shí)際預(yù)訓(xùn)練過(guò)程中，要通過(guò)一些量化指標(biāo)來(lái)確定模型迭代中的表現(xiàn)變化。一般來(lái)說(shuō)，研究者監(jiān)測(cè)是損失函數(shù)。損失低說(shuō)明 Transformer 更可能給出正確預(yù)測(cè)，即序列中下一個(gè)整數(shù)是正確值的概率更高。

預(yù)訓(xùn)練其實(shí)就是一個(gè)語(yǔ)言建模過(guò)程，這個(gè)過(guò)程的訓(xùn)練時(shí)間可長(zhǎng)達(dá)一個(gè)月。之后，GPT 學(xué)到了一個(gè)非常強(qiáng)大的通用型語(yǔ)言表征。然后我們可以針對(duì)具體的下游任務(wù)高效地對(duì)其進(jìn)行微調(diào)。

舉個(gè)例子，如果下游任務(wù)是情緒分類(lèi)。過(guò)去，你采用的方法可能是收集大量標(biāo)注好「正面」或「負(fù)面」情緒的樣本，然后訓(xùn)練一個(gè) NLP 模型。但現(xiàn)在的新方法不需要預(yù)先做情緒分類(lèi)了，你只需要拿一個(gè)預(yù)訓(xùn)練過(guò)的大型語(yǔ)言模型，然后只需要少量示例樣本，就能非常高效地針對(duì)你的具體任務(wù)對(duì)模型進(jìn)行微調(diào)。

這對(duì)實(shí)際應(yīng)用來(lái)說(shuō)非常有用。那么為什么預(yù)訓(xùn)練后的大型語(yǔ)言模型（LLM）只需要簡(jiǎn)單微調(diào)就能用呢？這是因?yàn)檎Z(yǔ)言建模過(guò)程本身就已經(jīng)涵蓋了大量任務(wù) —— 模型為了預(yù)測(cè)下一個(gè) token，必須理解文本的結(jié)構(gòu)以及其中內(nèi)含的各種不同概念。

這就是 GPT-1。

現(xiàn)在來(lái)看 GPT-2。人們注意到 GPT-2 甚至可以不用微調(diào)就能非常有效地讓這些模型執(zhí)行 prompt。這些語(yǔ)言模型的訓(xùn)練目標(biāo)是完成文檔，因此用戶(hù)實(shí)際上只需通過(guò)編排適當(dāng)?shù)奶摷傥臋n，就可以誘導(dǎo)模型執(zhí)行具體任務(wù)。下面給出了一個(gè)例子。

其中給出了一篇文章，用戶(hù)想完成的任務(wù)是做相關(guān)的問(wèn)答。因此，只需要在文章后面加幾個(gè)有答案的問(wèn)答（這被稱(chēng)為 few-shot prompt），然后再提問(wèn)，那么由于 Transformer 的目標(biāo)是完成這個(gè)文檔，也就相當(dāng)于回答了問(wèn)題。這個(gè)例子是用 prompt 來(lái)調(diào)教基礎(chǔ)模型，使其相信它在模仿一個(gè)文檔，結(jié)果卻完成了問(wèn)答任務(wù)。

Karpathy 認(rèn)為，以提供 prompt 替代微調(diào)的方式昭示著大型語(yǔ)言模型的新時(shí)代。這讓基礎(chǔ)模型本身就足以應(yīng)對(duì)許多不同類(lèi)型的任務(wù)。

也因此，相關(guān)領(lǐng)域的研究前沿就轉(zhuǎn)向了基礎(chǔ)模型的進(jìn)化。各大研究機(jī)構(gòu)和企業(yè)都在打造自己的基礎(chǔ)大模型。不過(guò)這些模型并不都是公開(kāi)可用的，比如 OpenAI 一直沒(méi)有發(fā)布 GPT-4 基礎(chǔ)模型。我們通過(guò) API 調(diào)用的 GPT-4 模型其實(shí)并不是基礎(chǔ)模型，而是一個(gè)助理模型（assistant model）。

GPT-3 基礎(chǔ)模型可通過(guò) DaVinci API 使用，GPT-2 基礎(chǔ)模型也是公開(kāi)的，用戶(hù)甚至可以在 GitHub 上找到其參數(shù)權(quán)重配置：https://github.com/openai/gpt-2 。不過(guò)總體而言，目前最開(kāi)放的基礎(chǔ)模型還是 Meta 的 LLaMA 系列模型，但該系列也沒(méi)有授權(quán)給商業(yè)使用。

現(xiàn)在需要指出一點(diǎn)：基礎(chǔ)模型不等于助理模型?；A(chǔ)模型不會(huì)回答用戶(hù)提問(wèn)，它們只會(huì)完成文檔。所以如果你對(duì)基礎(chǔ)模型說(shuō)：「寫(xiě)一首關(guān)于面包和奶酪的詩(shī)」，你可能不會(huì)如愿 —— 它只會(huì)把你的要求看成一個(gè)文檔，然后試圖完成它。

但是，你可以通過(guò)適當(dāng)?shù)?prompt 誘導(dǎo)基礎(chǔ)模型寫(xiě)詩(shī)，如上圖右側(cè)所示。

當(dāng)然，你也可以誘導(dǎo)模型變成助理。為此，你需要?jiǎng)?chuàng)建一些特定的少樣本 prompt，使其看起來(lái)像是人類(lèi)與助理交換信息的交互過(guò)程的文檔。如下圖所示，然后你只需要在文檔結(jié)尾處附上你的提問(wèn)，基礎(chǔ)模型就能在一定程度上化身為一個(gè)有用的助理，給出某個(gè)答案。但這個(gè)過(guò)程并不非?？煽浚瑢?shí)踐效果也不好。

因此，為了打造出真正的 GPT 助理，需要另外的方法，即監(jiān)督式微調(diào)（supervised fine tuning，即 SFT）。

監(jiān)督式微調(diào)階段

在監(jiān)督式微調(diào)階段，需要收集少量但高質(zhì)量的數(shù)據(jù)集。OpenAI 的方法是以人工方式收集由 prompt 和理想響應(yīng)構(gòu)成的數(shù)據(jù)。這些數(shù)據(jù)需要不少，一般需要幾萬(wàn)個(gè)。

然后，繼續(xù)在這些數(shù)據(jù)上執(zhí)行語(yǔ)言建模。算法不變，只是換了訓(xùn)練數(shù)據(jù)集：從大量低質(zhì)量的互聯(lián)網(wǎng)文檔換成了少量高質(zhì)量的問(wèn)答式「prompt - 響應(yīng)」數(shù)據(jù)。

這個(gè)訓(xùn)練過(guò)程完成后，就得到了一個(gè) SFT 模型。部署這些模型就能得到助理，它們已經(jīng)能完成一定程度的工作。

依然來(lái)看個(gè)例子。這是人類(lèi)合同工寫(xiě)出的數(shù)據(jù)，其中有一個(gè) prompt，然后人類(lèi)再寫(xiě)出理想的響應(yīng)。

理想的響應(yīng)自然不能讓人隨意發(fā)揮，而是需要遵循許多規(guī)則（如上右圖），其中有格式上的要求并且要保證給出的答案有用、真實(shí)可信且無(wú)害。

接下來(lái)還需要基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)（RLHF），其中包含獎(jiǎng)勵(lì)建模階段和強(qiáng)化學(xué)習(xí)階段。

獎(jiǎng)勵(lì)建模階段

在這一階段，需要將數(shù)據(jù)收集轉(zhuǎn)變成比較的形式。這里給出了一個(gè)示例。對(duì)于同樣的 prompt，即要求助理寫(xiě)一個(gè)能檢查給定字符串是否為回文的程序或函數(shù)。再使用已經(jīng)訓(xùn)練好的 SFT 模型生成多個(gè)結(jié)果，這里給出了三個(gè)。然后再讓人類(lèi)給這些結(jié)果排名。

這件事做起來(lái)可并不簡(jiǎn)單，畢竟要是讓人類(lèi)來(lái)完成一個(gè) prompt，可能需要耗費(fèi)幾個(gè)小時(shí)時(shí)間?，F(xiàn)在假設(shè)排名完成了，然后就需要在這些結(jié)果的所有可能配對(duì)上執(zhí)行類(lèi)似二元分類(lèi)的操作。

如下圖所示，具體的做法是這樣的：將 prompt 按行排列；這里的三行 prompt 是一樣的，但完成的結(jié)果不同，即圖中黃色 token（來(lái)自 SFT 模型）。然后在其后添加一個(gè)特殊的獎(jiǎng)勵(lì)讀出 token。這樣，只需要在綠色 token 位置對(duì) Transformer 執(zhí)行監(jiān)督，就能使 Transformer 預(yù)測(cè)出某個(gè)獎(jiǎng)勵(lì)，從而判斷 prompt 的完成結(jié)果是否優(yōu)良。

這基本上就是讓 Transformer 猜測(cè)每個(gè)完成結(jié)果的質(zhì)量。當(dāng)其猜測(cè)完每個(gè)不同結(jié)果的質(zhì)量后，開(kāi)發(fā)者就可以動(dòng)用已有的基本真值（ground truth）強(qiáng)行讓某些結(jié)果的質(zhì)量分?jǐn)?shù)高于其它結(jié)果，從而使模型的獎(jiǎng)勵(lì)預(yù)測(cè)結(jié)果與人工給出的基本真值保持一致。這個(gè)過(guò)程可以通過(guò)一個(gè)損失函數(shù)完成。

有了獎(jiǎng)勵(lì)模型之后，GPT 依然還不能成為一個(gè)有用的助理，但獎(jiǎng)勵(lì)模型卻對(duì)后面的強(qiáng)化學(xué)習(xí)階段很有用，因?yàn)楠?jiǎng)勵(lì)模型可以評(píng)估任意給定 prompt 的任意完成結(jié)果的質(zhì)量。

強(qiáng)化學(xué)習(xí)階段

強(qiáng)化學(xué)習(xí)階段做的事情就是基于獎(jiǎng)勵(lì)模型，使用強(qiáng)化學(xué)習(xí)算法對(duì)大量 prompt 對(duì)應(yīng)的結(jié)果進(jìn)行評(píng)分。

這里以一個(gè) prompt 為例，將 SFT 模型完成的結(jié)果（黃色）排列成行，然后在后面加上獎(jiǎng)勵(lì) token（綠色）。這些獎(jiǎng)勵(lì)來(lái)自獎(jiǎng)勵(lì)模型，并且已經(jīng)固定不變。

現(xiàn)在使用同樣的語(yǔ)言建模損失函數(shù)，只是現(xiàn)在是在黃色 token 上訓(xùn)練，并根據(jù)獎(jiǎng)勵(lì)模型指示的獎(jiǎng)勵(lì)來(lái)重新權(quán)衡語(yǔ)言建模目標(biāo)。

比如在第一行，獎(jiǎng)勵(lì)模型認(rèn)為這個(gè)完成結(jié)果的評(píng)分相當(dāng)高。因此，模型在第一行采樣的所有 token 都會(huì)得到強(qiáng)化，也就是在未來(lái)會(huì)有更高的概率被采用。對(duì)比之下，獎(jiǎng)勵(lì)模型不喜歡第二個(gè)完成結(jié)果，給出了負(fù)分評(píng)價(jià)，因此該行的所有 token 在未來(lái)出現(xiàn)的概率就會(huì)降低。

如此這般在許多 prompt 上操作一遍又一遍，經(jīng)過(guò)許多數(shù)據(jù)批次，就能得到一個(gè)創(chuàng)建黃色 token 的策略。依照這個(gè)策略，所有完成結(jié)果都能被獎(jiǎng)勵(lì)模型給予高分。

這就是 RLHF 的訓(xùn)練流程。最后得到的模型就可以部署成應(yīng)用了。

ChatGPT 就是一個(gè) RLHF 模型，而其它一些模型則可能是 SFT 模型，比如 Claude 等。

那么 OpenAI 為什么要使用 RLHF 呢？Karpathy 表示，原因很簡(jiǎn)單，使用 RLHF 能讓模型表現(xiàn)更好。根據(jù) OpenAI 之前做的一些實(shí)驗(yàn)，可以看到使用了 PPO（近端策略?xún)?yōu)化）算法的 RLHF 模型整體上都更好一些。當(dāng)把結(jié)果提供給人類(lèi)時(shí)，相比于 SFT 模型和通過(guò) prompt 化身為助理的基礎(chǔ)模型，人類(lèi)也基本更喜歡來(lái)自 RLHF 模型的 token。

那 RLHF 為什么能讓模型更好呢？目前 AI 研究界還沒(méi)有找到一個(gè)得到大家認(rèn)可的理論，但 Karpathy 還是給出了自己的見(jiàn)解。他認(rèn)為這可能與比較和生成的計(jì)算難度之間的不對(duì)稱(chēng)性有關(guān)。

舉個(gè)例子說(shuō)明一下：假設(shè)我們要讓一個(gè)模型寫(xiě)一首關(guān)于回形針的俳句。如果你是一位正努力創(chuàng)建訓(xùn)練數(shù)據(jù)的合同工，正在為 SFT 模型收集數(shù)據(jù)。那么你該怎樣寫(xiě)出一首關(guān)于回形針的好俳句呢？而你可能并不是一位優(yōu)秀的俳句詩(shī)人。但是，如果給你幾首俳句，你卻有能力辨別它們中哪首更好一些。也就是說(shuō)，比起創(chuàng)建一個(gè)好樣本，判斷哪個(gè)樣本更好是簡(jiǎn)單得多的任務(wù)。因此，這種不對(duì)稱(chēng)性可能使得比較是一種更好的方法 —— 能更好地利用人類(lèi)的判斷來(lái)創(chuàng)造出好一些的模型。

現(xiàn)在來(lái)看另一個(gè)方面：RLHF 并不總是會(huì)為基礎(chǔ)模型帶來(lái)提升。在某些情況下，RLHF 模型會(huì)失去一些熵，也就是說(shuō)它們會(huì)輸出更加單調(diào)、變化更少的結(jié)果。而基礎(chǔ)模型的熵更高，可以輸出更加多樣化的結(jié)果。

比如下面的任務(wù)可能就更適合使用基礎(chǔ)模型，即生成與已有的 n 個(gè)示例相似的東西。這里的示例任務(wù)是生成更多寶可夢(mèng)名字。首先，用戶(hù)向模型提供了 7 個(gè)寶可夢(mèng)名字，然后讓基礎(chǔ)模型完成文檔?；A(chǔ)模型生成了大量寶可夢(mèng)名字。這些名字都是虛構(gòu)的，畢竟寶可夢(mèng)并不真實(shí)存在。Karpathy 認(rèn)為這類(lèi)任務(wù)使用基礎(chǔ)模型會(huì)得到更好的結(jié)果，因?yàn)榛A(chǔ)模型的熵更高，給出的結(jié)果既與之前的示例相似，又更加多樣化和炫酷。

現(xiàn)在，用戶(hù)可以使用的助理模型已有不少了。伯克利有個(gè)團(tuán)隊(duì)正對(duì)許多助理模型進(jìn)行排名并給出了基本的 ELO 評(píng)分。當(dāng)然，現(xiàn)目前最好的模型是 GPT-4；Claude 和 GPT-3.5 緊隨其后。有些模型公開(kāi)提供模型權(quán)重，比如 Vicuna、Koala 等。在這個(gè)榜單中，前三名都是 RLHF 模型，其它模型基本都是 SFT 模型。

上面就是訓(xùn)練模型的方式。下面調(diào)轉(zhuǎn)方向，看看我們可以怎么將 GPT 助理模型應(yīng)用于實(shí)際問(wèn)題。

如何使用 GPT？

???

下面會(huì)通過(guò)實(shí)際示例來(lái)展示如何最好地使用 GPT。假設(shè)你在寫(xiě)一篇文章，需要在結(jié)尾加上這樣一句：「California’s population is 53 times that of Alaska.」（加州的人口是阿拉斯加州的 53 倍）。但現(xiàn)在你不知道這兩個(gè)州的人口數(shù)據(jù)，你需要智能助理來(lái)幫你。

人類(lèi)會(huì)怎樣完成這個(gè)任務(wù)呢？大致推想，人類(lèi)很可能會(huì)經(jīng)歷一連串的思考過(guò)程，如下圖所示：首先會(huì)想到為了得到結(jié)果，需要比較人口數(shù)量，那么就需要查詢(xún)?nèi)丝跀?shù)據(jù)；然后使用查詢(xún)工具查一下 —— 在維基百科上找到了加州和阿拉斯加的人口數(shù)據(jù)；接下來(lái)很顯然需要做個(gè)除法運(yùn)算，可能會(huì)需要計(jì)算器；然后得到倍數(shù)結(jié)果 53；然后我們的大腦可能會(huì)用經(jīng)驗(yàn)理智快速檢驗(yàn)一下 ——53 倍感覺(jué)挺合理的，畢竟加州是美國(guó)人口最多的州。

信息有了之后，就進(jìn)入了創(chuàng)造性寫(xiě)作的部分。你可能首先會(huì)寫(xiě)下：「California has 53x times greater」，然后你想一下感覺(jué)又不太合適，又刪了重新想哪種表達(dá)更合適一點(diǎn)，最終得到你滿(mǎn)意的句子表達(dá)。

簡(jiǎn)單來(lái)說(shuō)，為了寫(xiě)這樣一句話，你的內(nèi)心會(huì)經(jīng)歷大量獨(dú)白式的思考。那么 GPT 在生成這樣一句話時(shí)又會(huì)經(jīng)歷什么呢？

GPT 處理的都是 token 序列。不管是閱讀還是生成，它都是按部就班地一塊塊地進(jìn)行，其中每一塊都是針對(duì)一個(gè) token，計(jì)算工作量也都一樣。這些 Transformer 的層數(shù)不少，足有 80 個(gè)推理層，但話說(shuō)回來(lái) 80 也不是非常多。Transformer 會(huì)通過(guò)這些來(lái)盡力模仿寫(xiě)作，但其思考過(guò)程和人類(lèi)的大不相同。

也就是說(shuō)與人類(lèi)不同，GPT 沒(méi)有什么內(nèi)心獨(dú)白，它只會(huì)檢視每一個(gè) token 并在每個(gè) token 上投入同等的計(jì)算量，僅此而已。它們就像是 token 模擬器 —— 它們不知道自己知道什么或不知道什么，只是模仿地寫(xiě)出下一個(gè) token；它們也不會(huì)反思，內(nèi)心不會(huì)思考結(jié)果是否合理；它們寫(xiě)錯(cuò)了也不會(huì)反過(guò)來(lái)修改。它們只是按序列采樣 token。

但即便如此，Karpathy 認(rèn)為 GPT 依然具有某種形式的認(rèn)知能力優(yōu)勢(shì)，比如它們具備非常廣博的事實(shí)知識(shí)，涵蓋許多不同領(lǐng)域，因?yàn)樗鼈償?shù)以百億計(jì)的參數(shù)，足以?xún)?chǔ)存大量事實(shí)。同時(shí)它們還有相對(duì)來(lái)說(shuō)很大且完美的工作記憶。只要能填入 Transformer 的上下文窗口，它就能通過(guò)其內(nèi)部自注意機(jī)制來(lái)加以利用。也就是說(shuō) GPT 能以無(wú)損的方式記住能嵌入其上下文窗口的任何內(nèi)容。

Karpathy 表示：人類(lèi)通過(guò) prompt 使用 GPT 的過(guò)程本質(zhì)上是大腦和 LLM 這兩種不同的認(rèn)知架構(gòu)互相配合的過(guò)程。

用 GPT 執(zhí)行推理

再來(lái)看 Transformer 在實(shí)踐中表現(xiàn)相當(dāng)好的一種用例：推理。

如果只有單個(gè) token，當(dāng)然不能指望 Transformer 推理出什么。推理的執(zhí)行需要涉及更多 token。比如，你不能向 Transformer 提一個(gè)非常復(fù)雜的問(wèn)題，然后指望它通過(guò)單個(gè) token 就找到答案。Transformer 需要通過(guò) token 來(lái)「思考」。

上圖右側(cè)給出了一個(gè)例子?？梢栽谳敵鼋Y(jié)果中看到 Transformer 為了解答問(wèn)題而進(jìn)行的「思考」。如果你提供了一些示例（上方），那么 Transformer 就會(huì)模仿那個(gè)模板，結(jié)果看起來(lái)相當(dāng)不錯(cuò)。當(dāng)然，你也可以通過(guò)說(shuō)「Let’s think step by step」（請(qǐng)按步驟解答）引導(dǎo) Transformer 給出類(lèi)似的輸出 —— 這在某種程度上展示了其工作過(guò)程。而且由于它有點(diǎn)像是進(jìn)入了工作過(guò)程展示模式，那么其在每個(gè)單獨(dú) token 上投入的計(jì)算量就會(huì)少一點(diǎn)。這樣一來(lái)，它執(zhí)行的就是一個(gè)速度更慢的推理過(guò)程，也就更可能成功得到正確答案。

再看一例。如下圖所示，人類(lèi)寫(xiě)作時(shí)會(huì)寫(xiě)不好，類(lèi)似地，Transformer 在選擇下一個(gè) token 時(shí)可能會(huì)出錯(cuò)，但不同于人類(lèi)可以及時(shí)停下進(jìn)行修改，Transformer 會(huì)繼續(xù)生成，一錯(cuò)到底，最終得到錯(cuò)誤答案。

但類(lèi)似于人類(lèi)寫(xiě)作時(shí)沒(méi)寫(xiě)好可以重來(lái)一樣，Transformer 也可以多次采樣，然后我們可以使用某個(gè)過(guò)程找到其中較好的。這被稱(chēng)為自我一致性（self-consistency）。

有趣的是，通過(guò)讓模型反思（reflection），可以發(fā)現(xiàn)模型其實(shí)能知道自己出錯(cuò)了。舉個(gè)例子，如果讓 GPT-4 生成一首不押韻的詩(shī)然后它生成的詩(shī)卻押韻了。然后你只需要問(wèn)它「你完成任務(wù)了嗎？」它就會(huì)知道自己沒(méi)有完成任務(wù)，然后為你重新完成任務(wù)。

但如果你不給出那樣的 prompt，它就不知道自己錯(cuò)了。它并不會(huì)自己去回顧，畢竟它只是一個(gè) token 模擬器。你必須通過(guò) prompt 讓它回顧。

Karpathy 表示可以按照目的將 AI 模型分為兩種：一類(lèi)系統(tǒng)（System 1）和二類(lèi)系統(tǒng)（System 2）。一類(lèi)系統(tǒng)的處理過(guò)程速度快并且是自動(dòng)化的，對(duì)應(yīng)于只是采樣 token 的大型語(yǔ)言模型。而二類(lèi)系統(tǒng)的速度慢一些，會(huì)反復(fù)思考進(jìn)行規(guī)劃。

現(xiàn)在有很多人在通過(guò)設(shè)計(jì) prompt 來(lái)讓 LLM 表現(xiàn)出類(lèi)似人類(lèi)大腦的思維過(guò)程。如上左圖 (d) 所示，這是近期一篇論文提出的 Tree of Thought（思維樹(shù)）。該論文提出為任意給定 prompt 維持多個(gè)完成結(jié)果，然后對(duì)這些結(jié)果進(jìn)行評(píng)分，保留得分較好的結(jié)果。

要做到這一點(diǎn)，不只要用一個(gè) prompt，而是需要用 Python Glue 代碼將多個(gè) prompt 組合到一起。這實(shí)質(zhì)上是維持多個(gè) prompt，還需要執(zhí)行某個(gè)樹(shù)搜索算法來(lái)找到可擴(kuò)展的 prompt?？梢哉f(shuō)這是 Python Glue 代碼與各個(gè) prompt 組成的共生體。

Karpathy 在這里類(lèi)比了 AlphaGo。AlphaGo 的每一步都是下接下來(lái)的一步棋，其策略的訓(xùn)練方式最初是模仿人類(lèi)。但除了這個(gè)策略之外，它還會(huì)執(zhí)行蒙特卡洛樹(shù)搜索。由此造成的結(jié)果是，AlphaGo 會(huì)在頭腦里嘗試大量不同的可能性然后對(duì)它們進(jìn)行評(píng)估，最后僅保留其中效果好的。思維樹(shù)就有點(diǎn)像是 AlphaGo 下圍棋時(shí)的思維過(guò)程，只不過(guò)處理的是文本。

不只是思維樹(shù)，現(xiàn)在也有更多人在實(shí)驗(yàn)讓 LLM 完成比簡(jiǎn)單問(wèn)答更加復(fù)雜的任務(wù)，但很多都像是 Python Glue 代碼，將許多 prompt 連接起來(lái)。

上圖給出了兩個(gè)例子。其中右圖的論文提出了 ReAct，研究者是將 prompt 的答案構(gòu)造成一個(gè)思維、動(dòng)作、觀察構(gòu)成的序列，其中在動(dòng)作部分，模型還能使用工具。這就像是某種回答查詢(xún)的思維過(guò)程。

左圖則是 AutoGPT。這個(gè)項(xiàng)目最近有些炒作，但也確實(shí)是很有趣的研究。AutoGPT 能夠保存一個(gè)任務(wù)清單并遞歸式地分解這些任務(wù)。目前來(lái)說(shuō)這種做法的效果并不很好，Karpathy 也不建議人們將其用于實(shí)際應(yīng)用，但他表示從研究角度看，這種方法還是很有啟發(fā)性。

以上就是創(chuàng)造二類(lèi)系統(tǒng)思維方式的一些研究成果。

Karpathy 接下來(lái)談到了 LLM 的另一個(gè)有趣現(xiàn)象，他說(shuō)：「LLM 就好像有種心理怪癖。它們不想成功，只想模仿?！鼓阆胍o出正確答案，你就要明確要求它。這是因?yàn)?Transformer 的訓(xùn)練數(shù)據(jù)集中數(shù)據(jù)并不總是正確的，也存在低質(zhì)量的數(shù)據(jù)。

舉個(gè)例子，假如有某個(gè)物理問(wèn)題，數(shù)據(jù)集中可能有某個(gè)學(xué)生給出的錯(cuò)誤答案，同時(shí)也會(huì)有某個(gè)專(zhuān)家給出的正確答案。而 Transformer 不知道該模仿哪個(gè)或者說(shuō)它都想模仿，畢竟它們的訓(xùn)練目標(biāo)是語(yǔ)言建模，不是分辨對(duì)錯(cuò)。因此在使用和測(cè)試時(shí)，如果你想要正確答案，你就要明確提出要求。

比如在上圖的論文中，研究者嘗試了多種不同的 prompt，發(fā)現(xiàn)對(duì)于同一問(wèn)題，不同 prompt 得到的輸出結(jié)果準(zhǔn)確度竟然不一樣！可以看到，如果在 prompt 中明確要求模型一步步推理并給出正確結(jié)果，其準(zhǔn)確度會(huì)高一些，因?yàn)檫@樣 Transformer 就不必再為低質(zhì)量解答分配概率了。

因此，如果你想要正確答案，就大聲說(shuō)出來(lái)！像是在 prompt 中添加「你是某領(lǐng)域的專(zhuān)家」或「假設(shè)你的 IQ 為 120」。但是也不要太過(guò)了，比如要求模型假設(shè)自己的 IQ 為 400，這樣的話你的問(wèn)題可能會(huì)超出數(shù)據(jù)的分布或者雖在分布中但結(jié)果卻很科幻 —— 這樣模型可能就會(huì)開(kāi)始扮演什么科幻角色了。

讓 LLM 使用工具 / 插件

針對(duì)具體問(wèn)題，使用合適的工具往往能事半功倍。對(duì) LLM 來(lái)說(shuō)也是如此。根據(jù)具體任務(wù)的不同，我們可能希望 LLM 能使用計(jì)算器、代碼解釋器、搜索引擎等工具。

但首先我們需要記住一點(diǎn)：Transformer 默認(rèn)情況下可能并不知道它們無(wú)法做到某些事情。用戶(hù)甚至可能需要在 prompt 中明確告知 Transformer：「你不擅長(zhǎng)心算，如果要做大數(shù)運(yùn)算，請(qǐng)使用這個(gè)計(jì)算器，這是使用這個(gè)計(jì)算器的方法?！鼓惚仨毭鞔_要求它使用某個(gè)工具，因?yàn)槟Ｐ妥陨聿恢雷约荷瞄L(zhǎng)或不擅長(zhǎng)什么。

檢索是能極大提升 LLM 性能的重要工具。因?yàn)?LLM 是專(zhuān)精于記憶的（memory only），因此專(zhuān)精于檢索的搜索引擎能為 LLM 提供極大補(bǔ)充。實(shí)踐也證明，能使用檢索工具的 LLM 的實(shí)用性會(huì)大大提升。

之前已經(jīng)提到，Transformer 的上下文窗口就是其工作記憶范圍。如果能在其工作記憶中載入與當(dāng)前任務(wù)相關(guān)的信息，那么模型的表現(xiàn)就會(huì)更好，因?yàn)槟Ｐ湍軌蛄⒓醋x取所有記憶。實(shí)際上用檢索增強(qiáng)生成也是很多人感興趣的課題。上圖下方展示了 LlamaIndex，其中有一個(gè)連接大量不同類(lèi)型數(shù)據(jù)的數(shù)據(jù)連接器。這個(gè)工具可以索引各種數(shù)據(jù)并將它們提供給 LLM 使用。

現(xiàn)在時(shí)興的做法是：選取相關(guān)文檔，然后將其分成文本塊，再執(zhí)行嵌入操作，得到表示那些數(shù)據(jù)的嵌入向量。這些嵌入向量會(huì)被保存起來(lái)。當(dāng)使用模型時(shí)，我們可以向存儲(chǔ)的向量發(fā)出查詢(xún)，從中取用與當(dāng)前任務(wù)相關(guān)的文本塊。然后將這些文本塊加入到 prompt，再讓 LLM 生成。這種做法在實(shí)踐中的效果很好。

這其實(shí)與人類(lèi)完成任務(wù)的方法類(lèi)似。人也可以?xún)H靠自己的記憶做事，但如果能檢索到與任務(wù)相關(guān)的資料，做起事來(lái)也自然會(huì)更容易。Transformer 雖然記憶廣博，但也能從檢索中受益。

在 prompt 中添加約束條件

在 prompt 中設(shè)定約束條件能迫使 LLM 按特定模板輸出結(jié)果。下圖給出了微軟幫助用戶(hù)更好使用 LLM 的 Guidance 工具，具體可訪問(wèn) https://github.com/microsoft/guidance 。在這里給出的例子中，LLM 輸出的結(jié)果會(huì)是 JSON 格式。這是可以得到保證的，因?yàn)?prompt 會(huì)調(diào)整 Transformer 輸出不同 token 的概率，而這些 token 的輸出位置受限了，即只能填補(bǔ)文本中的空缺位置。這樣就實(shí)現(xiàn)了對(duì)文本留空處的嚴(yán)格限制。帶約束條件的采樣對(duì)某些任務(wù)來(lái)說(shuō)非常有用。

微調(diào)

通過(guò)設(shè)計(jì) prompt 能讓 LLM 模型完成更多不同任務(wù)，但我們其實(shí)也能通過(guò)微調(diào)來(lái)做到這一點(diǎn)。

對(duì)模型進(jìn)行微調(diào)是指改變模型的權(quán)重分布。這種事情做起來(lái)不難，因?yàn)楝F(xiàn)在已經(jīng)有 LLaMA 等開(kāi)源的大模型以及一些用于微調(diào)的軟件庫(kù)。

比如 LoRA 等參數(shù)高效型微調(diào)技術(shù)讓用戶(hù)可以?xún)H訓(xùn)練模型中少量稀疏的部分。使用該技術(shù)時(shí)，基礎(chǔ)模型的大部分都保持不變，而某些部分可以變化。在實(shí)踐中，這種技術(shù)用起來(lái)很不錯(cuò)，能讓人以很低的成本對(duì)模型做少量調(diào)整。同時(shí)，因?yàn)槟Ｐ痛蟛糠侄际枪潭ú蛔兊?，所以可以使用非常低精度的推理?lái)計(jì)算那些部分，因?yàn)樘荻认陆挡粫?huì)更新它們。由此，整體的微調(diào)效率就能非常高。

不過(guò)需要記住，微調(diào)需要專(zhuān)業(yè)技術(shù)，而且多半還需要相應(yīng)的專(zhuān)業(yè)領(lǐng)域知識(shí)，畢竟不管是雇傭人類(lèi)專(zhuān)家來(lái)編寫(xiě)數(shù)據(jù)集還是通過(guò)自動(dòng)方法合成數(shù)據(jù)都非常復(fù)雜，而這也會(huì)拉長(zhǎng)迭代周期。

另外，Karpathy 還指出，對(duì)用戶(hù)來(lái)說(shuō)，監(jiān)督式微調(diào)（SFT）還是可以做到的，因?yàn)檫@其實(shí)就是繼續(xù)執(zhí)行語(yǔ)言建模任務(wù)；但 RLHF 是還需進(jìn)一步研究的課題，實(shí)現(xiàn)難度就大多了，因此不建議初學(xué)者來(lái)做。

Karpathy 的 GPT 使用建議

為了幫助人們更好使用 GPT，Karpathy 給出了一些建議。在使用 GPT 來(lái)完成任務(wù)時(shí)，可以將任務(wù)分成兩個(gè)部分：一，取得最佳結(jié)果；二，依照指定順序優(yōu)化結(jié)果。

對(duì)于第一部分，首先是選模型，目前最強(qiáng)的模型是 GPT-4。有了模型后，當(dāng)執(zhí)行具體任務(wù)時(shí)，你需要把 prompt 設(shè)計(jì)得足夠詳細(xì)，其中要包含任務(wù)的背景、相關(guān)信息和說(shuō)明。你要想一想人類(lèi)會(huì)怎么完成這一任務(wù)，但你同時(shí)也要明白人類(lèi)有內(nèi)心獨(dú)白、能夠自省，LLM 卻不行。了解 LLM 的工作方式對(duì)設(shè)計(jì) prompt 大有裨益。你可以檢索一些相關(guān)背景和信息并將其添加到 prompt 中。網(wǎng)上已有不少人分享過(guò)相關(guān)經(jīng)驗(yàn)和技術(shù)。

你不用急于讓 LLM 一步到位完成你的任務(wù)?？梢远嘧鰩状螌?shí)驗(yàn)，測(cè)試一下各種可能性。你可以向 LLM 提供一些例子，讓它真正理解你的意圖。

對(duì)于原生 LLM 難以解決的問(wèn)題，可以將其交給工具和插件處理。你要想想如何將工具整合進(jìn)來(lái)，這當(dāng)然無(wú)法通過(guò)單個(gè) prompt 問(wèn)答就可以解決。你需要多做幾次實(shí)驗(yàn)，實(shí)踐出真知。

最后，如果你成功搞出了適合自己的 prompt 設(shè)計(jì)方案，你可以再繼續(xù)堅(jiān)持一下，看看可以如何對(duì)模型進(jìn)行微調(diào)以更好地服務(wù)你的應(yīng)用；但要明白微調(diào)模型的速度會(huì)更慢，也需要投入更多。對(duì)于想要使用 RLHF 的研究型專(zhuān)家來(lái)說(shuō)，雖然如果真能用起來(lái)，RLHF 目前是會(huì)比 SFT 好一些，但成本也會(huì)更高。為了節(jié)省成本，探索性研究可以使用性能更低的模型或更短的 prompt。

Karpathy 強(qiáng)調(diào)用 LLM 解決用例時(shí)可能會(huì)出現(xiàn)一些問(wèn)題，比如結(jié)果可能有偏見(jiàn)、編造出幻覺(jué)信息、推理錯(cuò)誤、無(wú)法理解應(yīng)用類(lèi)型（比如拼寫(xiě)相關(guān)任務(wù)）、知識(shí)隔斷（GPT-4 的訓(xùn)練數(shù)據(jù)截止于 2021 年 9 月）、可能會(huì)被攻擊（比如 prompt 注入攻擊、越獄攻擊、數(shù)據(jù)毒化攻擊）……

Karpathy 建議用戶(hù)目前僅在低風(fēng)險(xiǎn)程度的應(yīng)用中使用 LLM 并且要搭配人工監(jiān)督一起使用。LLM 可以作為靈感和建議來(lái)源，讓它們輔助我們而不是完全自主地替代我們工作。

結(jié)語(yǔ)

Karpathy 在總結(jié)時(shí)說(shuō)：「GPT-4 是了不起的造物。我很感激它存在于世而且它很美麗?！顾哂蟹欠驳哪芰?，能幫助用戶(hù)解答疑問(wèn)、編寫(xiě)代碼等等。圍繞它的生態(tài)系統(tǒng)也正在蓬勃發(fā)展。

最后，Karpathy 向 GPT-4 提了一個(gè)問(wèn)題：「如果要激勵(lì) Microsoft Build 2023 的觀眾，你會(huì)說(shuō)點(diǎn)什么？」

GPT-4 給出了如下回答：

筆者也在這里取巧，請(qǐng) ChatGPT 將這段話翻譯成了漢語(yǔ)：

審核編輯：李倩

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴