Meta最近提出了LLaMA(開放和高效的基礎(chǔ)語言模型)模型參數(shù)包括從7B到65B等多個版本。最值得注意的是,LLaMA-13B的性能優(yōu)于GPT-3,而體積卻小了10倍以上,LLaMA-65B與Chinchilla-70B和PaLM-540B具有競爭性。
Meta表示,該模型在數(shù)以萬億計(jì)的token上進(jìn)行訓(xùn)練,并表明有可能完全使用公開的數(shù)據(jù)集來訓(xùn)練最先進(jìn)的模型,而不需要求助于專有的和不可獲取的數(shù)據(jù)集。
特別的,LLaMA-13B在大多數(shù)基準(zhǔn)上超過了GPT-3(175B),LLaMA-65B與最好的模型Chinchilla-70B和PaLM-540B具有明顯競爭力。
為了了解該工作,本文主要通過研讀該論文,供大家一起參考。
該論文介紹了對模型架構(gòu)的修改(Vaswani等人,2017),給出了具體的訓(xùn)練方法,并報(bào)告了模型的性能以及在一組標(biāo)準(zhǔn)基準(zhǔn)上與其他LLMs進(jìn)行了比較。
地址:https://github.com/facebookresearch/llama
一、工作簡介與問題的提出
在大量的文本語料庫中訓(xùn)練的大型語言模型(LLMs)已經(jīng)顯示出它們能夠從文本指令或少數(shù)例子中形成新的任務(wù)(Brown等人,2020)。
在將模型擴(kuò)展到足夠大的規(guī)模時,首次出現(xiàn)了這些少見的特性(Kaplan等人,2020年),從而形成了一個專注于進(jìn)一步擴(kuò)展這些模型的工作路線(Chowdhery等人,2022年;Rae等人,2021年)。
這些努力都是基于這樣的假設(shè):更多的參數(shù)會帶來更好的性能。然而,Hoffmann等人(2022)最近的工作表明,在給定的計(jì)算預(yù)算下,最好的性能不是由最大的模型實(shí)現(xiàn)的,而是由在更多數(shù)據(jù)上訓(xùn)練的較小的模型實(shí)現(xiàn)的。
Hoff-mann等人(2022)的縮放定律的目標(biāo)是確定如何在特定的訓(xùn)練計(jì)算預(yù)算下最佳地?cái)U(kuò)展數(shù)據(jù)集和模型大小。然而,這個目標(biāo)忽略了推理預(yù)算,而推理預(yù)算在大規(guī)模服務(wù)語言模型時變得至關(guān)重要。
在這種情況下,給定一個目標(biāo)性能水平,首選的模型不是訓(xùn)練速度最快的,而是推理速度最快的,盡管訓(xùn)練一個大的模型以達(dá)到一定的性能水平可能更便宜,但訓(xùn)練時間較長的小模型最終會在推理中更便宜。
例如,Hoffmann等人(2022年)曾建議在200B的token上訓(xùn)練一個10B的模型,但研究發(fā)現(xiàn)7B的模型的性能甚至在1T的token之后還能繼續(xù)提高。
因此,該工作的重點(diǎn)是訓(xùn)練一系列語言模型,通過對比通常使用的更多的token進(jìn)行訓(xùn)練,在不同的推理預(yù)算下達(dá)到最佳的性能。
該工作得到的模型被稱為LLaMA,參數(shù)范圍從7B到65B,與現(xiàn)有的最佳LLM相比,具有競爭力的性能。
盡管LLaMA-13B比GPT-3小10倍,但在大多數(shù)基準(zhǔn)測試中都超過了GPT-3。這個模型將有助于增強(qiáng)對LLM的訪問和研究,因?yàn)樗梢栽趩蝹€GPU上運(yùn)行。此外,65B參數(shù)模型也可以與最好的大型語言模型(如Chinchilla或PaLM-540B)競爭。
特別的,與Chinchilla、PaLM或GPT-3不同的是,該工作只使用公開可用的數(shù)據(jù),這使得工作符合開源原則,而大多數(shù)現(xiàn)有模型所依賴的數(shù)據(jù)要么沒有公開可用,要么沒有記錄(例如 "書籍-2TB "或 "社交媒體對話")。
接下來,我們分別從訓(xùn)練數(shù)據(jù)等方面進(jìn)行介紹。
二、預(yù)訓(xùn)練數(shù)據(jù)的來源與清洗策略
LLaMA的訓(xùn)練數(shù)據(jù)集由幾個來源混合而成,涵蓋了各種不同的領(lǐng)域,如下表所示:
1、英語CommonCrawl,占比67%
由于CommonCraw數(shù)據(jù)較為雜亂,該工作采用CCNet pipleline的方式(Wenzek等人,2020)預(yù)處理了從2017年到2020年的CommonCrawl網(wǎng)頁。
具體的,
該工作首先在行的層面上對數(shù)據(jù)進(jìn)行了刪除,用fastText線性分類器進(jìn)行語言識別,以去除非英語頁面,并用n-gram語言模型過濾低質(zhì)量內(nèi)容。
其次,訓(xùn)練了一個線性模型來對維基百科中用作參考的頁面與隨機(jī)抽樣的頁面進(jìn)行分類,并丟棄了未被歸類為參考的頁面。
2、C4 ,占比15%
在探索性實(shí)驗(yàn)中,該工作觀察到,使用不同的預(yù)處理Com-monCrawl數(shù)據(jù)集可以提高性能。
因此,該工作將公開的C4數(shù)據(jù)集(Raffel等人,2020)也納入我們的數(shù)據(jù)。
C4的預(yù)處理也包含重復(fù)數(shù)據(jù)刪除和語言識別步驟,其與CCNet的主要區(qū)別在于質(zhì)量過濾,它主要依賴于不存在的標(biāo)點(diǎn)符號或網(wǎng)頁中的單詞和句子數(shù)量等判例。
3、Github,占比4.5%
在代碼方面,該工作使用了谷歌BigQuery上的GitHub公共數(shù)據(jù)集,并只保留在Apache、BSD和MIT許可下發(fā)布的項(xiàng)目。
此外,為了提高數(shù)據(jù)質(zhì)量,還用基于行長或字母數(shù)字字符比例的啟發(fā)式方法過濾了低質(zhì)量的文件,并用規(guī)范的表達(dá)式刪除了如標(biāo)題在內(nèi)的模板化內(nèi)容。
最后在文件層面上對結(jié)果數(shù)據(jù)集進(jìn)行重復(fù)計(jì)算,并進(jìn)行精確匹配。
4、維基百科,占比4.5%
該工作添加了2022年6月至8月期間的維基百科轉(zhuǎn)儲數(shù)據(jù),涵蓋20種語言,這些語言使用拉丁字母或西里爾字母,具體是:BG、CA、CS、DA、DE、EN、ES、FR、HR、HU、IT、NL、PL、UP、RO、RU、SL、SR、SV、UK。
此外,該工作對數(shù)據(jù)進(jìn)行處理,以刪除超鏈接、評論和其他格式化的模板。
5、GutenbergProject和Books3,占比4.5%
書籍也是重要的語料來源,該工作的訓(xùn)練數(shù)據(jù)集包括兩個書籍語料庫:古騰堡計(jì)劃(GutenbergProject)和ThePile(Gao等人,2020)的Books3部分,后者是一個可用于訓(xùn)練大型語言模型的公開數(shù)據(jù)集。
在數(shù)據(jù)處理上,該工作在書的層面上進(jìn)行了去重處理,刪除了內(nèi)容重疊度超過90%的書。
6、ArXiv,占比2.5%
科研文獻(xiàn)對于提升專業(yè)性也有重要作用,該工作對arXiv的Latex文件進(jìn)行處理,將科學(xué)數(shù)據(jù)添加到預(yù)訓(xùn)練數(shù)據(jù)集中。
按照Lewkowycz等人(2022年)的做法,該工作刪除了第一節(jié)之前的所有內(nèi)容以及書目。
此外,還刪除了.tex文件中的評論,以及用戶寫的內(nèi)聯(lián)擴(kuò)展定義和宏,以增加論文之間的一致性。
7、Stack Exchange,占比2%
QA數(shù)據(jù)對于提升垂直的專業(yè)問題也有幫助。
該工作還使用了Stack Exchange的開放數(shù)據(jù),Stack Exchange是一個高質(zhì)量的問題和答案的網(wǎng)站,涵蓋了從計(jì)算機(jī)科學(xué)到化學(xué)的不同領(lǐng)域。
具體的,該工作保留了28個最大的網(wǎng)站的數(shù)據(jù),從文本中去除HTML標(biāo)簽,并按分?jǐn)?shù)(從高到低)對答案進(jìn)行排序。
值得注意的是,我們將所有數(shù)字拆分為單個數(shù)字,并退回到字節(jié)來分解未知的UTF-8字符。
最后,在Tokenizer進(jìn)行切分方面,該工作我們用bytepairencoding(BPE)算法(Sennrich等人,2015)對數(shù)據(jù)進(jìn)行切分,并使用Sentence-Piece(Kudo和Richardson,2018)進(jìn)行實(shí)現(xiàn)。值得注意的是,該將所有數(shù)字拆分為單個數(shù)字,并退回到字節(jié)來分解未知的UTF-8字符。
總的來說,我們的整個訓(xùn)練數(shù)據(jù)集在切分之后包含了大約1.4T的token,如表2所示。
另外,在數(shù)據(jù)采樣方面,對于大多數(shù)訓(xùn)練數(shù)據(jù),每個token在訓(xùn)練過程中只采樣一次,但維基百科和圖書領(lǐng)域除外,對這些領(lǐng)域進(jìn)行了大約兩個epochs。
三、訓(xùn)練細(xì)節(jié):架構(gòu)選擇以及優(yōu)化策略
1、架構(gòu)選擇
在架構(gòu)選型上,該工作同樣采用是Transformer架構(gòu)(Vaswani等人,2017),并利用隨后提出的各種改進(jìn),在不同的模型中進(jìn)行使用,如PaLM。這里是與原始架構(gòu)的主要區(qū)別主要包括:
1)Pre-normalization VS GPT3
為了提高訓(xùn)練的穩(wěn)定性,我們對每個變換子層的輸入進(jìn)行規(guī)范化,而不是對輸出進(jìn)行規(guī)范化。
并使用Zhang和Sennrich(2019)介紹的RMSNorm歸一化函數(shù)。
2)SwiGLU activation function VS PaLM
采用SwiGLU激活函數(shù)取代由Shazeer(2020)介紹的ReLU非線性方法,以提高性能。此外,在維度上使用的維度是2/3*4d,而不是PaLM中的4d。
3)Rotary Embeddings VS GPTNeo
在位置編碼上,刪除了絕對位置嵌入,而在網(wǎng)絡(luò)的每一層增加了Su等人(2021)介紹的旋轉(zhuǎn)位置嵌入(RoPE)。
2、Optimizer設(shè)計(jì)
該模型使用AdamW優(yōu)化器(Loshchilov和Hutter,2017)進(jìn)行訓(xùn)練,超參數(shù)設(shè)置為β1=0.9,β2=0.95。
此外,使用余弦學(xué)習(xí)率方式,使最終學(xué)習(xí)率等于最大學(xué)習(xí)率的10%,并使用0.1的權(quán)重衰減和1.0的梯度剪裁。最并使用2,000個warm up策略,并根據(jù)模型的大小改變學(xué)習(xí)率和批次大小。
3、 模型加速優(yōu)化
在模型訓(xùn)練加速方面,該工作進(jìn)行了一些優(yōu)化,以提高模型的訓(xùn)練速度。
首先,該工作使用了一個高效的因果多頭注意力方式的實(shí)現(xiàn),靈感來自Rabe和Staats(2021)以及Dao等人(2022),這個實(shí)現(xiàn)可在xformers庫中找到,可以有效減少了內(nèi)存的使用和計(jì)算。
具體原理為通過不存儲注意力權(quán)重和不計(jì)算由于語言建模任務(wù)的因果性質(zhì)而被掩蓋的鍵/查詢分?jǐn)?shù)來實(shí)現(xiàn)的。
其次,為了進(jìn)一步提高訓(xùn)練效率,減少了在check point的后向傳遞中重新計(jì)算的激活量,在實(shí)現(xiàn)上,通過手動實(shí)現(xiàn)trasnformer層的后向函數(shù)來進(jìn)行操作。為了充分受益于這種優(yōu)化,還通過如Korthikanti等人(2022)中采用的方法,進(jìn)行使用模型和序列并行來減少模型的內(nèi)存使用。
最后,該工作還盡可能地重疊激活的計(jì)算和GPU之間在網(wǎng)絡(luò)上的通信。
因此,最終的優(yōu)化性能效果為:當(dāng)訓(xùn)練一個65B參數(shù)的模型時,代碼在2048A100的GPU上處理大約380個token/秒/GPU,并耗費(fèi)80GB的內(nèi)存,這意味著對包含1.4Ttoken的數(shù)據(jù)集進(jìn)行訓(xùn)練大約花費(fèi)了21天。
四、實(shí)驗(yàn)結(jié)果分析:zero shot與few shot性能對比測試
按照以前的工作(Brown等人,2020年),該工作選擇了zero-shot和 few-shot的任務(wù),并報(bào)告了總共20個基準(zhǔn)的結(jié)果,如表4、5所示:
其中:
zero-shot任務(wù)指的是提供了任務(wù)的文字描述和一個測試?yán)?,該任?wù)要么使用開放式生成提供一個答案,要么對提議的答案進(jìn)行排序。
Few-shot任務(wù)指的是提供任務(wù)的幾個例子(1到64個之間)和一個測試?yán)?。該任?wù)將這些文本作為輸入,并生成答案或?qū)Σ煌倪x項(xiàng)進(jìn)行排序。
在模型對比上,將LLaMA與其他基礎(chǔ)模型進(jìn)行比較,包括:公開的語言模型GPT-3(Brown等人,2020)、Gopher(Rae)和Lauren等人。2020)、Gopher(Raeet al.,2021)、Chinchilla(Hoffmann等,2022)和PaLM(Chowdhery等,2022),以及開源的OPT模型(Zhang等,2022)、GPT-J(Wang和Komatsuzaki,2021)和GPTneo(Black等,2022)。
此外,該工作還簡要比較了LLaMA與OPT-IML(Iyer等人,2022)和Flan-PaLM(Chung等人,2022)等指令微調(diào)模型。
1、Common Sense Reasoning評測
該工作選擇了八個標(biāo)準(zhǔn)的常識推理基準(zhǔn):BoolQ(Clark等人,2019),PIQA(Bisk等人,2020),SIQA(Sap等人,2019),HellaSwag(Zellers等人,2019),WinoGrande(Sakaguchiet al.,2021),ARC easy and challenge(Clarket al.,2018)和OpenBookQA(Mihaylov等,2018)。
這些數(shù)據(jù)集包括Cloze和Winograd style的任務(wù),以及多選題回答。
如表3所示:
LLaMA-65B在所有報(bào)告的基準(zhǔn)上都優(yōu)于Chinchilla-70B,但BoolQ除外。
該模型除了在BoolQ和WinoGrande上,在其他地方都超過了PaLM-540B。
也就是說,LLaMA-13B模型在大多數(shù)基準(zhǔn)上也超過了GPT-3,盡管它要小10倍。
2、Closed-book Question Answering評測
閉卷答題測評任務(wù)指的是閉卷情況下的精確匹配性能,即模型不能訪問包含回答問題的證據(jù)的文件。
表4和表5分別展示了NaturalQuestions以及TriviaQA的性能。
結(jié)果發(fā)現(xiàn):
LLaMA-65B在0-sot和少數(shù)sot設(shè)置中都達(dá)到了最先進(jìn)的性能。更重要的是,LLaMA-13B在這些基準(zhǔn)測試中與GPT-3和Chinchilla相比也很有競爭力,盡管其體積小了5-10倍。
在推理過程中,該模型在單個V100 GPU上運(yùn)行。
3、Reading Comprehension評測
RACE閱讀理解評測指的是從為中國初中和高中學(xué)生設(shè)計(jì)的英語閱讀理解考試,效果如表6所示:
LLaMA-65B與PaLM-540B具有競爭力,LLaMA-13的性能比GPT-3好幾個百分點(diǎn)。
4、Mathematical reasoning評測
為了驗(yàn)證模型的推理能力,該工作在兩個數(shù)學(xué)推理基準(zhǔn)上MATH(Hendrycks等人,2021)和GSM8k(Cobbe等人,2021)進(jìn)行了測試。
其中,MATH是一個用LaTeX編寫的12K初中和高中數(shù)學(xué)問題的數(shù)據(jù)集。GSM8k是一套初中數(shù)學(xué)問題。
表7顯示了與PaLM和Minerva(Lewkowycz等人,2022)的測試效果。
Minerva是在從ArXiv和Math網(wǎng)頁中提取的38.5B個符號上進(jìn)行微調(diào)的一系列PaLM模型,而PaLM或LaMA都是在數(shù)學(xué)數(shù)據(jù)上進(jìn)行微調(diào)的。
指標(biāo)maj1@k表示對每個問題產(chǎn)生k個樣本并進(jìn)行多數(shù)投票的評價(Wanget al., 2022)。在GSM8k上,可以發(fā)現(xiàn),盡管還沒有在數(shù)學(xué)數(shù)據(jù)上進(jìn)行微調(diào),LLaMA-65B優(yōu)于Minerva-62B。
5、Code generation評測
該工作在兩個基準(zhǔn)上評估了模型從自然語言描述中寫入代碼的能力,包括HumanEval(Chen等人,2021)和MBPP(Austin等人,2021)兩個測評。
其中,在HumanEval測試中,它會收到一個函數(shù)簽名,提示被格式化為自然碼,并在docstring中提供文本描述和測試。該模型需要生成一個符合描述并滿足測試案例的Python程序。
表8顯示了當(dāng)前模型與現(xiàn)有沒有經(jīng)過代碼微調(diào)的語言模型,即PaLM和LaMDA(Thopilan等人,2022)的比較結(jié)果,其中:pass@1的結(jié)果通過溫度為0.1的采樣,pass@100和pass@80的指標(biāo)通過溫度為0.8時得到,性能如下:
對于類似的參數(shù)數(shù)量,LLaMA優(yōu)于其他通用模型,如LaMDA和PaLM,它們沒有專門針對代碼進(jìn)行訓(xùn)練或微調(diào)。
LLaMA在HumanEval和MBPP上以13B以上的參數(shù)優(yōu)于LaMDA 137B。
即使它的訓(xùn)練時間更長,LLaMA 65B也優(yōu)于PaLM 62B。
6、Massive Multitask Language Understanding評測
由Hendryckset al.(2020)介紹的大規(guī)模多任務(wù)語言理解基準(zhǔn),或稱MMLU,由涵蓋各種知識領(lǐng)域的多項(xiàng)選擇題組成,包括人文、STEM和社會科學(xué)。
該工作在5-shot的環(huán)境中進(jìn)行了模型評估,效果如,表9所示:
LLaMA-65B在大多數(shù)領(lǐng)域都比Chinchilla-70B和PaLM-540B平均落后幾個百分點(diǎn)。
一個潛在的解釋是,該模型在預(yù)訓(xùn)練數(shù)據(jù)中使用了有限的書籍和學(xué)術(shù)論文,即ArXiv、Gutenberg和Books3,總共只有177GB,而這些模型是在高達(dá)2TB的書籍上訓(xùn)練的。
因此,Gopher、Chinchilla和PaLM所使用的大量書籍可能也解釋了為什么Gopher在這個基準(zhǔn)上優(yōu)于GPT-3,而在其他基準(zhǔn)上卻不相上下。
7、Evolution of performance during training評測
此外。該工作還跟蹤了在訓(xùn)練過程中,模型在一些問題回答和常識性基準(zhǔn)上的表現(xiàn),并如圖1、2所示:
在大多數(shù)基準(zhǔn)上,性能很快就會提高,并與模型的訓(xùn)練困惑度相關(guān)。
不過,SIQA和WinoGrande很例外,最值得注意的是,在SIQA上,該工作發(fā)現(xiàn)很多性能上的差異,這可能表明這個基準(zhǔn)并不可靠。
此外,在WinoGrande上,性能與訓(xùn)練困惑度的相關(guān)性不大:LLaMA-33B和LLaMA-65B在訓(xùn)練期間的性能相似。
五、Instruction Finetuning下帶來的性能測試
Instruction Finetuning的實(shí)驗(yàn)表明:
盡管非微調(diào)版本的LLaMA-65B已經(jīng)能夠遵循基本指令,但非常小的微調(diào)就能提高M(jìn)MLU的性能,并進(jìn)一步提高模型遵循指令的能力。
由于這不是本文的重點(diǎn),該工作只進(jìn)行了一次實(shí)驗(yàn),在模型上采用與Chung等人(2022)相同的方法訓(xùn)練一個指令模型,得到LLaMA-I。
表10顯示了微調(diào)模型LLaMA-I在MMLU評測上與現(xiàn)有的中等規(guī)模的指令微調(diào)模型,即OPT-IML(Iyer等人,2022)和Flan-PaLM系列(Chung等人,2022)的結(jié)果。
正如表中所示:
盡管這里使用的指令微調(diào)方法很簡單,但該模型在MMLU上達(dá)到了68.9%。
LLaMA-I(65B)在MMLU上超過了現(xiàn)有的中等規(guī)模的指令微調(diào)模型,但離最先進(jìn)的水平有較大的差距,即GPT代碼-DAVINCI-002在MMLU上的表現(xiàn)為77.4%(數(shù)字取自Iyer等人(2022))。
六、Bias, Toxicity and Misinformation上的分析測試
大型語言模型已被證明可以重現(xiàn)和放大訓(xùn)練數(shù)據(jù)中存在的偏見(Sheng等人,2019年;Kurita等人,2019年),并產(chǎn)生有毒或攻擊性內(nèi)容(Gehman等人,2020年)。
由于該模型訓(xùn)練數(shù)據(jù)集包含了很大一部分來自網(wǎng)絡(luò)的數(shù)據(jù),因此,評估模型產(chǎn)生這種內(nèi)容的可能性是至關(guān)重要的。
為了了解LLaMA-65B的潛在危害,該工作在不同的基準(zhǔn)上進(jìn)行評估,這些基準(zhǔn)衡量了有毒內(nèi)容的產(chǎn)生和刻板印象的檢測。
1、RealToxicityPrompts毒性測試
語言模型可以產(chǎn)生有毒的語言,例如,侮辱、仇恨言論或威脅。一個模型可以產(chǎn)生的有毒內(nèi)容范圍非常大,這使得徹底的評估具有挑戰(zhàn)性。
最近的一些工作(Zhang等人,2022;Hoffmann等人,2022)已經(jīng)考慮了RealToxicityPrompts基準(zhǔn)(Gehman等人,2020)作為他們的模型的毒性指標(biāo)。
RealToxicityPrompts由模型必須完成的大約10萬個提示組,;然后通過向PerspectiveAPI 3提出請求來自動評估毒性分?jǐn)?shù)。
但由于無法控制第三方PerspectiveAPI使用的流程,因此很難與以前的模型進(jìn)行比較,所以僅進(jìn)行了單一模型實(shí)驗(yàn),每個提示的得分范圍從0(無毒)到1(有毒),結(jié)果如表11所示:
可以看到,毒性隨著模型的大小而增加,特別是對于尊重提示,這在以前的工作中也觀察到了(Zhang等人,2022),但Hoffmann等人(2022)是個明顯的例外,他們沒有看到Chinchilla和Gopher之間的差異。
不過,這可以解釋為較大的模型Gopher的性能比Chinchilla差,這表明毒性和模型大小之間的關(guān)系可能只適用于一個模型系列。
2、CrowS-Pairs社會偏見評測
在偏見測試上,該工作在CrowSPairs(Nangia等人,2020)上進(jìn)行了評估。
這個數(shù)據(jù)集允許測量9個類別的偏見:性別、宗教、種族/膚色、性取向、年齡、國籍、殘疾、外貌和社會經(jīng)濟(jì)地位。
每個例子都由一個刻板印象和一個反刻板印象組成,該工作在zero-shot場景下使用兩個句子的復(fù)雜度來衡量模型對刻板印象句子的偏好。
表12中顯示了該模型與GPT-3和OPT-175B的對比結(jié)果:
從表中的結(jié)果我們發(fā)現(xiàn),該模型與這兩個模型相比,平均來說略勝一籌。
特別的,在宗教類別中特別有偏見(與OPT-175B相比+10),其次是年齡和性別(與最佳模型相比各+6)。
因此,從數(shù)據(jù)的角度上,可以發(fā)展,盡管有多個過濾步驟,預(yù)計(jì)這些偏見來自CommonCrawl,畢竟數(shù)據(jù)太雜了。
3、WinoGender性別偏見評測
為了進(jìn)一步研究該模型在性別類別上的偏差,WinoGenderbenchmark(Rudinger等人,2018)數(shù)據(jù)集也作為了測評任務(wù)。
WinoGender是由Winogradschema構(gòu)成的,通過確定模型的共同參考解決性能是否受到代詞性別的影響來評估偏見。
更確切地說,每個句子有三個提及:一個 "職業(yè)",一個 "參與者 "和一個 "代詞",其中代詞是共同參考職業(yè)或參與者。
該任務(wù)要求該模型確定共同參照關(guān)系,并根據(jù)句子的上下文來衡量它是否正確,其目的是揭示與職業(yè)相關(guān)的社會偏見是否被模型所捕捉。
例如,WinoGender數(shù)據(jù)集中的一個句子是 "護(hù)士通知病人,他的班將在一小時后結(jié)束。",后面的 "他的 "是指。然后,我們比較了護(hù)士和病人的連續(xù)性的困惑,用模型進(jìn)行共同參考解決。
具體的,該工作評估了使用3個代詞時的表現(xiàn):"her/her/she","his/him/he "和 "they/them/someone"(不同的選擇對應(yīng)于代詞的語法功能。
在表13顯示了數(shù)據(jù)集中包含的三個不同代詞的共同參考得分。
可以看到,該模型在解決 "他們/他們/某人 "代詞的共同參照方面明顯優(yōu)于 "她/她/他 "和 "他/他/他 "代詞,這在以前的工作中也有類似的觀察(Raeet al., 2021; Hoffmann et al., 2022),這可能是性別偏見的表現(xiàn)。
事實(shí)上,在 "她/他 "和 "他/他 "代詞的情況下,模型可能使用職業(yè)的多數(shù)性別來進(jìn)行共同參考解析,而不是使用句子的證據(jù)。
為了進(jìn)一步研究這一假設(shè),該工作研究了WinoGender數(shù)據(jù)庫中 "她/他 "和 "他/他 "代詞的 "疑難 "案例。這些情況對應(yīng)于代詞與職業(yè)的多數(shù)性別不匹配的句子,而職業(yè)是正確答案。
進(jìn)一步的,我們發(fā)現(xiàn),LLaMA-65B在有問題的例子上犯了更多的錯誤,清楚地表明它捕捉到了與性別和職業(yè)有關(guān)的社會偏見。"她/她/她 "和 "他/他 "代詞的性能下降,這表明了與性別無關(guān)的偏見。
4、TruthfulQA可信度評測
TruthfulQA(Lin等人,2021)旨在衡量一個模型的真實(shí)性,即它識別一個主張是真的能力。
Lin等人(2021)認(rèn)為 "真實(shí) "的定義是指 "關(guān)于現(xiàn)實(shí)世界的字面意義上的真實(shí)",而不是指在信仰體系或傳統(tǒng)背景下才是真實(shí)的主張。這些問題以不同的風(fēng)格寫成,涵蓋了38個類別,并被設(shè)計(jì)成對抗性的。
表14顯示了該模型在這兩個問題上的表現(xiàn),以衡量真實(shí)的模型和真實(shí)與信息的交集。
如上表所示:與GPT-3相比,模型在這兩個類別中得分較高,但正確答案的比率仍然很低,這表明我們的模型很可能會產(chǎn)生幻覺的錯誤答案?!具@是大模型的一個通病】
七、Carbon footprint:算力強(qiáng)的消耗
為了進(jìn)一步說明模型在訓(xùn)練成本上的消耗,表15對總的能源消耗和由此產(chǎn)生的碳足跡進(jìn)行了分類。
在計(jì)算方式上,采用Wu等人(2022)的公式來估計(jì)訓(xùn)練模型所需的瓦特小時,以及碳排放噸數(shù),tCO2eq。
具體的,對于Wh,使用的公式是:Wh=GPU-h×(GPU功耗)×PUE,其中將電源使用效率(PUE)設(shè)定為1.1。
由此產(chǎn)生的碳排放取決于用于訓(xùn)練網(wǎng)絡(luò)的數(shù)據(jù)中心的位置。
例如:
BLOOM使用的網(wǎng)格排放0.057千克二氧化碳當(dāng)量/千瓦時,導(dǎo)致27噸二氧化碳當(dāng)量;
OPT的網(wǎng)格排放0.231千克二氧化碳當(dāng)量/千瓦時,導(dǎo)致82噸二氧化碳當(dāng)量。
為了比較這些模型在同一數(shù)據(jù)中心訓(xùn)練時的碳排放成本,該工作采用了不考慮數(shù)據(jù)中心的位置的數(shù)據(jù),而使用美國全國平均碳強(qiáng)度系數(shù)0.385 kg CO2eq/KWh。
碳排放量的以下公式:tCO2eq = MWh × 0.385,
因此,可以對OPT和BLOOM采用相同的公式進(jìn)行公平比較。
對于OPT,該工作假設(shè)在992個A100-80B上訓(xùn)練了34天。
而在llama模型的訓(xùn)練上,使用了2048個A100-80GB,大約5個月的時間的成本,根據(jù)假設(shè),開發(fā)這些模型將花費(fèi)約2638兆瓦時,總排放量為1015噸二氧化碳當(dāng)量。
八、LLaMA在實(shí)際場景的效果案例
1、Generations from LLaMA-65B
下面展示了一些用LLaMA-65B(沒有指令微調(diào))獲得的世代的例子。prompt提示用粗體字表示。
3、Generations from LLaMA-I
下圖展示了幾個用LLaMA-I生成的例子,即用Chung等人(2022)的基準(zhǔn)和指令數(shù)據(jù)集微調(diào)的LLaMA-65B。
總結(jié)
Meta最近提出了LLaMA大規(guī)模語言模型,模型參數(shù)包括從7B到65B等多個版本,根據(jù)論文的描述,其在較小模型參數(shù)上,依舊取得了在諸多任務(wù)上超越GPT3的效果。
值得注意的是,在多個任務(wù)上,LLaMA-13B的性能優(yōu)于GPT-3,而體積卻小了10倍以上,LLaMA-65B與Chinchilla-70B和PaLM-540B具有競爭性,這樣是否意味著小模型參數(shù)使用大規(guī)模數(shù)據(jù)集也是一條可以研究的方向。
與以前的研究不同,該工作通過完全在公開可用的數(shù)據(jù)上進(jìn)行訓(xùn)練,而不求助于專有數(shù)據(jù)集,是可以達(dá)到最先進(jìn)的性能。
雖然,對于該工作的代碼和權(quán)重是否開源,開源的程度如何,需要我們再等等看,但其中對于數(shù)據(jù)的處理、選擇和加工等環(huán)節(jié),可以有一定的參考性,比如CCNet的流程。
感興趣的,可以進(jìn)一步研究開放的代碼,進(jìn)一步跟進(jìn)
審核編輯 :李倩
-
語言模型
+關(guān)注
關(guān)注
0文章
533瀏覽量
10300 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24749 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8900瀏覽量
137585
原文標(biāo)題:Meta最新語言模型LLaMA論文研讀:小參數(shù)+大數(shù)據(jù)的開放、高效基礎(chǔ)語言模型閱讀筆記
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論