It's not the pre-trained, it's the pre-training. |
?
大模型的通用訓(xùn)練流程 [1] ? ? ? ? ?
在大語言模型(Large Language Models,LLMs)的訓(xùn)練過程中,預(yù)訓(xùn)練階段消耗了大量資源,也充滿了太多未被揭開的秘密。根據(jù)OpenAI的研究,InstructGPT在預(yù)訓(xùn)練階段幾乎使用了所有的計(jì)算和數(shù)據(jù)資源(高達(dá)98%) [2]。有監(jiān)督微調(diào)(Supervised fine-tuning,SFT)和人類反饋強(qiáng)化學(xué)習(xí)(Reinforment Learning Human Feedback,RLHF)能夠激活預(yù)訓(xùn)練模型內(nèi)部已存在的能力,而這些能力僅僅通過提示工程難以發(fā)掘。但是,預(yù)訓(xùn)練的價(jià)值遠(yuǎn)不止于此,它像一個(gè)充滿潛力的神秘盒子,等待我們?nèi)ヌ剿髌涓顚哟蔚膬r(jià)值和隱藏的機(jī)制。 ? ? ? ? ??
預(yù)訓(xùn)練模型就像一個(gè)未加控制的野獸,神秘而強(qiáng)大。通過高質(zhì)量數(shù)據(jù)進(jìn)行微調(diào),我們可以使這個(gè)野獸適應(yīng)社會(huì)的需要;隨后通過RLHF進(jìn)一步完善,模型更加貼近用戶的具體需求。對(duì)齊技術(shù)如SFT和RLHF等,可以被看作是對(duì)這個(gè)野獸的馴化。但目標(biāo)不止如此,我們更希望深入了解它,探究使得LLMs展現(xiàn)出其獨(dú)特能力的根本過程--The Pre-training。 大部分開源LLMs僅提供模型權(quán)重和性能測試的結(jié)果,但是要真正理解一個(gè)模型的行為,需要更多的信息。LLM360 [4] 和 OLMo [5] 的全面開源為研究者和社區(qū)提供了全面和深入的信息共享,涵蓋了訓(xùn)練數(shù)據(jù)、算法設(shè)置、實(shí)現(xiàn)挑戰(zhàn)以及性能評(píng)估的細(xì)節(jié),極大地增加了LLMs預(yù)訓(xùn)練過程的透明度,幫助我們理解這些LLMs的工作原理。 我們都想知道這個(gè)問題的答案,人類可以信任LLMs嗎?作為一個(gè)觀察者,我們嘗試從預(yù)訓(xùn)練階段來窺探這個(gè)龐然大物。我們致力于理解LLMs在預(yù)訓(xùn)練階段是如何建??尚牛═rustworthiness)的,并基于這個(gè)理解,探索預(yù)訓(xùn)練階段是否能為增強(qiáng)LLMs的可信提供指導(dǎo)。? ??
論文標(biāo)題:Towards Tracing Trustworthiness Dynamics: Revisiting Pre-training Period of Large Language Models 論文鏈接:https://arxiv.org/abs/2402.19465 項(xiàng)目主頁:https://github.com/ChnQ/TracingLLM
在此工作中,我們首次給出了如下幾個(gè)觀察: ?我們發(fā)現(xiàn)LLMs在預(yù)訓(xùn)練的早期階段就建立了有關(guān)可信概念的線性表征; ?我們發(fā)現(xiàn)預(yù)訓(xùn)練過程中,LLMs表現(xiàn)出對(duì)于可信概念類似于“信息瓶頸”先擬合、再壓縮的學(xué)習(xí)過程; ?我們基于表征干預(yù)技術(shù),初步驗(yàn)證了LLMs在預(yù)訓(xùn)練過程中的切片可以幫助提升最終LLMs的可信性。
簡介LLM360 在本文的研究過程中,我們使用了 LLM360[4] 開源項(xiàng)目所提供的豐富LLM預(yù)訓(xùn)練資源。該項(xiàng)目基于1.3萬億 Tokens預(yù)訓(xùn)練出了基礎(chǔ)模型Amber,并均勻地開源了預(yù)訓(xùn)練過程中的360個(gè)模型切片,供廣大研究者參考和使用。此外,LLM360進(jìn)一步推出了兩個(gè)微調(diào)模型:一是針對(duì)指令微調(diào)優(yōu)化的AmberChat模型,二是經(jīng)過安全對(duì)齊處理的AmberSafe模型。上述提及的所有模型以及切片均為7B規(guī)模的參數(shù)量級(jí)。 |
1 預(yù)訓(xùn)練過程中有關(guān)可信概念的線性表征
數(shù)據(jù)集:本文主要探究可信領(lǐng)域下的五個(gè)關(guān)鍵維度:可靠性(reliability)、毒性(toxicity)、隱私性(privacy)、公平性(fairness)和魯棒性(robustness)。為了深入研究這些維度,我們分別選取了這五個(gè)維度下具有代表性的相關(guān)數(shù)據(jù)集:TruthfulQA、Toxicity、ConfAIde、StereoSet以及經(jīng)過特定擾動(dòng)處理的SST-2。我們根據(jù)原數(shù)據(jù)集的設(shè)定,對(duì)每個(gè)樣本進(jìn)行標(biāo)注,以標(biāo)識(shí)每句話是否包含不正確、有毒、隱私泄露、有歧視和被擾動(dòng)的信息。 實(shí)驗(yàn)設(shè)置:本文采用線性探針方法 [6]。具體地,在得到360個(gè)切片對(duì)于每個(gè)數(shù)據(jù)集的表征以后,我們對(duì)于每個(gè)切片的每一層都訓(xùn)練一個(gè)線性分類器,線性分類器的正確率代表著模型內(nèi)部表征區(qū)分不同標(biāo)簽的能力。前75個(gè)切片實(shí)驗(yàn)效果如下: 從第76個(gè)到360的切片的實(shí)驗(yàn)結(jié)果請(qǐng)移步正文附錄,實(shí)驗(yàn)趨勢大體相同,基本趨于平緩的波動(dòng)。 實(shí)驗(yàn)結(jié)果說明兩點(diǎn): ?隨著預(yù)訓(xùn)練的進(jìn)行,在這五個(gè)可信維度上,大模型中間層的表征可以很好地區(qū)分是否可信 ? ? ?大模型在預(yù)訓(xùn)練的早期階段就已經(jīng)可以很好地區(qū)分是否可信
2 信息瓶頸視角下有關(guān)可信概念的預(yù)訓(xùn)練動(dòng)態(tài) 已有理論結(jié)果 [7] 證明線性探針的準(zhǔn)確率可以用來界定互信息估計(jì)器。受到利用互信息來探測模型訓(xùn)練動(dòng)態(tài)的啟發(fā) [8],本文也利用互信息對(duì)模型表征的動(dòng)態(tài)變化做了初步探索。類似 [8] 用信息平面研究傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程,我們分別研究模型表征T與上面五個(gè)原始數(shù)據(jù)集X的互信息,和模型表征T與數(shù)據(jù)集標(biāo)簽Y的互信息。實(shí)驗(yàn)結(jié)果如下: 后續(xù)預(yù)訓(xùn)練過程的變化趨勢見附錄,幾乎保持平緩的波動(dòng)。 分開看這兩張圖,T和X的互信息先上升后下降,而T和Y的互信息一直在上升。把它們合起來看,這個(gè)趨勢與經(jīng)典論文 [8] 中的“fitting”和“compression”兩階段相符:首先,當(dāng)大語言模型隨機(jī)初始化時(shí),它不具備保留信息的能力,因此互信息幾乎為0;接著,隨著預(yù)訓(xùn)練的進(jìn)行,大模型逐漸具備語言理解和概念建模的能力,因此互信息持續(xù)增長;最后,隨著預(yù)訓(xùn)練的進(jìn)一步進(jìn)行,大模型逐漸學(xué)會(huì)提取壓縮無關(guān)信息并提取有效信息,因此T和X的互信息降低,而T和Y的互信息繼續(xù)增加。從互信息的角度,這是一個(gè)很有趣的發(fā)現(xiàn)。即使定義和實(shí)驗(yàn)設(shè)置不同,預(yù)訓(xùn)練大語言模型和傳統(tǒng)神經(jīng)網(wǎng)絡(luò),兩者的預(yù)訓(xùn)練階段都能分為“fitting”和“compression”兩個(gè)階段,這暗示著大模型和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中可能存在的一些相似之處。 總體來看,據(jù)我們所知,本文首次研究大模型在預(yù)訓(xùn)練過程中可信性概念建模的變化情況,我們希望我們的初步探索能幫助領(lǐng)域內(nèi)的研究者更深入地理解大模型的預(yù)訓(xùn)練過程,啟發(fā)大家用新方法幫助大模型變得更加可信。
3 基于引導(dǎo)向量的表征干預(yù):預(yù)訓(xùn)練知識(shí)如何助力模型可信能力提升
3.1 Activation Intervention 我們觀察到,既然LLMs在其預(yù)訓(xùn)練階段就已經(jīng)學(xué)習(xí)到了有關(guān)可信概念線性可分的表征,那么不同于現(xiàn)在的大多數(shù)技術(shù)如SFT,RLHF等在完成預(yù)訓(xùn)練的模型上進(jìn)一步優(yōu)化,一個(gè)很自然的想法是:LLMs在預(yù)訓(xùn)練過程中的切片能不能幫助指令微調(diào)模型進(jìn)行alignment呢? 我們基于表征干預(yù)的技術(shù)(Activation Intervention),給予該問題初步的肯定的回答。
?
表征干預(yù)是LLMs領(lǐng)域中一個(gè)正在快速興起的技術(shù),已被多個(gè)場景下驗(yàn)證有效 [9-10]。我們以如何讓LLMs變得更“Truthful”為例 [9],簡要闡述表征干預(yù)技術(shù)的基本流程。 1.首先,我們分別使用涵蓋真實(shí)與虛假信息的正負(fù)prompt對(duì)來刺激LLMs獲得其對(duì)應(yīng)的內(nèi)部表征 2.然后對(duì)正負(fù)表征的質(zhì)心作差獲得“指向truthfulness方向的引導(dǎo)向量(steering vector)” 3.最后在LLMs前向推理時(shí)每一步產(chǎn)生的表征上加上該引導(dǎo)向量,達(dá)到干預(yù)輸出的目的 |
?
不同于上述工作從待干預(yù)模型自身抽取引導(dǎo)向量,我們意在從LLMs預(yù)訓(xùn)練過程的切片中構(gòu)建引導(dǎo)向量來干預(yù)指令微調(diào)模型(SFT Model),試圖提升指令微調(diào)模型的可信能力,如下圖所示。 ? ? 其中,我們使用北京大學(xué)團(tuán)隊(duì) [11] 開源的PKU-RLHF-10K數(shù)據(jù)集 [12] 來構(gòu)建正負(fù)prompt對(duì),該數(shù)據(jù)集提供了一萬條帶有安全/非安全回復(fù)標(biāo)注的對(duì)話數(shù)據(jù),可用于大模型的 RLHF 訓(xùn)練。 3.2 實(shí)驗(yàn)結(jié)果分析
我們在上文提及的可信領(lǐng)域下五個(gè)維度的數(shù)據(jù)集(TruthfulQA,Toxigen,StereoSet,ConfAIde,SST-2),以及四個(gè)常用的大模型通用能力評(píng)測數(shù)據(jù)集(MMLU,ARC,RACE,MathQA)上,評(píng)測了四個(gè)模型的性能:指令微調(diào)模型AmberChat,安全對(duì)齊模型AmberSafe,使用來自AmberChat自身的steering vector干預(yù)后的AmberChat,使用來自第180個(gè)預(yù)訓(xùn)練切片的steering vector干預(yù)后的AmberChat。 ? ?
實(shí)驗(yàn)結(jié)果表明,在使用來自預(yù)訓(xùn)練切片的steering vector干預(yù)SFT模型(AmberChat)表征后,在三個(gè)可信維度(Reliability:TruthfulQA,Toxicity:Toxigen,F(xiàn)airness:StereoSet)上都有較明顯的提升。同時(shí),這種干預(yù)對(duì)模型通用能力的影響并不顯著(在ARC,MMLU上表現(xiàn)出邊際損失,在MathQA和RACE上表現(xiàn)出有邊際提升)。 令人驚訝的是,我們發(fā)現(xiàn)使用預(yù)訓(xùn)練的中間切片構(gòu)建的steering vector,相比于來自AmberChat自身的引導(dǎo)向量,能更顯著地提升AmberChat模型的可信性能。
4 小結(jié)
未來,當(dāng)我們嘗試對(duì)齊比人類更強(qiáng)大的模型時(shí)(super-alignment),依賴于“人類反饋”的相關(guān)微調(diào)技術(shù),如RLHF等,或?qū)⒉辉僮嘈?[13-14]。為了應(yīng)對(duì)這一可能的挑戰(zhàn),多個(gè)研究機(jī)構(gòu)正在探索新的解決方案。例如,近期OpenAI提出“弱對(duì)強(qiáng)監(jiān)督”方法 [13],Meta提出“self-reward”機(jī)制 [14],同時(shí)也有越來越多的研究聚焦于“self-alignment”研究方向的探索 [15-16]。 我們的研究為解決類似的super-alignment問題提供了一個(gè)新的視角:利用LLMs在預(yù)訓(xùn)練過程中習(xí)得的知識(shí)來輔助最終的模型對(duì)齊。作為研究的起點(diǎn),我們深入探究預(yù)訓(xùn)練過程中如何建模有關(guān)可信的概念??上驳氖?,探索初見成效:1)我們發(fā)現(xiàn)大模型在預(yù)訓(xùn)練的早期階段就建立了有關(guān)可信概念的線性表征 2)我們發(fā)現(xiàn)大模型對(duì)可信概念類似于信息瓶頸的學(xué)習(xí)過程。此外,表征干預(yù)技術(shù)的成功應(yīng)用也初步驗(yàn)證了預(yù)訓(xùn)練中間切片對(duì)輔助模型對(duì)齊的有效性。 我們希望這份工作能夠?yàn)樯钊肜斫釲LMs如何動(dòng)態(tài)構(gòu)建及發(fā)展其內(nèi)在可信屬性提供新的視角,并啟迪未來在LLMs對(duì)齊技術(shù)領(lǐng)域的更多創(chuàng)新嘗試。我們期待這些研究成果能進(jìn)一步推動(dòng)大模型朝著更可信、更可控的方向發(fā)展,從而在人工智能倫理與安全道路上邁出堅(jiān)實(shí)的一步。
參考文獻(xiàn)
[1] https://huyenchip.com/2023/05/02/rlhf.html ? ?
[2] https://openai.com/research/instruction-following
[3] twitter.com/anthrupad
[4] Liu, Z., Qiao, A., Neiswanger, W., Wang, H., Tan, B., Tao, T., ... & Xing, E. P. (2023). Llm360: Towards fully transparent open-source llms. arXiv preprint arXiv:2312.06550.
[5] Groeneveld, D., Beltagy, I., Walsh, P., Bhagia, A., Kinney, R., Tafjord, O., ... & Hajishirzi, H. (2024). OLMo: Accelerating the Science of Language Models. arXiv preprint arXiv:2402.00838.
[6] Belinkov, Y. (2022). Probing classifiers: Promises, shortcomings, and advances. Computational Linguistics, 48(1), 207-219.
[7] Choi, K., Jung, J. W., & Watanabe, S. (2023). Understanding Probe Behaviors through Variational Bounds of Mutual Information. arXiv preprint arXiv:2312.10019.
[8] Shwartz-Ziv, R., & Tishby, N. (2017). Opening the black box of deep neural networks via information. arXiv preprint arXiv:1703.00810.
[9] Li, K., Patel, O., Viégas, F., Pfister, H., & Wattenberg, M. (2024). Inference-time intervention: Eliciting truthful answers from a language model. Advances in Neural Information Processing Systems, 36.
[10] Turner, A., Thiergart, L., Udell, D., Leech, G., Mini, U., & MacDiarmid, M. (2023). Activation addition: Steering language models without optimization. arXiv preprint arXiv:2308.10248.
[11] Ji, J., Liu, M., Dai, J., Pan, X., Zhang, C., Bian, C., ... & Yang, Y. (2024). Beavertails: Towards improved safety alignment of llm via a human-preference dataset. Advances in Neural Information Processing Systems, 36.
[12] https://huggingface.co/datasets/PKU-Alignment/PKU-SafeRLHF-10K
[13] Burns, C., Izmailov, P., Kirchner, J. H., Baker, B., Gao, L., Aschenbrenner, L., ... & Wu, J. (2023). Weak-to-strong generalization: Eliciting strong capabilities with weak supervision. arXiv preprint arXiv:2312.09390.
[14] Yuan, W., Pang, R. Y., Cho, K., Sukhbaatar, S., Xu, J., & Weston, J. (2024). Self-rewarding language models. arXiv preprint arXiv:2401.10020.
[15] Sun, Z., Shen, Y., Zhou, Q., Zhang, H., Chen, Z., Cox, D., ... & Gan, C. (2024). Principle-driven self-alignment of language models from scratch with minimal human supervision. Advances in Neural Information Processing Systems, 36.
[16] Li, X., Yu, P., Zhou, C., Schick, T., Levy, O., Zettlemoyer, L., ... & Lewis, M. (2023, October). Self-Alignment with Instruction Backtranslation. In The Twelfth International Conference on Learning Representations.
審核編輯:黃飛
?
評(píng)論
查看更多