亚洲Av不卡免费播放,免费a片高清免费全部播放,美国一级毛片免费视频观看

1. 大模型訓(xùn)練的套路

昨天寫了一篇關(guān)于生成式模型的訓(xùn)練之道，覺得很多話還沒有說完，一些關(guān)鍵點還沒有點透，決定在上文的基礎(chǔ)上，再深入探討一下大模型訓(xùn)練這個話題。

任何一個大模型的訓(xùn)練，萬變不離其宗，一定要經(jīng)歷以下幾個步驟：

模型選擇（Model Selection）：選擇適合任務(wù)和數(shù)據(jù)的模型結(jié)構(gòu)和類型。
數(shù)據(jù)收集和準(zhǔn)備（Data Collection and Preparation）：收集并準(zhǔn)備用于訓(xùn)練和評估的數(shù)據(jù)集，確保其適用于所選模型。
無監(jiān)督預(yù)訓(xùn)練（Pretraining）：使用大規(guī)模未標(biāo)記的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，使模型學(xué)習(xí)通用的語言表示。
驗證和測試（Verification and testing）：評估預(yù)訓(xùn)練或者微調(diào)后模型在特定任務(wù)上的性能，并進(jìn)總的來說，這些步驟不是簡單的線性順序，具體大家看圖來體會。而是在預(yù)訓(xùn)練和微調(diào)或調(diào)優(yōu)階段后的驗證和測試，都要跟隨一個決策是否要調(diào)整模型，是否要繼續(xù)進(jìn)行微調(diào)或調(diào)優(yōu)。根據(jù)決策來判定是否選擇迭代的循環(huán)，通過不斷的反饋和優(yōu)化，逐步提升模型的性能和泛化能力，知道涌現(xiàn)出來的能力，讓訓(xùn)練者滿意結(jié)束訓(xùn)練過程。但讓這個過程有個確定起點的話，一定要從模型選擇開始。行必要的調(diào)整和改進(jìn)。
微調(diào)或調(diào)優(yōu)（Fine-tuning）：使用標(biāo)記的任務(wù)特定數(shù)據(jù)對預(yù)訓(xùn)練模型進(jìn)行微調(diào)，以提高其在特定任務(wù)上的性能。
決策（Decision Making）：根據(jù)驗證和測試結(jié)果，判斷是否需要重新選擇模型、調(diào)整超參數(shù)、重新收集數(shù)據(jù)等，進(jìn)一步優(yōu)化模型。

總的來說，這些步驟不是簡單的線性順序，具體大家看圖來體會。而是在預(yù)訓(xùn)練和微調(diào)或調(diào)優(yōu)階段后的驗證和測試，都要跟隨一個決策是否要調(diào)整模型，是否要繼續(xù)進(jìn)行微調(diào)或調(diào)優(yōu)。根據(jù)決策來判定是否選擇迭代的循環(huán)，通過不斷的反饋和優(yōu)化，逐步提升模型的性能和泛化能力，直到涌現(xiàn)出能力，讓訓(xùn)練者滿意結(jié)束訓(xùn)練過程。但讓這個過程有個確定起點的話，一定要從模型選擇開始。

2. 模型選擇：信仰、篤定和堅持

啟動訓(xùn)練大模型這個事兒，本身就很瘋狂。因為沒有人知道結(jié)果是否會成功，以及最終訓(xùn)練是否會涌現(xiàn)奇跡。所以模型的選擇，說的謙虛一點，是基于模型構(gòu)建者的先驗知識、經(jīng)驗、文獻(xiàn)研究和調(diào)研，說的玄學(xué)一點就是基于一種信仰和篤定。

ChatGPT這種事兒最終能被Samuel Altman 搞成，從他的歷史經(jīng)歷來看也是有跡可循的。Sam在個性上是個敢于冒險和不按常理出牌的人。在斯坦福大學(xué)學(xué)習(xí)計算機科學(xué)那會兒，剛學(xué)了一年，在2005年就退學(xué)搞創(chuàng)業(yè)了，成立了Loopt，一款基于位置的社交移動應(yīng)用，作為CEO，幾年給公司籌集了3000萬美金的風(fēng)險投資，2012年，它被綠點公司以4340萬美金收購，也算是他撈到的第一桶金。Sam接下來從2011年起，成了YC（以投資種子階段初創(chuàng)公司為業(yè)務(wù)的創(chuàng)投公司）的合伙人。2014年，Sam被任命為YC的總裁，并開始大刀闊斧，愿意投資和推動新的、未經(jīng)證實的技術(shù)，準(zhǔn)備將YC擴(kuò)大到每年資助1000家初創(chuàng)公司，尤其是“硬科技”公司，而OpenAI就是2015年他和幾個行業(yè)大佬聯(lián)合資助起來的，致力于訓(xùn)練人工智能，讓人工智能走進(jìn)人類，試圖創(chuàng)建并推廣友好的人工智能，以造福所有人，實現(xiàn)智能公平。并很快在2015年就籌集了10億美金。2019年，Sam篤定大模型一定能搞成，毅然決然離開YC，專注于OpenAI。

Transformer模型在谷歌大腦2017年發(fā)布開源的時候，應(yīng)用的場景是自然語言處理(NLP) 的機器翻譯和時間序列預(yù)測任務(wù)。Sam等人堅信Transformer更適合并行化，允許在更大的數(shù)據(jù)集上進(jìn)行訓(xùn)練，這就直接導(dǎo)致了預(yù)訓(xùn)練系統(tǒng)的發(fā)展。

3. 數(shù)據(jù)預(yù)處理：剔除“臟”數(shù)據(jù)

有了模型，就要考慮怎么去找數(shù)據(jù)訓(xùn)練了。這可不是隨便在互聯(lián)網(wǎng)上找到海量數(shù)據(jù)，然后不分青紅皂白就開始訓(xùn)練的。根據(jù)國際數(shù)據(jù)公司IDC的估計，截至2020年，全球數(shù)字宇宙的大小為44 Zettabytes（其中1 Zettabyte等于10億 Terabytes），其中文本、圖像和視頻等非結(jié)構(gòu)化數(shù)據(jù)占據(jù)了絕大部分。具體來說，據(jù)IDC估計，非結(jié)構(gòu)化數(shù)據(jù)占據(jù)數(shù)字宇宙的80%以上，其中視頻數(shù)據(jù)占比最高，約為60%。據(jù)統(tǒng)計，截至2020年，全球每天產(chǎn)生的文本數(shù)據(jù)量約為50萬億字節(jié)，這相當(dāng)于每天產(chǎn)生50億部普通手機的存儲容量；而每天上傳到Y(jié)ouTube的視頻數(shù)據(jù)量約為500小時，相當(dāng)于每分鐘上傳約300小時的視頻。如果要把這些數(shù)據(jù)都學(xué)習(xí)了，不是不可能，但是也沒有必要。

人類的信息有很多，有些信息是正確信息，有些是錯誤信息，有些是噪聲數(shù)據(jù)。有些信息帶有明顯的惡意或者邏輯漏洞。如果不分青紅皂白，讓AI自己去訓(xùn)練自己，可能會在訓(xùn)練數(shù)據(jù)這個環(huán)節(jié)就會失控，表現(xiàn)不如預(yù)期甚至出現(xiàn)偏差和過擬合等問題。因為“臟”數(shù)據(jù)，自然不會學(xué)出一個理想的模型和能力沉淀。因此，在選擇訓(xùn)練數(shù)據(jù)時，需要盡量篩選和清洗出具有代表性和高質(zhì)量的數(shù)據(jù)，從而提高模型的表現(xiàn)和泛化能力。

關(guān)于GPT-4學(xué)了多大當(dāng)量的數(shù)據(jù)并未公開，但是GPT-3學(xué)了45TB的文本數(shù)據(jù)。主要來源于：

Common Crawl：提供了包含超過50億份網(wǎng)頁數(shù)據(jù)的免費數(shù)據(jù)庫。有超過7年的網(wǎng)絡(luò)爬蟲數(shù)據(jù)集，包含原始網(wǎng)頁數(shù)據(jù)、元數(shù)據(jù)提取和文本提取。
Wikipedia：網(wǎng)絡(luò)維基百科，目前有超過1億的條目項。
BooksCorpus：由100萬本英文電子書組成的語料庫。
WebText：一個來自于互聯(lián)網(wǎng)的語料庫，其中包含了超過8億個網(wǎng)頁的文本內(nèi)容。
OpenWebText：類似于WebText，但是包含的文本數(shù)據(jù)更加規(guī)范化和質(zhì)量更高。
ConceptNet：一個用于語義網(wǎng)絡(luò)的數(shù)據(jù)庫，其中包含大量的語言學(xué)知識。
NewsCrawl：從新聞網(wǎng)站收集的大量新聞文章的集合。
Reddit：一個包含了大量用戶發(fā)布的信息的論壇網(wǎng)站。

但不能簡單的運用拿來主義。這種原始數(shù)據(jù)，是不能直接進(jìn)入訓(xùn)練的，還至少要經(jīng)過以下四個數(shù)據(jù)預(yù)處理階段，才可以進(jìn)入到預(yù)訓(xùn)練環(huán)節(jié)：

數(shù)據(jù)清理（Data Cleaning）：處理數(shù)據(jù)中存在的錯誤、缺失或不一致的部分，包括刪除重復(fù)數(shù)據(jù)、處理缺失值、修復(fù)錯誤數(shù)據(jù)或調(diào)整數(shù)據(jù)格式等操作。數(shù)據(jù)清理旨在確保數(shù)據(jù)的準(zhǔn)確性和一致性，以避免對模型訓(xùn)練產(chǎn)生不良影響。

去除噪聲（Noise Removal）：在數(shù)據(jù)中可能存在一些無關(guān)緊要或錯誤的信息，被稱為噪聲。去除噪聲的過程是識別和過濾掉這些噪聲數(shù)據(jù)，以提高數(shù)據(jù)的質(zhì)量和模型的性能。噪聲可能包括文本中的標(biāo)點符號、停用詞、拼寫錯誤、不一致的格式等。通過去除噪聲，可以減少對模型的干擾，提高模型對真實信號的學(xué)習(xí)能力。

標(biāo)準(zhǔn)化（Normalization）：標(biāo)準(zhǔn)化是將數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的標(biāo)準(zhǔn)尺度的過程。這對于具有不同尺度或分布的特征數(shù)據(jù)非常重要。標(biāo)準(zhǔn)化可以確保不同特征之間的數(shù)據(jù)具有可比性，避免模型在處理數(shù)據(jù)時對某些特征給予不合理的權(quán)重。常見的標(biāo)準(zhǔn)化方法包括將數(shù)據(jù)縮放到特定的范圍（例如0到1之間）或者使用均值和標(biāo)準(zhǔn)差進(jìn)行標(biāo)準(zhǔn)化。

分詞（Tokenization）：前文已經(jīng)說了，token是指在信息數(shù)據(jù)處理中的最小單位，文本數(shù)據(jù)的預(yù)處理中，一個常見的步驟是將原始文本拆分成一個個token，這個過程稱為tokenization。目的是將連續(xù)的文本序列劃分為離散的單元，例如單詞、子詞或字符。這樣做的好處是將文本轉(zhuǎn)換為機器可以處理的離散表示形式。在深度學(xué)習(xí)模型中，tokenization通常是將文本轉(zhuǎn)換為數(shù)字表示的第一步。每個token都被賦予一個唯一的整數(shù)編號，這個編號會作為模型輸入中的一個特征向量的一部分。

4. 預(yù)訓(xùn)練：反向傳播算法（Backpropagation）

在數(shù)據(jù)開始預(yù)訓(xùn)練之前，需要先定義損失函數(shù)。損失函數(shù)是衡量模型預(yù)測結(jié)果與實際目標(biāo)之間差異程度的指標(biāo)。確實，較小的損失函數(shù)值表示模型在訓(xùn)練數(shù)據(jù)上的擬合效果較好，也就是更好地學(xué)習(xí)了訓(xùn)練數(shù)據(jù)的內(nèi)容。在訓(xùn)練過程中，我們的目標(biāo)是最小化損失函數(shù)的值。通過調(diào)整模型的參數(shù)，使損失函數(shù)達(dá)到最小值，即實現(xiàn)了對任務(wù)的最佳擬合。

在訓(xùn)練過程中，通過計算損失函數(shù)相對于參數(shù)的梯度，可以了解每個參數(shù)對損失函數(shù)的影響程度。梯度告訴我們應(yīng)該如何更新參數(shù)值來最小化損失函數(shù)。當(dāng)梯度接近零時，表示損失函數(shù)達(dá)到了一個局部最小值或平穩(wěn)點，這可能意味著模型已經(jīng)收斂到一個較好的狀態(tài)。這樣的情況下，訓(xùn)練可以被認(rèn)為是相對順利的。然而，并不是所有情況下梯度接近零都代表訓(xùn)練的順利進(jìn)行。在深度學(xué)習(xí)中，模型可能會遇到鞍點或局部最小值，并且梯度可能會陷入平原地帶。此時，某些維度上的梯度接近零，但并不表示找到了全局最小值。鞍點是指在某個位置上，沿一些維度上的梯度是零，但沿其他維度上的梯度不為零的點，甚至其他維度梯度可能仍然有較大的值，說明還有改進(jìn)的空間。

這個損失函數(shù)梯度收斂的過程，除了剛才說的鞍點和局部最小值，還可能遇到梯度消失（Vanishing Gradient）和梯度爆炸（Exploding Gradient），上文已經(jīng)說過這兩個問題代表著什么，以及怎么去應(yīng)對，這里就不再贅述。

在神經(jīng)網(wǎng)絡(luò)中，損失函數(shù)梯度收斂的過程是通過反向傳播算法（Backpropagation）實現(xiàn)的。反向傳播算法（Backpropagation）是指在神經(jīng)網(wǎng)絡(luò)中，通過計算損失函數(shù)對網(wǎng)絡(luò)參數(shù)的梯度，并將梯度信息從輸出層向輸入層進(jìn)行傳遞的過程。它基于鏈?zhǔn)椒▌t，通過將梯度從輸出層逐層反向傳播至輸入層，計算每個參數(shù)對損失函數(shù)的貢獻(xiàn)，并利用梯度信息更新網(wǎng)絡(luò)參數(shù)，從而最小化損失函數(shù)。反向傳播算法用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)，通過調(diào)整參數(shù)使得預(yù)測結(jié)果與真實標(biāo)簽更接近。

這個過程被很多人戲稱為煉丹。在預(yù)訓(xùn)練階段，模型通過大規(guī)模的無監(jiān)督學(xué)習(xí)來學(xué)習(xí)語言模型的結(jié)構(gòu)和表示。這個階段的目標(biāo)是讓模型在未標(biāo)記的數(shù)據(jù)上進(jìn)行自我訓(xùn)練，從中學(xué)習(xí)到語言的統(tǒng)計規(guī)律和語義信息。在這個過程中，模型有機會發(fā)現(xiàn)并表現(xiàn)出一些意想不到的能力，這就是“涌現(xiàn)”了。具體來說，當(dāng)模型規(guī)模擴(kuò)大、參數(shù)增多時，模型可能會表現(xiàn)出更好的泛化能力、更高的性能或具備某些令人驚訝的特征。這種涌現(xiàn)現(xiàn)象可能與模型內(nèi)部的復(fù)雜交互和表示能力有關(guān)，模型在訓(xùn)練過程中學(xué)習(xí)到了隱藏的結(jié)構(gòu)或規(guī)律，從而表現(xiàn)出超出預(yù)期的能力。而作為一種驚喜，“涌現(xiàn)”不能自我展示，還得需要在驗證環(huán)節(jié)被發(fā)現(xiàn)。

5. 驗證和測試階段：發(fā)現(xiàn)“涌現(xiàn)”的激動時刻

在驗證和測試階段，研究人員和開發(fā)者會對訓(xùn)練得到的模型進(jìn)行評估和驗證。一般大模型的驗證會分為可塑性、可供性、可用性、可信性和可替代性五個大類26個細(xì)分指標(biāo)：

在測試和驗證中發(fā)現(xiàn)涌現(xiàn)具有偶然性，但也不是一點兒不能預(yù)測，所以在測試用例的設(shè)計時候，能夠足夠大膽，預(yù)估到可能“涌現(xiàn)”的方向，而提前做好準(zhǔn)備。智愿君下面會列出來一些可能涌現(xiàn)的能力，但現(xiàn)實場景可能遠(yuǎn)遠(yuǎn)比這個要復(fù)雜：

高階推理能力：大型語言模型在經(jīng)過訓(xùn)練和優(yōu)化后，可能展現(xiàn)出對高階推理任務(wù)的能力。這包括對因果關(guān)系的理解、擾動變量分析、反事實推理等。模型可以在文本中尋找關(guān)聯(lián)，并推斷出復(fù)雜的邏輯關(guān)系，從而回答復(fù)雜的問題。

去除噪聲和問題定位：在訓(xùn)練過程中，模型可能學(xué)習(xí)到了如何去除輸入中的噪聲，并從復(fù)雜的問題中定位和理解問題的根源。這使得模型能夠更好地理解用戶的意圖，并給出準(zhǔn)確和有針對性的回復(fù)。

自我修正能力：大型語言模型可能具有一定的自我修正能力。通過與用戶的交互和反饋，模型可以不斷學(xué)習(xí)和糾正自己的錯誤，并提供更準(zhǔn)確的回答。這種自我修正能力可以幫助模型逐步改進(jìn)，并提供更高質(zhì)量的輸出。

靈活應(yīng)對知識盲區(qū)：模型在訓(xùn)練過程中可能遇到知識盲區(qū)，即對某些領(lǐng)域或主題的了解有限。然而，通過涌現(xiàn)，模型可能能夠從已有的知識中推斷和應(yīng)用相關(guān)信息，填補知識盲區(qū)并給出合理的回答。

知識嵌入、想象力和創(chuàng)造力：模型在訓(xùn)練過程中可能學(xué)習(xí)到了豐富的知識，并能夠?qū)⑦@些知識嵌入到生成的回答中。這使得模型能夠展示出一定的想象力和創(chuàng)造力，生成豐富多樣的文本，并提供更加富有表現(xiàn)力的回復(fù)。大型語言模型可以通過知識圖譜、外部知識庫等輔助信息，加深對知識的理解和應(yīng)用。它可以從知識庫中檢索和整合信息，豐富回答的內(nèi)容和準(zhǔn)確性。

社交和情感智能：大型語言模型可以對情感和情緒進(jìn)行理解和生成。它可以識別和表達(dá)情感色彩，并與用戶進(jìn)行情感交流和互動，從而提供更加個性化和情感化的回復(fù)。涌現(xiàn)還可能表現(xiàn)為模型能夠根據(jù)上下文進(jìn)行適應(yīng)性回復(fù)，并生成多樣性的輸出。模型可以根據(jù)對話的進(jìn)行和用戶的需求，靈活地調(diào)整回復(fù)的風(fēng)格和內(nèi)容，提供更加個性化和多樣化的回答。在處理復(fù)雜對話和語境理解方面，模型可能展現(xiàn)出更強的能力。它可以從多個回合的對話中提取關(guān)鍵信息，并進(jìn)行語義上的深入理解，從而給出更加準(zhǔn)確和連貫的回復(fù)。

傾向性調(diào)控和自我監(jiān)控：大型語言模型可能具備一定的傾向性調(diào)控和自我監(jiān)控能力。它可以根據(jù)用戶的需求和要求，調(diào)整回復(fù)的傾向性和風(fēng)格，并對自己的輸出進(jìn)行監(jiān)控和評估，以確?；貜?fù)的質(zhì)量和合理性，并堅守某些原則，不會被使用者欺騙而給出違反基本價值觀和傷害人類的回復(fù)。

多模態(tài)能力：大型語言模型不僅可以處理文本輸入，還可以與其他模態(tài)數(shù)據(jù)（如圖像、語音、視頻等）進(jìn)行交互。模型可以通過學(xué)習(xí)多模態(tài)數(shù)據(jù)的表示和關(guān)聯(lián)，展現(xiàn)出理解和生成多模態(tài)內(nèi)容的能力。

增量學(xué)習(xí)和在線學(xué)習(xí)：大型語言模型可以具備增量學(xué)習(xí)和在線學(xué)習(xí)的能力，即在不中斷模型服務(wù)的情況下，通過逐步接受新數(shù)據(jù)進(jìn)行訓(xùn)練和更新，以不斷改進(jìn)模型的性能和適應(yīng)新領(lǐng)域的需求。

增強學(xué)習(xí)：大型語言模型可以結(jié)合增強學(xué)習(xí)技術(shù)，在與環(huán)境進(jìn)行交互的過程中，通過試錯和獎勵機制來改進(jìn)模型的表現(xiàn)。這使得模型能夠在特定任務(wù)或領(lǐng)域中進(jìn)行優(yōu)化和自我調(diào)節(jié)。

跨任務(wù)遷移：大型語言模型在完成一個任務(wù)的訓(xùn)練后，可以通過遷移學(xué)習(xí)的方式將學(xué)到的知識和模型參數(shù)應(yīng)用到其他相關(guān)任務(wù)上，從而加速其他任務(wù)的訓(xùn)練和提升性能。

元學(xué)習(xí)和自適應(yīng)學(xué)習(xí)：大型語言模型可以通過元學(xué)習(xí)和自適應(yīng)學(xué)習(xí)的方法，快速適應(yīng)新的任務(wù)或環(huán)境。模型可以從先前的訓(xùn)練和經(jīng)驗中快速學(xué)習(xí)到新任務(wù)的模式和規(guī)律，從而實現(xiàn)快速上手和靈活應(yīng)對新情境的能力。

6. 微調(diào)：強化學(xué)習(xí)是要尋求特定領(lǐng)域的最優(yōu)解

如果我們的最初目的就是希望ChatGPT就是和我們侃大山，天馬行空，停留在所謂的通用模型的狀態(tài)，可能我們不會進(jìn)入到微調(diào)和調(diào)優(yōu)階段。但如果我們是完美主義者，我們希望ChatGPT可以在很多有最優(yōu)解的問題上能回答得很完美，強化學(xué)習(xí)就用的上了。

而無監(jiān)督學(xué)習(xí)的硬傷就是通常是通過最大化數(shù)據(jù)的某種統(tǒng)計屬性來學(xué)習(xí)模型。以一種通用的方式學(xué)習(xí)數(shù)據(jù)的分布和特征，缺乏領(lǐng)域或任務(wù)特定信息，說白了就是萬金油之后，容易產(chǎn)生不必要的瞎聯(lián)系，或者說一本正經(jīng)地胡說八道。

要想讓ChatGPT在很多專業(yè)領(lǐng)域表現(xiàn)出色，基于人類反饋的強化學(xué)習(xí)（RLHF，Reinforcement Learning from Human Feedback）訓(xùn)練的微調(diào)和調(diào)優(yōu)就顯得格外重要。RLHF在模型預(yù)訓(xùn)練的基礎(chǔ)上，通過與人類進(jìn)行交互，收集人類專家的反饋信息，以指導(dǎo)模型的微調(diào)和調(diào)優(yōu)。通過將人類專家的知識和判斷引入模型訓(xùn)練過程中，可以根據(jù)人類反饋的獎勵信號對模型進(jìn)行優(yōu)化，使模型能夠在特定環(huán)境下做出“最優(yōu)決策”。我之所以在這里給“最優(yōu)策略”打引號，是因為這是在部分專家反饋基礎(chǔ)上的最優(yōu)策略。如果我們加大人類專家反饋的力度，花費更大的成本進(jìn)行微調(diào)，可能最終的效果會更為理想，到這個階段，就不是純技術(shù)問題，而上升為一個密集勞動型的動作了。RLHF的一個主要問題是可擴(kuò)展性，即如何應(yīng)對大規(guī)模的訓(xùn)練數(shù)據(jù)和計算資源需求。此外，這種訓(xùn)練過程可能是緩慢且昂貴的，需要耗費大量的時間和資源。也正是由于這個原因，OpenAI更愿意把這部分能力通過API或者Plugin插件開放出來，眾人拾柴火焰高，讓更多的垂直領(lǐng)域的產(chǎn)業(yè)發(fā)揮作用，在各自的領(lǐng)域深耕。經(jīng)過這種微調(diào)后，GPT的專業(yè)領(lǐng)域技能就會越來越豐富，越來越優(yōu)秀。

微調(diào)和調(diào)優(yōu)還有一個很重要的點就是價值學(xué)習(xí)。AI系統(tǒng)如何與人類價值觀保持一致，能夠在復(fù)雜的動態(tài)環(huán)境中與人類價值觀對齊，符合人類倫理、法律準(zhǔn)則并尊重個人隱私和防止壞人用AI進(jìn)行欺詐。這就需要不停地對AI進(jìn)行微調(diào)和調(diào)優(yōu)，來完善和修訂在實際運作中的各種漏洞和表現(xiàn)。從這個維度來看，微調(diào)和調(diào)優(yōu)是一個永無止境的工作，不存在一勞永逸。當(dāng)然，這里面還存在另外一個風(fēng)險，就是人類反饋的質(zhì)量和一致性可能會因任務(wù)、界面和個體偏好的差異而有所不同。如果人類反饋缺乏公正性或不正確，那么模型也有可能學(xué)到錯誤的東西，這種情況被稱為人工智能偏見。特別是當(dāng)反饋來自具有特定價值觀的人群時，這種偏見可能表現(xiàn)得尤為明顯。如果最終模型的使用人群范圍的復(fù)雜度遠(yuǎn)遠(yuǎn)大于RLHF的單一價值觀，就會出現(xiàn)非常糟糕的使用體驗。所以微調(diào)和調(diào)優(yōu)，也是一個雙刃劍，如果處理不好，害人害己。

7. 大模型訓(xùn)練的未來：“滅霸”還是“女媧”

大模型的訓(xùn)練當(dāng)前的基本流程，未來一定是會調(diào)整的。因為當(dāng)下，大模型的“煉丹”是離線學(xué)習(xí)，也稱為批量學(xué)習(xí)(Batch learning)，使用固定的數(shù)據(jù)集進(jìn)行訓(xùn)練和學(xué)習(xí)，而不是在實時數(shù)據(jù)流中進(jìn)行更新。而未來是一定要走到在線學(xué)習(xí)(Online learning)的道路上的，能夠在不斷到達(dá)的數(shù)據(jù)流中進(jìn)行實時學(xué)習(xí)和適應(yīng)。只有后者，才有可能成為真正的通用人工智能，適應(yīng)人類社會的高速發(fā)展的實時性，更好地應(yīng)對動態(tài)和快速變化的環(huán)境。

所以說，即便演進(jìn)到通用人工智能，對這個模型的訓(xùn)練，也是一條永無止盡的路。只要人類社會還在進(jìn)化，通用人工智能就需要考慮如何跟進(jìn)人類的集體智能，不停地將新學(xué)到的人類只是和技能遷移到新任務(wù)或領(lǐng)域中。

而且未來大模型的交互或者表達(dá)的手段會更加多模態(tài)化，不僅僅局限在文字、圖形。因此，大模型的訓(xùn)練必然會整合不同領(lǐng)域的知識和技術(shù)，包括自然語言處理、計算機視覺、語音識別等，以構(gòu)建多模態(tài)學(xué)習(xí)的能力。

當(dāng)然，我們?nèi)孕枰?jǐn)慎樂觀，如果未來要面對人機共生，就需要慎重面對強化道德倫理和人工智能政策，因為我們要創(chuàng)造的不是滅霸的響指，而是女媧造人和盤古開天。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

開源技術(shù)

開源技術(shù)

+關(guān)注

關(guān)注
0

文章
389

瀏覽量
7963
OpenHarmony

OpenHarmony

+關(guān)注

關(guān)注
25

文章
3728

瀏覽量
16393

原文標(biāo)題：河套IT TALK95：（原創(chuàng)）GPT技術(shù)揭秘：大模型訓(xùn)練會導(dǎo)向滅霸的響指嗎？

文章出處：【微信號：開源技術(shù)服務(wù)中心，微信公眾號：共熵服務(wù)中心】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

OpenAI GPT-5開發(fā)滯后：訓(xùn)練成本高昂

近日，據(jù)最新消息，OpenAI在推進(jìn)其備受期待的下一代旗艦模型GPT-5的開發(fā)進(jìn)程上遇到了困難。由于計算成本高昂且高質(zhì)量訓(xùn)練數(shù)據(jù)稀缺，GPT-5的開發(fā)已經(jīng)落后于原定計劃半年之久。據(jù)悉

發(fā)表于 12-23 11:04 ?229次閱讀

什么是大模型、大模型是怎么訓(xùn)練出來的及大模型作用

，基礎(chǔ)模型。 ? 大模型是一個簡稱，完整的叫法，應(yīng)該是“人工智能預(yù)訓(xùn)練大模型”。預(yù)訓(xùn)練，是一項技術(shù)

發(fā)表于 11-25 09:29 ?1799次閱讀

深信服發(fā)布安全GPT4.0數(shù)據(jù)安全大模型

近日，深信服在數(shù)據(jù)安全領(lǐng)域邁出了重要一步，正式發(fā)布了安全GPT4.0數(shù)據(jù)安全大模型。這一創(chuàng)新的大模型技術(shù)，旨在為用戶提供更高效、精準(zhǔn)的數(shù)據(jù)安全解決方案。

發(fā)表于 10-29 11:12 ?261次閱讀

GAP！你對AI大模型到底了解多少？

談到 AI 大模型，你最先想到的是什么？很多人首先關(guān)心的還是它的商業(yè)變現(xiàn)，而非這些技術(shù)術(shù)語。AI 大模型訓(xùn)練是一個端到端的復(fù)雜系統(tǒng)工程，技術(shù)

發(fā)表于 09-07 09:40 ?700次閱讀

大語言模型的預(yù)訓(xùn)練

能力，逐漸成為NLP領(lǐng)域的研究熱點。大語言模型的預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟，它通過在海量無標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練，使模型學(xué)習(xí)到語言的通用知識

發(fā)表于 07-11 10:11 ?448次閱讀

llm模型和chatGPT的區(qū)別

基于Transformer架構(gòu)的預(yù)訓(xùn)練語言模型，它可以生成連貫、自然的文本。ChatGPT使用GPT模型作為基礎(chǔ)，通過微調(diào)和訓(xùn)練來實現(xiàn)對話生

發(fā)表于 07-09 09:55 ?1139次閱讀

人臉識別模型訓(xùn)練流程

人臉識別模型訓(xùn)練流程是計算機視覺領(lǐng)域中的一項重要技術(shù)。本文將詳細(xì)介紹人臉識別模型的訓(xùn)練流程，包括數(shù)據(jù)準(zhǔn)備、

發(fā)表于 07-04 09:19 ?1000次閱讀

人臉識別模型訓(xùn)練是什么意思

人臉識別模型訓(xùn)練是指通過大量的人臉數(shù)據(jù)，使用機器學(xué)習(xí)或深度學(xué)習(xí)算法，訓(xùn)練出一個能夠識別和分類人臉的模型。這個模型可以應(yīng)用于各種場景，如安防監(jiān)

發(fā)表于 07-04 09:16 ?643次閱讀

OpenAI揭秘CriticGPT：GPT自進(jìn)化新篇章，RLHF助力突破人類能力邊界

OpenAI近期震撼發(fā)布了一項革命性成果——CriticGPT，一個基于GPT-4深度優(yōu)化的新型模型，其獨特之處在于能夠自我提升，助力未來GPT模型的

發(fā)表于 07-02 10:19 ?798次閱讀

OpenAI發(fā)布全新GPT-4o模型

近日，OpenAI宣布推出全新的GPT-4o模型，標(biāo)志著人工智能領(lǐng)域的一大技術(shù)飛躍。這款模型不僅具備強大的生成能力，還能精準(zhǔn)理解用戶意圖，提供智能化的回答。

發(fā)表于 05-17 11:48 ?664次閱讀

【大語言模型：原理與工程實踐】大語言模型的預(yù)訓(xùn)練

具有以下三個非常顯著的特點，一個就是模型參數(shù)規(guī)模更大，訓(xùn)練數(shù)據(jù)更多。當(dāng)然，對計算資源的要求也會更高。構(gòu)建強大的語言模型時，模型的選型至關(guān)

發(fā)表于 05-07 17:10

【大語言模型：原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)

全面剖析大語言模型的核心技術(shù)與基礎(chǔ)知識。首先，概述自然語言的基本表示，這是理解大語言模型技術(shù)的前提。接著，詳細(xì)介紹自然語言處理預(yù)訓(xùn)練的經(jīng)典

發(fā)表于 05-05 12:17

【大語言模型：原理與工程實踐】核心技術(shù)綜述

其預(yù)訓(xùn)練和微調(diào)，直到模型的部署和性能評估。以下是對這些技術(shù)的綜述：模型架構(gòu): LLMs通常采用深層的神經(jīng)網(wǎng)絡(luò)架構(gòu)，最常見的是Transformer網(wǎng)絡(luò)，它包含多個自注意力層，能夠捕

發(fā)表于 05-05 10:56

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

大語言模型（LLM）是人工智能領(lǐng)域的尖端技術(shù)，憑借龐大的參數(shù)量和卓越的語言理解能力贏得了廣泛關(guān)注。它基于深度學(xué)習(xí)，利用神經(jīng)網(wǎng)絡(luò)框架來理解和生成自然語言文本。這些模型通過訓(xùn)練海量的文本數(shù)

發(fā)表于 05-04 23:55

揭秘大語言模型可信能力的五個關(guān)鍵維度

不同于上述工作從待干預(yù)模型自身抽取引導(dǎo)向量，我們意在從LLMs預(yù)訓(xùn)練過程的切片中構(gòu)建引導(dǎo)向量來干預(yù)指令微調(diào)模型（SFT Model），試圖提

發(fā)表于 03-15 09:42 ?578次閱讀

搜索歷史

河套IT TALK95：（原創(chuàng)）GPT技術(shù)揭秘：大模型訓(xùn)練會導(dǎo)向滅霸的響指嗎？

評論

OpenAI GPT-5開發(fā)滯后：訓(xùn)練成本高昂

什么是大模型、大模型是怎么訓(xùn)練出來的及大模型作用

深信服發(fā)布安全GPT4.0數(shù)據(jù)安全大模型

GAP！你對AI大模型到底了解多少？

大語言模型的預(yù)訓(xùn)練

llm模型和chatGPT的區(qū)別

人臉識別模型訓(xùn)練流程

人臉識別模型訓(xùn)練是什么意思

OpenAI揭秘CriticGPT：GPT自進(jìn)化新篇章，RLHF助力突破人類能力邊界

OpenAI發(fā)布全新GPT-4o模型

【大語言模型：原理與工程實踐】大語言模型的預(yù)訓(xùn)練

【大語言模型：原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)

【大語言模型：原理與工程實踐】核心技術(shù)綜述

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

揭秘大語言模型可信能力的五個關(guān)鍵維度

搜索歷史

河套IT TALK95：（原創(chuàng)）GPT技術(shù)揭秘：大模型訓(xùn)練會導(dǎo)向滅霸的響指嗎？

評論

河套IT TALK95：（原創(chuàng)）GPT技術(shù)揭秘：大模型訓(xùn)練會導(dǎo)向滅霸的響指嗎？