在數(shù)據(jù)成為新石油的世界中,語言不再只是人類的專長。數(shù)據(jù)在人工智能中被大量使用,并塑造了當(dāng)今最熱門的AI話題—大語言模型。隨著大語言模型的到來,人工智能現(xiàn)在正在學(xué)習(xí)交流、理解和生成類似人類的文本。
業(yè)界著名大語言模型(LLM),如OpenAI的GPT系列、Bloom、Bard、Bert、LaMDa、LLaMa等,都有自己的用戶群體。大語言模型正在徹底改變我們與技術(shù)互動的方式,它們正在塑造一個與機器交流就像與朋友聊天一樣自然的未來。從生成創(chuàng)意內(nèi)容到協(xié)助高級研究,大型語言模型正在融入我們的日常生活。
在本文中,我們將探討大語言模型(LLM)是什么、它如何運作、它為何受到關(guān)注,以及它如何塑造我們的未來。
1 - 什么是大語言模型(LLM)?
大型語言模型(LLM)是基于人工智能的先進模型,經(jīng)過訓(xùn)練,它可以密切反映人類自然交流的方式處理和生成人類語言。這些模型利用深度學(xué)習(xí)技術(shù)和大量訓(xùn)練數(shù)據(jù)來全面理解語言結(jié)構(gòu)、語法、上下文和語義。我們?nèi)粘=换サ脑S多應(yīng)用程序(例如聊天機器人、AI搜索引擎、內(nèi)容生成工具等)的幕后運行著GPT-3、GPT-4、LaMDA、BLOOM、LLaMA等著名大語言模型,LLM的出現(xiàn)徹底改變了自然語言處理任務(wù)。
但這對我們意味著什么?除了為我們的日常交互提供動力之外,LLM還在改變行業(yè)、簡化工作流程,甚至創(chuàng)造新的藝術(shù)內(nèi)容。它們開啟了令人興奮的可能性,并重新定義了我們對技術(shù)的期望。這場技術(shù)變化并不僅僅帶來更智能的小工具或更高效的軟件,而是可能塑造一個人類和機器可以像人類相互交流一樣進行交流的未來。盡管看起來很科幻,但這種變革就真真切切正在發(fā)生。
2 -大型語言模型如何工作?
如果您正在閱讀本文,您可能至少使用過一種文本生成人工智能工具,例如ChatGPT。這些工具的工作原理是學(xué)習(xí)人類花費數(shù)年時間創(chuàng)建的大量數(shù)據(jù)集。大語言模型一般需要學(xué)習(xí)TB的文本數(shù)據(jù),并且在學(xué)習(xí)過程中需要海量的計算資源。
所有這些大語言模型都基于Transformer工作。Transformer是一種神經(jīng)網(wǎng)絡(luò)架構(gòu),它使計算機能夠通過分析文本中單詞和短語之間的關(guān)系來理解、解釋和生成人類語言。與以前按順序處理語言的模型不同,Transformer可以同時查看多個句子部分?,F(xiàn)在,為了讓這個想法更具有相關(guān)性:想象一下閱讀一本書并立即理解所有角色、情節(jié)曲折和情感,而不是逐字逐句地理解。Transformer對語言做了類似的事情,快速掌握文本背后的含義。這種獨特的語言處理方式使Transformer成為強大的計算機程序的基礎(chǔ),這些程序可以以人類的方式聊天、寫作和思考。
那么,之前的模型是什么?Transformers是如何“改變”LLM游戲并在自然語言處理領(lǐng)域獲得全面應(yīng)用的?Transformer架構(gòu)的內(nèi)部工作原理是什么?請繼續(xù)閱讀以找出答案。
2.1 - 編碼器-解碼器 (Encoder-decoders)
編碼器-解碼器(Encoder-decoders)架構(gòu)由Google和多倫多大學(xué)研究人員于1997年提出,是大語言模型的核心。它解決了序列到序列的任務(wù),例如機器翻譯、文本摘要和問答。
至于機器翻譯,本質(zhì)上是這樣的:編碼器獲取一個句子,例如英語句子,并將其轉(zhuǎn)換為某種向量表示。該向量包含原始句子的所有基本信息。然后,解碼器接管,將這些向量翻譯成一種新語言,例如德語。為了確保我們充分想象這個過程,讓我們更詳細地了解編碼器-解碼器架構(gòu)中的機器翻譯階段。我們將把“The weather is nice today”這句話翻譯成德語“Das Wetter ist heute sch?n”。這里的編碼器-解碼器架構(gòu)有五個主要組件:
編碼器-解碼器。圖源:superannotate.com
輸入嵌入:英語句子“The weather is nice today”中的每個單詞通過嵌入層轉(zhuǎn)換為唯一的向量。這些向量保存了單詞的上下文含義。
位置編碼:Transformer將位置編碼添加到這些向量中,幫助模型識別句子中的單詞序列。
編碼器:然后向量通過變壓器中的多個編碼器層。每個編碼器層由自注意力機制和前饋神經(jīng)網(wǎng)絡(luò)組成。自注意力機制權(quán)衡上下文中每個單詞的重要性,前饋網(wǎng)絡(luò)修改單詞向量以使其與目標(biāo)表示對齊。
解碼器:編碼器的最終輸出(一組代表英語句子的向量)被饋送到解碼器。與編碼器非常相似,解碼器具有自注意力層和前饋網(wǎng)絡(luò)。解碼器中的額外注意力層關(guān)注編碼器的輸出向量,通知模型輸入句子的哪些部分在輸出生成的每個步驟中是重要的。
線性和softmax層:解碼器的輸出經(jīng)過線性層和softmax函數(shù)。這些生成目標(biāo)語言(德語)中預(yù)測的下一個單詞的概率分布。選擇概率最高的單詞,并且該過程不斷進行,直到生成句末標(biāo)記。
在翻譯任務(wù)中,語言模型同時使用編碼器和解碼器組件。然而,這些組件也可以根據(jù)手頭的具體任務(wù)獨立運行。例如,可以訓(xùn)練僅編碼器模型來處理分類自然語言處理任務(wù),例如情感分析或序列標(biāo)記。雙向編碼器表示(Bidirectional encoder representations,BERT)是純編碼器模型的典型示例。僅解碼器模型,如GPT模型系列、BLOOM、Jurassic和LLaMA,隨著它們的發(fā)展和擴展也變得越來越流行和強大。在現(xiàn)代,這些模型在各種任務(wù)中表現(xiàn)出了令人印象深刻的性能。Bard或T5等模型同時使用編碼器和解碼器組件,并且精通摘要或釋義等序列轉(zhuǎn)換任務(wù)。
2.2 - 基于RNN的模型
2014年,Cho和蘇茨克韋爾等人提出了使用基于遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的編碼器-解碼器架構(gòu)來執(zhí)行序列到序列任務(wù)的想法。
在早期,RNN被用作編碼器和解碼器的構(gòu)建塊。編碼器RNN逐個處理輸入序列標(biāo)記,并在每一步更新其隱藏狀態(tài)。編碼器的最終隱藏狀態(tài)捕獲整個輸入序列的上下文信息。該隱藏狀態(tài)用作解碼器RNN的初始隱藏狀態(tài)。
然后解碼器RNN接管并逐步生成輸出序列。在每個時間步,解碼器RNN使用當(dāng)前輸入標(biāo)記、先前的隱藏狀態(tài)以及(可選)先前生成的輸出標(biāo)記來預(yù)測序列中的下一個標(biāo)記。此過程將持續(xù)進行,直到生成序列結(jié)束令牌或達到預(yù)定義的最大長度。
2.3 - Transformer之前的模型
正如我們提到的,在Transformer出現(xiàn)之前,編碼器-解碼器文本生成是通過RNN技術(shù)完成的,這有兩個主要缺點。
長期依賴性:RNN與長期依賴性作斗爭,其中模型需要記住或使用序列中較早時間步驟的信息以用于后面的時間步驟。隨著序列變長,RNN維護這些依賴性的能力變得越來越差。這意味著捕獲句子中不同位置的單詞之間的關(guān)系對于RNN來說是一項挑戰(zhàn)。讓我們通過一個例句來理解。
“我覺得她有點不對勁……她看起來[]”
在基于RNN的系統(tǒng)中,當(dāng)模型到達“她看起來[]”部分時,它可能會忘記句子的第一部分。它將查看前一個詞“看起來”,并對最合適的下一個詞(比如“很棒”)做出錯誤判斷。
RNN輸出錯誤結(jié)果。圖源:superannotate.com
我們很快就會看到如何通過Transformer模型解決這個問題。
順序邏輯:RNN一次一步地處理序列。這種計算的順序性質(zhì)使得并行化變得不可能,增加了訓(xùn)練時間并降低了處理大規(guī)模數(shù)據(jù)時的效率。
當(dāng)處理一個句子時,RNN一個接一個地讀取單詞,就像連鎖反應(yīng)一樣。如果你有一個20個單詞的句子,第20個單詞必須等待前面19個單詞的計算。這種順序處理使得并行化變得不可能,從而導(dǎo)致訓(xùn)練過程更長。
2.4 - Transformer模型
RNN模型少數(shù)但顯著的缺點催生了Transformer架構(gòu)。Transformers由Google研究人員于2017年誕生,他們通過引入自注意力機制徹底改變了LLM行業(yè)。谷歌和多倫多大學(xué)的研究人員發(fā)表的《Attention is All You Need》以及Transformer機制的誕生,標(biāo)志著現(xiàn)代大語言模型快速發(fā)展的開始。
Attention is All You Need。圖源:https://arxiv.org/pdf/1706.03762.pdf
讓我們看看Transformer如何解決RNN面臨的問題:
1.注意力機制:Transformer架構(gòu)中的注意力機制可以學(xué)習(xí)關(guān)注它正在處理的單詞的含義。簡單來說,注意力層計算序列中所有單詞對之間的注意力分?jǐn)?shù),這決定了每個單詞應(yīng)該關(guān)注其他單詞的程度。想象一下您正在閱讀一個復(fù)雜的句子。你自然會更關(guān)注某些單詞而不是其他單詞,以掌握整體含義。同樣,注意力機制允許LLM在生成響應(yīng)時專注于關(guān)鍵的輸入部分,從而使輸出更加準(zhǔn)確且與上下文相關(guān)。在這個例子中,Transformer模型可以直接將這個人感到悲傷的事實與之前有關(guān)她出了問題的信息聯(lián)系起來,無論這兩條信息之間的距離是長還是短。
Transformer輸出正確結(jié)果。圖源:superannotate.com
2.并行化:與RNN不同,Transformer不會逐步處理序列。相反,它們同時處理序列中的所有標(biāo)記,從而允許并行計算。Transformer模型架構(gòu)引入了多核GPU的使用,它可以并行處理輸入數(shù)據(jù),從而利用更大的訓(xùn)練數(shù)據(jù)集。這解決了限制基于RNN的系統(tǒng)高效工作的時間和計算資源問題。在擴展句示例中,轉(zhuǎn)換器同時處理所有20個單詞,從而實現(xiàn)并行計算。這種同時處理意味著我們的示例句子中的所有單詞都會同時分析,從而大大減少了處理時間。
2.5-Transformer模型生命周期
為了了解大型語言模型的工作原理,我們還需要了解Transformer模型所經(jīng)歷的階段。
Transformer模型生命周期。圖源:superannotate.com
1.一切開始時,對項目需要有一個清晰的愿景。從一開始就定義范圍至關(guān)重要,因為它直接影響模型的大小和架構(gòu)。LLM會是一個多任務(wù)處理者,擅長生成長格式文本任務(wù),還是會專注于狹窄的特定功能,例如命名實體識別?精確定位需求可以節(jié)省寶貴的時間和計算資源。
2.一旦對項目有了清晰的愿景,就可以決定是從頭開始訓(xùn)練自己的模型還是使用現(xiàn)有的基礎(chǔ)模型作為基礎(chǔ)。一般來說,修改現(xiàn)有模型是一種常見且有效的途徑,盡管在某些情況下可能需要從頭開始訓(xùn)練。
3.模型準(zhǔn)備好后,下一階段是性能評估。如果結(jié)果不符合期望,可能需要額外的訓(xùn)練??梢詮摹翱焖俟こ獭遍_始,使用與任務(wù)相關(guān)的示例來指導(dǎo)模型。如果這還不夠,下一步可能是微調(diào)模型(我們將很快對此進行更詳細的解釋)。隨著模型變得越來越強大,確保它們在部署時表現(xiàn)良好并且其輸出符合人類偏好變得越來越重要。
4.這個過程的一個關(guān)鍵部分是不斷評估。使用指標(biāo)和基準(zhǔn)可以跟蹤模型的執(zhí)行情況并進行必要的調(diào)整。這是一個迭代的過程??赡軙诳焖俟こ?、評估和微調(diào)之間循環(huán),直到達到所需的性能。
5.當(dāng)擁有滿足性能需求并符合期望的模型時,就可以進行部署了。在此階段優(yōu)化模型可以確保計算資源的有效利用和良好的用戶體驗。
6.最后還需要考慮應(yīng)用程序所需的基礎(chǔ)架構(gòu)。每個LLM都有其局限性。為這些做好準(zhǔn)備并建立補償它們的基礎(chǔ)設(shè)施至關(guān)重要。
3. 從人類反饋中強化學(xué)習(xí)(RLHF)
人類反饋強化學(xué)習(xí)(RLHF)是機器學(xué)習(xí)的最新突破之一,它將人類反饋融入強化學(xué)習(xí)任務(wù)中。當(dāng)模型執(zhí)行任務(wù)或做出預(yù)測時,人們會提供關(guān)于它是否做得好或哪里出錯的反饋。假設(shè)正在使用LLM來起草客戶支持回復(fù)。第一次,LLM可能會生成過于正式或缺乏有關(guān)產(chǎn)品的具體細節(jié)的響應(yīng)。用戶提供的反饋表明響應(yīng)中存在的問題。通過RLHF,模型可以從反饋中學(xué)習(xí),對于以后的查詢,LLM有更大的機會生成更友好和詳細的響應(yīng)。如果有類似的詢問,LLM可能會生成更友好和詳細的答復(fù)。當(dāng)不斷提供反饋時,該模型會變得更加擅長制定符合應(yīng)用基調(diào)和客戶特定需求的響應(yīng)。
根據(jù)人類反饋進行強化學(xué)習(xí)。圖源:superannotate.com
此外,傳統(tǒng)的強化學(xué)習(xí)可能會優(yōu)化語法正確性和字?jǐn)?shù)。借助RLHF,人類評估者可以引導(dǎo)模型走向創(chuàng)造力、情感共鳴和原創(chuàng)性,這些元素難以量化,但對于令人難忘的敘述至關(guān)重要。
但RLHF的真正魔力在于它結(jié)合了兩方面優(yōu)點的潛力:機器的計算能力和人類的直觀理解。這不僅僅是讓人工智能變得更聰明;這是為了讓它變得更明智。
4 -提示工程(Prompt Engineering)
提示工程(Prompt Engineering)是掌握大型語言模型的一個非常重要且有趣的部分。這是一個優(yōu)化人工智能性能的過程,擅長這個過程的人通常會成功地從LLM那里獲得他們想要的輸出。我們將用戶提供給模型的輸入文本稱為“提示”,將LLM生成的輸出文本稱為“結(jié)果”。
如果使用過任何大型語言模型,用戶可能在不自覺中已經(jīng)進行了提示工程。如果模型在第一次嘗試時未提供所需輸出的情況,用戶一般會多次修改請求以“提示”模型期望它返回的內(nèi)容,這本質(zhì)上就是是提示工程。而提示工程的一項關(guān)鍵策略就是情境學(xué)習(xí)(In-context learning)。
4.1 - 情境學(xué)習(xí)(In-context learning)
情境學(xué)習(xí)是一種通過提示中的特定任務(wù)示例來改進提示的方法,它為LLM提供需要完成的任務(wù)的藍圖。情境學(xué)習(xí)包含下面一些技術(shù):
“零樣本推理(Zero-shot inference)”是一種用于GPT-3等LLM的策略,它將輸入數(shù)據(jù)合并到提示中,而無需任何額外的示例。雖然這種方法通常適用于較大的模型,但較小的模型可能很難理解任務(wù)。這只是一種問答方法,您的請求可能足夠簡單,不需要模型的額外提示。
如果零樣本推理不能產(chǎn)生所需的結(jié)果,則可以使用“單樣本(one-shot)”或“少樣本(few-shot)推理”。這些策略包括在提示中添加一個或多個已完成的示例,幫助較小的法學(xué)碩士表現(xiàn)得更好。例如,要對電影評論的情感進行分類,提示將包括說明、評論文本以及最后的情感分析請求。
假設(shè)正在嘗試教導(dǎo)LLM提高其對電影評論進行分類的能力。可能會用到這樣的提示:
對這篇評論進行分類:“一部令人驚嘆的杰作,讓我激動不已?!?情緒:積極
現(xiàn)在給模型分類“一部花了我一生三個小時的無聊電影”,它會將情緒分類為“負(fù)面”。
情境學(xué)習(xí)。圖源:superannotate.com
大語言模型的表現(xiàn)很大程度上取決于其規(guī)模。較大的模型更擅長通過零樣本推理處理各種任務(wù),即使是那些沒有明確訓(xùn)練過的任務(wù)。然而,較小的模型擅長執(zhí)行與其訓(xùn)練類似的任務(wù)。因此,找到完美的平衡通常需要嘗試不同的模型和配置。
4.2 - 微調(diào)(Fine-tuning)
需要承認(rèn)的是,對于較小的模型,即使包含五六個示例,上下文學(xué)習(xí)也并不總是有效。此外,“上下文窗口”(模型可以處理的上下文學(xué)習(xí)量)也有其局限性。提示中包含的任何示例都會占用上下文窗口中的寶貴空間,從而減少了包含其他有用信息的空間量。如果多個示例不能提高模型的性能,那么可能是時候?qū)LM進行微調(diào)了。此過程涉及使用新數(shù)據(jù)進行額外訓(xùn)練以提高特定任務(wù)的性能。
微調(diào)是預(yù)訓(xùn)練之后的過程,其中模型在較小的特定數(shù)據(jù)集上進一步訓(xùn)練(或微調(diào))。該數(shù)據(jù)集通常與特定任務(wù)或領(lǐng)域相關(guān)。通過在這個更窄的數(shù)據(jù)集上進行訓(xùn)練,模型變得專業(yè)化,并且在與該特定領(lǐng)域相關(guān)的任務(wù)上表現(xiàn)更好。
例如,如果想要一個語言模型來回答醫(yī)學(xué)問題,可以使用醫(yī)學(xué)教科書和期刊對其進行微調(diào)。這樣,LLM就能更好地理解和生成與醫(yī)學(xué)主題相關(guān)的回復(fù)。
請注意,就像預(yù)訓(xùn)練一樣,完全微調(diào)需要足夠的內(nèi)存和計算預(yù)算來存儲和處理訓(xùn)練期間更新的所有梯度、優(yōu)化器和其他組件。
5 - 大語言模型的挑戰(zhàn)和局限性
深入研究語言模型的核心,我們也必須面對它們的挑戰(zhàn)。以下是一些值得一提的挑戰(zhàn):
海量數(shù)據(jù)和計算:第一個重大挑戰(zhàn)是大語言模型所需的海量數(shù)據(jù)。LLM對用于訓(xùn)練的大量文本數(shù)據(jù)有著巨大的需求。從邏輯上講,LLM攝入的數(shù)據(jù)越多,需要的計算資源就越多,更不用說時間了。這使得大型語言模型訓(xùn)練過程資源密集。
可解釋性問題:接下來是可解釋性問題。眾所周知,大型語言模型的功能就像密封的金庫一樣。確定它們產(chǎn)生某些輸出的原因和方式具有挑戰(zhàn)性,因為它們的工作方式就像沒有密鑰的密碼。OpenAI試圖通過引入一種工具來解決這個“黑匣子”問題,該工具可以自動識別模型的哪些部分負(fù)責(zé)其行為的哪些部分。
可解釋性問題。圖源:openai.com
過度概括:盡管LLM接受過廣泛多樣的數(shù)據(jù)訓(xùn)練,但有時會做出廣泛的概括,而忽略了語言、文化和背景中更細微的差別。
無意識的錯誤信息:LLM缺乏綜合的事實核查程序,使他們很容易生成看似合理但實際上不正確或具有誤導(dǎo)性的文本。當(dāng)這些模型部署在準(zhǔn)確性至關(guān)重要的應(yīng)用程序中(例如新聞報道或醫(yī)療診斷)時,這一點尤其令人擔(dān)憂。這也是一個正在解決的問題,我們很快就會看到如何解決。
災(zāi)難性遺忘:大型語言模型(LLM)可以適應(yīng)特定任務(wù),例如通過稱為“微調(diào)”的過程生成詩歌。雖然使用相對較小的數(shù)據(jù)集進行微調(diào)可以使模型在特定任務(wù)上表現(xiàn)出色,但它可能會導(dǎo)致“災(zāi)難性遺忘”,即模型在其他任務(wù)中失去熟練程度。如果保留多任務(wù)處理能力至關(guān)重要,“多任務(wù)微調(diào)”或“參數(shù)高效微調(diào)”(PEFT)等解決方案可以防止這種遺忘,使模型成為性能優(yōu)化的專家,而不會失去其一般能力。
是的,我們應(yīng)該小心對待大語言模型。LLM可能會避免承認(rèn)它不知道的事情,并且很可能給出錯誤的信息。因此,尤其是對于關(guān)鍵案例,比如說醫(yī)學(xué)診斷,需要謹(jǐn)慎對待LLM的結(jié)果。
6 - 負(fù)責(zé)任的人工智能(Responsible AI)
生成人工智能的世界,特別是與大型語言模型(LLM)相關(guān)的世界,正在經(jīng)歷瘋狂的變化。讓我們了解一些圍繞人工智能的道德問題。
這里要解決的三個基本挑戰(zhàn)是毒性、幻覺和知識產(chǎn)權(quán)問題。
?毒性:人工智能背景下的毒性是指可能對特定群體,特別是邊緣化或受保護群體產(chǎn)生不利影響的有害或歧視性語言。針對這一挑戰(zhàn)的緩解策略包括精心管理訓(xùn)練數(shù)據(jù)、過濾掉不合適的內(nèi)容以及雇用多元化的人類注釋者團隊進行訓(xùn)練。各種注釋團隊有助于確??紤]各種觀點,從而降低人工智能模型中存在偏見的風(fēng)險。
幻覺:另一方面,幻覺是人工智能產(chǎn)生毫無根據(jù)或不真實的輸出的情況。問題是,人工智能有時會嘗試填補一些缺失數(shù)據(jù)的空白,導(dǎo)致人工智能開始“產(chǎn)生幻覺”。這種現(xiàn)象可能會導(dǎo)致誤導(dǎo)或不正確的輸出。用戶教育在應(yīng)對這一挑戰(zhàn)方面發(fā)揮著至關(guān)重要的作用。用戶需要了解人工智能技術(shù)的現(xiàn)實以及產(chǎn)生幻覺的可能性。其他潛在的解決方案包括將人工智能輸出與經(jīng)過驗證的數(shù)據(jù)源交叉引用,開發(fā)將輸出追溯到原始訓(xùn)練數(shù)據(jù)的方法,以及明確定義人工智能的預(yù)期和非預(yù)期用途。
知識產(chǎn)權(quán)問題:當(dāng)人工智能模型生成可能侵犯現(xiàn)有版權(quán)或抄襲現(xiàn)有作品的內(nèi)容時,就會出現(xiàn)知識產(chǎn)權(quán)問題。解決這個問題需要技術(shù)創(chuàng)新、政策制定和法律干預(yù)相結(jié)合。機器學(xué)習(xí)等新興概念(指減少或刪除受保護內(nèi)容或其對人工智能輸出的影響)以及內(nèi)容過濾和阻止等保護措施可以幫助緩解這一問題。
為了負(fù)責(zé)任地實施和使用生成式人工智能模型,定義特定用例、持續(xù)評估風(fēng)險并定期根據(jù)數(shù)據(jù)和系統(tǒng)評估性能至關(guān)重要。重要的是要記住,創(chuàng)建人工智能是一個持續(xù)、迭代的循環(huán),需要隨著時間的推移進行勤奮的監(jiān)控和改進。此外,制定明確的治理政策并讓每個利益相關(guān)者在整個人工智能生命周期中承擔(dān)責(zé)任,以確保負(fù)責(zé)任的人工智能使用也至關(guān)重要。
7 - 大語言模型領(lǐng)域的主要參與者
生成式人工智能和大型語言模型(LLM)領(lǐng)域涌入了大量現(xiàn)金,資金數(shù)額瘋狂,競爭激烈。下面是一些在LLM競賽中的佼佼者。
OpenAI是LLM的開拓者、創(chuàng)新者和主要參與者。OpenAI成立于2015年,到2023年6月累計融資達到113億美元,在2022年底催生了ChatGPT的火熱,也標(biāo)志著企業(yè)目前對LLM癡迷的開始。OpenAI的所有GPT模型,尤其是最近的模型(GPT-4Turbo、GPT agents、Q*算法)都獲得了廣泛關(guān)注,它們的快速進步既充滿希望又令人恐懼。不僅數(shù)億人將ChatGPT用于日常辦公任務(wù)、工作或愛好,而且數(shù)百家企業(yè)也在其產(chǎn)品中采用GPT系統(tǒng)。世界在生成式人工智能和LLM領(lǐng)域沸騰。
Google是大語言模型的奠基者和主要參與者。Google最早提出了Transformer和Bert等大語言模型的關(guān)鍵基礎(chǔ)架構(gòu)和模型。Bert是一種預(yù)訓(xùn)練的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),它可以在各種自然語言處理任務(wù)中表現(xiàn)出色。Bert的主要貢獻是,它可以通過雙向編碼器來理解上下文,從而更好地預(yù)測單詞的含義。這使得Bert在各種自然語言處理任務(wù)中表現(xiàn)出色,例如問答、文本分類、命名實體識別等。此外,Google還開發(fā)了其他語言模型,例如T5、PaLM 2,這些模型也在自然語言處理領(lǐng)域中取得了很大的成功。
微軟是大語言模型的企業(yè)參與者。它與Meta、OpenAI、Adept等法學(xué)碩士參與者合作并提供資助,并在該領(lǐng)域發(fā)揮了重要作用。微軟的Bing使用ChatGPT,但與此模型不同的是,Bing使用互聯(lián)網(wǎng)和實時數(shù)據(jù)(而ChatGPT的響應(yīng)包括截至2021年的數(shù)據(jù))。Bing使用ChatGPT,但與OpenAI的模型不同,它可以訪問互聯(lián)網(wǎng),并且運行起來就像人工智能驅(qū)動的搜索引擎。與以2021年為知識截止日期的ChatGPT不同,Bing提供最新的響應(yīng)。Bing允許每個對話有20個回復(fù),建議后續(xù)問題,并具有三種對話風(fēng)格(更精確、創(chuàng)造性和平衡)。
MetaAI(以前稱為FacebookAI)是一個開源玩家,擁有LLama和LLama2等知名開源LLM模型。通過開源模型,Meta旨在讓企業(yè)、初創(chuàng)公司、企業(yè)家和研究人員能夠使用其開發(fā)的工具,這些工具的開發(fā)規(guī)模是他們自己難以構(gòu)建的,并得到他們可能無法獲得的計算能力的支持,這將打開一個充滿機遇的世界讓他們以令人興奮的方式進行實驗和創(chuàng)新,并最終從經(jīng)濟和社會上受益。
xAI于11月4日推出了名為GrokAI的語言模型。Grok是一種實時語言模型,其特點是幽默和諷刺。它根據(jù)X的內(nèi)容進行訓(xùn)練,并使用檢索增強生成(RAG)技術(shù)來提供新鮮且最新的信息。xAI向語言模型邁出了非常大膽的一步,構(gòu)建了一個不符合大多數(shù)其他語言模型編程的道德和倫理約束的模型。它可以變得狂野和粗俗,這取決于要求的內(nèi)容。
Anthropic是這些參與者中最年輕的之一,在2021年成立后就成功籌集了15億美元。其創(chuàng)始人是前OpenAI員工,而他們的模型(Claude)最與眾不同的一件事是他們稱為“憲法人工智能”的新技術(shù)——人工智能監(jiān)督其他人工智能的系統(tǒng)。換句話說,這里的人為干預(yù)被最小化,只是制定一些規(guī)則和指南,其余的都是人工智能。憲法人工智能是關(guān)于通過零人類標(biāo)簽的自我改進來訓(xùn)練無害人工智能助手的模型。請注意,這種新穎的技術(shù)受到Quora、RobinAI等許多用戶的喜愛。
Cohere成立于2019年,擁有4.35億美元資金。Cohere的創(chuàng)始人之一艾丹·戈麥斯(AidanGomez)是我們之前討論過的革命性論文《Attention is all you need》的合著者。Kon于2023年初加入Cohere,他表示:“我們作為獨立的、與云無關(guān)的企業(yè)AI平臺而脫穎而出。我們專注于幫助客戶利用他們的數(shù)據(jù)創(chuàng)建專有的LLM功能,并創(chuàng)造戰(zhàn)略差異化和業(yè)務(wù)。”價值?!蔽磥恚珻ohere計劃構(gòu)建模型,為客戶執(zhí)行真正的助理會做的任務(wù)—安排通話/會議、預(yù)訂航班和歸檔費用報告。
Inflection AI由LinkedIn聯(lián)合創(chuàng)始人Reid Hoffman和DeepMind創(chuàng)始成員Mustafa Suleyman領(lǐng)導(dǎo),最近獲得13億美元投資,用于打造更多“個人人工智能”。投資者由微軟、里德·霍夫曼、比爾·蓋茨、埃里克·施密特和新投資者英偉達領(lǐng)投。這筆資金用于構(gòu)建他們的第一個產(chǎn)品:個人人工智能助理PI。蘇萊曼說,他們的目標(biāo)是使人機對話盡可能自然,人類不需要簡化他們的想法就可以與機器交流?!皞€人人工智能將成為我們一生中最具變革性的工具。這確實是一個拐點,”蘇萊曼在一份預(yù)先聲明中說道。Inflection與微軟和Nvidia有著深厚的聯(lián)系(微軟也是OpenAI的大投資者),擁有大量現(xiàn)金來運營和運營他們需要的東西,穆斯塔法似乎對此非常有信心。
Adept是一家由前DeepMind、OpenAI和谷歌工程師和研究人員共同創(chuàng)立的初創(chuàng)公司,其概念與Inflection類似—可以自動化任何軟件流程的人工智能。該玩家擁有4.15億美元的資金,但具有諷刺意味的是,該網(wǎng)站空空蕩蕩,還沒有任何產(chǎn)品。在他們的網(wǎng)站上,您可以加入等候名單,以便在產(chǎn)品準(zhǔn)備好后獲得通知。創(chuàng)始人表示,該模型將能夠使用Airtable、Photoshop、Tableau和Twilio等現(xiàn)有軟件來響應(yīng)“生成每月合規(guī)報告”或“在藍圖中這兩點之間繪制樓梯”等命令來完成任務(wù)。
這些只是致力于大型語言模型的眾多公司和組織中的一小部分。HuggingFace、BigScience、StabilityAI、Cerebras等其他公司也參與了這場競賽。該領(lǐng)域正在迅速發(fā)展,新的參與者不斷涌現(xiàn)。
LLM大玩家。圖源:superannotate.com
8 - 大語言模型的發(fā)展趨勢
大型語言模型很流行并被大量使用,但它還有很多改進和發(fā)展的空間。我們收集了大語言模型的一些最新趨勢。
1. 合成數(shù)據(jù)(Synthetic data)
隨著對隱私的更多關(guān)注,合成數(shù)據(jù)正成為一個熱門話題。這些數(shù)據(jù)不是從現(xiàn)實場景中收集的,而是從頭開始創(chuàng)建的。使用合成數(shù)據(jù),我們可以減少對隱私問題的擔(dān)心。這可能會改變我們在需要大量模擬的行業(yè)(例如視頻游戲或災(zāi)難響應(yīng)培訓(xùn))中使用人工智能的方式。
下面是谷歌研究人員創(chuàng)建的語言模型的示例,該模型使用自行生成的解決方案作為目標(biāo)輸出。
語言模型生成多個CoT推理路徑和答案。圖源:t.co/R0pWSNJ2sX
2. 事實核查(Fact-checking)
現(xiàn)在是信息爆炸的社會,但并非所有信息都是準(zhǔn)確的。大型語言模型的另一個潛在改進是自動事實檢查。我們正在邁向這樣一個未來:人工智能可以實時告訴我們所閱讀的內(nèi)容是否準(zhǔn)確。這可以幫助我們打擊虛假信息的傳播,甚至發(fā)現(xiàn)深度偽造信息。
目前,谷歌的REALM和Facebook的RAG是解決LLM事實準(zhǔn)確性和可靠性問題的兩種最有前途的技術(shù)。除此之外,GPT的最新版本之一WebGPT使用Microsoft Bing來瀏覽請求,它在回復(fù)中加入了引用,使生成的回復(fù)更加準(zhǔn)確和可靠。事實上,WebGPT在響應(yīng)準(zhǔn)確性方面優(yōu)于ChatGPT和其他技術(shù)。
真實的質(zhì)量檢查結(jié)果。圖源:arxiv.org/pdf/2112.09332.pdf
當(dāng)模型在其輸出中涵蓋來自互聯(lián)網(wǎng)的信息時,它會包含引用,使個人能夠驗證信息的來源。WebGPT的初步研究結(jié)果令人鼓舞,該模型在準(zhǔn)確響應(yīng)的百分比以及提供的真實和信息豐富的答案數(shù)量方面優(yōu)于所有GPT-3模型。
3. 專家模型(Expert models)
專家模型不是利用大型語言模型中的所有參數(shù),而是使用最適合給定查詢的這些參數(shù)的子集,這使得它們的計算要求較低。簡而言之,這就是專家模型的概念。他們被稱為專家主要是因為他們非常擅長特定領(lǐng)域,例如法律或醫(yī)學(xué)。如果提示要求提供與德語醫(yī)學(xué)成像相關(guān)的詳細信息,則只有這些專家將被激活,其余專家保持不活動狀態(tài)。
其中一些稀疏專家模型包括Google的SwitchTransformer(1.6萬億個參數(shù))、Google的GLaM(1.2萬億個參數(shù))以及Meta的Mixture of Experts(MoE)和Mixture of Tokens(MoT)(1.1萬億個參數(shù))。
綜上所述,合成數(shù)據(jù)、事實核查和專家模型是人工智能發(fā)展的三大趨勢,重新定義了人工智能的可能性。
9 - 要點總結(jié)
如今,大型語言模型在人工智能世界中風(fēng)光無限。當(dāng)我們探索其內(nèi)部運作、挑戰(zhàn)、未來趨勢以及推動其發(fā)展的關(guān)鍵技術(shù)時,有一件事變得清晰:大語言模型有取得更大進步的潛力。人類和機器能力的融合正在開拓語言和認(rèn)知領(lǐng)域的視野。我們迫不及待地想看看大型語言模型的世界即將發(fā)生什么。
-
人工智能
+關(guān)注
關(guān)注
1791文章
47314瀏覽量
238646 -
語言模型
+關(guān)注
關(guān)注
0文章
526瀏覽量
10277 -
LLM
+關(guān)注
關(guān)注
0文章
288瀏覽量
351
原文標(biāo)題:2023年大語言模型(LLM)全面調(diào)研:原理、進展、領(lǐng)跑者、挑戰(zhàn)、趨勢
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論