ChatGPT實(shí)現(xiàn)原理
用自然語言與計(jì)算機(jī)進(jìn)行通信,ChatGPT實(shí)現(xiàn)了,那么ChatGPT實(shí)現(xiàn)原理是什么?
ChatGPT(Generative Pre-train Transformer)是由OpenAI發(fā)明的一種自然語言處理技術(shù)。它是一種預(yù)訓(xùn)練的深度學(xué)習(xí)模型,可以用來生成文本,識(shí)別語義,做文本分類等任務(wù)。
ChatGPT實(shí)現(xiàn)原理
火爆的ChatGPT,得益于AIGC 背后的關(guān)鍵技術(shù)NLP(Natural LanguageProcessing,自然語言處理)得到突破。自然語言處理應(yīng)用在過去十年呈爆炸式增長(zhǎng),NLP技術(shù)是一種自然語言處理技術(shù),用于計(jì)算機(jī)中模擬人類的對(duì)話和文本理解。主要源于AI大模型化的NLP技術(shù)突破是將深度學(xué)習(xí)技術(shù)與傳統(tǒng)的NLP方法結(jié)合在一起,從而更好地提高NLP技術(shù)的準(zhǔn)確性和效率。大模型化的NLP技術(shù)能夠更好地支持企業(yè)進(jìn)行大規(guī)模的語料內(nèi)容分析,并為企業(yè)更好地進(jìn)行文本分析提供幫助。
NLP類模型要理解單詞的含義,還要理解如何造句和給出上下文有意義的回答,甚至使用合適的俚語和專業(yè)詞匯。
我們看到ChatGPT的回答是這樣的:
ChatGPT的原理是基于自回歸語言模型(Auto-Regressive Language Model),它是一種基于深度學(xué)習(xí)的自然語言處理技術(shù),可以用來生成自然語言文本。它使用一種叫做Transformer的模型,它可以訓(xùn)練一個(gè)模型來預(yù)測(cè)下一個(gè)詞,從而生成文本。
人類反饋強(qiáng)化學(xué)習(xí)
同時(shí)OpenAI采用了 RLHF(Reinforcement Learning from Human Feedbac,人類反饋強(qiáng)化學(xué)習(xí)) 技術(shù)對(duì) ChatGPT 進(jìn)行了訓(xùn)練,而加入了更多人工監(jiān)督進(jìn)行微調(diào)。所以我們可以看到,一些錯(cuò)誤的信息會(huì)逐步被更正。而且在很多用戶的測(cè)試中可以發(fā)現(xiàn),若用戶指出其錯(cuò)誤,模型會(huì)聽取意見并優(yōu)化答案。
InstructGPT/GPT3.5(ChatGPT的前身)與GPT-3的主要區(qū)別在于,新加入了被稱為RLHF(Reinforcement Learning from Human Feedback,人類反饋強(qiáng)化學(xué)習(xí))。
InstructGPT的目標(biāo)就是緩解這種生成回復(fù)與真實(shí)回復(fù)之間的偏置產(chǎn)生更加符合人類預(yù)期的回復(fù)。
chatGPT是一種基于轉(zhuǎn)移學(xué)習(xí)的大型語言模型,它使用GPT-2 (Generative PretrainedTransformer2)模型的技術(shù),使用了transformer的架構(gòu),并進(jìn)行了進(jìn)一步的訓(xùn)練和優(yōu)化。
chatGPT是在GPT-2模型的基礎(chǔ)上進(jìn)一步訓(xùn)練和優(yōu)化而得到的。 它使用了更多的語料庫,并且進(jìn)行了專門的訓(xùn)練來提高在對(duì)話系統(tǒng)中的表現(xiàn)。這使得chatGPT能夠在對(duì)話中白然地回應(yīng)用戶的輸入,并且能夠生成流暢、連貫、通順的文本。
那么接下來我們來看下什么是InstructGPT。從字面上來看,顧名思義,它就是指令式的GPT,“which is trained to follow an instruction in a prompt and provide a detailed response”。接下來我們來看下InstructGPT論文中的主要原理:
InstructGPT整體訓(xùn)練流程
從該圖可以看出,InstructGPT是基于GPT-3模型訓(xùn)練出來的,具體步驟如下:
步驟1.)從GPT-3的輸入語句數(shù)據(jù)集中采樣部分輸入,基于這些輸入,采用人工標(biāo)注完成希望得到輸出結(jié)果與行為,然后利用這些標(biāo)注數(shù)據(jù)進(jìn)行GPT-3有監(jiān)督的訓(xùn)練。該模型即作為指令式GPT的冷啟動(dòng)模型。
步驟2.)在采樣的輸入語句中,進(jìn)行前向推理獲得多個(gè)模型輸出結(jié)果,通過人工標(biāo)注進(jìn)行這些輸出結(jié)果的排序打標(biāo)。最終這些標(biāo)注數(shù)據(jù)用來訓(xùn)練reward反饋模型。
步驟3.)采樣新的輸入語句,policy策略網(wǎng)絡(luò)生成輸出結(jié)果,然后通過reward反饋模型計(jì)算反饋,該反饋回過頭來作用于policy策略網(wǎng)絡(luò)。以此反復(fù),這里就是標(biāo)準(zhǔn)的reinforcement learning強(qiáng)化學(xué)習(xí)的訓(xùn)練框架了。
所以總結(jié)起來ChatGPT(對(duì)話GPT)其實(shí)就是InstructGPT(指令式GPT)的同源模型,然后指令式GPT就是基于GPT-3,先通過人工標(biāo)注方式訓(xùn)練出強(qiáng)化學(xué)習(xí)的冷啟動(dòng)模型與reward反饋模型,最后通過強(qiáng)化學(xué)習(xí)的方式學(xué)習(xí)出對(duì)話友好型的ChatGPT模型。
InstructGPT的訓(xùn)練實(shí)際上是分為三個(gè)階段的,第一階段就是我們上文所述,利用人工標(biāo)注的數(shù)據(jù)微調(diào)GPT3;第二階段,需要訓(xùn)練一個(gè)評(píng)價(jià)模型即Reward Model,該模型需學(xué)習(xí)人類對(duì)于模型回復(fù)的評(píng)價(jià)方式,對(duì)于給定的上文與生成回復(fù)給出分?jǐn)?shù);第三階段,利用訓(xùn)練好的Reward Model作為反饋信號(hào),去指導(dǎo)GPT進(jìn)一步進(jìn)行微調(diào),將目標(biāo)設(shè)定為Reward分?jǐn)?shù)最大化,從而使模型產(chǎn)生更加符合人類偏好的回復(fù)。
自然語言理解的不同發(fā)展階段
在20世紀(jì)60年代,隨著計(jì)算機(jī)技術(shù)的發(fā)展,自然語言處理技術(shù)也進(jìn)一步提升。當(dāng)時(shí),美國(guó)國(guó)家科學(xué)基金會(huì)(NSF)成立了“自然語言處理研究計(jì)劃”,專門用于支持自然語言處理技術(shù)的研究。同時(shí),英國(guó)也成立了“自然語言處理研究室(Natural Language Processing Research Laboratory)”,專門致力于自然語言處理技術(shù)的研究與應(yīng)用。
在20世紀(jì)70年代,自然語言處理技術(shù)又迎來了一個(gè)新的發(fā)展階段。這一時(shí)期,自然語言處理技術(shù)發(fā)展到了語言學(xué)理論與計(jì)算機(jī)科學(xué)相結(jié)合的階段。其中,語義學(xué)和句法學(xué)等語言學(xué)理論成為自然語言處理技術(shù)研究的重要基礎(chǔ)。
在20世紀(jì)80年代,隨著人工智能技術(shù)的進(jìn)一步發(fā)展,自然語言處理技術(shù)也進(jìn)入了一個(gè)新的階段。這一時(shí)期,自然語言處理技術(shù)得到了廣泛應(yīng)用,并取得了一系列突破性成果。例如,英國(guó)語言工程研究所(LEL)在1983年成功開發(fā)出了世界上第一個(gè)基于人工智能的翻譯系統(tǒng),該系統(tǒng)能夠?qū)⒂⒄Z翻譯成法語。
在20世紀(jì)90年代,自然語言處理技術(shù)進(jìn)一步發(fā)展壯大。隨著互聯(lián)網(wǎng)的普及,自然語言處理技術(shù)在搜索引擎、社交媒體、客服機(jī)器人等領(lǐng)域得到廣泛應(yīng)用。此外,自然語言處理技術(shù)還進(jìn)入了深度學(xué)習(xí)階段,開始使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行語言模型的建立和訓(xùn)練,從而提升自然語言處理技術(shù)的準(zhǔn)確性和效率。如今,自然語言處理技術(shù)已經(jīng)成為人工智能領(lǐng)域的重要組成部分,并在多個(gè)領(lǐng)域得到廣泛應(yīng)用。
-
AI
+關(guān)注
關(guān)注
87文章
30887瀏覽量
269062 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5503瀏覽量
121157 -
自然語言處理
+關(guān)注
關(guān)注
1文章
618瀏覽量
13561 -
OpenAI
+關(guān)注
關(guān)注
9文章
1087瀏覽量
6508 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1560瀏覽量
7666
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論