国产成人无码WWW免费视频在线,天天看天天爽天天摸天天添,国产高清自产拍av在线

既能問答、翻譯、寫文章，也能寫代碼、算公式、畫圖標(biāo)。..。..OpenAI 2020 年 5 月推出的 GPT-3，因其神奇的通用性而走紅 AI 領(lǐng)域。

GPT-3 是用英文語料做預(yù)訓(xùn)練的，主要應(yīng)用于英文相關(guān)場景，而中文業(yè)界和學(xué)術(shù)界已經(jīng)出現(xiàn)了期待中文版 GPT-3 的聲音。

“GPT-3 與出門問問的技術(shù)基礎(chǔ)緊密相關(guān)。雖然現(xiàn)階段 GPT 模型還并非完美，但它是目前我們能看到，通往更加通用的語言智能的重要路徑之一?！睆氖轮形恼Z音交互的 AI 公司出門問問創(chuàng)始人兼 CEO 李志飛告訴品玩。

出門問問一直對更加通用的語言智能很感興趣。團(tuán)隊(duì)正深入理解 GPT-3 的相關(guān)論文，推進(jìn)相關(guān)實(shí)驗(yàn)，嘗試提升訓(xùn)練效率等工作。

如何打造中文版 GPT-3？

那么，如果要打造一個中文版的 GPT-3，該怎么操作？

“與英文相比，中文版 GPT-3 的誕生將經(jīng)歷一個從零到一的過程，可以借鑒英文 GPT-3 技術(shù)迭代的相關(guān)經(jīng)驗(yàn)?！崩钪撅w對品玩表示。GPT-3 的技術(shù)迭代之路，是一個不斷增大訓(xùn)練數(shù)據(jù)量和模型參數(shù)規(guī)模的過程。

本質(zhì)上，GPT-3 是一個大規(guī)模預(yù)訓(xùn)練 NLP（自然語言處理）模型。大規(guī)模預(yù)訓(xùn)練是指，先用大量沒有標(biāo)注的語料做無監(jiān)督學(xué)習(xí)，得到一套模型參數(shù)，然后再用少量標(biāo)注語料精調(diào)，最后應(yīng)用于具體的下游 NLP 任務(wù)。這種模式已經(jīng)誕生了不少成功的 NLP 模型，如 Google 2018 年推出的 Bert，但其通用性上依然不足。直到 GPT-3 推出，讓這類預(yù)訓(xùn)練模型的通用性上了一個臺階。

從 GPT 第一代到 GPT-3，其模型層面一直都是基于 Transformer（一種領(lǐng)先的提取語義特征方法）做預(yù)訓(xùn)練，沒有什么改變，但訓(xùn)練數(shù)據(jù)量和模型規(guī)模十倍、千倍地增長。

2018 年 6 月發(fā)布的 GPT 第一代，預(yù)訓(xùn)練數(shù)據(jù)量僅為 5GB。GPT-2 增長為 40GB，GPT-3 更是猛增到 45TB（等于 45000GB）。而模型規(guī)模方面，從 GPT 第一代的 1.17 億參數(shù)量，指數(shù)增長為 1750 億。

隨著數(shù)據(jù)量和模型規(guī)模的增大，GPT 逐漸舍棄了用少數(shù)標(biāo)注語料精調(diào)這一步，完全基于預(yù)訓(xùn)練得出的參數(shù)，去做下游任務(wù)，精確度依然有一定保證。

GPT 所需算力也越來越夸張，初代 GPT 在 8 個 GPU 上訓(xùn)練一個月就行，而 GPT-2 需要在 256 個 Google Cloud TPU v3 上訓(xùn)練（256 美元每小時(shí)），訓(xùn)練時(shí)長未知。到 GPT-3，預(yù)估訓(xùn)練一個模型的費(fèi)用超過 460 萬美元。

相應(yīng)地，參與到 GPT 論文的作者從初代的 4 位，增加到第三代的 31 位。并且，31 位作者分工明確，有人負(fù)責(zé)訓(xùn)練模型，有人負(fù)責(zé)收集和過濾數(shù)據(jù)，有人負(fù)責(zé)實(shí)施具體的自然語言任務(wù)，有人負(fù)責(zé)開發(fā)更快的 GPU 內(nèi)核。

借鑒 GPT-3 的迭代經(jīng)驗(yàn)，李志飛認(rèn)為開展中文 GPT-3 模型訓(xùn)練比較合理的路徑是：“從中小規(guī)模的模型入手，開展研究及實(shí)驗(yàn)，達(dá)到一定效果后再推廣到大模型上進(jìn)行驗(yàn)證”。

至于人力方面的配置，他表示 GPT 是一個非常綜合的大系統(tǒng)工程，涉及到學(xué)術(shù)、工程、商業(yè)等團(tuán)隊(duì)之間的大規(guī)模協(xié)同。一般需要搭建幾十人的團(tuán)隊(duì)，其中包括科學(xué)家、工程師、項(xiàng)目經(jīng)理等角色。

雖然可以借鑒英文 GPT-3 技術(shù)迭代的相關(guān)經(jīng)驗(yàn)，但是在創(chuàng)建中文版 GPT-3 的過程中，也需要解決很多獨(dú)特的問題，如中文訓(xùn)練數(shù)據(jù)、算力等。

“一方面，我們需要將更多的時(shí)間精力，投入在高質(zhì)量、多樣性的訓(xùn)練文本的獲取上。”李志飛說，“另一方面，計(jì)算的效率問題，也是目前大規(guī)模深度學(xué)習(xí)模型訓(xùn)練所面臨的共同挑戰(zhàn)?！?/p>

從總體規(guī)模、數(shù)據(jù)質(zhì)量及多樣性上看，目前能夠從互聯(lián)網(wǎng)上獲取到的高質(zhì)量中文數(shù)據(jù)，相比英文數(shù)據(jù)要少一些，這可能會影響到中文模型的訓(xùn)練效果。不過，從已有的研究分析結(jié)果來看，數(shù)據(jù)并非越多越好。

“我們可以結(jié)合數(shù)據(jù)優(yōu)化、數(shù)據(jù)生成等方式來提高訓(xùn)練語料的有效性。初步來看，具體訓(xùn)練語料，主要包括百科問答、新聞資訊、博客電子書類數(shù)據(jù)及其它泛爬數(shù)據(jù)，經(jīng)過數(shù)據(jù)處理后其規(guī)模在 500GB 左右?！崩钪撅w說。

GPT-3 模型參數(shù)到達(dá) 1750 億，其背后訓(xùn)練資源的開銷非常龐大，預(yù)估訓(xùn)練一個模型的費(fèi)用超過 460 萬美元。不過，隨著國內(nèi)外各項(xiàng)研究的推進(jìn)，預(yù)訓(xùn)練模型的訓(xùn)練效率將會不斷提升。

“我們可以借鑒其他預(yù)訓(xùn)練語言模型的優(yōu)化經(jīng)驗(yàn)，在訓(xùn)練語料、網(wǎng)絡(luò)結(jié)構(gòu)、模型壓縮等方面多做工作，預(yù)計(jì)將模型的單次訓(xùn)練成本降低一個數(shù)量級?！崩钪撅w說。

看上去，構(gòu)建中文 GPT-3 是一件很費(fèi)勁的事情，但這項(xiàng)工作帶來的回報(bào)也非?？捎^。李志飛對品玩表示，GPT-3 展現(xiàn)出的通用能力，可以將其視為下一代搜索引擎和 AI 助理，所以這項(xiàng)技術(shù)本身的商業(yè)應(yīng)用場景可以很廣闊。

其次，構(gòu)建 GPT 模型的過程中，將涉及到超算中心和AI算法平臺的建設(shè)，這些算力和算法平臺可以為企業(yè)、科研機(jī)構(gòu)、政府提供底層服務(wù)，通過開放平臺為產(chǎn)業(yè)賦能，如智能車載、智慧城市、科技金融等領(lǐng)域。

另外，雖然 GPT 本質(zhì)是一個關(guān)于語言的時(shí)序模型，但語言之外的其它時(shí)序問題，如經(jīng)濟(jì)、股票、交通等行為預(yù)測，也有可能成為潛在應(yīng)用場景。

GPT-4 可能如何演化？

GPT-3 目前的表現(xiàn)雖然令人震驚，但它本身還存在著很多問題，比如它并不能真正理解文本的含義，只是對詞語進(jìn)行排列組合。而且，研究員也并未完全了解它的工作機(jī)制。李志飛預(yù)測，下一個版本 GPT-4 將會在模型規(guī)模、小樣本學(xué)習(xí)、多模態(tài)、學(xué)習(xí)反饋機(jī)制和與任務(wù)執(zhí)行結(jié)合方面進(jìn)行改進(jìn)。

毫無疑問，GPT-4 模型會更加暴力。李志飛說：“下一代 GPT 模型必然在數(shù)據(jù)規(guī)模、模型參數(shù)、算力等方面都會有很大提升。另外，下一代的 GPT 模型可能不局限于英文，將能處理更多跨語言層面的任務(wù)。”

目前的 GPT-3 模型還嚴(yán)重依賴小樣本學(xué)習(xí)機(jī)制。雖然 GPT-3 不需要精調(diào)，但是在完成具體的 NLP 任務(wù)時(shí)，還是會把少量和任務(wù)相關(guān)的實(shí)例給模型。在零樣本和單樣本的任務(wù)上，GPT-3 退化比較明顯，事實(shí)上后面兩個任務(wù)才是更普遍遇到的問題。

“下一代 GPT 模型需要加強(qiáng)在理論上的泛化能力，以便更好地處理零樣本和單樣本的任務(wù)?！崩钪撅w表示。

下一代的 GPT 模型極有可能是一個多模態(tài)的模型。OpenAI 認(rèn)為，純文本的自回歸預(yù)訓(xùn)練模型達(dá)到當(dāng)下的規(guī)模，已經(jīng)快接近極限了，需要往多模態(tài)模型方向發(fā)展，把文本、語音、圖像這些內(nèi)容結(jié)合起來進(jìn)行學(xué)習(xí)。李志飛認(rèn)為，多模態(tài)模型，一方面可以引入語言之外的更多維度的信息，另外一方面可以促使模型學(xué)習(xí)完成更通用化的表示，以此加強(qiáng)模型的泛化能力。

另外一個重要的進(jìn)化，是引入學(xué)習(xí)反饋機(jī)制。目前GPT模型只是能夠在完全無監(jiān)督的條件下，讀取海量互聯(lián)網(wǎng)文本數(shù)據(jù)進(jìn)行學(xué)習(xí)，但是人類的學(xué)習(xí)過程是跟物理世界有交互的，只有這樣才能建立更多物理世界的“常識”，比如說杯子應(yīng)該在桌子上面而不是下面。如果要到達(dá)更加通用的狀態(tài)，除了多模態(tài)外，還要在學(xué)習(xí)過程中引入物理世界的反饋機(jī)制。

“當(dāng)然，這個反饋也是通過數(shù)據(jù)來實(shí)現(xiàn)的，而不是讓GPT真正像人一樣去探索物理世界。”李志飛說道，“另外，鑒于 GPT 希望實(shí)現(xiàn)完全無監(jiān)督學(xué)習(xí)的初衷，這個反饋更多是隱式的和延遲的，而不是顯式的和及時(shí)的。為了做到這些，需要引入強(qiáng)化學(xué)習(xí)（re-inforcement learning）之類的機(jī)制?！?/p>

李志飛還認(rèn)為，GPT-4 可能引入任務(wù)執(zhí)行能力?，F(xiàn)在的 GPT 主要是一個預(yù)測和生成的引擎，而不是一個任務(wù)的執(zhí)行器。

比如，你跟GPT說“幫我訂一下明天下午三點(diǎn)左右北京去上海的經(jīng)濟(jì)艙的機(jī)票”，目前GPT也許能理解這句話的意思，但還沒有能力自動調(diào)取訂票網(wǎng)站的 API（應(yīng)用程序接口）去執(zhí)行任務(wù)。如果不具備這種執(zhí)行能力，GPT的通用性就很有限，因?yàn)槊恳粋€任務(wù)都需要額外增加代碼用以執(zhí)行理解后的任務(wù)。所以，GPT 必須學(xué)習(xí)怎么直接執(zhí)行任務(wù)。

總體而言，李志飛對 GPT 的未來發(fā)展非常樂觀：“未來互聯(lián)網(wǎng)上的很多內(nèi)容或知識，都會是由類 GPT 模型產(chǎn)生或加工過的。所以某種程度上，GPT的發(fā)展代表著語言主權(quán)的演進(jìn)，且它將有潛力成為一種生態(tài)系統(tǒng)?！?br /> 責(zé)編AJX

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴