亚洲欧洲国产aⅴ综合,无码精品国产vα在线观看DVD

雖然GPT-3沒(méi)有開(kāi)源，卻已經(jīng)有人在復(fù)刻GPT系列的模型了。

例如，慕尼黑工業(yè)大學(xué)的Connor Leahy，此前用200個(gè)小時(shí)、6000RMB，復(fù)現(xiàn)了GPT-2。

又例如，基于150億參數(shù)版GPT-3的DALL·E模型剛出，來(lái)自康奈爾大學(xué)的 Philip Wang就開(kāi)始復(fù)現(xiàn) 了。

但此前，還沒(méi)人能復(fù)現(xiàn)出GPT-3大小的大語(yǔ)言模型來(lái)。

不過(guò)，已經(jīng)有人開(kāi)始嘗試了。這是一個(gè)名為 GPT-Neo的項(xiàng)目，用于復(fù)現(xiàn)GPT系列的各種語(yǔ)言模型，當(dāng)然也包括GPT-3。

作者表示，目前他們已經(jīng)成功制造出GPT-2大小的模型。

從項(xiàng)目代碼的可擴(kuò)展性來(lái)看，他們預(yù)計(jì)可以復(fù)刻出GPT-3大小的語(yǔ)言模型，甚至比GPT-3更大。

不僅如此，由于這是個(gè)開(kāi)源的項(xiàng)目，大家還可以自主訓(xùn)練這些模型（將來(lái)也會(huì)包括GPT-3）。

目前，作者已經(jīng)給出了詳細(xì)的訓(xùn)練步驟。

消息一出，網(wǎng)友沸騰了：

要是真能復(fù)現(xiàn)，說(shuō)不定會(huì)比現(xiàn)在的GPT-3還要更好用！

GPT系列的“高仿”項(xiàng)目

本質(zhì)上，GPT-Neo有點(diǎn)像是GPT系列的“高仿”項(xiàng)目：

GPT-Neo中的各種模型，設(shè)計(jì)原理接近GPT系列，但代碼并不一樣。

作者們打算嘗試各種結(jié)構(gòu)和注意力類型，最終擴(kuò)展出GPT-3大小的大語(yǔ)言模型。

為了實(shí)現(xiàn)這一目標(biāo)，他們從復(fù)現(xiàn)GPT系列的模型開(kāi)始，不斷嘗試各種模型架構(gòu)、和各種注意力機(jī)制的實(shí)現(xiàn)方式。

也就是說(shuō)，GPT-Neo更像是一個(gè)實(shí)驗(yàn)性質(zhì)的項(xiàng)目，通過(guò)各種嘗試，擴(kuò)展出更大的模型。

這里面，融合了各種讓模型變得“更大”的研究：

例如，多任務(wù)學(xué)習(xí)方法MoE （Mixture of Experts），采用多個(gè)專家的結(jié)構(gòu)，將問(wèn)題空間劃分為同質(zhì)區(qū)域，然后采用分發(fā)器，決定問(wèn)題應(yīng)該問(wèn)哪些專家。

又比如，具有線性復(fù)雜性的自注意力機(jī)制。

……

這個(gè)項(xiàng)目還在施工中，不過(guò)，連模型的訓(xùn)練方式都準(zhǔn)備好了。

項(xiàng)目計(jì)劃通過(guò)TPU或GPU，對(duì)大語(yǔ)言模型進(jìn)行訓(xùn)練。

為此，作者們已經(jīng)基于Tensorflow-mesh （用于在GPU上訓(xùn)練模型）、Deepspeed （用于在TPU上訓(xùn)練模型）兩個(gè)項(xiàng)目，編寫(xiě)了GPT-Neo的訓(xùn)練代碼。

這兩個(gè)項(xiàng)目都可以擴(kuò)展到大于GPT-3的大小，甚至還能更大。

因此，訓(xùn)練GPT-3大小的模型，軟件理論上是可行的。

但硬件上的問(wèn)題，目前作者們還在思考明確的解決方案。如果將來(lái)真的做出了GPT-3大小的模型，他們打算先從谷歌那多要點(diǎn)免費(fèi)資源，如果不行的話，就再說(shuō)……

如何訓(xùn)練GPT-Neo

當(dāng)然，在TPU和GPU上訓(xùn)練的方式有所不同。

如果使用TPU訓(xùn)練的話，需要注冊(cè)一個(gè)谷歌云平臺(tái)，創(chuàng)建存儲(chǔ)空間，然后再搞個(gè)虛擬機(jī)，將模型放到TPU上訓(xùn)練。

不過(guò)，如果你的GPU硬件足夠OK，也可以選擇直接訓(xùn)練GPT-Neo，就不用設(shè)置一系列谷歌云了。

此外，也可以用谷歌Colab來(lái)訓(xùn)練項(xiàng)目，它免費(fèi)提供TPU-V8S處理器，訓(xùn)練GPT的3XL （1.5B參數(shù)）版本綽綽有余。

訓(xùn)練過(guò)程也不復(fù)雜，主要包括創(chuàng)建分詞器、數(shù)據(jù)集預(yù)處理、指定訓(xùn)練數(shù)據(jù)集、選擇訓(xùn)練配置、訓(xùn)練模型幾個(gè)步驟。

在創(chuàng)建分詞器上，GPT-Neo目前提供一個(gè)Huggingface的預(yù)訓(xùn)練GPT-2分詞器。不過(guò)，也可以訓(xùn)練自己專屬的分詞器。

然后，對(duì)數(shù)據(jù)進(jìn)行預(yù)處理，可以直接下載項(xiàng)目提供的數(shù)據(jù)，也可以使用自己的數(shù)據(jù)集。

在那之后，指定模型訓(xùn)練所用的數(shù)據(jù)集，然后對(duì)訓(xùn)練方式進(jìn)行設(shè)置，例如優(yōu)化算法、訓(xùn)練步數(shù)等。

然后，指定硬件名稱、數(shù)量，就可以開(kāi)始訓(xùn)練模型了。

“只會(huì)用谷歌搜索的自動(dòng)化團(tuán)隊(duì)”

不過(guò)，對(duì)于GPT系列的項(xiàng)目復(fù)現(xiàn)，有網(wǎng)友并不看好。

網(wǎng)友認(rèn)為，GPT-X系列項(xiàng)目，就像是一個(gè)由幾百人組成的自動(dòng)化團(tuán)隊(duì)，這幾百人只會(huì)用谷歌搜索來(lái)干活，而且還沒(méi)辦法寫(xiě)出最新的新聞事件報(bào)道。（因?yàn)橛?xùn)練數(shù)據(jù)無(wú)法一直更新）

它雖然是個(gè)非常有趣的研究，但目前卻還沒(méi)有一個(gè)“殺手級(jí)”應(yīng)用，來(lái)讓GPT-3項(xiàng)目的存在變得更有意義。

當(dāng)然，也有人認(rèn)為，復(fù)現(xiàn)這一項(xiàng)目還是有意義的。

即使只是“幾百個(gè)只會(huì)用搜索引擎干活的團(tuán)隊(duì)”，他們也需要快速給出某個(gè)問(wèn)題的答案。

如何在大量零碎信息中，高效地選出最優(yōu)解，本身就是GPT-X項(xiàng)目的價(jià)值之一。畢竟如果只是幾百個(gè)“會(huì)用谷歌搜索”的人組成的團(tuán)隊(duì)，是無(wú)法像GPT-3一樣，快速得出最佳答案的。

當(dāng)然，也有一些程序員調(diào)侃，要是這個(gè)GPT-3項(xiàng)目真的被復(fù)現(xiàn)了，豈不是他們馬上就要失業(yè)了。

“我們總是在用谷歌搜索、和stackoverflow來(lái)解決問(wèn)題。這不就是像GPT-3一樣，只會(huì)整合搜索引擎上的信息，來(lái)解決問(wèn)題嗎？”

“該死，原來(lái)GPT-3竟然可以取代這么多程序員。”

目前，GPT-Neo的所有項(xiàng)目和代碼已開(kāi)源。

想要上手一試、或是對(duì)項(xiàng)目感興趣的小伙伴，可以行動(dòng)起來(lái)了~

責(zé)任編輯：PSY

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

開(kāi)源

開(kāi)源

+關(guān)注

關(guān)注
3

文章
3349

瀏覽量
42503
語(yǔ)言模型

語(yǔ)言模型

+關(guān)注

關(guān)注
0

文章
524

瀏覽量
10277
GPT

GPT

+關(guān)注

關(guān)注
0

文章
354

瀏覽量
15380

評(píng)論

相關(guān)推薦

一文解析人工智能中GPT-3 到底有多厲害？

的 OpenAI 放出了 GPT-3 這個(gè)巨型 NLP 模型怪獸，包含 1750 億參數(shù)，比 2 月份微軟剛推出的全球最大深度學(xué)習(xí)模型 Turing NLG 大上十倍，是其前身 GPT-2 參數(shù)的 100 倍

發(fā)表于 03-19 14:19 ?2w次閱讀

ChatGPT如何使用RLHF來(lái)克服GPT-3存在的問(wèn)題

ChatGPT 是 OpenAI 發(fā)布的最新語(yǔ)言模型，比其前身 GPT-3 有顯著提升。與許多大型語(yǔ)言模型類似，ChatGPT 能以不同樣式、不同目的生成文本，并且在準(zhǔn)確度、敘述細(xì)節(jié)和上下文連貫性上具有更優(yōu)的表現(xiàn)。

發(fā)表于 03-10 09:41 ?843次閱讀

GPT-3難以復(fù)現(xiàn)，為什么說(shuō)PyTorch走上了一條“大彎路”？

據(jù) NVIDIA 估算，如果要訓(xùn)練GPT-3 ，即使單個(gè)機(jī)器的顯存/內(nèi)存能裝得下，用 8 張 V100 的顯卡，訓(xùn)練時(shí)長(zhǎng)預(yù)計(jì)要 36 年。

發(fā)表于 05-19 11:06 ?1465次閱讀

<b class='flag-5'>GPT-3</b>難以復(fù)現(xiàn)，為什么說(shuō)PyTorch走上了一條“大彎路”？

最大人工智能算法模型GPT-3問(wèn)世

OpenAI的一組研究人員最近發(fā)表了一篇論文，描述了GPT-3，這是一種具有1，750億個(gè)參數(shù)的自然語(yǔ)言深度學(xué)習(xí)模型，比以前的版本GPT-2高100倍。該模型經(jīng)過(guò)了將近0.5萬(wàn)億個(gè)單詞的預(yù)訓(xùn)練

發(fā)表于 07-08 17:36 ?2326次閱讀

如何在GPT-3中使用一個(gè)新詞或執(zhí)行3位數(shù)運(yùn)算？

給予任何文本提示，GPT-3將返回一個(gè)文本完成，試圖匹配用戶給它的模式。用戶可以給它 “編程”，只需向它展示幾個(gè)希望它做的例子，它就會(huì)提供一篇完整的文章或故事，比如下面的文字，完全由GPT-3編寫(xiě)。

發(fā)表于 07-20 16:33 ?1543次閱讀

如何打造中文版 GPT-3？GPT-4 可能如何演化？

既能問(wèn)答、翻譯、寫(xiě)文章，也能寫(xiě)代碼、算公式、畫(huà)圖標(biāo)。..。..OpenAI 2020 年 5 月推出的 GPT-3，因其神奇的通用性而走紅 AI 領(lǐng)域。

發(fā)表于 09-02 10:21 ?4766次閱讀

史上最大AI模型GPT-3你要開(kāi)始收費(fèi)了接下去可能用不起它了

還記得前不久被捧上天的GPT-3么？那個(gè)只有被邀請(qǐng)的用戶才能測(cè)試使用的，號(hào)稱史上最大AI模型。 OpenAI的1,750億參數(shù)語(yǔ)言模型GPT-3在6月份發(fā)布的時(shí)候就備受關(guān)注，當(dāng)時(shí)，猿妹還和大家分享了

發(fā)表于 09-25 11:38 ?3071次閱讀

GPT-3引發(fā)公眾的遐想能根據(jù)文字產(chǎn)生圖片的AI!

非常幼稚?？杀M管如此，技術(shù)人員依然認(rèn)為，創(chuàng)造了 GPT-3 的技術(shù)可能是通往更高級(jí) AI 的必經(jīng)之路。 GPT-3 使用大量文本數(shù)據(jù)進(jìn)行了訓(xùn)練，那么，假如同時(shí)使用文本和圖像數(shù)據(jù)進(jìn)行訓(xùn)練

發(fā)表于 10-09 18:30 ?2601次閱讀

史上最大AI模型GPT-3強(qiáng)勢(shì)霸榜Github

最近，GPT-3火了！相信你已經(jīng)在網(wǎng)上看到各種有關(guān)GPT-3的演示。這個(gè)由OpenAI創(chuàng)建的大型機(jī)器學(xué)習(xí)模型，它不僅可以自己寫(xiě)論文，還會(huì)寫(xiě)詩(shī)歌，就連你寫(xiě)的代碼都能幫你寫(xiě)了。 ? 下面還是先讓你看看

發(fā)表于 01-06 17:06 ?3031次閱讀

谷歌開(kāi)發(fā)出超過(guò)一萬(wàn)億參數(shù)的語(yǔ)言模型，秒殺GPT-3

繼GPT-3問(wèn)世僅僅不到一年的時(shí)間，Google重磅推出Switch Transformer，直接將參數(shù)量從GPT-3的1750億拉高到1.6萬(wàn)億，并比之前最大的、由google開(kāi)發(fā)的語(yǔ)言模型

發(fā)表于 01-27 16:26 ?2169次閱讀

Eleuther AI：已經(jīng)開(kāi)源了復(fù)現(xiàn)版GPT-3的模型參數(shù)

GPT3終于開(kāi)源！不過(guò)，不是官方開(kāi)的（別打我 Eleuther AI推出的名為GPT-Neo的開(kāi)源項(xiàng)目，于晨4點(diǎn)于twitter正式宣布：已經(jīng)開(kāi)源了復(fù)現(xiàn)版GPT-3的模型參數(shù)（1.3B和2.7B級(jí)別

發(fā)表于 03-31 17:46 ?3218次閱讀

GPT/GPT-2/GPT-3/InstructGPT進(jìn)化之路

在預(yù)訓(xùn)練階段，GPT 選擇 transformer 的 decoder 部分作為模型的主要模塊，transformer 是 2017年 google 提出的一種特征抽取模型，GPT 以多層 transformer 堆疊的方式構(gòu)成

發(fā)表于 03-03 11:14 ?3766次閱讀

MEANEST家庭自動(dòng)化AI（使用GPT-3）

電子發(fā)燒友網(wǎng)站提供《MEANEST家庭自動(dòng)化AI（使用GPT-3）.zip》資料免費(fèi)下載

發(fā)表于 06-15 11:33 ?0次下載

盤(pán)古大模型和GPT3有哪些不同

幾個(gè)方面來(lái)探討盤(pán)古大模型和GPT-3的不同之處。一、概念定義差異盤(pán)古大模型，簡(jiǎn)稱PGM，是中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心所研發(fā)的一種大規(guī)模中文自然語(yǔ)言處理預(yù)訓(xùn)練模型，它是以一種全新的方式來(lái)進(jìn)行中文自然語(yǔ)言處理的。它可以像英文NLP預(yù)訓(xùn)

發(fā)表于 08-30 18:28 ?1886次閱讀

Jim Fan展望:機(jī)器人領(lǐng)域即將迎來(lái)GPT-3式突破

英偉達(dá)科學(xué)家9月19日，科技媒體The Decoder發(fā)布了一則引人關(guān)注的報(bào)道，英偉達(dá)高級(jí)科學(xué)家Jim Fan在近期預(yù)測(cè)，機(jī)器人技術(shù)將在未來(lái)兩到三年內(nèi)迎來(lái)類似GPT-3在語(yǔ)言處理領(lǐng)域的革命性突破，他稱之為機(jī)器人領(lǐng)域的“GPT-3時(shí)刻”。

發(fā)表于 09-19 15:13 ?580次閱讀

搜索歷史

GPT系列的“高仿” 最大可達(dá)GPT-3大小自主訓(xùn)練

評(píng)論

一文解析人工智能中GPT-3 到底有多厲害？

ChatGPT如何使用RLHF來(lái)克服GPT-3存在的問(wèn)題

GPT-3難以復(fù)現(xiàn)，為什么說(shuō)PyTorch走上了一條“大彎路”？

最大人工智能算法模型GPT-3問(wèn)世

如何在GPT-3中使用一個(gè)新詞或執(zhí)行3位數(shù)運(yùn)算？

如何打造中文版 GPT-3？GPT-4 可能如何演化？

史上最大AI模型GPT-3你要開(kāi)始收費(fèi)了接下去可能用不起它了

GPT-3引發(fā)公眾的遐想能根據(jù)文字產(chǎn)生圖片的AI!

史上最大AI模型GPT-3強(qiáng)勢(shì)霸榜Github

谷歌開(kāi)發(fā)出超過(guò)一萬(wàn)億參數(shù)的語(yǔ)言模型，秒殺GPT-3

Eleuther AI：已經(jīng)開(kāi)源了復(fù)現(xiàn)版GPT-3的模型參數(shù)

GPT/GPT-2/GPT-3/InstructGPT進(jìn)化之路

MEANEST家庭自動(dòng)化AI（使用GPT-3）

盤(pán)古大模型和GPT3有哪些不同

Jim Fan展望:機(jī)器人領(lǐng)域即將迎來(lái)GPT-3式突破

搜索歷史

GPT系列的“高仿” 最大可達(dá)GPT-3大小 自主訓(xùn)練

評(píng)論

GPT系列的“高仿” 最大可達(dá)GPT-3大小自主訓(xùn)練