国产福利免费在线观看,成品人和精品人的区别

參數(shù)是機(jī)器學(xué)習(xí)算法的關(guān)鍵。它們是從歷史訓(xùn)練數(shù)據(jù)中學(xué)到的模型的一部分。一般來(lái)說(shuō)，在語(yǔ)言領(lǐng)域，參數(shù)的數(shù)量和復(fù)雜性之間的相關(guān)性非常好。例如，OpenAI的GPT-3是有史以來(lái)訓(xùn)練了1750億個(gè)參數(shù)的最大語(yǔ)言模型之一，它可以進(jìn)行原始類(lèi)比、生成配方，甚至完成基本代碼。

近日，谷歌的研究人員開(kāi)發(fā)了一種技術(shù)，并對(duì)其進(jìn)行基準(zhǔn)測(cè)試，他們聲稱(chēng)這種技術(shù)能夠訓(xùn)練包含超過(guò)一萬(wàn)億參數(shù)的語(yǔ)言模型。他們表示，他們的1.6萬(wàn)億參數(shù)模型是迄今為止最大的，比之前最大的谷歌開(kāi)發(fā)的語(yǔ)言模型（T5-XXL）快了4倍。

研究人員指出，大規(guī)模訓(xùn)練是建立強(qiáng)大模型的有效途徑。簡(jiǎn)單的架構(gòu)，大數(shù)據(jù)集和參數(shù)計(jì)數(shù)的支持，超越了更復(fù)雜的算法。但是，大規(guī)模的訓(xùn)練雖然有效，但計(jì)算強(qiáng)度極高。這就是為什么研究人員追求他們所謂的Switch?Transformer，一種“稀疏激活”技術(shù)，它只使用模型權(quán)重的子集，或轉(zhuǎn)換模型內(nèi)輸入數(shù)據(jù)的參數(shù)。

Switch?Transformer的新穎之處在于它有效地利用了為密集矩陣乘法（廣泛應(yīng)用于語(yǔ)言模型的數(shù)學(xué)運(yùn)算）設(shè)計(jì)的硬件，如GPU和TPU。在研究人員的分布式訓(xùn)練設(shè)置中，他們的模型將不同的權(quán)重分配到不同的設(shè)備上，這樣權(quán)重就會(huì)隨著設(shè)備數(shù)量的增加而增加，但在每個(gè)設(shè)備上都保持可管理的內(nèi)存和計(jì)算空間。

在一項(xiàng)實(shí)驗(yàn)中，研究人員使用32個(gè)TPU內(nèi)核預(yù)先訓(xùn)練了幾種不同的Switch?Transformer模型，這個(gè)語(yǔ)料是一個(gè)750GB大小的數(shù)據(jù)集，包含從Reddit、Wikipedia和其他網(wǎng)絡(luò)資源上獲取的文本。他們讓這些模型預(yù)測(cè)有15%的單詞被掩蓋的段落中遺漏的單詞，以及其他挑戰(zhàn)，比如檢索文本回答一系列越來(lái)越難的問(wèn)題。

研究人員聲稱(chēng)，與包含3950億個(gè)參數(shù)和64名專(zhuān)家的更小的模型（Switch-XXL）相比，他們發(fā)明的擁有2048名專(zhuān)家的1.6萬(wàn)億參數(shù)模型（Switch-C）則“完全沒(méi)有訓(xùn)練不穩(wěn)定性”。

然而，在SQuAD的基準(zhǔn)測(cè)試上，Switch-C的得分卻更低（87.7），而Switch-XXL的得分為89.6，研究人員將此歸因于微調(diào)質(zhì)量、計(jì)算要求和參數(shù)數(shù)量之間的不明確關(guān)系。

在這種情況下，Switch?Transformer還是在許多下游任務(wù)上的效果有了提升。例如，在使用相同數(shù)量的計(jì)算資源的情況下，它可以使預(yù)訓(xùn)練的速度提高了7倍以上。

同時(shí)研究人員證明，大型稀疏模型可以用來(lái)創(chuàng)建更小、更稠密的模型，這些模型可以對(duì)任務(wù)進(jìn)行微調(diào)，其質(zhì)量增益只有大型模型的30%?。

在一個(gè)測(cè)試中，一個(gè)?Switch?Transformer?模型被訓(xùn)練在100多種不同的語(yǔ)言之間進(jìn)行翻譯，研究人員觀察到其中101種語(yǔ)言都得到了普遍的改善。

在未來(lái)的工作中，研究人員計(jì)劃將Switch?Transformer應(yīng)用于新的和不同的形態(tài)中去，包括圖像和文本。他們認(rèn)為，模型稀疏性在一系列不同的媒體和多模態(tài)模型中都具有優(yōu)勢(shì)。
責(zé)任編輯:pj

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6168

瀏覽量
105397
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8418

瀏覽量
132654
大數(shù)據(jù)

大數(shù)據(jù)

+關(guān)注

關(guān)注
64

文章
8890

瀏覽量
137449

評(píng)論

相關(guān)推薦

AI大語(yǔ)言模型開(kāi)發(fā)步驟

開(kāi)發(fā)一個(gè)高效、準(zhǔn)確的大語(yǔ)言模型是一個(gè)復(fù)雜且多階段的過(guò)

發(fā)表于 12-19 11:29 ?96次閱讀

大語(yǔ)言模型開(kāi)發(fā)框架是什么

大語(yǔ)言模型開(kāi)發(fā)框架是指用于訓(xùn)練、推理和部署大型語(yǔ)言模型的軟件工具和庫(kù)。下面，

發(fā)表于 12-06 10:28 ?126次閱讀

云端語(yǔ)言模型開(kāi)發(fā)方法

云端語(yǔ)言模型的開(kāi)發(fā)是一個(gè)復(fù)雜而系統(tǒng)的過(guò)程，涉及數(shù)據(jù)準(zhǔn)備、模型選擇、

發(fā)表于 12-02 10:48 ?128次閱讀

從零開(kāi)始訓(xùn)練一個(gè)大語(yǔ)言模型需要投資多少錢(qián)？

一，前言 ? 在AI領(lǐng)域，訓(xùn)練一個(gè)大型語(yǔ)言模型（LL

發(fā)表于 11-08 14:15 ?217次閱讀

從零開(kāi)始<b class='flag-5'>訓(xùn)練</b><b class='flag-5'>一</b><b class='flag-5'>個(gè)</b>大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>需要投資多少錢(qián)？

大語(yǔ)言模型如何開(kāi)發(fā)

大語(yǔ)言模型的開(kāi)發(fā)是一個(gè)復(fù)雜且細(xì)致的過(guò)程，涵蓋了數(shù)據(jù)準(zhǔn)備、模型架構(gòu)設(shè)計(jì)、

發(fā)表于 11-04 10:14 ?145次閱讀

AI大模型的訓(xùn)練數(shù)據(jù)來(lái)源分析

學(xué)術(shù)機(jī)構(gòu)、政府組織或企業(yè)公開(kāi)發(fā)布，涵蓋了各種類(lèi)型的數(shù)據(jù)，如圖像、文本、音頻、視頻等。例如： ImageNet ：一個(gè)廣泛用于圖像識(shí)別任務(wù)的大規(guī)模圖像數(shù)據(jù)集。 Common Crawl ：提供了大量的網(wǎng)頁(yè)抓取數(shù)據(jù)以供自然

發(fā)表于 10-23 15:32 ?632次閱讀

如何訓(xùn)練自己的AI大模型

訓(xùn)練自己的AI大模型是一個(gè)復(fù)雜且耗時(shí)的過(guò)程，涉及多個(gè)關(guān)鍵步驟。以下是一

發(fā)表于 10-23 15:07 ?1519次閱讀

英偉達(dá)Blackwell可支持10萬(wàn)億參數(shù)模型AI訓(xùn)練，實(shí)時(shí)大語(yǔ)言模型推理

、NVLink交換機(jī)、Spectrum以太網(wǎng)交換機(jī)和Quantum InfiniBand交換機(jī)。 ? 英偉達(dá)稱(chēng)，Blackwell擁有6項(xiàng)革命性技術(shù)，可支持多達(dá)10萬(wàn)億參數(shù)的模型進(jìn)行AI

發(fā)表于 09-04 09:10 ?2905次閱讀

蘋(píng)果承認(rèn)使用谷歌芯片來(lái)訓(xùn)練AI

蘋(píng)果公司最近在一篇技術(shù)論文中披露，其先進(jìn)的人工智能系統(tǒng)Apple Intelligence背后的兩個(gè)關(guān)鍵AI模型，是在谷歌設(shè)計(jì)的云端芯片上完

發(fā)表于 07-30 17:03 ?734次閱讀

大語(yǔ)言模型的預(yù)訓(xùn)練

隨著人工智能技術(shù)的飛速發(fā)展，自然語(yǔ)言處理（NLP）作為人工智能領(lǐng)域的一個(gè)重要分支，取得了顯著的進(jìn)步。其中，大語(yǔ)言模型（Large Langu

發(fā)表于 07-11 10:11 ?435次閱讀

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的預(yù)訓(xùn)練

具有以下三個(gè)非常顯著的特點(diǎn)，一個(gè)就是模型參數(shù)規(guī)模更大，訓(xùn)練數(shù)據(jù)更多。當(dāng)然，對(duì)計(jì)算資源的要求也會(huì)更

發(fā)表于 05-07 17:10

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

特定任務(wù)對(duì)模型進(jìn)行微調(diào)。這種方法的成功不僅是自然語(yǔ)言處理發(fā)展的一個(gè)轉(zhuǎn)折點(diǎn)，還為許多現(xiàn)實(shí)世界的應(yīng)用場(chǎng)帶來(lái)了前所未有的性能提升。從廣為人知的GPT到BERT,預(yù)

發(fā)表于 05-05 12:17

【大語(yǔ)言模型：原理與工程實(shí)踐】揭開(kāi)大語(yǔ)言模型的面紗

維基百科、網(wǎng)頁(yè)內(nèi)容和書(shū)籍等，不僅掌握了語(yǔ)言的語(yǔ)法、語(yǔ)義和上下文信息，還能生成結(jié)構(gòu)連貫、語(yǔ)義合理的句子和段落。大語(yǔ)言模型的一個(gè)顯著特點(diǎn)是其龐大

發(fā)表于 05-04 23:55

谷歌模型訓(xùn)練軟件有哪些？谷歌模型訓(xùn)練軟件哪個(gè)好？

谷歌在模型訓(xùn)練方面提供了一些強(qiáng)大的軟件工具和平臺(tái)。以下是幾個(gè)常用的谷歌模型

發(fā)表于 03-01 16:24 ?892次閱讀

谷歌模型訓(xùn)練軟件有哪些功能和作用

谷歌模型訓(xùn)練軟件主要是指ELECTRA，這是一種新的預(yù)訓(xùn)練方法，源自谷歌

發(fā)表于 02-29 17:37 ?791次閱讀

搜索歷史

谷歌訓(xùn)練開(kāi)發(fā)一個(gè)萬(wàn)億參數(shù)的AI語(yǔ)言模型

評(píng)論

AI大語(yǔ)言模型開(kāi)發(fā)步驟

大語(yǔ)言模型開(kāi)發(fā)框架是什么

云端語(yǔ)言模型開(kāi)發(fā)方法

從零開(kāi)始訓(xùn)練一個(gè)大語(yǔ)言模型需要投資多少錢(qián)？

大語(yǔ)言模型如何開(kāi)發(fā)

AI大模型的訓(xùn)練數(shù)據(jù)來(lái)源分析

如何訓(xùn)練自己的AI大模型

英偉達(dá)Blackwell可支持10萬(wàn)億參數(shù)模型AI訓(xùn)練，實(shí)時(shí)大語(yǔ)言模型推理

蘋(píng)果承認(rèn)使用谷歌芯片來(lái)訓(xùn)練AI

大語(yǔ)言模型的預(yù)訓(xùn)練

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的預(yù)訓(xùn)練

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

【大語(yǔ)言模型：原理與工程實(shí)踐】揭開(kāi)大語(yǔ)言模型的面紗

谷歌模型訓(xùn)練軟件有哪些？谷歌模型訓(xùn)練軟件哪個(gè)好？

谷歌模型訓(xùn)練軟件有哪些功能和作用