毛片网站在线观看,黄色电影在线观看,欧美一级黄色电影一区二区三区

【導(dǎo)讀】谷歌大神Jeff Dean最近親自操刀發(fā)新作，提出了一個大規(guī)模多任務(wù)學(xué)習(xí)框架μ2Net，基本把各大數(shù)據(jù)集多任務(wù)學(xué)習(xí)的SOTA刷了個遍，但這次為何網(wǎng)友有點不買賬了？很簡單，差錢。

2021年10月，Jeff Dean親自撰文介紹了一個全新的機(jī)器學(xué)習(xí)架構(gòu)——Pathways。目的很簡單，就是讓一個AI能夠跨越數(shù)以萬計的的任務(wù)，理解不同類型的數(shù)據(jù)，并同時以極高的效率實現(xiàn)：

在大半年之后的2022年3月，Jeff Dean終于發(fā)布了Pathways的論文。

論文連接：https://arxiv.org/abs/2203.12533 其中，補充了不少技術(shù)上的細(xì)節(jié)，比如最基本的系統(tǒng)架構(gòu)等等。

2022年4月，谷歌用Pathways的PaLM語言模型橫空出世，接連打破多項自然語言處理任務(wù)的SOTA，這個擁有5400億參數(shù)的Transformer語言模型再次證明了「大力出奇跡」。除了用到強大的Pathways系統(tǒng)外，論文中介紹PaLM的訓(xùn)練用到了6144個TPU v4，使用了7800億token的高質(zhì)量數(shù)據(jù)集，并且其中有一定比例的非英文多語種語料。

論文地址：https://arxiv.org/abs/2204.02311 最近，Jeff Dean一篇新作又引發(fā)了大家對Pathways的猜測。

Pathways的拼圖又合上了一塊？

這篇論文的作者只有兩位：大名鼎鼎的Jeff Dean和來自意大利的工程師Andrea Gesmundo。有趣的是，不僅Gesmundo很低調(diào)，而且前兩天剛吹完自家Imagen的Jeff Dean也完全沒有在推特上提及此事。而有網(wǎng)友拜讀之后推測，這可能是下一代AI架構(gòu)Pathways的組成部分。

論文地址：https://arxiv.org/abs/2205.12755 本文的思路是這樣的：通過動態(tài)地將新任務(wù)納入一個大型運行系統(tǒng)，可以利用稀疏多任務(wù)機(jī)器學(xué)習(xí)模型的碎片，來實現(xiàn)新任務(wù)質(zhì)量的提升，并可以在相關(guān)任務(wù)之間自動分享模型的碎片。這種方法可以提高每個任務(wù)的質(zhì)量，并在收斂時間、訓(xùn)練實例數(shù)量、能源消耗等方面提高模型效率。本文提出的機(jī)器學(xué)習(xí)問題框架，可以視作標(biāo)準(zhǔn)多任務(wù)和持續(xù)學(xué)習(xí)形式化的概括和綜合。在這個框架下，再大的任務(wù)集都可以被聯(lián)合解決。而且，隨著時間的推移，任務(wù)集中可以加入連續(xù)的新任務(wù)流來實現(xiàn)擴(kuò)展。預(yù)訓(xùn)練任務(wù)和下游任務(wù)之間的區(qū)別也不存在了。因為，隨著新任務(wù)的加入，系統(tǒng)會尋找如何將已有的知識和表征與新的模型能力相結(jié)合，以實現(xiàn)每個新任務(wù)的高質(zhì)量水平。在解決一個新任務(wù)時獲得的知識和學(xué)到的表征，也可用于任何未來的任務(wù)，或繼續(xù)學(xué)習(xí)現(xiàn)有任務(wù)。這個方法名為「突變多任務(wù)網(wǎng)絡(luò)」或μ2Net。（μ=Mutation）

用于大規(guī)模持續(xù)學(xué)習(xí)實驗的兩類突變模型簡單說，就是生成一個大規(guī)模的多任務(wù)網(wǎng)絡(luò)，去聯(lián)合解決多個任務(wù)。不僅每個任務(wù)的質(zhì)量和效率都獲得了提升，還可以通過動態(tài)增加新的任務(wù)來實現(xiàn)模型的擴(kuò)展。通過對以前任務(wù)的學(xué)習(xí)，嵌入到系統(tǒng)中的知識積累越多，后續(xù)任務(wù)的解決方案的質(zhì)量就越高。此外，在減少每個任務(wù)新添加的參數(shù)方面，新任務(wù)的解決效率可以不斷提高。生成的多任務(wù)模型是稀疏激活的，模型集成了基于任務(wù)的路由機(jī)制，隨著模型的擴(kuò)展，保證每個任務(wù)的計算成本的上升是有界限的。

每個任務(wù)激活的和增加的參數(shù)占多任務(wù)系統(tǒng)參數(shù)總數(shù)的百分比從每個任務(wù)學(xué)到的知識被分割成可以被多個任務(wù)重用的部分。實驗證明，這種分塊技術(shù)避免了多任務(wù)和持續(xù)學(xué)習(xí)模型的常見問題，如災(zāi)難性遺忘、梯度干擾和負(fù)遷移。對任務(wù)路線空間的探索和對每個任務(wù)最相關(guān)的先驗知識子集的識別是由一個進(jìn)化算法引導(dǎo)的，該算法旨在動態(tài)地調(diào)整探索/利用的平衡，而不需要手動調(diào)整元參數(shù)。同樣的進(jìn)化邏輯被用于動態(tài)調(diào)整超參數(shù)多任務(wù)模型組件。

既然叫「突變網(wǎng)絡(luò)」，這個突變是怎么解釋的？深度神經(jīng)網(wǎng)絡(luò)通常由架構(gòu)和超參數(shù)來定義。本文中的架構(gòu)是由一連串的神經(jīng)網(wǎng)絡(luò)層組成的。每個層將輸入向量映射到一個可變維度的輸出向量，網(wǎng)絡(luò)實例化的細(xì)節(jié)，比如優(yōu)化器或數(shù)據(jù)預(yù)處理的配置，則由超參數(shù)確定。所以這里講的突變也分為兩類，層克隆突變和超參數(shù)突變。層克隆突變創(chuàng)建了一個可以被子模型訓(xùn)練的任何父模型圖層的副本。如果父模型的某層沒有被選中進(jìn)行克隆，會凍結(jié)當(dāng)前狀態(tài)并與子模型共享，以保證預(yù)先存在的模型的不變性。超參數(shù)突變則用于修改子層從父層繼承的配置。每個超參數(shù)的新值可以從一組有效值中抽取。對于數(shù)字超參數(shù)，有效值集被排序為一個列表，采樣時僅限于相鄰值，以應(yīng)用一個增量變化約束。來看看實際效果如何：

在ImageNet 2012、cifar100、cifar10三個數(shù)據(jù)集上，μ2Net在5任務(wù)迭代、10任務(wù)迭代后的表現(xiàn)均超過了當(dāng)前最通用和性能最好的ViT預(yù)訓(xùn)練微調(diào)模型。在任務(wù)擴(kuò)展方面，在加入VTAB-full和VDD持續(xù)學(xué)習(xí)任務(wù)后，μ2Net性能表現(xiàn)獲得進(jìn)一步提升，在cifar10數(shù)據(jù)集上的VDD持續(xù)學(xué)習(xí)任務(wù)表現(xiàn)達(dá)到了99.43%的最佳成績。

在多任務(wù)字符分類基準(zhǔn)任務(wù)上，在兩次任務(wù)迭代后，μ2Net在大部分?jǐn)?shù)據(jù)集上刷新了SOTA水平，數(shù)據(jù)集規(guī)模由2.5k到240k樣本容量不等。

簡單來說，在這個架構(gòu)之下，模型學(xué)習(xí)的任務(wù)越多，系統(tǒng)學(xué)到的知識就越多，也就越容易解決新的任務(wù)。比如，一個ViT-L架構(gòu)（3.07億個參數(shù)）可以演變成一個具有1308.7億個參數(shù)的多任務(wù)系統(tǒng)，并解決69個任務(wù)。此外，隨著系統(tǒng)的增長，參數(shù)激活的稀疏性使每個任務(wù)的計算量和內(nèi)存用量保持不變。實驗表面，每個任務(wù)平均增加的參數(shù)減少了38%，而多任務(wù)系統(tǒng)只激活了每個任務(wù)總參數(shù)的2.3%。當(dāng)然，在這一點上，它只是一個架構(gòu)和初步實驗。

網(wǎng)友：論文很好，但……

雖然論文很棒棒，但好像有人不買賬。有些熱愛戳穿皇帝新衣的網(wǎng)友，在reddit上發(fā)帖，稱他再也不相信愛情……哦不，「頂級實驗室/研究機(jī)構(gòu)」出品的AI論文了。這位ID為「Acurite先生」的網(wǎng)友稱，他自然相信這些論文里的數(shù)據(jù)與模型運行結(jié)果。但，就拿Jeff Dean老師的這篇論文來說吧，18頁的論文說了特別復(fù)雜的進(jìn)化卷積與多任務(wù)學(xué)習(xí)算法，厲害，亮眼，好頂贊。不過，有兩點不得不提出：第一，Jeff Dean們在論文中提出的證明自己勝過競品的跑分結(jié)果，是CIFAR-10基準(zhǔn)測試準(zhǔn)確度99.43，勝過了當(dāng)前SOTA的99.40…… 也不能說這是忽悠，但真的很讓人難以措辭形容。

第二，論文末尾有用TPU跑算法得出最終結(jié)果的時間耗費表，總計17810小時。假設(shè)有人不在谷歌干、又想復(fù)現(xiàn)論文結(jié)果，按照每小時3.22美元的市價租TPU來再跑一次，那花費就是57348美元。有啥意思呢？連日常論文都要設(shè)置鈔能力門檻了嗎？當(dāng)然，這種做派現(xiàn)在是業(yè)界風(fēng)氣，包括但不限于谷歌、OpenAI這些大玩家。大家都往模型里灌少少改進(jìn)現(xiàn)狀的創(chuàng)意、和多多的預(yù)處理數(shù)據(jù)與基準(zhǔn)。然后，只要運行結(jié)果在數(shù)值上比對家高出哪怕百分點后的小數(shù)點后二位，研究者也可以理直氣壯地在簡歷上新增一行論文題目啦！這么搞，對學(xué)界和業(yè)界有啥真的推動？普通研究生又花不起錢來驗證你的結(jié)論，普通企業(yè)又沒法在項目里使用這么無聊的跑分。還是那句話，有啥意思呢？這難道就是AI界的可接受舒適區(qū)么？一小撥大企業(yè)、和偶爾的頂尖學(xué)校，天天炫耀我有錢可以為所欲為、你沒錢只好跟后面吃灰？這么玩下去，干脆另開個計算機(jī)學(xué)期刊，專收那些結(jié)果可以在消費級單機(jī)顯卡上八小時跑出復(fù)現(xiàn)的論文算了。跟帖里，有論文任務(wù)的研究生們紛紛訴苦。有位ID是「支持向量機(jī)」的網(wǎng)友說，自己是小型實驗室里的從業(yè)者，因為這個勢頭，已經(jīng)快完全喪失繼續(xù)搞深度學(xué)習(xí)的動力了。因為靠自己實驗室的預(yù)算，根本沒法和這些巨無霸比，出不了鈔能力打底的跑分結(jié)果。即使你有個理論上的新點子，要寫成能過評議的論文也難。因為現(xiàn)在論文評議人里，被大廠的鈔能力養(yǎng)出了「美圖偏見」，論文里用來測試的圖像不好看，一切白搭。不是說巨無霸大廠一無是處啊，GPT和DALL-E這些項目真的是開天辟地。但如果我自己的機(jī)器跑不動，我激動個啥呢。另有一個博士生網(wǎng)友現(xiàn)身說法，跟帖佐證「支持向量機(jī)」。博士生前兩年遞交了一份關(guān)于流模型的論文，主要著重于發(fā)現(xiàn)可采樣的數(shù)據(jù)潛在空間，對模型的圖片生成質(zhì)量沒影響。結(jié)果論文打分人給的批評意見是：「生成的圖像看起來不如用GAN生成的好」。另一個ID叫「烏代」的研究生也說，2021年他提交的參加會議論文，打分人給的批評意見是：「數(shù)據(jù)不夠花哨?！?

看來人力不敵鈔能力，真是東西心理攸同、中外道術(shù)未裂的世界性趨勢。不過三十年河?xùn)|、三十年河西，說不定算法草根化、全民大寫碼，會帶來第二次車庫創(chuàng)業(yè)企業(yè)打敗IBM的奇跡呢。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

框架

框架

+關(guān)注

關(guān)注
0

文章
403

瀏覽量
17489
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8418

瀏覽量
132646
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1208

瀏覽量
24703

原文標(biāo)題：Jeff Dean大規(guī)模多任務(wù)學(xué)習(xí)SOTA遭吐槽，復(fù)現(xiàn)一遍要6萬美元！

文章出處：【微信號：CVSCHOOL，微信公眾號：OpenCV學(xué)堂】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

時空引導(dǎo)下的時間序列自監(jiān)督學(xué)習(xí)框架

考慮各個序列之間的關(guān)系。因此，本文提出的方法更適合作為時空預(yù)測領(lǐng)域的預(yù)訓(xùn)練模型。下面為大家詳細(xì)介紹一下這篇文章。摘要相關(guān)時間序列分析在許多現(xiàn)實行業(yè)中扮演著重要的角色。為進(jìn)一步的下游任務(wù)學(xué)習(xí)

發(fā)表于 11-15 11:41 ?257次閱讀

NPU與機(jī)器學(xué)習(xí)算法的關(guān)系

緊密。 NPU的起源與特點 NPU的概念最早由谷歌在其TPU（Tensor Processing Unit）項目中提出，旨在為TensorFlow框架提供專用的硬件加速。NPU的設(shè)計目標(biāo)是提高機(jī)器學(xué)習(xí)算法的運行效率，特別是在處理大規(guī)模

發(fā)表于 11-15 09:19 ?456次閱讀

使用EMBark進(jìn)行大規(guī)模推薦系統(tǒng)訓(xùn)練Embedding加速

推薦系統(tǒng)是互聯(lián)網(wǎng)行業(yè)的核心系統(tǒng)，如何高效訓(xùn)練推薦系統(tǒng)是各公司關(guān)注的核心問題。目前，推薦系統(tǒng)基本上都是基于深度學(xué)習(xí)的大規(guī)模 ID 類模型，模型包含數(shù)十億甚至數(shù)百億級別的 ID 特征，典型結(jié)構(gòu)如圖 1 所示。

發(fā)表于 10-31 14:46 ?199次閱讀

【「大模型時代的基礎(chǔ)架構(gòu)」閱讀體驗】+ 第一、二章學(xué)習(xí)感受

每個核心在某一時刻只能執(zhí)行一個線程。CPU的設(shè)計注重的是低延遲，即快速響應(yīng)和處理單個任務(wù)。而GPU則不同，它擁有成百上千個更小、更專

發(fā)表于 10-10 10:36

TensorFlow與PyTorch深度學(xué)習(xí)框架的比較與選擇

深度學(xué)習(xí)作為人工智能領(lǐng)域的一個重要分支，在過去十年中取得了顯著的進(jìn)展。在構(gòu)建和訓(xùn)練深度學(xué)習(xí)模型的過程中，深度學(xué)習(xí)

發(fā)表于 07-02 14:04 ?973次閱讀

【大規(guī)模語言模型：從理論到實踐】- 每日進(jìn)步一點點

非常推薦大家去讀【大規(guī)模語言模型：從理論到實踐】這本書，系統(tǒng)的講解了大模型的前世今生，對各個環(huán)節(jié)知識進(jìn)行了普及。今天跟我一起學(xué)習(xí)歸一化的部分。大模型訓(xùn)練中的歸

發(fā)表于 05-31 19:54

專用集成電路都是大規(guī)模的嗎為什么呢

的集成度和性能優(yōu)勢。然而，并非所有專用集成電路都是大規(guī)模的，因為集成度的大小取決于設(shè)計和制造的要求。在探討專用集成電路是否大規(guī)模之前，我們首先需要了解什么是大規(guī)模集成電路（Very Large Scale Integratio

發(fā)表于 04-21 09:15 ?539次閱讀

專用集成電路都是大規(guī)模的嗎對嗎

是不完全一致的。首先，大規(guī)模集成電路（Large Scale Integration，簡稱LSI）包含了較多的邏輯門（通常為數(shù)千至數(shù)十萬個），用于實

發(fā)表于 04-14 10:45 ?516次閱讀

名單公布！【書籍評測活動NO.30】大規(guī)模語言模型：從理論到實踐

，在大模型實踐和理論研究的過程中，歷時8個月完成《大規(guī)模語言模型：從理論到實踐》一書的撰寫。希望這本書能夠幫助讀者快速入門大模型的研究和應(yīng)用，并解決相關(guān)技術(shù)問題。本書一經(jīng)上市，

發(fā)表于 03-11 15:16

谷歌推出AI框架，實現(xiàn)AI模型的自然語言學(xué)習(xí)

據(jù)了解，在此款“社交學(xué)習(xí)”框架中，“學(xué)生模型”可向多位已處理指定任務(wù)的“教師模型”請教各類應(yīng)對方案，研究團(tuán)隊主要通過開展“垃圾短信檢測”、“解決小學(xué)數(shù)學(xué)題”及“根據(jù)文本回答問題”等多項試驗，以衡量此

發(fā)表于 03-11 11:36 ?937次閱讀

大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò)演進(jìn)的七大主流趨勢

自動駕駛已經(jīng)變成可能，大規(guī)模應(yīng)用只是一個時間問題。大規(guī)模網(wǎng)絡(luò)運維的自動化也必然是業(yè)界的趨勢，要達(dá)到自動駕駛或自動化運維都需要兩個共同的條件:一

發(fā)表于 03-11 11:21 ?491次閱讀

谷歌模型框架是什么軟件？谷歌模型框架怎么用？

谷歌模型框架通常指的是谷歌開發(fā)的用于機(jī)器學(xué)習(xí)和人工智能的軟件框架，其中最著名的是TensorFlow。TensorFlow是一個開源的機(jī)器

發(fā)表于 03-01 16:25 ?884次閱讀

如何選擇RTOS？使用R-Rhealstone框架評估

文章描述基于Rhealstone的系統(tǒng)實時性的測量基準(zhǔn)的框架--R-Rhealstone框架。在嵌入式軟件設(shè)計和集成中，實時多任務(wù)操作系統(tǒng)的性能分析是至關(guān)重要的，它需要保證應(yīng)用的時間限制得到滿足

發(fā)表于 02-20 13:54 ?1068次閱讀

請教：有SPC560B的多任務(wù)實時系統(tǒng)的例程嗎（freertos）

請教：有SPC560B的多任務(wù)實時系統(tǒng)的例程嗎（freertos）

發(fā)表于 01-15 17:04

GGII預(yù)計2024快充大規(guī)模應(yīng)用元年將至

GGII預(yù)計2024年中國新上市2C以上快充車型將超過15款，快充大規(guī)模應(yīng)用元年正在到來。

發(fā)表于 01-05 10:05 ?824次閱讀