0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微軟亞洲研究院把Transformer深度提升到1000層

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來(lái)源:智能感知與物聯(lián)網(wǎng)技術(shù)研 ? 作者:智能感知與物聯(lián)網(wǎng) ? 2022-03-24 14:22 ? 次閱讀

本周論文包括尤洋團(tuán)隊(duì)FastFold上線,訓(xùn)練時(shí)間從11天壓縮至67小時(shí);微軟亞洲研究院直接把 Transformer 深度提升到 1000 層等研究。

目錄

FastFold: Reducing AlphaFold Training Time from 11 Days to 67 Hours

Transformer Memory as a Differentiable Search Index

DeepNet: Scaling Transformers to 1,000 Layers

The Quest for a Common Model of the Intelligent Decision Maker

GenéLive! Generating Rhythm Actions in Love Live!

Transformer Quality in Linear Time

FOURCASTNET: A GLOBAL DATA-DRIVEN HIGH-RESOLUTION WEATHER MODEL USING ADAPTIVE FOURIER NEURAL OPERATORS

ArXiv Weekly Radiostation:NLP、CV、ML 更多精選論文(附音頻)

論文 1:FastFold: Reducing AlphaFold Training Time from 11 Days to 67 Hours

作者:Shenggan Cheng, Ruidong Wu, Zhongming Yu, Binrui Li, Xiwen Zhang, Jian Peng, Yang You

論文鏈接:https://arxiv.org/abs/2203.00854

摘要:來(lái)自潞晨科技和上海交大的研究者提出了一種蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型的高效實(shí)現(xiàn) FastFold。FastFold 包括一系列基于對(duì) AlphaFold 性能全面分析的 GPU 優(yōu)化。同時(shí),通過(guò)動(dòng)態(tài)軸并行和對(duì)偶異步算子,F(xiàn)astFold 提高了模型并行擴(kuò)展的效率,超越了現(xiàn)有的模型并行方法。

實(shí)驗(yàn)結(jié)果表明,F(xiàn)astFold 將整體訓(xùn)練時(shí)間從 11 天減少到 67 小時(shí),并實(shí)現(xiàn)了 7.5 ~ 9.5 倍的長(zhǎng)序列推理加速。此外,研究者還將 FastFold 擴(kuò)展到 512 個(gè) A100 GPU 的超算集群上,聚合峰值性能達(dá)到了 6.02PetaFLOPs,擴(kuò)展效率達(dá)到 90.1%。

不同于一般的 Transformer 模型,AlphaFold 在 GPU 平臺(tái)上的計(jì)算效率較低,主要面臨兩個(gè)挑戰(zhàn):1) 有限的全局批大小限制了使用數(shù)據(jù)并行性將訓(xùn)練擴(kuò)展到更多節(jié)點(diǎn),更大的批大小會(huì)導(dǎo)致準(zhǔn)確率更低。即使使用 128 個(gè)谷歌 TPUv3 訓(xùn)練 AlphaFold 也需要約 11 天;2) 巨大的內(nèi)存消耗超出了當(dāng)前 GPU 的處理能力。在推理過(guò)程中,較長(zhǎng)的序列對(duì) GPU 內(nèi)存的需求要大得多,對(duì)于 AlphaFold 模型,一個(gè)長(zhǎng)序列的推理時(shí)間甚至可以達(dá)到幾個(gè)小時(shí)。

2bf115d8-9f8f-11ec-952b-dac502259ad0.png

AlphaFold 模型架構(gòu)

作為首個(gè)用于蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型訓(xùn)練和推理的性能優(yōu)化工作,F(xiàn)astFold 成功引入了大型模型訓(xùn)練技術(shù),顯著降低了 AlphaFold 模型訓(xùn)練和推理的時(shí)間和經(jīng)濟(jì)成本。FastFold 由 Evoformer 的高性能實(shí)現(xiàn)、AlphaFold 的主干結(jié)構(gòu)和一種稱(chēng)為動(dòng)態(tài)軸并行(Dynamic Axial Parallelism,DAP)的模型并行新策略組成。

Evoformer 的注意力機(jī)制如下圖所示:

2c045224-9f8f-11ec-952b-dac502259ad0.png

推薦:512 塊 A100,AlphaFold 訓(xùn)練時(shí)間從 11 天壓縮至 67 小時(shí):尤洋團(tuán)隊(duì) FastFold 上線。

論文 2:Transformer Memory as a Differentiable Search Index

作者:Yi Tay 、 Vinh Q. Tran 等

論文鏈接:https://arxiv.org/pdf/2202.06991.pdf

摘要:近日,谷歌研究院在論文《Transformer Memory as a Differentiable Search Index》中提出了一種替代架構(gòu),研究者采用序列到序列 (seq2seq) 學(xué)習(xí)系統(tǒng)。

該研究證明使用單個(gè) Transformer 即可完成信息檢索,其中有關(guān)語(yǔ)料庫(kù)的所有信息都編碼在模型的參數(shù)中。該研究引入了可微搜索索引(Differentiable Search Index,DSI),這是一種學(xué)習(xí)文本到文本新范式。DSI 模型將字符串查詢(xún)直接映射到相關(guān)文檔;換句話(huà)說(shuō),DSI 模型只使用自身參數(shù)直接回答查詢(xún),極大地簡(jiǎn)化了整個(gè)檢索過(guò)程。

此外,本文還研究了如何表示文檔及其標(biāo)識(shí)符的變化、訓(xùn)練過(guò)程的變化以及模型和語(yǔ)料庫(kù)大小之間的相互作用。實(shí)驗(yàn)表明,在適當(dāng)?shù)脑O(shè)計(jì)選擇下,DSI 明顯優(yōu)于雙編碼器模型等強(qiáng)大基線,并且 DSI 還具有強(qiáng)大的泛化能力,在零樣本設(shè)置中優(yōu)于 BM25 基線。

DSI 背后的核心思想是在單個(gè)神經(jīng)模型中完全參數(shù)化傳統(tǒng)的多階段先檢索后排序 pipeline。為此,DSI 模型必須支持兩種基本操作模式:

索引:DSI 模型應(yīng)該學(xué)會(huì)將每個(gè)文檔內(nèi)容 d_j 與其對(duì)應(yīng)的 docid j ( 文檔標(biāo)識(shí)符 :document identifiers,docid)相關(guān)聯(lián)。本文采用一種簡(jiǎn)單的序列到序列方法,將文檔 token 作為輸入并生成標(biāo)識(shí)符作為輸出;

檢索:給定輸入查詢(xún),DSI 模型應(yīng)返回候選 docid 排序列表。本文是通過(guò)自回歸生成實(shí)現(xiàn)的。

在這兩個(gè)操作之后,DSI 模型可以用來(lái)索引文檔語(yǔ)料庫(kù),并對(duì)可用的帶標(biāo)記數(shù)據(jù)集(查詢(xún)和標(biāo)記文檔)進(jìn)行微調(diào),然后用于檢索相關(guān)文檔 —— 所有這些都在單個(gè)、統(tǒng)一的模型中完成。與先檢索后排序方法相反,DSI 模型允許簡(jiǎn)單的端到端訓(xùn)練,并且可以很容易地用作更大、更復(fù)雜的神經(jīng)模型的可微組件。

2c19ba74-9f8f-11ec-952b-dac502259ad0.png

下表為這個(gè)進(jìn)程的偽代碼:

2c6d9eaa-9f8f-11ec-952b-dac502259ad0.png

推薦:?jiǎn)蝹€(gè) Transformer 完成信息檢索,谷歌用可微搜索索引打敗雙編碼器模型。

論文 3:DeepNet: Scaling Transformers to 1,000 Layers

作者:Hongyu Wang、Shuming Ma、 Li Dong 、Shaohan Huang 、Dongdong Zhang、 Furu Wei

論文鏈接:https://arxiv.org/pdf/2203.00555.pdf

摘要:微軟亞洲研究院直接把 Transformer 深度提升到 1000 層!

研究者的目標(biāo)是提升 Transformer 模型的訓(xùn)練穩(wěn)定性,并將模型深度進(jìn)行數(shù)量級(jí)的擴(kuò)展。為此,他們研究了不穩(wěn)定優(yōu)化的原因,并且發(fā)現(xiàn)爆炸式模型更新是造成不穩(wěn)定的罪魁禍?zhǔn)住;谶@些觀察,研究者在殘差連接處引入了一個(gè)新的歸一化函數(shù) —— DEEPNORM,它在將模型更新限制為常數(shù)時(shí)具有理論上的合理性。

這一方法簡(jiǎn)單但高效,只需要改變幾行代碼即可。最終,該方法提升了 Transformer 模型的穩(wěn)定性,并實(shí)現(xiàn)了將模型深度擴(kuò)展到了 1000 多層。

此外,實(shí)驗(yàn)結(jié)果表明,DEEPNORM 能夠?qū)?Post-LN 的良好性能和 Pre-LN 的穩(wěn)定訓(xùn)練高效結(jié)合起來(lái)。研究者提出的方法可以成為 Transformers 的首選替代方案,不僅適用于極其深(多于 1000 層)的模型,也適用于現(xiàn)有大規(guī)模模型。值得指出的是,在大規(guī)模多語(yǔ)言機(jī)器翻譯基準(zhǔn)上,文中 32 億參數(shù)量的 200 層模型(DeepNet)比 120 億參數(shù)量的 48 層 SOTA 模型(即 Facebook AI 的 M2M 模型)實(shí)現(xiàn)了 5 BLEU 值提升。

如下圖 2 所示,使用 PostLN 實(shí)現(xiàn)基于 Transformer 的方法很簡(jiǎn)單。與 Post-LN 相比,DEEPNORM 在執(zhí)行層歸一化之前 up-scale 了殘差連接。

2cb28e52-9f8f-11ec-952b-dac502259ad0.png

此外,該研究還在初始化期間 down-scale 了參數(shù)。值得注意的是,該研究只擴(kuò)展了前饋網(wǎng)絡(luò)的權(quán)重,以及注意力層的值投影和輸出投影。此外,殘差連接和初始化的規(guī)模取決于圖 2 中不同的架構(gòu)。

DeepNet 基于 Transformer 架構(gòu)。與原版 Transformer 相比,DeepNet 在每個(gè)子層使用了新方法 DEEPNORM,而不是以往的 Post-LN。

推薦:解決訓(xùn)練難題,1000 層的 Transformer 來(lái)了,訓(xùn)練代碼很快公開(kāi)。

論文 4:The Quest for a Common Model of the Intelligent Decision Maker

作者:Richard S. Sutton

論文鏈接:https://arxiv.org/pdf/2202.13252.pdf

摘要:強(qiáng)化學(xué)習(xí)和決策多學(xué)科會(huì)議(Multi-Disciplinary Conference on Reinforcement Learning and Decision Making, RLDM)的重要前提是,隨著時(shí)間的推移,多個(gè)學(xué)科對(duì)目標(biāo)導(dǎo)向的決策有著共同的興趣。

近日,阿爾伯塔大學(xué)計(jì)算機(jī)科學(xué)系教授、強(qiáng)化學(xué)習(xí)先驅(qū) Richard S. Sutton 在其最新論文《The Quest for a Common Model of the Intelligent Decision Maker》中通過(guò)提出決策者的觀點(diǎn)來(lái)加強(qiáng)和深化這一前提,該觀點(diǎn)在心理學(xué)、人工智能、經(jīng)濟(jì)學(xué)、控制理論和神經(jīng)科學(xué)等領(lǐng)域得到實(shí)質(zhì)和廣泛的應(yīng)用,他稱(chēng)之為「智慧智能體的通用模型」。通常模型不包含任何特定于任何有機(jī)體、世界或應(yīng)用域的東西,而涵蓋了決策者與其世界交互的各個(gè)方面(必須有輸入、輸出和目標(biāo))以及決策者的內(nèi)部組件(用于感知、決策、內(nèi)部評(píng)估和世界模型)。

Sutton 確定了這些方面和組件,指出它們?cè)诓煌瑢W(xué)科中被賦予不同的名稱(chēng),但本質(zhì)上指向相同的思路。他探討了設(shè)計(jì)一個(gè)可跨學(xué)科應(yīng)用的中性術(shù)語(yǔ)面臨的挑戰(zhàn)和帶來(lái)的益處,并表示是時(shí)候認(rèn)可并在智慧智能體的實(shí)質(zhì)性通用模型上構(gòu)建多樣化學(xué)科的融合了。

RLDM 的前提是所有對(duì)「隨時(shí)間推移學(xué)習(xí)和決策以實(shí)現(xiàn)目標(biāo)」感興趣的學(xué)科融合在一起并共享觀點(diǎn)是有價(jià)值的。心理學(xué)、神經(jīng)科學(xué)等自然科學(xué)學(xué)科、人工智能、優(yōu)化控制理論等工程科學(xué)學(xué)科以及經(jīng)濟(jì)學(xué)和人類(lèi)學(xué)等社會(huì)科學(xué)學(xué)科都只部分關(guān)注智能決策者。各個(gè)學(xué)科的觀點(diǎn)不同,但有相通的元素??鐚W(xué)科的一個(gè)目標(biāo)是確定共同核心,即決策者對(duì)所有或許多學(xué)科共有的那些方面。只要能夠建立這樣一個(gè)決策者的通用模型,就可以促進(jìn)思想和成果的交流,進(jìn)展可能會(huì)更快,獲得的理解也可能會(huì)更加基礎(chǔ)和持久。

探索決策者的通用模型并不新鮮。衡量其當(dāng)前活力的一個(gè)重要指標(biāo)是 RLDM 和 NeurIPS 等跨學(xué)科會(huì)議以及《神經(jīng)計(jì)算》、《生物控制論》和《適應(yīng)行為》等期刊的成功。很多科學(xué)洞見(jiàn)可以從跨學(xué)科互動(dòng)中獲得,例如貝葉斯方法在心理學(xué)中的廣泛應(yīng)用、多巴胺在神經(jīng)科學(xué)中的獎(jiǎng)勵(lì)預(yù)測(cè)誤差解釋以及在機(jī)器學(xué)習(xí)中長(zhǎng)期使用的神經(jīng)網(wǎng)絡(luò)隱喻。盡管很多這些學(xué)科之間的重要關(guān)系與學(xué)科本身一樣古老,但遠(yuǎn)遠(yuǎn)未解決。為了找到學(xué)科之間、甚至一個(gè)學(xué)科內(nèi)部之間的共性,人們必須忽略很多分歧。我們必須要有選擇性,從大局出發(fā),不要期望沒(méi)有例外發(fā)生。

因此,在這篇論文中,Sutton 希望推進(jìn)對(duì)智能決策者模型的探索。首先明確地將探索與富有成效的跨學(xué)科互動(dòng)區(qū)分開(kāi)來(lái);其次強(qiáng)調(diào)目標(biāo)是作為高度跨學(xué)科的累積數(shù)值信號(hào)的最大化;接著又強(qiáng)調(diào)了決策者的特定內(nèi)部結(jié)構(gòu),即以特定方式交互的四個(gè)主要組件,它們?yōu)槎鄠€(gè)學(xué)科所共有;最后突出了掩蓋領(lǐng)域之間共性的術(shù)語(yǔ)差異,并提供了鼓勵(lì)多學(xué)科思維的術(shù)語(yǔ)。

2cd89688-9f8f-11ec-952b-dac502259ad0.png

2d06b810-9f8f-11ec-952b-dac502259ad0.png

決策智能體標(biāo)準(zhǔn)組件

推薦:強(qiáng)化學(xué)習(xí)教父 Richard Sutton 新論文探索決策智能體的通用模型:尋找跨學(xué)科共性。

論文 5:GenéLive! Generating Rhythm Actions in Love Live!

作者:Atsushi Takada、Daichi Yamazaki、Likun Liu 等

論文鏈接:https://arxiv.org/abs/2202.12823

摘要:最近,預(yù)印版論文平臺(tái) arXiv 上的一篇論文引起了人們的注意,其作者來(lái)自游戲開(kāi)發(fā)商 KLab 和九州大學(xué)。他們提出了一種給偶像歌曲自動(dòng)寫(xiě)譜的模型,更重要的是,作者表示這種方法其實(shí)已經(jīng)應(yīng)用過(guò)很長(zhǎng)一段時(shí)間了。

KLab 等機(jī)構(gòu)提交的論文介紹了自己的節(jié)奏動(dòng)作游戲生成模型。KLab Inc 是一家智能手機(jī)游戲開(kāi)發(fā)商。該公司在線運(yùn)營(yíng)的節(jié)奏動(dòng)作游戲包括《Love Live!學(xué)院偶像季:群星閃耀》(簡(jiǎn)稱(chēng) LLAS)已以 6 種語(yǔ)言在全球發(fā)行,獲得了上千萬(wàn)用戶(hù)。已經(jīng)有一系列具有類(lèi)似影響的類(lèi)似游戲,這使得該工作與大量玩家密切相關(guān)。

在研究過(guò)程中,開(kāi)發(fā)者們首先提出了 Dance Dance Convolution (DDC) ,生成了具有人類(lèi)高水平的,較高難度游戲模式的樂(lè)譜,但低難度反而效果不好。隨后研究者們通過(guò)改進(jìn)數(shù)據(jù)集和多尺度 conv-stack 架構(gòu),成功捕捉了樂(lè)譜中四分音符之間的時(shí)間依賴(lài)性以及八分音符和提示節(jié)拍的位置,它們是音游中放置按鍵的較好時(shí)機(jī)。

DDC 由兩個(gè)子模型組成:onset(生成音符的時(shí)機(jī))和 sym(決定音符類(lèi)型,如輕按或滑動(dòng))目前正在使用的 AI 模型在所有難度的曲譜上都獲得了很好的效果,研究人員還展望了該技術(shù)擴(kuò)展到其他領(lǐng)域的可能性。

GenéLive! 的基礎(chǔ)模型由卷積神經(jīng)網(wǎng)絡(luò) CNN 層和長(zhǎng)短期記憶網(wǎng)絡(luò) LSTM 層組成。對(duì)于頻域中的信號(hào),作者利用 CNN 層來(lái)捕獲頻率特征,對(duì)于時(shí)域利用 LSTM 層來(lái)完成任務(wù)。

2d32e5ac-9f8f-11ec-952b-dac502259ad0.png

時(shí)域方面采用了 BiLSTM,提供前一個(gè) conv-stack 的輸出作為輸入。為了實(shí)現(xiàn)不同的難度模式,作者將難度編碼為一個(gè)標(biāo)量(初級(jí)是 10,中級(jí)是 20,以此類(lèi)推)并將這個(gè)值作為新特征附加到 convstack 的輸出中。

2d53056c-9f8f-11ec-952b-dac502259ad0.png

Conv-stack 架構(gòu)。

該模型是由 KLab 和九州大學(xué)合作完成的。兩個(gè)團(tuán)隊(duì)之間需要一個(gè)基于 Web 的協(xié)作平臺(tái)來(lái)共享源代碼、數(shù)據(jù)集、模型和實(shí)驗(yàn)等。具體來(lái)說(shuō),該研究用于模型開(kāi)發(fā)的系統(tǒng)架構(gòu)如下圖所示。

2d76e7e8-9f8f-11ec-952b-dac502259ad0.png

為了使樂(lè)譜生成程序可供藝術(shù)家按需使用,它應(yīng)該方便藝術(shù)家自行使用而無(wú)需 AI 工程師的幫助。并且由于該程序需要高端 GPU,將其安裝在藝術(shù)家的本地計(jì)算機(jī)上并不是一個(gè)合適的選擇。該模型服務(wù)系統(tǒng)架構(gòu)如下圖所示。

2da4eca6-9f8f-11ec-952b-dac502259ad0.png

推薦:LoveLive! 出了一篇 AI 論文:生成模型自動(dòng)寫(xiě)曲譜。

論文 6:Transformer Quality in Linear Time

作者:Weizhe Hua、Zihang Dai、Hanxiao Liu、Quoc V. Le

論文鏈接:https://arxiv.org/abs/2202.10447

摘要:來(lái)自康奈爾大學(xué)、谷歌大腦的研究人員近日提出了一個(gè)新模型 FLASH(Fast Linear Attention with a Single Head),首次不僅在質(zhì)量上與完全增強(qiáng)的 Transformer 相當(dāng),而且在現(xiàn)代加速器的上下文大小上真正享有線性可擴(kuò)展性。與旨在逼近 Transformers 中的多頭自注意力 (MHSA) 的現(xiàn)有高效注意力方法不同,谷歌從一個(gè)新層設(shè)計(jì)開(kāi)始,自然地實(shí)現(xiàn)更高質(zhì)量的逼近。FLASH 分兩步開(kāi)發(fā):

首先設(shè)置一個(gè)更適合有效近似的新層,引入門(mén)控機(jī)制來(lái)減輕自注意力的負(fù)擔(dān),產(chǎn)生了下圖 2 中的門(mén)控注意力單元 (Gated Attention Unit, GAU)。與 Transformer 層相比,每個(gè) GAU 層更便宜。更重要的是,它的質(zhì)量更少依賴(lài)于注意力精度。事實(shí)上,小單頭、無(wú) softmax 注意力的 GAU 與 Transformers 性能相近。

隨后作者提出了一種有效的方法來(lái)逼近 GAU 中的二次注意力,從而導(dǎo)致在上下文大小上具有線性復(fù)雜度的層變體。其思路是首先將標(biāo)記分組為塊,然后在一個(gè)塊內(nèi)使用精確的二次注意力和跨塊的快速線性注意力(如下圖 4 所示)。在論文中,研究者進(jìn)一步描述了如何利用此方法自然地推導(dǎo)出一個(gè)高效的加速器實(shí)現(xiàn),在實(shí)踐中做到只需更改幾行代碼的線性可擴(kuò)展能力。

在大量實(shí)驗(yàn)中,F(xiàn)LASH 在各種任務(wù)、數(shù)據(jù)集和模型尺度上均效果很好。FLASH 在質(zhì)量上與完全增強(qiáng)的 Transformer (Transformer++) 相比具有競(jìng)爭(zhēng)力,涵蓋了各種實(shí)踐場(chǎng)景的上下文大小 (512-8K),同時(shí)在現(xiàn)代硬件加速器上實(shí)現(xiàn)了線性可擴(kuò)展。

例如,在質(zhì)量相當(dāng)?shù)那闆r下,F(xiàn)LASH 在 Wiki-40B 上的語(yǔ)言建模實(shí)現(xiàn)了 1.2 倍至 4.9 倍的加速,在 Transformer++ 上 C4 上的掩碼語(yǔ)言建模實(shí)現(xiàn)了 1.0 倍至 4.8 倍的加速。在進(jìn)一步擴(kuò)展到 PG-19 (Rae et al., 2019) 之后,F(xiàn)LASH 將 Transformer++ 的訓(xùn)練成本降低了 12.1 倍,并實(shí)現(xiàn)了質(zhì)量的顯著提升。

研究者首先提出了門(mén)控注意力單元(Gated Attention Unit, GAU),這是一個(gè)比 Transformers 更簡(jiǎn)單但更強(qiáng)的層。

2df3d76c-9f8f-11ec-952b-dac502259ad0.png

研究者在下圖 3 中展示了 GAU 與 Transformers 的比較情況,結(jié)果顯示對(duì)于不同模型大小,GAU 在 TPUs 上的性能可與 Transformers 競(jìng)爭(zhēng)。需要注意,這些實(shí)驗(yàn)是在相對(duì)較短的上下文大小(512)上進(jìn)行的。

2e37841c-9f8f-11ec-952b-dac502259ad0.png

推薦:谷歌 Quoc Le 團(tuán)隊(duì)新 transformer:線性可擴(kuò)展,訓(xùn)練成本僅有原版 1/12。

論文 7:FOURCASTNET: A GLOBAL DATA-DRIVEN HIGH-RESOLUTION WEATHER MODEL USING ADAPTIVE FOURIER NEURAL OPERATORS

作者:Jaideep Pathak 、 Shashank Subramanian 等

論文鏈接:https://arxiv.org/pdf/2202.11214.pdf

摘要:在近日的一篇論文中,英偉達(dá)、勞倫斯伯克利國(guó)家實(shí)驗(yàn)室、密歇根大學(xué)安娜堡分校、萊斯大學(xué)等機(jī)構(gòu)的研究者開(kāi)發(fā)了一種基于傅里葉的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型 FourCastNet,它能以 0.25° 的分辨率生成關(guān)鍵天氣變量的全球數(shù)據(jù)驅(qū)動(dòng)預(yù)測(cè),相當(dāng)于赤道附近大約 30×30 km 的空間分辨率和 720×1440 像素的全球網(wǎng)格大小。這使得我們首次能夠與歐洲中期天氣預(yù)報(bào)中心(ECMWF)的高分辨率綜合預(yù)測(cè)系統(tǒng)(IFS)模型進(jìn)行直接比較。

FourCastNet 在節(jié)點(diǎn)小時(shí)(node-hour)基礎(chǔ)上比傳統(tǒng) NWP 模型快約 45,000 倍。FourCastNet 這種數(shù)量級(jí)的加速以及在高分辨率下前所未有的準(zhǔn)確性,使得它能夠以很低的成本生成超大規(guī)模集合預(yù)測(cè)。FourCastNet 極大地改善了概率天氣預(yù)報(bào)的效果,使用它可以在幾秒鐘內(nèi)生成對(duì)颶風(fēng)、大氣層河流和極端降水等事件的大規(guī)模集合預(yù)報(bào),從而可以實(shí)現(xiàn)更及時(shí)、更明智的災(zāi)難響應(yīng)。

此外,F(xiàn)ourCastNet 對(duì)近地表風(fēng)速的可靠、快速和低廉預(yù)測(cè)可以改善陸海風(fēng)電場(chǎng)的風(fēng)能資源規(guī)劃。訓(xùn)練 FourCastNet 所需的能量大約等于使用 IFS 模型生成 10 天預(yù)測(cè)所需的能量(50 個(gè)成員)。然而,一旦經(jīng)過(guò)訓(xùn)練,F(xiàn)ourCastNet 生成預(yù)測(cè)所需的能量比 IFS 模型少 12,000 倍。研究者希望 FourCastNet 只訓(xùn)練一次,并且后續(xù)微調(diào)的能耗可以忽略不計(jì)。

在實(shí)現(xiàn)技術(shù)上,F(xiàn)ourCastNet 使用基于傅里葉變換的 token 混合方法 [Guibas et al., 2022] 和 ViT 骨干 [Dosovitskiy et al., 2021]。這一方法基于最近的的傅里葉神經(jīng)算子,該算子以分辨率不變的方式學(xué)習(xí),并在建模流體動(dòng)力學(xué)等具有挑戰(zhàn)性的偏微分方程中取得了成功。此外,他們選擇 ViT 骨干的原因是它能夠很好地建模長(zhǎng)程依賴(lài)。ViT 和基于傅里葉的 token 方法混合生成了 SOTA 高分辨率模型,它可以解析細(xì)粒度的特征,并能夠很好地隨分辨率和數(shù)據(jù)集大小擴(kuò)展。研究者表示,這一方法能夠以真正前所未有的高分辨率訓(xùn)練高保真數(shù)據(jù)驅(qū)動(dòng)的模型。

歐洲中期天氣預(yù)報(bào)中心(ECMWF)提供了一個(gè)公開(kāi)可用的綜合數(shù)據(jù)集 ERA5,該研究使用 ERA5 來(lái)訓(xùn)練 FourCastNet。他們專(zhuān)注于兩個(gè)大氣變量,即(1)距離地球表面 10m 處的風(fēng)速和(2)6 小時(shí)總降水量,除此以外,該研究還預(yù)測(cè)了其他幾個(gè)變量,包括幾個(gè)不同垂直高度的位勢(shì)高度、溫度、風(fēng)速和相對(duì)濕度,一些近地表變量,如地面氣壓和平均海平面氣壓以等。

整個(gè)訓(xùn)練過(guò)程是在 64 個(gè) Nvidia A100 GPU 的集群上完成,端到端訓(xùn)練大約需要 16 小時(shí)。

2e6d2482-9f8f-11ec-952b-dac502259ad0.png

該研究選擇了一些變量(表 1)來(lái)表示大氣的瞬時(shí)狀態(tài):

2e880de2-9f8f-11ec-952b-dac502259ad0.png

推薦:速度提升 45000 倍,英偉達(dá)用傅里葉模型實(shí)現(xiàn)前所未有天氣預(yù)報(bào)準(zhǔn)確率。

原文標(biāo)題:7 Papers & Radios | 尤洋團(tuán)隊(duì)FastFold上線;1000層的Transformer來(lái)了

文章出處:【微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6676

    瀏覽量

    105449
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4921

    瀏覽量

    130793
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3500

    瀏覽量

    50112

原文標(biāo)題:7 Papers & Radios | 尤洋團(tuán)隊(duì)FastFold上線;1000層的Transformer來(lái)了

文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 0人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    人工智能方向在哪里?看微軟亞洲研究院四任院長(zhǎng)的建言

    11月14日,李開(kāi)復(fù)、張亞勤、沈向洋、洪小文同時(shí)現(xiàn)身中關(guān)村丹棱街微軟亞洲研究院,這四個(gè)人分別為微軟亞洲
    發(fā)表于 11-17 11:01 ?1333次閱讀

    西安某500強(qiáng)研究院招聘

    西安某國(guó)球500強(qiáng)企業(yè)研究院招聘需要大量通信行業(yè)研發(fā)人員,主要崗位:嵌入式,射頻,軟件測(cè)試等要求:統(tǒng)招本科5年以上工作經(jīng)驗(yàn),碩士3年以上,博士應(yīng)屆畢業(yè)薪資面議有意者請(qǐng)聯(lián)系QQ:2318655563郵箱:maggie.li@up-hr.com
    發(fā)表于 08-13 11:07

    中馬研究院正式掛牌成立

    `  12月30日下午,中馬研究院于園區(qū)正式掛牌成立,園區(qū)管委會(huì)副主任楊健豪、主任助理曹全來(lái)出席并為研究院揭牌,園區(qū)管委會(huì)經(jīng)濟(jì)發(fā)展局全體成員見(jiàn)證揭牌?! ≈旭R研究院旨在打造“立足中馬、面向東盟的新型
    發(fā)表于 01-07 16:02

    Excel被提升到了非常重要的地位

    ,Excel被提升到了非常重要的地位,除了OLAP前端外,Excel還充當(dāng)起SSAS中的DM和未來(lái)PPS的客戶(hù)端軟件。再加上MOSS,Excel成為了集分析、報(bào)表、發(fā)布為一體的BI客戶(hù)端工具。
    發(fā)表于 07-11 07:17

    如何將DSP性能提升到極限?

    如何將DSP性能提升到極限?FPGA用做數(shù)字信號(hào)處理應(yīng)用
    發(fā)表于 04-30 06:34

    5V脈沖信號(hào)怎么可以提升到28V脈沖?

    PCF8591,5V脈沖信號(hào)怎么可以提升到28V脈沖?
    發(fā)表于 10-25 08:29

    英特爾研究院與聯(lián)想研究院簽署研究院合作框架協(xié)議

    英特爾研究院與聯(lián)想研究院日前在北京簽署了《研究院合作框架協(xié)議》,宣布雙方將在PC及移動(dòng)互聯(lián)網(wǎng)領(lǐng)域,立足3~5年長(zhǎng)遠(yuǎn)技術(shù)研究,開(kāi)展協(xié)同創(chuàng)新深度
    發(fā)表于 04-13 08:42 ?595次閱讀

    微軟將在上海設(shè)立微軟亞洲研究院

    9月17日,在上海舉辦的2018世界人工智能大會(huì)上,微軟全球執(zhí)行副總裁、微軟人工智能及微軟研究事業(yè)部負(fù)責(zé)人沈向洋宣布:微軟將成立
    的頭像 發(fā)表于 09-19 14:55 ?6375次閱讀

    微軟亞洲研究院被譽(yù)為AI黃埔軍校,覆蓋了國(guó)內(nèi)高科技領(lǐng)導(dǎo)的半壁江山

    如火如荼的人工智能熱潮,眾多AI明星企業(yè)創(chuàng)始人和聯(lián)合創(chuàng)始人從微軟亞洲研究院走出來(lái),物聯(lián)網(wǎng)高級(jí)顧問(wèn)楊劍勇指出,有李開(kāi)復(fù)創(chuàng)辦了創(chuàng)新工場(chǎng),以及機(jī)器視覺(jué)獨(dú)角獸商湯科技、依圖科技、曠視科技。李開(kāi)復(fù)在朋友圈聲稱(chēng)
    的頭像 發(fā)表于 11-06 15:16 ?5351次閱讀

    微軟亞洲研究院"創(chuàng)新匯": AI為數(shù)字化轉(zhuǎn)型注入動(dòng)能

    微軟亞洲研究院"創(chuàng)新匯": AI為數(shù)字化轉(zhuǎn)型注入動(dòng)能微軟全球資深副總裁,微軟亞太研發(fā)集團(tuán)主席兼微軟
    發(fā)表于 06-29 12:17 ?658次閱讀

    微軟亞洲研究院開(kāi)發(fā)出了一種超級(jí)鳳凰人工智能系統(tǒng)

    微軟亞洲研究院(MSR Asia)開(kāi)發(fā)出麻將人工智能(AI)系統(tǒng)——超級(jí)鳳凰(Suphx)。研發(fā)者們相信,它不僅掌握了麻將對(duì)弈,還能夠贏得99%的對(duì)局,做好了解決實(shí)際任務(wù)的準(zhǔn)備。
    發(fā)表于 04-15 11:48 ?1373次閱讀

    微軟亞洲研究院研究員們提出了一種模型壓縮的新思路

    近日,來(lái)自微軟亞洲研究院自然語(yǔ)言計(jì)算組的研究員們提出了一種與顯式地利用蒸餾損失函數(shù)來(lái)最小化教師模型與學(xué)生模型距離的知識(shí)蒸餾不同的模型壓縮新方法。
    的頭像 發(fā)表于 11-24 09:48 ?1885次閱讀

    無(wú)線及移動(dòng)網(wǎng)絡(luò)領(lǐng)域?qū)<仪皲嚵尤?b class='flag-5'>微軟亞洲研究院

    推動(dòng)技術(shù)創(chuàng)新的邊界,充分發(fā)揮本地優(yōu)勢(shì),促進(jìn)更多跨領(lǐng)域、跨行業(yè)的深度合作、融合發(fā)展?!? 微軟亞洲研究院(上海)自2018年宣布落戶(hù)上海市徐匯區(qū)以來(lái),持續(xù)吸引全球頂尖的計(jì)算機(jī)基礎(chǔ)
    的頭像 發(fā)表于 01-25 10:25 ?1526次閱讀

    微軟亞洲研究院否認(rèn)撤離中國(guó),但確認(rèn)部分 AI 科學(xué)家將遷至溫哥華

    6 月 19 日消息,針對(duì)有消息稱(chēng)微軟公司旗下研究機(jī)構(gòu) 微軟亞洲研究院(MSRA)的 AI 頂級(jí)科學(xué)家從中國(guó)轉(zhuǎn)移到溫哥華,6 月 19 日上
    的頭像 發(fā)表于 06-20 08:48 ?1066次閱讀

    科學(xué)匠人 | 邊江:在研究院的七年“技癢”,探尋大模型助力AI與產(chǎn)業(yè)融合之道

    基礎(chǔ)科研的創(chuàng)新為技術(shù)落地應(yīng)用提供了動(dòng)力,而來(lái)自真實(shí)世界的業(yè)務(wù)需求則為基礎(chǔ)科研提供了靈感和方向。當(dāng)人工智能進(jìn)入大模型時(shí)代,什么樣的技術(shù)創(chuàng)新才能更好地落地于產(chǎn)業(yè)?對(duì)此,微軟亞洲研究院資深首席研究
    的頭像 發(fā)表于 08-04 00:10 ?889次閱讀
    科學(xué)匠人 | 邊江:在<b class='flag-5'>研究院</b>的七年“技癢”,探尋大模型助力AI與產(chǎn)業(yè)融合之道

    電子發(fā)燒友

    中國(guó)電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會(huì)員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動(dòng)獲取豐厚的禮品