0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何提高深度神經(jīng)網(wǎng)絡(luò)的表現(xiàn)性能

智能計(jì)算芯世界 ? 來源:智能計(jì)算芯世界 ? 2023-05-15 14:15 ? 次閱讀

機(jī)器學(xué)習(xí)是一門專門研究計(jì)算機(jī)如何模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為、以獲取新的知識(shí)或技能、重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身性能的學(xué)科,廣泛應(yīng)用于數(shù)據(jù)挖掘、計(jì)算機(jī)視覺、自然語(yǔ)言處理等領(lǐng)域。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的子集,主要由人工神經(jīng)網(wǎng)絡(luò)組成。與傳統(tǒng)算法及中小型神經(jīng)網(wǎng)絡(luò)相比,大規(guī)模的神經(jīng)網(wǎng)絡(luò)及海量的數(shù)據(jù)支撐將有效提高深度神經(jīng)網(wǎng)絡(luò)的表現(xiàn)性能。

Transformer模型是一種非串行的神經(jīng)網(wǎng)絡(luò)架構(gòu),最初被用于執(zhí)行基于上下文的機(jī)器翻譯任務(wù)。Transformer模型以Encoder-Decoder架構(gòu)為基礎(chǔ),能夠并行處理整個(gè)文本序列,同時(shí)引入“注意機(jī)制”(Attention),使其能夠在文本序列中正向和反向地跟蹤單詞之間的關(guān)系,適合在大規(guī)模分布式集群中進(jìn)行訓(xùn)練,因此具有能夠并行運(yùn)算、關(guān)注上下文信息、表達(dá)能力強(qiáng)等優(yōu)勢(shì)。Transformer模型以詞嵌入向量疊加位置編碼作為輸入,使得輸入序列具有位置上的關(guān)聯(lián)信息。

編碼器(Encoder)由Self-Attention(自注意力層)和 Feed Forward Network(前饋網(wǎng)絡(luò))兩個(gè)子層組成,Attention使得模型不僅關(guān)注當(dāng)前位置的詞語(yǔ),同時(shí)能夠關(guān)注上下文的詞語(yǔ)。

解碼器(Decoder)通過Encoder-DecoderAttention層,用于解碼時(shí)對(duì)于輸入端編碼信息的關(guān)注;利用掩碼(Mask)機(jī)制,對(duì)序列中每一位置根據(jù)之前位置的輸出結(jié)果循環(huán)解碼得到當(dāng)前位置的輸出結(jié)果。

以GPT-3為例,GPT-3參數(shù)量達(dá)1750億個(gè),訓(xùn)練樣本token數(shù)達(dá)3000億個(gè)??紤]采用精度為32位的單精度浮點(diǎn)數(shù)數(shù)據(jù)來訓(xùn)練模型及進(jìn)行谷歌級(jí)訪問量推理,假設(shè)GPT-3模型每次訓(xùn)練時(shí)間要求在30天完成,對(duì)應(yīng)GPT-3所需運(yùn)算次數(shù)為3.15*10^23FLOPs,所需算力為121.528PFLOPS,以A100PCle芯片為例,訓(xùn)練階段需要新增A100 GPU芯片1558顆,對(duì)應(yīng)DGX A100服務(wù)器195臺(tái)。

假設(shè)推理階段按谷歌每日搜索量35億次進(jìn)行估計(jì),則每日GPT-3需推理token數(shù)達(dá)7.9萬億個(gè),所需運(yùn)算次數(shù)為4.76*10^24FLOPs,所需算力為55EFLOPs,則推理階段需要新增A100 GPU芯片70.6萬顆,對(duì)應(yīng)DGX A100服務(wù)器8.8萬臺(tái)。

af6cde3a-f1f8-11ed-90ce-dac502259ad0.png

af7d6ec6-f1f8-11ed-90ce-dac502259ad0.png

afa4cb6a-f1f8-11ed-90ce-dac502259ad0.png

affe36a0-f1f8-11ed-90ce-dac502259ad0.png

b020439e-f1f8-11ed-90ce-dac502259ad0.png

b085971c-f1f8-11ed-90ce-dac502259ad0.png

b09fc9f2-f1f8-11ed-90ce-dac502259ad0.png

b0c8cc4e-f1f8-11ed-90ce-dac502259ad0.png

b0ea5f08-f1f8-11ed-90ce-dac502259ad0.png

b1311c4a-f1f8-11ed-90ce-dac502259ad0.png

b15bcc60-f1f8-11ed-90ce-dac502259ad0.png

b1a0aef2-f1f8-11ed-90ce-dac502259ad0.png

b1c0ec26-f1f8-11ed-90ce-dac502259ad0.png

b1dfe342-f1f8-11ed-90ce-dac502259ad0.png

b22e1b34-f1f8-11ed-90ce-dac502259ad0.png

b2961856-f1f8-11ed-90ce-dac502259ad0.png

b2b57fe8-f1f8-11ed-90ce-dac502259ad0.png

b2dae1a2-f1f8-11ed-90ce-dac502259ad0.png

b30d3026-f1f8-11ed-90ce-dac502259ad0.png

b3305678-f1f8-11ed-90ce-dac502259ad0.png

b35e9678-f1f8-11ed-90ce-dac502259ad0.png

b39407f4-f1f8-11ed-90ce-dac502259ad0.png

b3f86ef6-f1f8-11ed-90ce-dac502259ad0.png

b40a14c6-f1f8-11ed-90ce-dac502259ad0.png

b42b3d54-f1f8-11ed-90ce-dac502259ad0.png

b44a0770-f1f8-11ed-90ce-dac502259ad0.png

b46ae422-f1f8-11ed-90ce-dac502259ad0.png

b4acdc88-f1f8-11ed-90ce-dac502259ad0.png

b4dd8270-f1f8-11ed-90ce-dac502259ad0.png

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:AI大語(yǔ)言模型原理、演進(jìn)及算力測(cè)算

文章出處:【微信號(hào):AI_Architect,微信公眾號(hào):智能計(jì)算芯世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    詳解深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用

    在如今的網(wǎng)絡(luò)時(shí)代,錯(cuò)綜復(fù)雜的大數(shù)據(jù)和網(wǎng)絡(luò)環(huán)境,讓傳統(tǒng)信息處理理論、人工智能與人工神經(jīng)網(wǎng)絡(luò)都面臨巨大的挑戰(zhàn)。近些年,深度學(xué)習(xí)逐漸走進(jìn)人們的視線,通過
    的頭像 發(fā)表于 01-11 10:51 ?2064次閱讀
    詳解<b class='flag-5'>深度</b>學(xué)習(xí)、<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>與卷積<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的應(yīng)用

    從AlexNet到MobileNet,帶你入門深度神經(jīng)網(wǎng)絡(luò)

    取得了良好的性能??梢哉f,DNN其實(shí)是一種架構(gòu),是指深度超過幾個(gè)相似層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),一般能夠達(dá)到幾十層,或者由一些復(fù)雜的模塊組成。ILSVRC(ImageNet大規(guī)模視覺識(shí)別挑戰(zhàn)賽)每年都不斷被
    發(fā)表于 05-08 15:57

    神經(jīng)網(wǎng)絡(luò)資料

    基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)算法
    發(fā)表于 05-16 17:25

    解析深度學(xué)習(xí):卷積神經(jīng)網(wǎng)絡(luò)原理與視覺實(shí)踐

    解析深度學(xué)習(xí):卷積神經(jīng)網(wǎng)絡(luò)原理與視覺實(shí)踐
    發(fā)表于 06-14 22:21

    深度神經(jīng)網(wǎng)絡(luò)是什么

    多層感知機(jī) 深度神經(jīng)網(wǎng)絡(luò)in collaboration with Hsu Chung Chuan, Lin Min Htoo, and Quah Jia Yong. 與許忠傳,林敏濤和華佳勇合作
    發(fā)表于 07-12 06:35

    如何構(gòu)建神經(jīng)網(wǎng)絡(luò)?

    原文鏈接:http://tecdat.cn/?p=5725 神經(jīng)網(wǎng)絡(luò)是一種基于現(xiàn)有數(shù)據(jù)創(chuàng)建預(yù)測(cè)的計(jì)算系統(tǒng)。如何構(gòu)建神經(jīng)網(wǎng)絡(luò)?神經(jīng)網(wǎng)絡(luò)包括:輸入層:根據(jù)現(xiàn)有數(shù)據(jù)獲取輸入的層隱藏層:使用反向傳播優(yōu)化輸入變量權(quán)重的層,以
    發(fā)表于 07-12 08:02

    基于深度神經(jīng)網(wǎng)絡(luò)的激光雷達(dá)物體識(shí)別系統(tǒng)

    的激光雷達(dá)物體識(shí)別技術(shù)一直難以在嵌入式平臺(tái)上實(shí)時(shí)運(yùn)行。經(jīng)緯恒潤(rùn)經(jīng)過潛心研發(fā),攻克了深度神經(jīng)網(wǎng)絡(luò)在嵌入式平臺(tái)部署所面臨的算子定制與加速、量化策略、模型壓縮等難題,率先實(shí)現(xiàn)了高性能激光檢測(cè)神經(jīng)網(wǎng)絡(luò)
    發(fā)表于 12-21 07:59

    卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用

    十余年來快速發(fā)展的嶄新領(lǐng)域,越來越受到研究者的關(guān)注。卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型是深度學(xué)習(xí)模型中最重要的一種經(jīng)典結(jié)構(gòu),其性能在近年來深度學(xué)習(xí)任務(wù)上逐步
    發(fā)表于 08-02 10:39

    【人工神經(jīng)網(wǎng)絡(luò)基礎(chǔ)】為什么神經(jīng)網(wǎng)絡(luò)選擇了“深度”?

    由 Demi 于 星期四, 2018-09-06 09:33 發(fā)表 現(xiàn)在提到“神經(jīng)網(wǎng)絡(luò)”和“深度神經(jīng)網(wǎng)絡(luò)”,會(huì)覺得兩者沒有什么區(qū)別,神經(jīng)網(wǎng)絡(luò)還能不是“
    發(fā)表于 09-06 20:48 ?695次閱讀

    深度學(xué)習(xí):神經(jīng)網(wǎng)絡(luò)和函數(shù)

    深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子集,它使用神經(jīng)網(wǎng)絡(luò)來執(zhí)行學(xué)習(xí)和預(yù)測(cè)。深度學(xué)習(xí)在各種任務(wù)中都表現(xiàn)出了驚人的表現(xiàn),無論是文本、時(shí)間序列還是計(jì)算機(jī)視覺。
    的頭像 發(fā)表于 04-07 10:17 ?1661次閱讀

    什么是神經(jīng)網(wǎng)絡(luò)?什么是卷積神經(jīng)網(wǎng)絡(luò)?

    在介紹卷積神經(jīng)網(wǎng)絡(luò)之前,我們先回顧一下神經(jīng)網(wǎng)絡(luò)的基本知識(shí)。就目前而言,神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)算法的核心,我們所熟知的很多深度學(xué)習(xí)算法的背后其實(shí)都
    的頭像 發(fā)表于 02-23 09:14 ?3571次閱讀

    淺析三種主流深度神經(jīng)網(wǎng)絡(luò)

    來源:青榴實(shí)驗(yàn)室 1、引子 深度神經(jīng)網(wǎng)絡(luò)(DNNs)最近在圖像分類或語(yǔ)音識(shí)別等復(fù)雜機(jī)器學(xué)習(xí)任務(wù)中表現(xiàn)出的優(yōu)異性能令人印象深刻。 在本文中,我們將了解
    的頭像 發(fā)表于 05-15 14:20 ?985次閱讀
    淺析三種主流<b class='flag-5'>深度</b><b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>

    淺析三種主流深度神經(jīng)網(wǎng)絡(luò)

    來源:青榴實(shí)驗(yàn)室1、引子深度神經(jīng)網(wǎng)絡(luò)(DNNs)最近在圖像分類或語(yǔ)音識(shí)別等復(fù)雜機(jī)器學(xué)習(xí)任務(wù)中表現(xiàn)出的優(yōu)異性能令人印象深刻。在本文中,我們將了解深度
    的頭像 發(fā)表于 05-17 09:59 ?2807次閱讀
    淺析三種主流<b class='flag-5'>深度</b><b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>

    卷積神經(jīng)網(wǎng)絡(luò)深度神經(jīng)網(wǎng)絡(luò)的優(yōu)缺點(diǎn) 卷積神經(jīng)網(wǎng)絡(luò)深度神經(jīng)網(wǎng)絡(luò)的區(qū)別

    深度神經(jīng)網(wǎng)絡(luò)是一種基于神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)算法,其主要特點(diǎn)是由多層神經(jīng)元構(gòu)成,可以根據(jù)數(shù)據(jù)自動(dòng)調(diào)整神經(jīng)元之間的權(quán)重,從而實(shí)現(xiàn)對(duì)大規(guī)模數(shù)據(jù)進(jìn)行預(yù)
    發(fā)表于 08-21 17:07 ?4163次閱讀

    深度神經(jīng)網(wǎng)絡(luò)與基本神經(jīng)網(wǎng)絡(luò)的區(qū)別

    在探討深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks, DNNs)與基本神經(jīng)網(wǎng)絡(luò)(通常指?jìng)鹘y(tǒng)神經(jīng)網(wǎng)絡(luò)或前向神經(jīng)網(wǎng)絡(luò))的區(qū)別時(shí),我們需
    的頭像 發(fā)表于 07-04 13:20 ?917次閱讀