0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI計(jì)算,為什么要用GPU?

jf_60870435 ? 來源:jf_60870435 ? 作者:jf_60870435 ? 2024-01-04 11:49 ? 次閱讀

今天這篇文章,我們繼續(xù)來聊聊芯片。

在之前的文章里,小棗君說過,行業(yè)里通常會(huì)把半導(dǎo)體芯片分為數(shù)字芯片和模擬芯片。其中,數(shù)字芯片的市場規(guī)模占比較大,達(dá)到70%左右。

數(shù)字芯片,還可以進(jìn)一步細(xì)分,分為:邏輯芯片、存儲(chǔ)芯片以及微控制單元(MCU)。


wKgZomWVMdyALgw6AAD7rO89g3U669.png

存儲(chǔ)芯片和MCU以后再介紹,今天小棗君重點(diǎn)講講邏輯芯片。


邏輯芯片,其實(shí)說白了就是計(jì)算芯片。它包含了各種邏輯門電路,可以實(shí)現(xiàn)運(yùn)算與邏輯判斷功能,是最常見的芯片之一。

大家經(jīng)常聽說的CPU、GPU、FPGA、ASIC,全部都屬于邏輯芯片。而現(xiàn)在特別火爆的AI,用到的所謂“AI芯片”,也主要是指它們。


█CPU(中央處理器

先說說大家最熟悉的CPU,英文全稱Central Processing Unit,中央處理器。

CPU

但凡是個(gè)人都知道,CPU是計(jì)算機(jī)的心臟。

現(xiàn)代計(jì)算機(jī),都是基于1940年代誕生的馮·諾依曼架構(gòu)。在這個(gè)架構(gòu)中,包括了運(yùn)算器(也叫邏輯運(yùn)算單元,ALU)、控制器(CU)、存儲(chǔ)器、輸入設(shè)備、輸出設(shè)備等組成部分。

wKgZomWVMdyAfzbCAAC5fAdP2wA585.png

馮·諾依曼架構(gòu)


數(shù)據(jù)來了,會(huì)先放到存儲(chǔ)器。然后,控制器會(huì)從存儲(chǔ)器拿到相應(yīng)數(shù)據(jù),再交給運(yùn)算器進(jìn)行運(yùn)算。運(yùn)算完成后,再把結(jié)果返回到存儲(chǔ)器。

這個(gè)流程,還有一個(gè)更有逼格的叫法:“Fetch(取指)-Decode(譯碼)- Execute(執(zhí)行)-Memory Access(訪存)-Write Back(寫回)”。

大家看到了,運(yùn)算器和控制器這兩個(gè)核心功能,都是由CPU負(fù)責(zé)承擔(dān)的。

具體來說,運(yùn)算器(包括加法器、減法器、乘法器、除法器),負(fù)責(zé)執(zhí)行算術(shù)和邏輯運(yùn)算,是真正干活的。控制器,負(fù)責(zé)從內(nèi)存中讀取指令、解碼指令、執(zhí)行指令,是指手畫腳的。

除了運(yùn)算器和控制器之外,CPU還包括時(shí)鐘模塊和寄存器(高速緩存)等組件。

wKgaomWVMd2AdpOAAADG9owbUbM287.png


時(shí)鐘模塊負(fù)責(zé)管理CPU的時(shí)間,為CPU提供穩(wěn)定的時(shí)基。它通過周期性地發(fā)出信號(hào),驅(qū)動(dòng)CPU中的所有操作,調(diào)度各個(gè)模塊的工作。

寄存器是CPU中的高速存儲(chǔ)器,用于暫時(shí)保存指令和數(shù)據(jù)。它的CPU與內(nèi)存(RAM)之間的“緩沖”,速度比一般的內(nèi)存更快,避免內(nèi)存“拖累”CPU的工作。

寄存器的容量和存取性能,可以影響CPU到對(duì)內(nèi)存的訪問次數(shù),進(jìn)而影響整個(gè)系統(tǒng)的效率。后面我們講存儲(chǔ)芯片的時(shí)候,還會(huì)提到它。

CPU一般會(huì)基于指令集架構(gòu)進(jìn)行分類,包括x86架構(gòu)和非x86架構(gòu)。x86基本上都是復(fù)雜指令集(CISC),而非x86基本為精簡指令集(RISC)。

PC和大部分服務(wù)器用的是x86架構(gòu),英特爾AMD公司占據(jù)主導(dǎo)地位。非x86架構(gòu)的類型比較多,這些年崛起速度很快,主要有ARM、MIPS、Power、RISC-V、Alpha等。以后會(huì)專門介紹。


█GPU(圖形處理器)

再來看看GPU。

GPU是顯卡的核心部件,英文全名叫Graphics Processing Unit,圖形處理單元(圖形處理器)。

GPU并不能和顯卡劃等號(hào)。顯卡除了GPU之外,還包括顯存、VRM穩(wěn)壓模塊、MRAM芯片、總線、風(fēng)扇、外圍設(shè)備接口等。

wKgZomWVMd2AEKX0AAgbgTvTpnY820.png

顯卡

1999年,英偉達(dá)(NVIDIA)公司率先提出了GPU的概念。

之所以要提出GPU,是因?yàn)?0年代游戲和多媒體業(yè)務(wù)高速發(fā)展。這些業(yè)務(wù)給計(jì)算機(jī)的3D圖形處理和渲染能力提出了更高的要求。傳統(tǒng)CPU搞不定,所以引入了GPU,分擔(dān)這方面的工作。

根據(jù)形態(tài),GPU可分為獨(dú)立GPU(dGPU,discrete/dedicated GPU)和集成GPU(iGPU,integrated GPU),也就是常說的獨(dú)顯、集顯。

GPU也是計(jì)算芯片。所以,它和CPU一樣,包括了運(yùn)算器、控制器和寄存器等組件。

但是,因?yàn)镚PU主要負(fù)責(zé)圖形處理任務(wù),所以,它的內(nèi)部架構(gòu)和CPU存在很大的不同。

wKgaomWVMd2APwuYAAIq87jcMeU231.png

如上圖所示,CPU的內(nèi)核(包括了ALU)數(shù)量比較少,最多只有幾十個(gè)。但是,CPU有大量的緩存(Cache)和復(fù)雜的控制器(CU)。

這樣設(shè)計(jì)的原因,是因?yàn)镃PU是一個(gè)通用處理器。作為計(jì)算機(jī)的主核心,它的任務(wù)非常復(fù)雜,既要應(yīng)對(duì)不同類型的數(shù)據(jù)計(jì)算,還要響應(yīng)人機(jī)交互。

復(fù)雜的條件和分支,還有任務(wù)之間的同步協(xié)調(diào),會(huì)帶來大量的分支跳轉(zhuǎn)和中斷處理工作。它需要更大的緩存,保存各種任務(wù)狀態(tài),以降低任務(wù)切換時(shí)的時(shí)延。它也需要更復(fù)雜的控制器,進(jìn)行邏輯控制和調(diào)度。

CPU的強(qiáng)項(xiàng)是管理和調(diào)度。真正干活的功能,反而不強(qiáng)(ALU占比大約5%~20%)。

如果我們把處理器看成是一個(gè)餐廳的話,CPU就像一個(gè)擁有幾十名高級(jí)廚師的全能型餐廳。這個(gè)餐廳什么菜系都能做,但是,因?yàn)椴讼刀?,所以需要花費(fèi)大量的時(shí)間協(xié)調(diào)、配菜,上菜的速度相對(duì)比較慢。

而GPU則完全不同。


GPU為圖形處理而生,任務(wù)非常明確且單一。它要做的,就是圖形渲染。圖形是由海量像素點(diǎn)組成的,屬于類型高度統(tǒng)一、相互無依賴的大規(guī)模數(shù)據(jù)。

所以,GPU的任務(wù),是在最短的時(shí)間里,完成大量同質(zhì)化數(shù)據(jù)的并行運(yùn)算。所謂調(diào)度和協(xié)調(diào)的“雜活”,反而很少。


并行計(jì)算,當(dāng)然需要更多的核啊。


如前圖所示,GPU的內(nèi)核數(shù),遠(yuǎn)遠(yuǎn)超過CPU,可以達(dá)到幾千個(gè)甚至上萬個(gè)(也因此被稱為“眾核”)。


wKgZomWVMd6AFjpTAABwTGwf0rw889.jpg

RTX4090有16384個(gè)流處理器

GPU的核,稱為流式多處理器(Stream Multi-processor,SM),是一個(gè)獨(dú)立的任務(wù)處理單元。

在整個(gè)GPU中,會(huì)劃分為多個(gè)流式處理區(qū)。每個(gè)處理區(qū),包含數(shù)百個(gè)內(nèi)核。每個(gè)內(nèi)核,相當(dāng)于一顆簡化版的CPU,具備整數(shù)運(yùn)算和浮點(diǎn)運(yùn)算的功能,以及排隊(duì)和結(jié)果收集功能。


GPU的控制器功能簡單,緩存也比較少。它的ALU占比,可以達(dá)到80%以上。

雖然GPU單核的處理能力弱于CPU,但是數(shù)量龐大,非常適合高強(qiáng)度并行計(jì)算。同等晶體管規(guī)模條件下,它的算力,反而比CPU更強(qiáng)。

還是以餐廳為例。GPU就像一個(gè)擁有成千上萬名初級(jí)廚師的單一型餐廳。它只適合做某種指定菜系。但是,因?yàn)閺N師多,配菜簡單,所以大家一起炒,上菜速度反而快。

wKgaomWVMd6AaA2ZAAI1oIIp6qE340.png

CPU vs GPU


█GPU與AI計(jì)算

大家都知道,現(xiàn)在的AI計(jì)算,都在搶購GPU。英偉達(dá)也因此賺得盆滿缽滿。為什么會(huì)這樣呢?


原因很簡單,因?yàn)锳I計(jì)算和圖形計(jì)算一樣,也包含了大量的高強(qiáng)度并行計(jì)算任務(wù)。

深度學(xué)習(xí)是目前最主流的人工智能算法。從過程來看,包括訓(xùn)練(training)和推理(inference)兩個(gè)環(huán)節(jié)。

wKgZomWVMd6AJ_EJAAPKYRdETAg780.png


在訓(xùn)練環(huán)節(jié),通過投喂大量的數(shù)據(jù),訓(xùn)練出一個(gè)復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型。在推理環(huán)節(jié),利用訓(xùn)練好的模型,使用大量數(shù)據(jù)推理出各種結(jié)論。

訓(xùn)練環(huán)節(jié)由于涉及海量的訓(xùn)練數(shù)據(jù),以及復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),所以需要的計(jì)算規(guī)模非常龐大,對(duì)芯片的算力性能要求比較高。而推理環(huán)節(jié),對(duì)簡單指定的重復(fù)計(jì)算和低延遲的要求很高。

它們所采用的具體算法,包括矩陣相乘、卷積、循環(huán)層、梯度運(yùn)算等,分解為大量并行任務(wù),可以有效縮短任務(wù)完成的時(shí)間。

GPU憑借自身強(qiáng)悍的并行計(jì)算能力以及內(nèi)存帶寬,可以很好地應(yīng)對(duì)訓(xùn)練和推理任務(wù),已經(jīng)成為業(yè)界在深度學(xué)習(xí)領(lǐng)域的首選解決方案。

目前,大部分企業(yè)的AI訓(xùn)練,采用的是英偉達(dá)的GPU集群。如果進(jìn)行合理優(yōu)化,一塊GPU卡,可以提供相當(dāng)于數(shù)十其至上百臺(tái)CPU服務(wù)器的算力。

NVIDIA HGX A100 8 GPU 組件

不過,在推理環(huán)節(jié),GPU的市場份額占比并沒有那么高。具體原因我們后面會(huì)講。

將GPU應(yīng)用于圖形之外的計(jì)算,最早源于2003年。

那一年,GPGPU(General Purpose computing on GPU,基于GPU的通用計(jì)算)的概念首次被提出。意指利用GPU的計(jì)算能力,在非圖形處理領(lǐng)域進(jìn)行更通用、更廣泛的科學(xué)計(jì)算。

GPGPU在傳統(tǒng)GPU的基礎(chǔ)上,進(jìn)行了進(jìn)一步的優(yōu)化設(shè)計(jì),使之更適合高性能并行計(jì)算。

2009年,斯坦福的幾位學(xué)者,首次展示了利用GPU訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的成果,引起了轟動(dòng)。

幾年后,2012年,神經(jīng)網(wǎng)絡(luò)之父杰弗里·辛頓(Geoffrey Hinton)的兩個(gè)學(xué)生——亞歷克斯·克里切夫斯基(Alex Krizhevsky)、伊利亞·蘇茨克沃(Ilya Sutskever),利用“深度學(xué)習(xí)+GPU”的方案,提出了深度神經(jīng)網(wǎng)絡(luò)AlexNet,將識(shí)別成功率從74%提升到85%,一舉贏得Image Net挑戰(zhàn)賽的冠軍。

wKgZomWVMd6AF62oAAC6m8WL90Q695.jpg

左起:伊利亞·蘇茨克沃,亞歷克斯·克里切夫斯基,杰弗里·辛頓

這徹底引爆了“AI+GPU”的浪潮。英偉達(dá)公司迅速跟進(jìn),砸了大量的資源,在三年時(shí)間里,將GPU性能提升了65倍。

除了硬剛算力之外,他們還積極構(gòu)建圍繞GPU的開發(fā)生態(tài)。他們建立了基于自家GPU的CUDA(Compute Unified Device Architecture)生態(tài)系統(tǒng),提供完善的開發(fā)環(huán)境和方案,幫助開發(fā)人員更容易地使用GPU進(jìn)行深度學(xué)習(xí)開發(fā)或高性能運(yùn)算。


這些早期的精心布局,最終幫助英偉達(dá)在AIGC爆發(fā)時(shí)收獲了巨大的紅利。目前,他們市值高達(dá)1.22萬億美元(英特爾的近6倍),是名副其實(shí)的“AI無冕之王”。


【以上信息由艾博檢測整理發(fā)布,如有出入請(qǐng)及時(shí)指正,如有引用請(qǐng)注明出處,歡迎一起討論,我們一直在關(guān)注其發(fā)展!專注:CCC/SRRC/CTA/運(yùn)營商入庫】

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4743

    瀏覽量

    128996
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    30998

    瀏覽量

    269304
  • 數(shù)字芯片
    +關(guān)注

    關(guān)注

    1

    文章

    110

    瀏覽量

    18407
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    ASIC和GPU,誰才是AI計(jì)算的最優(yōu)解?

    電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))隨著AI計(jì)算開始有著風(fēng)頭蓋過通用計(jì)算開始,不少芯片廠商都將其視為下一輪技術(shù)革新。CPU、GPU、FPGA和ASIC紛紛投入到這輪
    的頭像 發(fā)表于 12-03 08:31 ?2220次閱讀
    ASIC和<b class='flag-5'>GPU</b>,誰才是<b class='flag-5'>AI</b><b class='flag-5'>計(jì)算</b>的最優(yōu)解?

    《CST Studio Suite 2024 GPU加速計(jì)算指南》

    GPU Computing Guide》是由Dassault Systèmes Deutschland GmbH發(fā)布的有關(guān)CST Studio Suite 2024的GPU計(jì)算指南。涵蓋GP
    發(fā)表于 12-16 14:25

    【產(chǎn)品活動(dòng)】阿里云GPU云服務(wù)器年付5折!阿里云異構(gòu)計(jì)算助推行業(yè)發(fā)展!

    摘要: 阿里云GPU云服務(wù)器全力支持AI生態(tài)發(fā)展,進(jìn)一步普惠開發(fā)者紅利,本周將會(huì)推出針對(duì)異構(gòu)計(jì)算GPU實(shí)例GN5年付5折的優(yōu)惠活動(dòng),希望能夠打造良好的
    發(fā)表于 12-26 11:22

    深度學(xué)習(xí)推理和計(jì)算-通用AI核心

    ,支持廣泛的應(yīng)用程序和動(dòng)態(tài)工作負(fù)載。本文將討論這些行業(yè)挑戰(zhàn)可以在不同級(jí)別的硬件和軟件設(shè)計(jì)采用Xilinx VERSAL AI核心,業(yè)界首創(chuàng)自適應(yīng)計(jì)算加速平臺(tái)超越了CPU/GPU和FPGA的性能。
    發(fā)表于 11-01 09:28

    ai芯片和gpu的區(qū)別

    ai芯片和gpu的區(qū)別▌車載芯片的發(fā)展趨勢(shì)(CPU-GPU-FPGA-ASIC)過去汽車電子芯片以與傳感器一一對(duì)應(yīng)的電子控制單元(ECU)為主,主要分布與發(fā)動(dòng)機(jī)等核心部件上。...
    發(fā)表于 07-27 07:29

    GPU八大主流的應(yīng)用場景

    GPU來完成。但GPU于手機(jī)及PC端滲透率基本見頂,根據(jù)中國社科院數(shù)據(jù),2011-2018年全球主要國家PC每百人滲透率呈下降趨勢(shì),智能手機(jī)對(duì)PC具有一定替代性。而云計(jì)算與智能駕駛及AI
    發(fā)表于 12-07 10:04

    浪潮AIStation突破企業(yè)AI計(jì)算資源極限,高效共享GPU

    對(duì)于AI企業(yè)來說,GPU計(jì)算資源昂貴,如何提高資源利用率,保護(hù)計(jì)算力投資?如何解決資源搶占,保證資源使用公平合理?
    發(fā)表于 04-06 09:35 ?1230次閱讀
    浪潮AIStation突破企業(yè)<b class='flag-5'>AI</b><b class='flag-5'>計(jì)算</b>資源極限,高效共享<b class='flag-5'>GPU</b>

    未來的AI計(jì)算領(lǐng)域,將是CPU、GPU、IPU并行

    AI近些年的大火,直接促進(jìn)了CPU和GPU的發(fā)展,而英偉達(dá)的GPU真正借此迅速成為AI市場的主流產(chǎn)品之一,其勢(shì)頭甚至蓋過了CPU。
    的頭像 發(fā)表于 10-19 16:04 ?3389次閱讀
    未來的<b class='flag-5'>AI</b><b class='flag-5'>計(jì)算</b>領(lǐng)域,將是CPU、<b class='flag-5'>GPU</b>、IPU并行

    AI GPU計(jì)算在工廠車間提供數(shù)據(jù)中心性能

    用于自動(dòng)檢測的 AI GPU 計(jì)算改變了質(zhì)量控制操作、運(yùn)行復(fù)雜的視覺算法并整合了工作負(fù)載。
    發(fā)表于 08-12 16:01 ?275次閱讀

    國產(chǎn)計(jì)算GPU沐曦MXC500用時(shí)5小時(shí)完成功能測試

    而MXC系列GPU(曦云)主要用AI訓(xùn)練及通用計(jì)算,MXG系列GPU(曦彩)用于圖形渲染。而此次成功點(diǎn)亮的
    的頭像 發(fā)表于 06-16 09:55 ?2748次閱讀

    英偉達(dá)用AI設(shè)計(jì)GPU算術(shù)電路有何優(yōu)勢(shì)

    大量的算術(shù)電路陣列為英偉達(dá)GPU提供了動(dòng)力,以實(shí)現(xiàn)前所未有的AI、高性能計(jì)算計(jì)算機(jī)圖形加速。因此,改進(jìn)這些算術(shù)電路的設(shè)計(jì)對(duì)于提升 GPU
    發(fā)表于 12-05 11:05 ?440次閱讀

    AI計(jì)算,為什么要用GPU?

    芯片、存儲(chǔ)芯片以及微控制單元(MCU)。存儲(chǔ)芯片和MCU以后再介紹,今天小棗君重點(diǎn)講講邏輯芯片。邏輯芯片,其實(shí)說白了就是計(jì)算芯片。它包含了各種邏輯門電路,可以實(shí)現(xiàn)
    的頭像 發(fā)表于 01-26 08:29 ?561次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>計(jì)算</b>,為什么<b class='flag-5'>要用</b><b class='flag-5'>GPU</b>?

    為什么ai模型訓(xùn)練要用gpu

    GPU憑借其強(qiáng)大的并行處理能力和高效的內(nèi)存系統(tǒng),已成為AI模型訓(xùn)練不可或缺的重要工具。
    的頭像 發(fā)表于 10-24 09:39 ?327次閱讀

    GPU加速計(jì)算平臺(tái)是什么

    GPU加速計(jì)算平臺(tái),簡而言之,是利用圖形處理器(GPU)的強(qiáng)大并行計(jì)算能力來加速科學(xué)計(jì)算、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等復(fù)雜
    的頭像 發(fā)表于 10-25 09:23 ?257次閱讀

    GPU是如何訓(xùn)練AI大模型的

    AI模型的訓(xùn)練過程中,大量的計(jì)算工作集中在矩陣乘法、向量加法和激活函數(shù)等運(yùn)算上。這些運(yùn)算正是GPU所擅長的。接下來,AI部落小編帶您了解GPU
    的頭像 發(fā)表于 12-19 17:54 ?138次閱讀