???全球 CPU 商用市場(chǎng)基本被 Intel、AMD 兩家壟斷,國(guó)產(chǎn) CPU 具備廣闊拓展空間。CPU 目前從市場(chǎng)占有率來(lái)說(shuō),Intel 依靠其強(qiáng)大的 X86 生態(tài)體系和領(lǐng)先的制造能力,在通用 CPU 市場(chǎng)占據(jù)領(lǐng)先地位。2021 年,Intel 市場(chǎng)份額不低于 80%,AMD 近期追趕勢(shì)頭明顯,其他廠商整體市場(chǎng)份額不超過(guò) 7%。
英特爾優(yōu)勢(shì)降低,數(shù)據(jù)中心領(lǐng)域集中度有所降低。2022 年,數(shù)據(jù)中心領(lǐng)域 Intel 市場(chǎng)占有率為71%,較 21 年下降 10pcts,AMD 22 年市占率快速提升 8pcts 至 20%,亞馬遜、Ampere 等新興玩家份額快速提升,給總計(jì)份額不足 5%的國(guó)產(chǎn)廠商發(fā)展帶來(lái)了借鑒意義。
全球 GPU 市場(chǎng)為三足鼎立的寡頭競(jìng)爭(zhēng)格局,英偉達(dá)在獨(dú)顯領(lǐng)域一家獨(dú)大。在獨(dú)立顯卡市場(chǎng)上,長(zhǎng)期以來(lái)都是 AMD 及 NVIDIA 兩家的二人轉(zhuǎn),2022 年 Intel 正式殺入了顯卡市場(chǎng),目前獨(dú)立 GPU市場(chǎng)則主要由 NVIDIA、AMD 和英特爾三家公司占據(jù),2022 年 Q4 全球獨(dú)立 GPU 市場(chǎng)占有率分別為 85%、9%和 6%,其中,NVIDIA 在 PC 端獨(dú)立 GPU 領(lǐng)域市場(chǎng)占有率優(yōu)勢(shì)明顯。
1、多數(shù)參數(shù)我國(guó)CPU具備比肩能力,但性能差距大
影響國(guó)內(nèi)CPU市占率的主要是技術(shù)差異,即產(chǎn)品性能。CPU性能的主要影響因素為頻率和IPC,其他影響 CPU 性能的因素還有總線寬度、制程、存儲(chǔ)、內(nèi)核數(shù)、封裝技術(shù)等。
(1)主頻,外頻和倍頻和 IPC。主頻是 CPU 的時(shí)鐘頻率,即 CPU 的工作頻率,一般來(lái)說(shuō),一個(gè)時(shí)鐘周期完成的指令數(shù)是固定的,所以主頻越高,CPU單位時(shí)間運(yùn)行的指令數(shù)越多。外頻即CPU和周邊傳輸數(shù)據(jù)的頻率,具體是指 CPU 到芯片組之間的總線速度,CPU 的外頻決定著整塊主板的運(yùn)行速度。產(chǎn)生的輸出信號(hào)頻率是輸入信號(hào)頻率的整數(shù)倍稱為倍頻,倍頻和外頻相乘就是主頻,當(dāng)外頻不變時(shí),提高倍頻,CPU主頻也就越高。IPC指 CPU每一個(gè)頻率周期里處理的指令數(shù)量。
(2)地址總線寬度。地址總線是專門用來(lái)傳送地址的,CPU 通過(guò)地址總線來(lái)選用外部存儲(chǔ)器的存儲(chǔ)地址,總線寬度決定了 CPU 可以訪問(wèn)的物理地址空間(尋址能力),簡(jiǎn)單地說(shuō)就是 CPU 到底能夠使用多大容量的內(nèi)存。例如 32 位的地址總線,最多可以直接訪問(wèn) 4GB 的物理空間。8 位微機(jī)的地址總線為 16 位,則其最大可尋址空間為 2^16=64KB。
(3)數(shù)據(jù)總線寬度。數(shù)據(jù)總線寬度決定了 CPU 與內(nèi)存以及輸入、輸出設(shè)備之間一次數(shù)據(jù)傳輸?shù)?a target="_blank">信息量。
(4)制程和封裝。CPU 的生產(chǎn)需要經(jīng)過(guò)硅提純、切割晶圓、影印、蝕刻、分層、封裝、測(cè)試 7個(gè)工序,制程工藝的提升或更小的制程對(duì)于 CPU 性能的提升影響明顯,主要表現(xiàn)為 CPU 頻率提升以及架構(gòu)優(yōu)化兩個(gè)方面。一方面,工藝的提升與頻率緊密相連,使得芯片主頻得以提升;另一方面工藝提升帶來(lái)晶體管規(guī)模的提升,從而支持更加復(fù)雜的微架構(gòu)或核心,帶來(lái)架構(gòu)的提升。
(5)工作電壓。指的是 CPU 正常工作所需的電壓。低電壓能夠解決耗電多和發(fā)熱過(guò)高的問(wèn)題,使 CPU 工作時(shí)的溫度降低,工作狀態(tài)穩(wěn)定。
(6)高速緩沖存儲(chǔ)器。它是一種速度比內(nèi)存更快的存儲(chǔ)設(shè)備,用于緩解 CPU 和主存儲(chǔ)器之間速度不匹配的矛盾,進(jìn)而改善整個(gè)計(jì)算機(jī)系統(tǒng)的性能。很多大型、中型、小型以及微型計(jì)算機(jī)中都采用高速緩存。
(7)除上述性能指標(biāo)外,CPU 還有其他如接口類型、多媒體指令集、裝封形式、整數(shù)單元和浮點(diǎn)單元強(qiáng)弱等性能影響指標(biāo)。
多數(shù)參數(shù)我國(guó) CPU 具備比肩能力,IPC性能是最主要差距。目前通過(guò)公開(kāi)信息可以看出,主頻、核心數(shù)、內(nèi)存類型等指標(biāo)我國(guó) CPU 廠商差異不大,具備一定的比肩能力,但落實(shí)到具體性能決定指標(biāo) IPC,僅 Intel 和 AMD 會(huì)公布 IPC“相比上一代提升了多少”,其他國(guó)產(chǎn) CPU 從 IPC 性能來(lái)看大致落后于 Intel、AMD 幾年水平。
2、指令級(jí)架構(gòu)與生態(tài)綁定多年,創(chuàng)新面臨知識(shí)產(chǎn)權(quán)等多重壁壘
指令集是 CPU 所執(zhí)行的指令的二進(jìn)制編碼方法,是軟件和硬件的接口規(guī)范。日常交流中有時(shí)也把指令集稱為架構(gòu)。CPU 按照指令集可分為 CISC(復(fù)雜指令集)和 RISC(精簡(jiǎn)指令集)兩大類,CISC 型 CPU 目前主要是 x86 架構(gòu),RISC 型 CPU 主要包括 ARM、RISC-V、MIPS、POWER 架構(gòu)等。
指令集架構(gòu)與生態(tài)綁定多年,創(chuàng)新面臨知識(shí)產(chǎn)權(quán)、時(shí)間等多重壁壘。歷經(jīng)幾十年的發(fā)展,全球形成了 Wintel(Windows+Intel)和 AA(Android+ARM)兩大信息化生態(tài)體系,并且都由美國(guó)主導(dǎo),在生態(tài)和知識(shí)產(chǎn)權(quán)上都形成了自己的“領(lǐng)地”。中國(guó)之前沒(méi)有指令集,重新搭建或者在現(xiàn)有的開(kāi)源指令集基礎(chǔ)上修改,會(huì)面臨知識(shí)產(chǎn)權(quán)問(wèn)題以及前期需要大量的試錯(cuò)優(yōu)化過(guò)程。且新的指令集需要新的生態(tài)來(lái)適配,所需要的操作系統(tǒng)、基礎(chǔ)軟件和各種應(yīng)用軟件都需要重新適配,這也是目前新指令集發(fā)展的一個(gè)難點(diǎn)。
(1)x86 架構(gòu):主導(dǎo)桌面/服務(wù)器 CPU 市場(chǎng)
基于 CISC(復(fù)雜指令集)的 x86 架構(gòu)是一種為了便于編程和提高存儲(chǔ)器訪問(wèn)效率的芯片設(shè)計(jì)體系,包括兩大主要特點(diǎn):一是使用微代碼,指令集可以直接在微代碼存儲(chǔ)器里執(zhí)行,新設(shè)計(jì)的處理器,只需增加較少的晶體管電路就可以執(zhí)行同樣的指令集,也可以很快地編寫新的指令集程式;二是擁有龐大的指令集,x86 擁有包括雙運(yùn)算元格式、寄存器到寄存器、寄存器到存儲(chǔ)器以及存儲(chǔ)器到寄存器的多種指令類型。
x86 架構(gòu)主要參與者包括 Intel、AMD、海光、兆芯等。
(2)ARM 架構(gòu):崛起移動(dòng)市場(chǎng)和 MCU 市場(chǎng)
ARM 架構(gòu)過(guò)去稱作進(jìn)階精簡(jiǎn)指令集機(jī)器,是一個(gè) 32 位精簡(jiǎn)指令集處理器架構(gòu),其廣泛地使用在許多嵌入式系統(tǒng)設(shè)計(jì),近年來(lái)也因其低功耗多核等特點(diǎn)廣泛應(yīng)用在數(shù)據(jù)中心服務(wù)器市場(chǎng)。早期ARM 指令集架構(gòu)的主要特點(diǎn):一是體積小、低功耗、低成本、高性能;二是大量使用寄存器,且大多數(shù)數(shù)據(jù)操作都在寄存器中完成,指令執(zhí)行速度更快;三是尋址方式靈活簡(jiǎn)單,執(zhí)行效率高;四是指令長(zhǎng)度固定,可通過(guò)多流水線方式提高處理效率。
ARM 架構(gòu)的 CPU 參與者包括飛騰、鯤鵬等,還有諸多 MCU 廠商用 ARM 架構(gòu)設(shè)計(jì)相關(guān)產(chǎn)品,包括意法半導(dǎo)體、兆易創(chuàng)新、普冉股份、恒爍股份等。
(3)RISC-V 架構(gòu):物聯(lián)網(wǎng)時(shí)代的新選擇
RISC-V是加州大學(xué)伯克利分校設(shè)計(jì)并發(fā)布的一種開(kāi)源指令集架構(gòu),其目標(biāo)是成為指令集架構(gòu)領(lǐng)域的 Linux, 主要應(yīng)用 于物聯(lián) 網(wǎng)(IoT) 領(lǐng)域, 但可擴(kuò)展 至高性能計(jì) 算領(lǐng)域 。RISC-V 采用BSDLicense 發(fā)布,由于允許衍生設(shè)計(jì)和開(kāi)發(fā)閉源,吸引了一大批公司的關(guān)注,目前已有不少公司開(kāi)發(fā)基于 RISC-V 的 IP 核,如 Si-Five、臺(tái)灣晶心、阿里平頭哥等已可提供基于 RISC-V 的處理器 IP 核,部分企業(yè)如兆易創(chuàng)新、北京君正等已開(kāi)發(fā)出基于 RISC-V 的 MCU 芯片等。但整體上,由于 RISC-V 產(chǎn)業(yè)生態(tài)還比較薄弱,未來(lái)的發(fā)展仍有較長(zhǎng)一段路要走。
RISC-V 架構(gòu)的參與者包括阿里平頭哥,MCU 廠商包括國(guó)芯科技、賽昉科技等。
(4)MIPS 架構(gòu):在學(xué)術(shù)界影響廣泛
MIPS 是高效精簡(jiǎn)指令集計(jì)算機(jī)體系結(jié)構(gòu)中的一種,MIPS 的優(yōu)勢(shì)主要有三點(diǎn):一是發(fā)展歷史早,MIPS 在 1990 年代已經(jīng)廣泛使用在服務(wù)器、工作站設(shè)備上。二是在學(xué)術(shù)界影響廣泛,計(jì)算機(jī)體系結(jié)構(gòu)教材都是以 MIPS 為實(shí)際例子。三是 MIPS 在架構(gòu)授權(quán)方面更為開(kāi)放,授權(quán)門檻遠(yuǎn)低于 x86、ARM,在2019年曾經(jīng)有開(kāi)放授權(quán)的實(shí)際動(dòng)作,并且 MIPS允許授權(quán)商自行更改設(shè)計(jì)、擴(kuò)展指令,允許二次授權(quán)。
(5)POWER 架構(gòu):在部分汽車控制中有所應(yīng)用
POWER 架構(gòu)是由 IBM 設(shè)計(jì)的一種 RISC 處理器架構(gòu),POWER 在大型機(jī)領(lǐng)域獨(dú)具優(yōu)勢(shì)。POWER3 是全球首款 64 位架構(gòu)處理器,開(kāi)始應(yīng)用銅互聯(lián)和 SOI(絕緣體上硅)技術(shù)。直至POWER9 依然追求最高性能,不僅具備亂序執(zhí)行、智能線程等技術(shù),還實(shí)現(xiàn)了 SMP(對(duì)稱多處理技術(shù))的硬件一致性處理。POWER 架構(gòu) CPU 價(jià)格高昂,主要應(yīng)用于高端服務(wù)器領(lǐng)域,市場(chǎng)份額逐漸減少。
POWER 架構(gòu)目前恩智浦、飛思卡爾和國(guó)芯科技的部分產(chǎn)品中有采用。
CPU 專用 EDA 國(guó)產(chǎn)替代難度大。我國(guó)的 CPU 專用 EDA 工具例如數(shù)字仿真、邏輯綜合、建模、布局布線等水平比較差,長(zhǎng)期依賴國(guó)外產(chǎn)品,尚無(wú)法完成完整集成電路的功能設(shè)計(jì)、綜合驗(yàn)證和物理設(shè)計(jì)等全流程的軟件工具集群,完全替換應(yīng)用的難度大。
3、AI芯片的關(guān)鍵特征包含數(shù)據(jù)特點(diǎn)、計(jì)算范式、精度、重構(gòu)能力等
1)新型的計(jì)算范式:控制流程簡(jiǎn)化、計(jì)算量增大
AI 計(jì)算包括傳統(tǒng)計(jì)算和新的計(jì)算特質(zhì),處理的內(nèi)容往往是非結(jié)構(gòu)化數(shù)據(jù)(視頻、圖片等)。處理的過(guò)程通常需要很大的計(jì)算量,基本的計(jì)算主要是線性代數(shù)運(yùn)算(如張量處理),而控制流程則相對(duì)簡(jiǎn)單。
2)訓(xùn)練和推斷:需要高效的數(shù)據(jù)處理能力
AI 系統(tǒng)通常涉及訓(xùn)練(Training)和推斷(Inference)過(guò)程。簡(jiǎn)單來(lái)說(shuō),訓(xùn)練過(guò)程是指在已有數(shù)據(jù)中學(xué)習(xí),獲得某些能力的過(guò)程;而推斷過(guò)程則是指對(duì)新的數(shù)據(jù),使用這些能力完成特定任務(wù)(比如分類、識(shí)別等)。滿足高效能機(jī)器學(xué)習(xí)的數(shù)據(jù)處理要求是 AI 芯片需要考慮的最重要因素。
3)數(shù)據(jù)精度:低精度成為趨勢(shì)
低精度設(shè)計(jì)是 AI 芯片的一個(gè)趨勢(shì),在針對(duì)推斷的芯片中更加明顯。對(duì)一些應(yīng)用來(lái)說(shuō),降低精度的設(shè)計(jì)不僅加速了機(jī)器學(xué)習(xí)算法的推斷(也可能是訓(xùn)練),甚至可能更符合神經(jīng)形態(tài)計(jì)算的特征。
4、AI芯片設(shè)計(jì)趨勢(shì)
1)云端訓(xùn)練和推斷:大存儲(chǔ)、高性能、可伸縮
存儲(chǔ)的需求(容量和訪問(wèn)速度)越來(lái)越高,處理能力推向每秒千萬(wàn)億次(Peta FLOPS),并支持靈活伸縮和部署。隨著 AI 應(yīng)用的爆發(fā),對(duì)推斷計(jì)算的需求會(huì)越來(lái)越多,一個(gè)訓(xùn)練好的算法會(huì)不斷復(fù)用。推斷和訓(xùn)練相比有其特殊性,更強(qiáng)調(diào)吞吐率、能效和實(shí)時(shí)性,未來(lái)在云端很可能會(huì)有專門針對(duì)推斷的 ASIC 芯片(如 Google 的第一代 TPU),提供更好的能耗效率并實(shí)現(xiàn)更低的延時(shí)。
2)邊緣設(shè)備:也需要具備一定的學(xué)習(xí)、本地訓(xùn)練能力
相對(duì)云端應(yīng)用,邊緣設(shè)備的應(yīng)用需求和場(chǎng)景約束要復(fù)雜很多,針對(duì)不同的情況可能需要專門的架構(gòu)設(shè)計(jì)。拋開(kāi)需求的復(fù)雜性,目前的邊緣設(shè)備主要是執(zhí)行“推斷”。在這個(gè)目標(biāo)下,AI 芯片最重要的就是提高“推斷”效率。目前,衡量 AI 芯片實(shí)現(xiàn)效率的一個(gè)重要指標(biāo)是能耗效率——TOPs/W,這也成為很多技術(shù)創(chuàng)新競(jìng)爭(zhēng)的焦點(diǎn)。未來(lái),越來(lái)越多的邊緣設(shè)備將需要具備一定的“學(xué)習(xí)”能力,能夠根據(jù)收集到的新數(shù)據(jù)在本地訓(xùn)練、優(yōu)化和更新模型。這也會(huì)對(duì)邊緣設(shè)備以及整個(gè) AI 實(shí)現(xiàn)系統(tǒng)提出一些新的要求。最后,在邊緣設(shè)備中的 AI 芯片往往是 SoC 形式的產(chǎn)品,AI部分只是實(shí)現(xiàn)功能的一個(gè)環(huán)節(jié),而最終要通過(guò)完整的芯片功能來(lái)體現(xiàn)硬件的效率。這種情況下,需要從整個(gè)系統(tǒng)的角度考慮架構(gòu)的優(yōu)化。因此,終端設(shè)備 AI 芯片往往呈現(xiàn)為一個(gè)異構(gòu)系統(tǒng),專門的 AI 加速器和 CPU,GPU,ISP,DSP 等其它部件協(xié)同工作以達(dá)到最佳的效率。
3)軟件定義芯片:能夠?qū)崟r(shí)動(dòng)態(tài)改變功能,滿足軟件不斷變化的計(jì)算需求
在 AI 計(jì)算中,芯片是承載計(jì)算功能的基礎(chǔ)部件,軟件是實(shí)現(xiàn) AI 的核心。這里的軟件即是為了實(shí)現(xiàn)不同目標(biāo)的 AI 任務(wù),所需要的 AI 算法。對(duì)于復(fù)雜的 AI 任務(wù),甚至需要將多種不同類型的 AI 算法組合在一起。即使是同一類型的 AI 算法,也會(huì)因?yàn)榫唧w任務(wù)的計(jì)算精度、性能和能效等需求不同,具有不同計(jì)算參數(shù)。因此,AI 芯片必須具備一個(gè)重要特性:能夠?qū)崟r(shí)動(dòng)態(tài)改變功能,滿足軟件不斷變化的計(jì)算需求,即“軟件定義芯片”。
審核編輯:黃飛
?
評(píng)論
查看更多