欧美人妻精品一区二区三区,在线国产91,国产午夜激无码av毛片不

AI已經(jīng)從技術(shù)走向應(yīng)用，改變了我們的生活和工作方式。近些年，AI算力芯片領(lǐng)域群雄逐鹿，通過(guò)對(duì)芯片、算力與AI三者發(fā)展迭代過(guò)程的理解，我們發(fā)現(xiàn)高能效比的算力、通用的軟件棧以及高度優(yōu)化的編譯器，是我們的AI算力產(chǎn)品邁向成功的必要條件。

進(jìn)迭時(shí)空作為計(jì)算芯片企業(yè)，我們對(duì)RISC-V架構(gòu)CPU進(jìn)行高度定制，不斷挖掘其在計(jì)算中的潛力，在RISC-V生態(tài)強(qiáng)大的軟件棧與CPU領(lǐng)域成熟的編譯器的基礎(chǔ)上對(duì)RISC-V DSA進(jìn)行聯(lián)合優(yōu)化并提供軟硬一體的計(jì)算解決方案，給AI領(lǐng)域帶來(lái)高效、易用的算力。

Banana Pi BPI-F3

GPGPU作為HPC領(lǐng)域(通用算力)的DSA打開(kāi)了AI的大門(mén)

在上世紀(jì)80年代到90年代之間，隨著科技的迅速發(fā)展，CPU的性能每隔約18到20個(gè)月就會(huì)翻倍。這便是英特爾（Intel）創(chuàng)始人之一戈登·摩爾提出的摩爾定律（Moore's Law）的核心內(nèi)容。其含義是，每隔大約18個(gè)月，同一款軟件在新發(fā)布的CPU處理器上的運(yùn)行速度都能直接翻倍。

大約在2004年5月份，轉(zhuǎn)折點(diǎn)出現(xiàn)了。當(dāng)時(shí)，Intel取消了他們新一代單核處理器的開(kāi)發(fā)工作，而將注意力轉(zhuǎn)向了雙核處理器的設(shè)計(jì)。稍晚的同年，Herb Sutter撰寫(xiě)了著名的《The Free Lunch Is Over（不再有免費(fèi)午餐）》，主要表達(dá)了這樣一個(gè)觀點(diǎn)：除非軟件的開(kāi)發(fā)采用多核多線程的設(shè)計(jì)，否則就無(wú)法再像過(guò)去那樣每隔一年多時(shí)間就獲得一倍的加速效果。正如下圖所示，CPU處理器的單核計(jì)算性能開(kāi)始接近一個(gè)平臺(tái)區(qū)間，通過(guò)增加晶體管密度提升計(jì)算性能的方法已經(jīng)顯得力不從心，因?yàn)樾酒叽绲牟粩嗫s小總會(huì)遇到其物理極限。這意味著要獲得更高的性能提升，就需要采用新的方法。

添加圖片注釋，不超過(guò) 140 字（可選）

圖一：42年間的微處理器趨勢(shì)數(shù)據(jù)

隨著晶體管數(shù)量增加到一定程度，CPU單核性能的增加開(kāi)始衰減并面臨瓶頸

在摩爾定律效應(yīng)放緩的后摩爾時(shí)代，持續(xù)提升處理器性能的重要技術(shù)理念是Domain-Specific Architectures（DSA）。DSA利用可編程的專用集成電路（ASICs）來(lái)加速特定高強(qiáng)度的處理器負(fù)載，例如圖形渲染、AI神經(jīng)網(wǎng)絡(luò)的前向推理計(jì)算以及提高巨量網(wǎng)絡(luò)數(shù)據(jù)的吞吐等。

架構(gòu)的定義包含指令集架構(gòu)與微架構(gòu)。指令集架構(gòu)是軟件與硬件對(duì)話的接口，類似于詞典中的詞條，而軟件程序則是使用這些詞條編寫(xiě)的書(shū)籍。

添加圖片注釋，不超過(guò) 140 字（可選）

圖二：架構(gòu)設(shè)計(jì)哲學(xué)

DSA的理念是通過(guò)面向特定領(lǐng)域的架構(gòu)設(shè)計(jì)來(lái)縮小應(yīng)用范圍，從而實(shí)現(xiàn)更高的性能或更好的能效比，同時(shí)保持可編程的靈活性。

? 面向領(lǐng)域的架構(gòu)設(shè)計(jì)可以以較低的成本獲取較高的算力，以滿足算力需求。

? 指令集架構(gòu)的可編程性帶來(lái)了相對(duì)通用的算力，為下一代算法的應(yīng)用和覆蓋更廣泛的領(lǐng)域提供了無(wú)限的可能。

DSA的概念由2017年圖靈獎(jiǎng)得主Henessy和Patterson提出，并在題為《創(chuàng)新體系結(jié)構(gòu)將迎來(lái)新的黃金時(shí)代》的演講中進(jìn)行了闡述。我們最熟悉的DSA之一可能是顯卡（Graphics Processing Unit即GPU），它在游戲、影音娛樂(lè)等領(lǐng)域中扮演著重要角色。

NVIDIA公司于1999年發(fā)布其標(biāo)志性產(chǎn)品GeForce256時(shí)首次提出了GPU的概念。其實(shí)質(zhì)是為了加速計(jì)算3D虛擬世界的渲染，從而降低CPU的負(fù)載。GPU技術(shù)的進(jìn)步推動(dòng)了顯卡殺手級(jí)游戲引擎的激進(jìn)發(fā)展，到如今，游戲畫(huà)面的逼真程度已經(jīng)堪比真人版電影。

時(shí)間來(lái)到2006年，NVIDIA發(fā)布了GeForce 8800 GTX（核心代號(hào)G80），與G80一同發(fā)布的還有著名的CUDA（compute unified device architecture），并提供了驅(qū)動(dòng)程序和C語(yǔ)言擴(kuò)展。

CUDA的發(fā)展至今，區(qū)別于開(kāi)放計(jì)算語(yǔ)言（OpenCL跨平臺(tái)并行編程的獨(dú)立開(kāi)放標(biāo)準(zhǔn)），開(kāi)發(fā)人員可以使用流行的語(yǔ)言（C、C++、Fortran、Python、MATLAB等）編寫(xiě)CUDA程序，并使用幾個(gè)基本的關(guān)鍵字即可將并行性添加到他們的代碼中，而不僅僅局限于使用C語(yǔ)言。盡管理論上OpenCL的運(yùn)行時(shí)編譯能夠帶來(lái)更高的執(zhí)行效率，但實(shí)際上由于CUDA是由同一家開(kāi)發(fā)執(zhí)行其功能的硬件的公司開(kāi)發(fā)，所以后者能更好地匹配GPU的計(jì)算特性，從而提供更好的性能。

CUDA便捷的編程模型和優(yōu)秀的編譯器使得硬件資源能夠被更充分地利用，從而拓展了GPU的應(yīng)用領(lǐng)域。如圖三所示，G80核心能夠提供與同時(shí)期以CPU為中心的高性能處理器相當(dāng)甚至更高的計(jì)算能力。這一優(yōu)點(diǎn)引起了高性能計(jì)算（High-Performance Computing HPC）社區(qū)的關(guān)注，并加入到CUDA的生態(tài)系統(tǒng)中進(jìn)行研究。此外，NVIDIA公司還提供了cuBLAS、cuRAND、cuSPARSE、cuSolver、cuFFT、NPP等一系列實(shí)用高效的計(jì)算庫(kù)，進(jìn)一步擴(kuò)充了NVIDIA的算力生態(tài)。

添加圖片注釋，不超過(guò) 140 字（可選）

圖三：同時(shí)期CPU、GPU浮點(diǎn)算力對(duì)比

2012年，多倫多大學(xué)的Alex Krizhevsky發(fā)布了一種新的深度神經(jīng)網(wǎng)絡(luò)（DNN，也可稱為深度卷積神經(jīng)網(wǎng)絡(luò)CNN）。該模型名為AlexNet，在ImageNet圖像比賽中取得了歷史上最佳成績(jī)。其top-5錯(cuò)誤率僅為15.3%，而第二名的錯(cuò)誤率則高達(dá)26.2%。這一結(jié)果震驚了世界，AI競(jìng)賽從此開(kāi)始進(jìn)入新的階段。AlexNet擁有60 million個(gè)單精度浮點(diǎn)參數(shù)，存儲(chǔ)到磁盤(pán)上需要240MB的空間。作者表示，受限于顯存和算力，這已經(jīng)是他在兩塊GTX 580 3GB GPU上能夠?qū)崿F(xiàn)的極限了。他相信，如果有更快的GPU，他可以得到更好的分類結(jié)果。

從那時(shí)起，幾乎所有的AI研究員都開(kāi)始使用GPU進(jìn)行算法領(lǐng)域的探索與突破。與此同時(shí)，GPU的架構(gòu)設(shè)計(jì)也越來(lái)越傾向于提供除了3D能力以外的通用算力，這種設(shè)計(jì)理念被稱為General-Purpose GPU（GPGPU）。

2011年，TESLA GPU計(jì)算卡發(fā)布，標(biāo)志著NVIDIA正式將用于計(jì)算的GPU產(chǎn)品線獨(dú)立出來(lái)。憑借其架構(gòu)上的優(yōu)勢(shì)，GPU在通用計(jì)算及超級(jí)計(jì)算機(jī)領(lǐng)域逐漸取代CPU成為主角。

隨著GPU技術(shù)的發(fā)展，AI算法研究也突飛猛進(jìn)。2014年前后，香港中文大學(xué)的Sun Yi等人將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在人臉識(shí)別領(lǐng)域，采用20萬(wàn)訓(xùn)練數(shù)據(jù)，在LFW數(shù)據(jù)集上首次達(dá)到超過(guò)人類水平的識(shí)別精度。2015年10月，AlphaGo擊敗樊麾，成為第一個(gè)無(wú)需讓子即可在19路棋盤(pán)上擊敗圍棋職業(yè)棋手的電腦圍棋程序，創(chuàng)造了歷史，并于2016年1月發(fā)表在知名期刊《自然》。

在2022年圣誕節(jié)前夕，所有硅谷公司都經(jīng)歷了一場(chǎng)震撼教育——11月30日，OpenAI發(fā)布了聊天機(jī)器人ChatGPT。它可以自動(dòng)生成文章和詩(shī)歌，像人類一樣通過(guò)自然的互動(dòng)回答問(wèn)題。其性能之高震撼了世界，點(diǎn)燃了生成式AI的熱潮。

在CES 2023上，奔馳宣布成為美國(guó)首家獲得L3自動(dòng)駕駛認(rèn)證的廠商。AI算法在越來(lái)越多的領(lǐng)域的能力上接近甚至超越人類，這意味著AI可以幫助降低人們的負(fù)擔(dān)，釋放人類潛力，同時(shí)也帶來(lái)商機(jī)與產(chǎn)業(yè)化的機(jī)會(huì)。

添加圖片注釋，不超過(guò) 140 字（可選）

通用算力、專用算力，GPGPU與AI DSA相向而行，殊途同歸。

在2014年，世界上第一款supercomputer on a module, Jetson TX1問(wèn)世，TX1采用256個(gè)NVIDIA Maxwell架構(gòu)CUDA cores 提供了超過(guò)1 TeraFLOPs性能。旨在能夠?yàn)楫?dāng)時(shí)最新視覺(jué)計(jì)算應(yīng)用提供所需的性能和能效。定位為Deep Learning, Computer Vision, Graphics、GPU Computing的嵌入式平臺(tái)。

圖四：NVIDIA邊緣AI平臺(tái)路線圖

該系列產(chǎn)品從2018年的1T算力的TX1一路發(fā)展到2024年預(yù)計(jì)發(fā)售的擁有2000T算力的THOR平臺(tái)。值得注意的是在XAVIER與ORIN平臺(tái)上有超過(guò)一半的標(biāo)稱算力是由DLA提供。

圖五：Jetson Orin Technical Specifications

采用DLA可以加速部分計(jì)算密集的算子。與采用GPGPU計(jì)算相比，在損失部分推理精度的前提下，采用DLA加速推理計(jì)算不僅速度更快，而且能耗更低。然而，這并非免費(fèi)午餐。首先，要同時(shí)利用GPGPU與DLA兩塊算力，軟件上就需要精巧的異步設(shè)計(jì)，以實(shí)現(xiàn)CPU負(fù)載、編解碼模塊、圖像處理模塊、GPGPU以及DLA五者的流水化并行處理。然而，在THOR這代自動(dòng)駕駛平臺(tái)產(chǎn)品中，DLA提供的算力甚至直接被砍掉，其原因目前尚不清楚。但根據(jù)NVIDIA的官方文檔顯示，DLA支持約15種主要AI算子的執(zhí)行，不支持的算子類型將回退到GPGPU進(jìn)行運(yùn)算。筆者推測(cè)，可能是基于TensorCore指令拓展獲得的算力有更強(qiáng)的通用性和可編程性，能夠更好地滿足業(yè)界的需求。

TensorCore實(shí)際上也是一種DSA的設(shè)計(jì)理念的體現(xiàn)。隨著AI算法的多年發(fā)展，業(yè)界也逐漸意識(shí)到AI的算力需求逐漸收斂到了矩陣計(jì)算能力上。通過(guò)專用的指令加速矩陣乘法計(jì)算，從而加速AI計(jì)算，這一理念已被業(yè)界廣泛接受。

圖六：通用及專用架構(gòu)的矩陣加速引擎設(shè)計(jì)

THOR平臺(tái)的CUDA引入了Transformer Engine，用于加速基于attention機(jī)制的DL算法，這正是目前備受關(guān)注的ChatGPT網(wǎng)絡(luò)模型的重要組成部分。此外，THOR平臺(tái)還引入了對(duì)8-bit floating point (FP8) 精度的支持，這是INT8的替代品，能夠在同等的位寬下提供更高的精度。NVIDIA在其Edge平臺(tái)產(chǎn)品線上開(kāi)始放棄專有的定制化大算力，逐步在通用算力的基礎(chǔ)上增加領(lǐng)域的定制化。這與其發(fā)布會(huì)上反復(fù)強(qiáng)調(diào)的提高開(kāi)發(fā)效率、加快軟件迭代、算法迭代的目標(biāo)相吻合。

GPU也是一種DSA，其發(fā)展證明了DSA取得的成功。DSA、GPU、AI，這是個(gè)互相成就的故事。NVIDIA的GPGPU硬件的成功與其CUDA生態(tài)豐富的算力軟件包、易于使用的編程接口、優(yōu)秀的編譯器密不可分。因此，對(duì)于DSA算力硬件來(lái)說(shuō)，這些都是走向商業(yè)成功的必要條件。

自TX1推出以來(lái)，對(duì)標(biāo)TX1的競(jìng)品層出不窮。TX1的算力來(lái)自于GPGPU，而更加客制化的ASIC，利用卷積操作的空間局部性進(jìn)行數(shù)據(jù)復(fù)用的精妙設(shè)計(jì)，在達(dá)到同等甚至更高算力的同時(shí)硬件成本更低。最普遍的設(shè)計(jì)是一個(gè)高能效比的CPU小核如Arm Cortex A7/A53加固化的2D圖像處理（CV）模塊與固化的神經(jīng)網(wǎng)絡(luò)處理（DNN/NPU）模塊。

然而，由于小CPU的計(jì)算能力受限，其主要負(fù)責(zé)應(yīng)用軟件的任務(wù)調(diào)度部分。AI應(yīng)用的前處理（非DNN算法模型部分）主要由2D圖像處理模塊承接。然而，前處理是非常碎片化的算法，除了個(gè)別的插值、顏色域轉(zhuǎn)換功能，幾乎所有圖像處理軟件都會(huì)用到，其他所需功能非常廣泛。這包括OpenCV的核心函數(shù)、圖像處理函數(shù)，其中每個(gè)大類中的子方法又會(huì)有若干個(gè)，無(wú)法確定哪些功能需要被固化。這還不包括3D數(shù)據(jù)處理能力與特征描述子的使用。算法廠商的需求各不相同，固化的多了會(huì)浪費(fèi)面積，固化的少了產(chǎn)品開(kāi)發(fā)的難度將大幅提升。

ONNX是一種專為機(jī)器學(xué)習(xí)設(shè)計(jì)的開(kāi)放式文件格式，用于存儲(chǔ)訓(xùn)練好的模型，使得來(lái)自不同人工智能框架訓(xùn)練的網(wǎng)絡(luò)模型可以以相同的格式進(jìn)行存儲(chǔ)。ONNX的規(guī)范及代碼主要由微軟、亞馬遜、Facebook和IBM等公司共同開(kāi)發(fā)。以NVIDIA的AI軟件生態(tài)中最著名的DNN推理開(kāi)發(fā)工具庫(kù)TensorRT為例，5.1版本支持87個(gè)ONNX算子，到了7.1版本支持的ONNX算子數(shù)量增加至108個(gè)。由于功能高度固化的ASIC無(wú)法支持新增的算子計(jì)算類型，這將越來(lái)越限制算法的迭代。對(duì)于在此基礎(chǔ)上進(jìn)行AI產(chǎn)品開(kāi)發(fā)的算法工程師來(lái)說(shuō)，這幾乎等同于在戴著鐐銬跳舞。

Google公司研發(fā)了張量處理單元(TPU)，TPU v1于2015年投入生產(chǎn)，并被谷歌內(nèi)部用于其應(yīng)用程序。TPU是一種專為AI領(lǐng)域提供算力的ASIC，利用了神經(jīng)網(wǎng)絡(luò)對(duì)于數(shù)值精度不敏感的特性，其核心思想是采用低精度矩陣Systolic Array提供巨大算力，同時(shí)提供滿足AI需求的最小化運(yùn)算功能。TPUv1的云服務(wù)從未對(duì)用戶開(kāi)放使用，而TPUv2以及后續(xù)版本被廣泛應(yīng)用于谷歌的搜索排序、語(yǔ)音識(shí)別、以圖搜圖、谷歌翻譯等領(lǐng)域。

圖七：TPUv1架構(gòu)圖

在TPUv1版本的硬件架構(gòu)圖上，我們可以看到Matrix Multiply模塊提供了每時(shí)鐘64K次操作的超大算力，緊隨其后的是Activation（激活）、Normalize/Pool（歸一化/池化）等運(yùn)算。到了TPUv2，通用的Vector單元取代了v1版本中activation pipe中的固定功能。

圖八：TPUv1到TPUv2數(shù)據(jù)通路的轉(zhuǎn)變

在數(shù)據(jù)中心內(nèi)運(yùn)行了一年多的TPU后，谷歌發(fā)現(xiàn)它們?yōu)闄C(jī)器學(xué)習(xí)提供了數(shù)量級(jí)更好的每瓦優(yōu)化性能，相當(dāng)于未來(lái)七年左右的快速進(jìn)步（相當(dāng)于三代摩爾定律）。這是谷歌CEO對(duì)TPU的評(píng)價(jià)。

在2021年，David Patterson對(duì)TPU十年的演進(jìn)進(jìn)行了總結(jié)，其中指出DSA既要專門(mén)優(yōu)化，又要保持靈活性。TPUv2引入的通用算力為T(mén)PU提供了更強(qiáng)大的功能，不僅局限于TPUv1的模型推理，還能進(jìn)行模型訓(xùn)練，這往往需要更復(fù)雜的運(yùn)算。谷歌通過(guò)XLA（一種用于TPU的高度定制優(yōu)化的機(jī)器學(xué)習(xí)編譯器）為用戶提供云服務(wù)，為特別是在這一生態(tài)系統(tǒng)下的用戶提供了便捷的通用編程接口，從而提升了用戶體驗(yàn)。

DSA成功帶來(lái)的啟示

通過(guò)以上成功案例，我們可以發(fā)現(xiàn)GPGPU和TPU的迭代都有一個(gè)共同點(diǎn)，那就是它們通過(guò)越來(lái)越高度的架構(gòu)定制，帶來(lái)了越來(lái)越強(qiáng)大的專用算力，同時(shí)保留或新增通用的算力。通過(guò)高度優(yōu)化的編譯器和豐富的軟件棧，用戶能夠輕松地充分利用硬件算力。顯然，在CPU平臺(tái)上，通用算力、編譯器和軟件棧都是最豐富、最成熟的。因此，對(duì)于CPU而言，“Domain-specific architecture design is all you need”。

RISC-V DSA能否把AI算力做好

GPU的發(fā)展?jié)M足了大型DNN網(wǎng)絡(luò)的內(nèi)存帶寬和計(jì)算能力的需求。由于計(jì)算能力的提高和可用數(shù)據(jù)量的增加，DNN已經(jīng)演變成更寬、更深的架構(gòu)。DNN中的層數(shù)可以達(dá)到數(shù)萬(wàn)層，參數(shù)達(dá)數(shù)十億，研究人員很難在硬件資源（例如內(nèi)存、帶寬和功耗）有限的便攜式設(shè)備中部署DNN。迫切需要在資源受限的邊緣設(shè)備（例如手機(jī)、嵌入式設(shè)備、智能可穿戴設(shè)備、機(jī)器人、無(wú)人機(jī)等）中有效部署DNN的方法。因此，AI科學(xué)家們又開(kāi)展了AI模型小型化的研究，即用最少的參數(shù)量、最少的計(jì)算量去達(dá)到想要的模型精度。因此，ShuffleNet、MobileNet、網(wǎng)絡(luò)架構(gòu)搜索(NAS)算法等輕量級(jí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)開(kāi)始被推出，能夠在很少的參數(shù)量上達(dá)到與大參數(shù)量模型接近的精度。同時(shí)，神經(jīng)網(wǎng)絡(luò)的參數(shù)剪枝、參數(shù)量化、緊湊網(wǎng)絡(luò)、知識(shí)蒸餾、低秩分解、參數(shù)共享、混合方式等壓縮技術(shù)與計(jì)算加速技術(shù)開(kāi)始成為研究的熱門(mén)。

圖九：圖像分類模型性能與模型算力對(duì)應(yīng)關(guān)系

圖十：圖像分類模型性能與模型大小對(duì)應(yīng)關(guān)系

EfficientNet-B0是AutoML MNAS開(kāi)發(fā)的基線網(wǎng)絡(luò)，而Efficient-B1到B7是基線網(wǎng)絡(luò)擴(kuò)展得到的。特別地，EfficientNet-B7達(dá)到了最新的84.4% top-1 / 97.1% top-5精度，同時(shí)比現(xiàn)有最好的CNN小8.4倍。

與此同時(shí)，AI科學(xué)家們也發(fā)現(xiàn)提升模型參數(shù)量帶來(lái)模型精度提升的效應(yīng)在減弱。如圖九所示，在圖像分類的任務(wù)上，模型的精度隨著參數(shù)量的提升越來(lái)越接近85% Top-1準(zhǔn)確率的平臺(tái)。這意味著在成熟的視覺(jué)領(lǐng)域，我們獲得一定AI能力所需的算力需求是趨于收斂的。因此，給定任務(wù)、給定模型、給定圖像處理的幀率，我們可以確定我們的算力需求。完成指定領(lǐng)域的任務(wù)，最終的算力需求是可以被定義并趨同的。

這一切意味著AI不再是超級(jí)算力、超級(jí)計(jì)算機(jī)上獨(dú)享的能力。AI將會(huì)在任何地方，這同時(shí)也對(duì)我們的通用處理器發(fā)起了挑戰(zhàn)。

DSA可以有效、高效地完成領(lǐng)域任務(wù)，然而C++編程、CPU上的經(jīng)驗(yàn)可能就無(wú)法被利用上。在David Patterson的十大經(jīng)驗(yàn)教訓(xùn)中也提到DSA的軟件棧目前不及CPU，在編譯器領(lǐng)域還不夠成熟。因此，如果DSA能夠利用CPU的豐富且成熟的軟件棧優(yōu)勢(shì)，將會(huì)是一種強(qiáng)大的組合。

例如，CUDA提供了多種常用編程語(yǔ)言的支持，并通過(guò)關(guān)鍵字拓展的方式進(jìn)行并行軟件編程，加上其本身卓越的通用計(jì)算能力，使得其開(kāi)發(fā)生態(tài)越來(lái)越壯大。有些實(shí)力雄厚的客戶甚至放棄使用TensoRT，通過(guò)自身的GPGPU技術(shù)積累開(kāi)發(fā)出適合自身業(yè)務(wù)需求的更高效的軟件，比NVIDIA提供的TensoRT性能提高了一倍。

那么我們何不在CPU上提供AI算力呢？正如過(guò)去在CPU上長(zhǎng)出適合多媒體處理的算力一樣。在過(guò)去的時(shí)代，即使在頻率提升緩慢的情況下，CPU上的浮點(diǎn)能力由于SIMD拓展得到了巨大的提升，并隨著SIMD數(shù)據(jù)并行寬度的提升而有一個(gè)線性的增長(zhǎng)。

圖十一：Intel處理器發(fā)布年份與算力峰值構(gòu)成

圖十二：SIMD計(jì)算指令的位寬發(fā)展

近年來(lái)，Intel x86 CPU處理器上的SIMD由64bit的MMX（Multi Media eXtension，多媒體擴(kuò)展指令集）增長(zhǎng)到了512bit的數(shù)學(xué)拓展AVX512與AI拓展VNNI，使得在四核Core i7-1185G7 @ 3.00GHz的處理器上可以獲取3Tops的算力。提供了AI所謂的MAC能力，加之本身的通用SIMD計(jì)算能力是可以有效COVER如智能機(jī)器人、智能視頻、語(yǔ)音終端設(shè)備等AI場(chǎng)景。但此等SOC做AI終端過(guò)于奢侈，且定位還是通用而不是AI DSA。

Intel最新的AMX矩陣拓展架構(gòu)、Arm架構(gòu)下的SME矩陣拓展架構(gòu)以及IBM的AMM指令集更是將CPU能提供的AI算力又提升了一個(gè)臺(tái)階。在架構(gòu)代號(hào)為Sapphire Rapids的server級(jí)處理器上可以通過(guò)AMX獲得每時(shí)鐘周期1024個(gè)mac是VNNI拓展提供的算力的8倍（128個(gè)mac每時(shí)鐘周期）。

圖十三：Intel矩陣指令拓展相較于向量指令拓展提升巨大

CPU上完全可以長(zhǎng)出使能AI應(yīng)用大算力，正如過(guò)去長(zhǎng)出了適合多媒體處理的算力。

為什么是RISC-V？

如果要對(duì)CPU架構(gòu)進(jìn)行領(lǐng)域定制，需要獲取對(duì)應(yīng)的架構(gòu)級(jí)授權(quán)（Architectural License）。區(qū)別于IP Core的授權(quán)，架構(gòu)級(jí)授權(quán)特指指令集（ISA）授權(quán)，允許客戶自行定制優(yōu)化。

關(guān)于CPU業(yè)界兩大陣營(yíng)x86與ARM的架構(gòu)授權(quán)的情況是什么樣的呢？x86的專利主要掌握在英特爾和AMD這兩家公司手中，到目前為止國(guó)內(nèi)沒(méi)有任何一家廠商擁有x86的架構(gòu)級(jí)授權(quán)，海光信息與兆芯采用的是 x86 架構(gòu) IP 內(nèi)核授權(quán)模式。海思、飛騰均已經(jīng)獲得 ARMv8架構(gòu)的永久授權(quán)。盡管 ARM 此前表態(tài) ARMv9 架構(gòu)不受美國(guó)出口管理?xiàng)l例(EAR)約束，華為海思等國(guó)內(nèi)CPU產(chǎn)商依然可獲授權(quán)，但是ARMv9不再提供永久授權(quán)，采用 ARM 架構(gòu)仍有長(zhǎng)期隱患。而且即使在擁有ARM架構(gòu)級(jí)授權(quán)的情況下做出指令集定制與改動(dòng)，也必須經(jīng)由ARM參與支持修改才可以，否則將觸發(fā)違約條款。

RISC-V 因其相對(duì)精簡(jiǎn)的指令集架構(gòu)（ISA）以及開(kāi)源寬松的 BSD 協(xié)議使得Fabless可以基于RISC-V架構(gòu)進(jìn)行任意的架構(gòu)拓展與定制。相信RISC-V DSA可以利用其經(jīng)典的CPU的編程模型與相對(duì)低成本獲取的AI算力，加之標(biāo)準(zhǔn)RISC-V Vector拓展提供的通用算力，能夠給AI嵌入式場(chǎng)景下1-10T算力需求范圍的AI產(chǎn)業(yè)應(yīng)用帶來(lái)全新的商業(yè)化硬件方案。

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

芯片

芯片

+關(guān)注

關(guān)注
459

文章
52350

瀏覽量
438588
cpu

cpu

+關(guān)注

關(guān)注
68

文章
11063

瀏覽量
216461
RISC-V

RISC-V

+關(guān)注

關(guān)注
46

文章
2525

瀏覽量
48496
banana pi

banana pi

+關(guān)注

關(guān)注
1

文章
124

瀏覽量
3451
AI算力

AI算力

+關(guān)注

關(guān)注
0

文章
94

瀏覽量
9194
進(jìn)迭時(shí)空

進(jìn)迭時(shí)空

+關(guān)注

關(guān)注
0

文章
29

瀏覽量
94

搜索歷史

RISC-V架構(gòu)下DSA-AI算力的更多可能性：Banana Pi BPI-F3進(jìn)迭時(shí)空

評(píng)論

電子發(fā)燒友