0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

當(dāng)CPU算力趨近極限,GPU能否替代CPU滿足數(shù)字芯片設(shè)計(jì)的算力需求?

新思科技 ? 來源:新思科技 ? 2024-04-10 17:19 ? 次閱讀

就數(shù)字設(shè)計(jì)實(shí)現(xiàn)而言,RTL-to-GDSII流程中的每一步都涉及海量計(jì)算。在SoC級別,開發(fā)者需要評估數(shù)百個分區(qū)的各種版圖規(guī)劃選項(xiàng),從而更大限度減少互連中的延遲并提高效率。確定了版圖規(guī)劃后,需要在每個分區(qū)中繼續(xù)執(zhí)行其余步驟,直到完成整個芯片的實(shí)現(xiàn)與簽核環(huán)節(jié)。每個步驟的算力需求本身就很高,再乘以分區(qū)的數(shù)量,不禁讓人懷疑:傳統(tǒng)上用于數(shù)字設(shè)計(jì)的CPU是否已難堪重任?GPU能否替代CPU滿足這樣的算力需求?

目前,GPU以其在人工智能AI)/機(jī)器學(xué)習(xí)(ML)、游戲以及高性能計(jì)算等領(lǐng)域處理極具挑戰(zhàn)性的工作負(fù)載的強(qiáng)大能力而備受推崇。隨著芯片設(shè)計(jì)趨向更大尺寸與更高復(fù)雜性,將GPU的應(yīng)用范圍延伸到數(shù)字芯片設(shè)計(jì)實(shí)現(xiàn)領(lǐng)域,或許正當(dāng)其時。

EDA工作負(fù)載面臨的CPU算力瓶頸

CPU一直被譽(yù)為計(jì)算機(jī)的“大腦”?,F(xiàn)代CPU集成了數(shù)十億個晶體管和多個處理內(nèi)核,適合執(zhí)行各種任務(wù),并且處理速度極快。另一方面,GPU最初是為了特定用途而設(shè)計(jì)的,但隨著時間推移,GPU也逐漸演變?yōu)槟軌驈V泛用于并行處理任務(wù)的通用處理器了。

傳統(tǒng)上,電子設(shè)計(jì)自動化(EDA)的工作負(fù)載主要在基于x86架構(gòu)的CPU上運(yùn)行。然而,Multi-Die等復(fù)雜架構(gòu)的普及,使得CPU的算力逐漸接近極限??紤]到芯片開發(fā)團(tuán)隊(duì)經(jīng)常面臨產(chǎn)品上市時間的壓力,任何能加速芯片設(shè)計(jì)流程的工具和技術(shù)都將極具價值。在驗(yàn)證和分析階段,由于GPU的卓越計(jì)算性能,新思科技的PrimeSim和VCS仿真流程已經(jīng)實(shí)現(xiàn)了顯著的速度提升。盡管GPU并不適用于數(shù)字設(shè)計(jì)流程中的所有環(huán)節(jié),但它在某些特定任務(wù)中無疑能夠提供速度上的優(yōu)勢。

在數(shù)據(jù)中心,每個機(jī)箱平均部署64至128個先進(jìn)高性能x86 CPU內(nèi)核,部分機(jī)箱甚至有多達(dá)200個內(nèi)核。某些任務(wù)需求對內(nèi)核數(shù)量要求更高,因此需要多個機(jī)箱協(xié)同進(jìn)行分布式處理。但如果網(wǎng)速不匹配,這種分布式處理就會帶來額外的通信成本。RTL-to-GDSII流程和優(yōu)化技術(shù)中包含許多相互依賴的關(guān)系。要成功并行執(zhí)行流程中的每個作業(yè),進(jìn)行分布式處理的各個CPU機(jī)箱之間必須能夠非??焖俚赝瓿蓴?shù)據(jù)共享,不能有任何延遲。然而在實(shí)際情況中,網(wǎng)絡(luò)延遲對處理周期時間有著顯著影響,進(jìn)而導(dǎo)致整個RTL-to-GDSII流程的分布式并行難以達(dá)到理想效果。

另一方面,GPU內(nèi)核可以輕松地進(jìn)行擴(kuò)展。由于每個GPU內(nèi)核承擔(dān)的操作較少而且體積極小,一個插槽內(nèi)可以集成數(shù)萬個內(nèi)核,這樣便可在占用空間可控的情況下,提供強(qiáng)大的處理能力。那些能從大規(guī)模并行處理中受益的任務(wù)非常適合交由GPU處理。然而,這些任務(wù)通常需要是單向的,因?yàn)槿魏涡枰獩Q策和迭代的任務(wù)都會減慢處理速度,“或者/并且”需要返回CPU進(jìn)行復(fù)雜的“if then else”條件判斷邏輯。這就意味著,在RTL-to-GDSII數(shù)字實(shí)現(xiàn)流程中,并非所有任務(wù)都適合用GPU來執(zhí)行。

通過GPU加速來加快布局過程

在數(shù)字設(shè)計(jì)流程中,自動布局是一項(xiàng)已經(jīng)在GPU上得到充分應(yīng)用并顯示出巨大潛力的任務(wù)。新思科技的Fusion Compiler采用了GPU加速布局技術(shù),在商業(yè)環(huán)境下的原型測試中,相較于傳統(tǒng)CPU,已經(jīng)證明了其在縮短周轉(zhuǎn)時間方面的顯著優(yōu)勢:

38秒即可完成一個3nm GPU流式多處理器設(shè)計(jì)的布局,其中包含140萬個可布局標(biāo)準(zhǔn)單元和20個可布局硬宏,相比之下,CPU驅(qū)動的布局需要13分鐘才能完成

82秒即可完成一個12nm汽車CPU設(shè)計(jì)的布局,其中包含290萬個可布局標(biāo)準(zhǔn)單元和200個可布局硬宏,相比之下,CPU驅(qū)動的布局需要19分鐘才能完成

結(jié)合新思科技AI驅(qū)動的設(shè)計(jì)空間優(yōu)化解決方案DSO.ai,我們預(yù)計(jì)在保持相同完成時間線的前提下,將AI驅(qū)動型搜索空間擴(kuò)大15至20倍。這一進(jìn)步有望幫助開發(fā)團(tuán)隊(duì)在功耗、性能和面積(PPA)方面實(shí)現(xiàn)更卓越的設(shè)計(jì)成果。

在數(shù)字設(shè)計(jì)的多個實(shí)施步驟中,版圖規(guī)劃和布局對最終設(shè)計(jì)的功耗、性能和面積(PPA)有著重大影響,因此這兩個步驟是最需要進(jìn)行廣泛探索的環(huán)節(jié)。即便GPU計(jì)算資源通常與高性能CPU計(jì)算集群分離,我們也能預(yù)見,在基于GPU的布局技術(shù)支持下,開發(fā)者能夠高效完成工作。然而,在RTL-to-GDSII的整個實(shí)施流程中,如果其他環(huán)節(jié)存在即時或交替的GPU加速需求,設(shè)計(jì)數(shù)據(jù)在CPU與GPU集群之間的傳輸所引入的延遲,會對吞吐量產(chǎn)生影響。

新型數(shù)據(jù)中心SoC正在設(shè)計(jì)中引入CPU與GPU資源間的統(tǒng)一內(nèi)存,以處理TB級的工作負(fù)載。得益于這類新興架構(gòu),利用GPU加速時不再需要移動設(shè)計(jì)數(shù)據(jù),我們也能進(jìn)一步思考GPU加速還可以應(yīng)用在數(shù)字設(shè)計(jì)流程的哪些其他方面。特別是當(dāng)開發(fā)者能夠?qū)PU與AI驅(qū)動的實(shí)施工具結(jié)合使用時,那必將實(shí)現(xiàn)更快的探索、更廣的范圍以及更優(yōu)的結(jié)果。此外,新思科技的AI驅(qū)動型全棧式EDA解決方案Synopsys.ai,能夠助力開發(fā)者實(shí)現(xiàn)更佳的性能、功耗與面積(PPA)結(jié)果、更快達(dá)成目標(biāo)、并顯著提升開發(fā)效率、實(shí)現(xiàn)更高的工程生產(chǎn)力,我們可以預(yù)見GPU加速技術(shù)的加入將進(jìn)一步革新芯片設(shè)計(jì)領(lǐng)域。

總結(jié)

在芯片設(shè)計(jì)流程的仿真階段,GPU的運(yùn)用已司空見慣,數(shù)字設(shè)計(jì)流程的其他部分也將逐漸展現(xiàn)出利用GPU加速的潛力。面對大型芯片或Multi-Die這類復(fù)雜架構(gòu),CPU在運(yùn)行RTL-to-GDSII流程時的算力已接近飽和,難以滿足所期望的處理速度。而GPU以其卓越的可擴(kuò)展性和處理能力,有望實(shí)現(xiàn)更快的設(shè)計(jì)周期和更佳的芯片性能。在使用GPU加速的布局工具進(jìn)行的原型設(shè)計(jì)測試中,布局速度已實(shí)現(xiàn)高達(dá)20倍的提升。隨著AI技術(shù)逐步融入EDA流程中,GPU的加入將顯著提升功耗、面積和性能(PPA)指標(biāo),同時縮短產(chǎn)品上市時間。

審核編輯:劉清
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • SoC設(shè)計(jì)
    +關(guān)注

    關(guān)注

    1

    文章

    148

    瀏覽量

    18774
  • 人工智能
    +關(guān)注

    關(guān)注

    1791

    文章

    47279

    瀏覽量

    238485
  • RTL
    RTL
    +關(guān)注

    關(guān)注

    1

    文章

    385

    瀏覽量

    59785
  • 數(shù)字芯片
    +關(guān)注

    關(guān)注

    1

    文章

    110

    瀏覽量

    18398
  • GPU芯片
    +關(guān)注

    關(guān)注

    1

    文章

    303

    瀏覽量

    5812

原文標(biāo)題:當(dāng)CPU算力趨近極限,GPU能否成為數(shù)字芯片設(shè)計(jì)的救星?

文章出處:【微信號:Synopsys_CN,微信公眾號:新思科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    企業(yè)AI租賃是什么

    企業(yè)AI租賃是指企業(yè)通過互聯(lián)網(wǎng)向?qū)I(yè)的提供商租用所需的計(jì)算資源,以滿足其AI應(yīng)用的需求
    的頭像 發(fā)表于 11-14 09:30 ?590次閱讀

    GPU開發(fā)平臺是什么

    隨著AI技術(shù)的廣泛應(yīng)用,需求呈現(xiàn)出爆發(fā)式增長。AI租賃作為一種新興的服務(wù)模式,正逐漸成為企業(yè)獲取
    的頭像 發(fā)表于 10-31 10:31 ?184次閱讀

    【一文看懂】大白話解釋“GPUGPU

    隨著大模型的興起,“GPU”這個詞正頻繁出現(xiàn)在人工智能、游戲、圖形設(shè)計(jì)等工作場景中,什么是GPU,它與CPU的區(qū)別是什么?以及到底什么是
    的頭像 發(fā)表于 10-29 08:05 ?626次閱讀
    【一文看懂】大白話解釋“<b class='flag-5'>GPU</b>與<b class='flag-5'>GPU</b><b class='flag-5'>算</b><b class='flag-5'>力</b>”

    【「芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】--了解芯片CPU

    。 █在芯片設(shè)計(jì)中,芯片拓?fù)?Topology)結(jié)構(gòu)非常重要。 ●環(huán)形(Ring)拓?fù)浞绞绞且环N將多個處理單元連接成環(huán)形結(jié)構(gòu)的片上總線技術(shù)結(jié)構(gòu)中,每個處理單元都與環(huán)上的兩個相鄰處理
    發(fā)表于 10-20 12:03

    芯片 高性能 CPU/GPU/NPU 微架構(gòu)分析》第1-4章閱讀心得——之巔:從基準(zhǔn)測試到CPU微架構(gòu)的深度探索

    的支持?,F(xiàn)代CPU的設(shè)計(jì)不僅注重性能的提升,還特別關(guān)注能效比和靈活性,以適應(yīng)不斷變化的計(jì)算需求芯片的發(fā)展史,某種程度上就是人類智慧的結(jié)
    發(fā)表于 10-19 01:21

    【「芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】--全書概覽

    本帖最后由 1653149838.791300 于 2024-10-16 22:19 編輯 感謝平臺提供的書籍,厚厚的一本,很有分量,感謝作者的傾力付出成書。 本書主要講芯片CPU
    發(fā)表于 10-15 22:08

    名單公布!【書籍評測活動NO.43】 芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析

    的強(qiáng)有力競爭者;蘋果、Cerebras、Ampere、特斯拉等企業(yè)的加入讓這場“芯片戰(zhàn)爭”更加熱鬧。 CPUGPU、NPU等
    發(fā)表于 09-02 10:09

    的分類與現(xiàn)代生活

    的提升使得用戶能夠享受到更加流暢和豐富的數(shù)字體驗(yàn)。 個人通常指的是個人使用的計(jì)算設(shè)備,如智能手機(jī)、個人電腦、平板電腦等。這些設(shè)備通過中央處理器(
    的頭像 發(fā)表于 08-26 15:05 ?210次閱讀
    <b class='flag-5'>算</b><b class='flag-5'>力</b>的分類與現(xiàn)代生活

    大模型時代的需求

    現(xiàn)在AI已進(jìn)入大模型時代,各企業(yè)都爭相部署大模型,但如何保證大模型的,以及相關(guān)的穩(wěn)定性和性能,是一個極為重要的問題,帶著這個極為重要的問題,我需要在此書中找到答案。
    發(fā)表于 08-20 09:04

    服務(wù)器為什么選擇GPU

    隨著人工智能技術(shù)的快速普及,需求日益增長。智中心的服務(wù)器作為支撐大規(guī)模數(shù)據(jù)處理和計(jì)算的核心設(shè)備,其性能優(yōu)化顯得尤為關(guān)鍵。而GPU服務(wù)器
    的頭像 發(fā)表于 07-25 08:28 ?632次閱讀
    <b class='flag-5'>算</b><b class='flag-5'>力</b>服務(wù)器為什么選擇<b class='flag-5'>GPU</b>

    摩爾線程張建中:以國產(chǎn)助力數(shù)智世界,滿足大模型需求

    摩爾線程創(chuàng)始人兼CEO張建中在會上透露,為了滿足國內(nèi)對AI的迫切需求,他們正在積極尋求與國內(nèi)頂尖科研機(jī)構(gòu)的深度合作,共同推動更大規(guī)模的AI智
    的頭像 發(fā)表于 05-10 16:36 ?959次閱讀

    Sora需求引發(fā)業(yè)界對集結(jié)國內(nèi)AI企業(yè)的探討

    據(jù)周鴻祎觀察,Sora視頻分析所需恐遠(yuǎn)超千億規(guī)模模型。因而,考慮到如今國內(nèi)芯片供應(yīng)受限,問題至關(guān)重要。事實(shí)上,Meta已有約50萬臺
    的頭像 發(fā)表于 02-25 10:03 ?588次閱讀

    大茉莉X16-P,5800M大稱王稱霸

    Rykj365
    發(fā)布于 :2024年01月25日 14:54:52

    深入了解浮點(diǎn)運(yùn)算—CPUGPU是如何計(jì)算的?

    隨著國家大力發(fā)展數(shù)字經(jīng)濟(jì),的提升和普惠變得越來越重要。在數(shù)字化時代,已成為推動科技發(fā)展和
    的頭像 發(fā)表于 01-18 18:20 ?4116次閱讀
    深入了解浮點(diǎn)運(yùn)算—<b class='flag-5'>CPU</b>和<b class='flag-5'>GPU</b><b class='flag-5'>算</b><b class='flag-5'>力</b>是如何計(jì)算的?

    GPU是顯卡嗎 cpugpu哪個強(qiáng)

    很大的區(qū)別,因此它們的計(jì)算能力也不同。 首先,我們來看一下CPU(中央處理器)的。CPU是一種通用處理器,它被設(shè)計(jì)用于處理各種不同類型的任務(wù),包括數(shù)據(jù)處理、指令執(zhí)行、邏輯控制等。
    的頭像 發(fā)表于 01-10 15:45 ?5287次閱讀