近年來(lái),5G、自動(dòng)駕駛、超大規(guī)模計(jì)算,以及工業(yè)物聯(lián)網(wǎng)等領(lǐng)域呈現(xiàn)出強(qiáng)勁的發(fā)展勢(shì)頭。推動(dòng)這些高速發(fā)展的產(chǎn)業(yè)是AI(人工智能)和ML(機(jī)器學(xué)習(xí))的大規(guī)模應(yīng)用。這種全新的技術(shù)布局不僅加速了更復(fù)雜的計(jì)算需求、更強(qiáng)的功能性和更快的數(shù)據(jù)傳輸速度,同時(shí)也為芯片研發(fā)人員帶來(lái)了前所未有的挑戰(zhàn):即下一代芯片必須更快且更智能。
在當(dāng)前的背景下,由于算力和存儲(chǔ)需求正面臨爆發(fā)式增長(zhǎng),這直接導(dǎo)致推動(dòng)先進(jìn)SoC(系統(tǒng)級(jí)芯片)設(shè)計(jì)和驗(yàn)證的壓力也呈指數(shù)級(jí)增加。特別是在集成電路規(guī)模越來(lái)越龐大的現(xiàn)實(shí)情況下,從設(shè)計(jì)到流片(Tape-out)的全流程中,驗(yàn)證變得尤為重要。這是因?yàn)橛行У尿?yàn)證不僅確保了電路在設(shè)計(jì)層面的完善,還保證了其在實(shí)際應(yīng)用中的穩(wěn)定運(yùn)行,從而降低了修正和調(diào)整的成本和時(shí)間。
為了應(yīng)對(duì)這一挑戰(zhàn)并縮短驗(yàn)證周期,硬件仿真成為了超大規(guī)模集成電路驗(yàn)證的首選工具。它能在最短的時(shí)間內(nèi)完成對(duì)電路功能的全面驗(yàn)證,這樣就大大減少了整個(gè)設(shè)計(jì)到生產(chǎn)的周期。同時(shí),AI/ML算力的飛速增長(zhǎng)不僅促進(jìn)了EDA(電子設(shè)計(jì)自動(dòng)化)工具的快速演進(jìn),還與EDA工具結(jié)合,催生了一種“雙向加速”的良性循環(huán)。
去年年底,思爾芯推出了首款國(guó)產(chǎn)企業(yè)級(jí)硬件仿真系統(tǒng)——芯神鼎OmniArk。值得一提的是,芯神鼎已將AI應(yīng)用于編譯流程中,這無(wú)疑推動(dòng)了芯片設(shè)計(jì)領(lǐng)域的發(fā)展。
芯神鼎硬件仿真系統(tǒng)采用了由AI驅(qū)動(dòng)的智能編譯引擎,該引擎能夠在編譯流程中極大地減少編譯時(shí)間和內(nèi)存占用,實(shí)現(xiàn)增量編譯,并能智能匹配P&R(布局與布線)策略,從而顯著提高布線的成功率。本文將從多個(gè)獨(dú)立模塊的角度,深入探討芯神鼎硬件仿真系統(tǒng)的智能編譯流程。
并行綜合:打破傳統(tǒng)編譯瓶頸
傳統(tǒng)綜合方法充滿了局限性。在集成電路設(shè)計(jì)領(lǐng)域,傳統(tǒng)綜合方法主要有兩種:Top-down綜合和Bottom-up綜合。
1.Top-down綜合
該方法對(duì)整個(gè)設(shè)計(jì)進(jìn)行處理,以實(shí)現(xiàn)徹底的優(yōu)化。盡管優(yōu)化程度高,但這一方案的綜合時(shí)間通常非常長(zhǎng),不適用于迅速變化的項(xiàng)目周期。
2.Bottom-up綜合
此方法首先對(duì)底層模型進(jìn)行獨(dú)立綜合,然后逐步并入上層模塊進(jìn)行綜合。雖然這適用于一些包含獨(dú)立IP的復(fù)雜設(shè)計(jì),但其在超大規(guī)模集成電路(VLSI)應(yīng)用中表現(xiàn)出速度和靈活性的明顯不足。
對(duì)于超大規(guī)模集成電路,這兩種傳統(tǒng)綜合方法通常成為編譯過(guò)程的瓶頸。除了時(shí)間效率低下,其對(duì)計(jì)算資源,特別是內(nèi)存的占用也相當(dāng)巨大。
芯神鼎硬件仿真系統(tǒng)對(duì)并行綜合進(jìn)行了創(chuàng)新,采用Module-by-Module的綜合方式,徹底改變了這一現(xiàn)狀。首先,芯神鼎針對(duì)整個(gè)設(shè)計(jì)進(jìn)行必要的全局處理和優(yōu)化,例如XMR(Cross-Module Reference)處理。接著,以Module為最小粒度,啟動(dòng)多核并行綜合過(guò)程。
這一步是本系統(tǒng)最大的創(chuàng)新之一,它允許系統(tǒng)充分利用服務(wù)器/集群的并行計(jì)算性能。在所有模塊綜合完成之后,系統(tǒng)進(jìn)一步進(jìn)行跨模塊邊界(Cross Module Boundary)邏輯優(yōu)化。此外,芯神鼎能根據(jù)服務(wù)器配置和實(shí)際負(fù)載動(dòng)態(tài)調(diào)節(jié)并行任務(wù)數(shù)量,以實(shí)現(xiàn)負(fù)載均衡。
這種并行綜合方法大大加速了超大規(guī)模集成電路設(shè)計(jì)的整體綜合效率。實(shí)際應(yīng)用中,對(duì)于多核NVDLA(NVIDIA Deep Learning Accelerator)這樣的復(fù)雜設(shè)計(jì)。
經(jīng)測(cè)試,其加速率可以達(dá)到驚人的10~100倍,尤其在多核設(shè)計(jì)中表現(xiàn)出色。 通過(guò)創(chuàng)新的并行綜合技術(shù),芯神鼎硬件仿真系統(tǒng)成功地突破了傳統(tǒng)綜合方法在時(shí)間和資源效率方面的局限,為超大規(guī)模集成電路設(shè)計(jì)帶來(lái)了前所未有的效率提升。
圖一:并行綜合流程
高效率與高質(zhì)量的智能P&R
在基于硬件仿真的超大規(guī)模設(shè)計(jì)流程中,P&R(布局與布線)通常是編譯的最后一步,負(fù)責(zé)生成最終的bitstream文件。雖然現(xiàn)有的編譯工具提供了多種P&R選項(xiàng),目的是適應(yīng)不同設(shè)計(jì)需求和優(yōu)化目標(biāo),但實(shí)際情況卻遠(yuǎn)沒(méi)有那么簡(jiǎn)單。由于各種SoC需求和應(yīng)用場(chǎng)景的多樣性,幾乎沒(méi)有一種“通用”的P&R選項(xiàng)組合能適用于所有場(chǎng)景。因此,開(kāi)發(fā)人員需要根據(jù)特定的設(shè)計(jì)需求,手動(dòng)選擇或調(diào)整P&R選項(xiàng),以求達(dá)到最佳的設(shè)計(jì)輸出。
1. 基于機(jī)器學(xué)習(xí)的智能P&R
芯神鼎硬件仿真系統(tǒng)突破了這一局限,采用基于機(jī)器學(xué)習(xí)(ML)的智能P&R方法。通過(guò)使用大量的實(shí)際P&R數(shù)據(jù)進(jìn)行深度訓(xùn)練,系統(tǒng)生成的ML模型能在推理階段輸出最優(yōu)的P&R參數(shù)組合。更值得一提的是,這種基于數(shù)據(jù)驅(qū)動(dòng)的方法在多個(gè)關(guān)鍵性能指標(biāo)上都超過(guò)了人工專(zhuān)家的判斷。例如,在布線成功率方面,經(jīng)測(cè)試,可以顯著提高布線通過(guò)率;同時(shí),P&R所需的總時(shí)間也可大幅度減少。
2.優(yōu)化任務(wù)調(diào)度和并行計(jì)算
除了使用機(jī)器學(xué)習(xí)進(jìn)行智能選項(xiàng)推薦外,芯神鼎硬件仿真系統(tǒng)還進(jìn)一步優(yōu)化了任務(wù)調(diào)度算法。通過(guò)智能任務(wù)調(diào)度,系統(tǒng)能確保在進(jìn)行P&R操作時(shí)充分利用編譯服務(wù)器的多核計(jì)算能力。具體的并行能力和效率提升取決于編譯服務(wù)器的性能和配置。
通過(guò)集成基于機(jī)器學(xué)習(xí)的智能P&R以及高效的任務(wù)調(diào)度和并行計(jì)算功能,芯神鼎硬件仿真系統(tǒng)為FPGA設(shè)計(jì)提供了一種更高效、更質(zhì)量可控的解決方案。這不僅大幅減少了編譯時(shí)間,同時(shí)也顯著提升了輸出結(jié)果的質(zhì)量。
圖二:任務(wù)調(diào)度和并行計(jì)算流程
增量編譯
在超大規(guī)模集成電路(VLSI)的設(shè)計(jì)過(guò)程中,即使進(jìn)行了多方面的編譯流程優(yōu)化,編譯時(shí)間依然可能成為項(xiàng)目進(jìn)度的瓶頸。更進(jìn)一步地說(shuō),對(duì)于那些已經(jīng)編譯過(guò)但需做細(xì)微修改的工程,每次都進(jìn)行全量編譯會(huì)大大延長(zhǎng)開(kāi)發(fā)周期,耗費(fèi)人力和計(jì)算資源。
增量編譯(Incremental Compilation)是一種編程優(yōu)化策略,用于加快編譯過(guò)程。在一個(gè)大型或復(fù)雜的代碼基礎(chǔ)上,每次進(jìn)行全量編譯(即重新編譯整個(gè)代碼基礎(chǔ))通常會(huì)消耗大量時(shí)間和計(jì)算資源。增量編譯的目標(biāo)是只重新編譯自上次編譯后發(fā)生變化或被影響的代碼部分,而不是整個(gè)代碼庫(kù)。
增量編譯系統(tǒng)首先會(huì)跟蹤代碼中各模塊、函數(shù)或文件的依賴關(guān)系。當(dāng)某一部分代碼發(fā)生改動(dòng)后,編譯系統(tǒng)會(huì)識(shí)別這一改動(dòng),并查找所有依賴于該部分的其他代碼。只有被改動(dòng)的代碼和依賴于它的代碼會(huì)被重新編譯。其它未改動(dòng)和不受影響的代碼則不需要重新編譯。重新編譯的代碼會(huì)與舊的編譯結(jié)果合并,生成一個(gè)更新的可執(zhí)行文件或庫(kù)。對(duì)于代碼庫(kù)非常大的項(xiàng)目,增量編譯幾乎是必需的。
芯神鼎硬件仿真系統(tǒng)便采用了這種增量編譯策略。它采用了一種先進(jìn)的增量編譯引擎,該引擎涵蓋了綜合模塊、Partition模塊以及工程生成模塊等關(guān)鍵部分。這些模塊都集成了增量編譯技術(shù),可以在二次編譯過(guò)程中智能感知用戶所做的任何修改。這種自動(dòng)感知機(jī)制極大地減少了重新編譯所需的計(jì)算量,因?yàn)樗会槍?duì)修改過(guò)的部分進(jìn)行編譯,而非整個(gè)設(shè)計(jì)。這樣不僅大幅度縮短了編譯時(shí)間,還優(yōu)化了資源使用效率。
圖三:增量編譯流程
總結(jié)
AI+EDA的結(jié)合代表了一次跨越式的技術(shù)進(jìn)步,它不僅有望延續(xù)并拓展摩爾定律的生命周期,還能顯著節(jié)約研發(fā)時(shí)間和資本投入,提升行業(yè)整體競(jìng)爭(zhēng)力。進(jìn)一步地,這一結(jié)合還為全球芯片設(shè)計(jì)領(lǐng)域開(kāi)創(chuàng)了全新的可能性,比如通過(guò)機(jī)器學(xué)習(xí)算法優(yōu)化設(shè)計(jì)流程,從而縮短產(chǎn)品上市時(shí)間,或者在更短的時(shí)間內(nèi)完成更為復(fù)雜的設(shè)計(jì)任務(wù)。
芯神鼎硬件仿真系統(tǒng)集多種創(chuàng)新技術(shù)于一身,如并行綜合、智能P&R和增量編譯等模塊,不僅大幅度縮短了編譯時(shí)間,還提高了整體編譯質(zhì)量。這些模塊都運(yùn)用了我們自主研發(fā)的先進(jìn)技術(shù),為客戶在超大規(guī)模集成電路驗(yàn)證方面提供了強(qiáng)有力的支持。除了應(yīng)對(duì)現(xiàn)有的編譯挑戰(zhàn),我們的解決方案還具備極強(qiáng)的可擴(kuò)展性,能夠適應(yīng)未來(lái)更高復(fù)雜度的工程需求。
通過(guò)持續(xù)的研發(fā)和創(chuàng)新,芯神鼎硬件仿真系統(tǒng)有望成為推動(dòng)整個(gè)集成電路設(shè)計(jì)行業(yè)進(jìn)入新“智”元的重要力量,開(kāi)啟一個(gè)全新的、以數(shù)據(jù)和算法為驅(qū)動(dòng)的芯片設(shè)計(jì)時(shí)代。
審核編輯:劉清
-
EDA工具
+關(guān)注
關(guān)注
4文章
268瀏覽量
31884 -
SoC芯片
+關(guān)注
關(guān)注
1文章
617瀏覽量
34989 -
人工智能
+關(guān)注
關(guān)注
1793文章
47622瀏覽量
239569 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8438瀏覽量
132905 -
自動(dòng)駕駛
+關(guān)注
關(guān)注
784文章
13922瀏覽量
166797
原文標(biāo)題:AI驅(qū)動(dòng)的國(guó)產(chǎn)硬件仿真芯神鼎如何加速超大規(guī)模芯片設(shè)計(jì)
文章出處:【微信號(hào):S2C_Corporation,微信公眾號(hào):思爾芯S2C】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論