隨著人工智能的熱潮席卷全球,作為人工智能的核心引擎的AI芯片也變得炙手可熱。而采用非馮·諾依曼創(chuàng)新計算架構的存算一體芯片,從設計到驗證、生產(chǎn)制造,也都吸引了行業(yè)內(nèi)外的關注。從新架構的落地和應用的角度來看,存算一體與傳統(tǒng)AI芯片的異同點在哪里?這些異同點對最終芯片產(chǎn)品的影響是什么?
本期我們邀請了后摩智能的研發(fā)和驗證工程師,為我們解答后摩的存算一體芯片從設計到制造全流程:作為AI芯片中的一種創(chuàng)新架構,后摩智能的存算一體芯片采用的是底層無侵入式創(chuàng)新,在芯片的驗證、制造封裝環(huán)節(jié)上與傳統(tǒng)AI芯片沒有本質(zhì)性區(qū)別,只需要單獨針對存算IP進行開發(fā)、交付與驗證。
Q1?存算一體芯片的設計過程是怎樣的?這些過程與傳統(tǒng)AI芯片的差異是什么?
A:存算一體芯片的設計過程大致如下:
(1)根據(jù)產(chǎn)品定義確定存算一體芯片架構;
(2)存內(nèi)計算IP的設計;
(3)存算一體芯片架構的建模設計和制定;通常(2)和(3)并行。
(4)存算一體芯片的前端驗證、IP集成和物理實現(xiàn)、后仿驗證等。
跟傳統(tǒng)AI芯片差異主要在于,需要對于存內(nèi)計算IP進行單獨的開發(fā)和交付,并需要結合存內(nèi)計算IP的特性對整體芯片架構進行大量的迭代等。
Q2?存算一體芯片的驗證流程包括哪些步驟?
A:一般芯片驗證從層級上可以大概劃分為IP level,Subsystem level,和SoC level的驗證;根據(jù)項目的階段可以分為前端驗證和后端驗證;驗證手段包括直接驗證,隨機驗證,通過ref model檢查或者斷言檢查等;
對于存算一體芯片,驗證流程和方法學和一般AI芯片相同,只是在某些階段會額外增強,確保芯片功能正確,性能滿足要求。
存算一體芯片核心計算單元是自研電路實現(xiàn),如果將該部分電路和其他數(shù)字電路一起仿真,需要采用數(shù)?;旌戏抡妫豢窟@點的話,仿真速度無法接受。設計團隊開發(fā)專門的model替代存算電路用于Subsystem及SoC Level驗證,驗證團隊會搭建專門的驗證平臺及Ref Model,驗證該Model的功能正確性。
對于存算電路,會有一個wrapper,驗證會基于該wrapper搭建存算一體芯片特有的數(shù)?;旆耇B,在該TB上驗證數(shù)字邏輯和存算電路的接口時序及存算電路的功能正確性。對于接口時序會開發(fā)大量的斷言檢查時序,對于功能則使用開發(fā)好的ref model檢查。
在后仿階段,因為仿真效率的原因,依然使用專門的model替代存算電路,但是會從存算電路中抽取實際的timing數(shù)據(jù),反標到model接口上,完成數(shù)字電路和存算電路的接口timing檢查。
通過以上方式,在確保功能正確,性能滿足要求的同時,驗證效率也不會損失,滿足項目進度要求。
Q3?存算一體芯片的制造過程是怎樣的?與傳統(tǒng)AI芯片是否一致?
A:存算一體的AI芯片創(chuàng)新主要是底層計算單元架構和設計上的創(chuàng)新,通過存儲單元增加運算功能,消除內(nèi)存墻以達到提高系統(tǒng)能效和計算速度的目的。
在晶圓制造方面,相對于傳統(tǒng)AI芯片(大部分是GPGPU)沒有本質(zhì)差別。存算的一個優(yōu)勢是不需要昂貴的尖端晶圓工藝(5/3 nm),可以使用更為成熟可靠的晶圓工藝。
后摩智能在研發(fā)的技術和產(chǎn)品,依據(jù)存算一體的存儲單元類型,可以分為SRAM存算,RRAM和MRAM存算等,在晶圓制造這一塊是完全兼容目前的主流邏輯工藝。
業(yè)界還有DRAM和Flash單元為基礎的存算,這會帶來更復雜的生產(chǎn)制造和良率提升流程。
以目前發(fā)布的SRAM存算SoC后摩鴻途H30為例,采用12nm成熟的邏輯工藝和對應的版圖設計規(guī)則 ,沒有增加特殊的晶圓生產(chǎn)工藝和設備。
電路設計使用成熟的標準單元工藝庫文件和晶體管器件,及相應的物理設計和簽核規(guī)則。由于沒有引入額外的光罩,在生產(chǎn)周期,光罩和晶圓成本上和傳統(tǒng)芯片一致,后續(xù)在產(chǎn)能擴充和良率提升上也更為友好。
Q4?存算一體芯片的封裝和測試過程如何進行?
A:存算一體芯片的封裝工藝與傳統(tǒng)的AI 芯片相比沒有本質(zhì)區(qū)別。
存算的一個優(yōu)勢是芯片更小,可以使用業(yè)界更為成熟的封裝產(chǎn)線和封裝形式,外形尺寸、基板和BOM也是成熟且可靠。
目前發(fā)布的后摩鴻途H30采用FCBGA 40*40mm封裝,球間距為0.8mm。相對于傳統(tǒng)的GPU類大芯片的復雜基板結構,封裝基板顯著減少了基板層數(shù),成本,良率和交期更優(yōu)。同時采用了優(yōu)化后的高強度的基板核芯材料和ring環(huán),對大封裝芯片常見的翹曲有很好的改善,對SMT良率和PCB失效也非常有益。
存算一體芯片的ATE 自動化測試和傳統(tǒng)的AI 芯片相比,也沒有區(qū)別,采用開發(fā)的成熟的93000 (俗稱93K) 測試機平臺進行三溫測試。
在后摩鴻途H30上,DFT部門開發(fā)了業(yè)界領先的針對存算模塊的測試向量Cbist(BIST of Computing in memory),能對存算單元進行內(nèi)建自測試,減少了對測試機配置和資源的要求,節(jié)約了測試時間,可以對芯片的算力進行出廠測試和分檔。其余的chain,stuck at,mbist等DFT和IP 測試均和傳統(tǒng)芯片類似。由于存算一體芯片SRAM類型的器件占比相對傳統(tǒng)芯片較多,也優(yōu)化了芯片SRAM的自修復功能設計和測試,進一步提升良率。
-
芯片
+關注
關注
455文章
50851瀏覽量
423973 -
晶體管
+關注
關注
77文章
9698瀏覽量
138253 -
AI芯片
+關注
關注
17文章
1887瀏覽量
35047 -
存算一體
+關注
關注
0文章
102瀏覽量
4302
原文標題:存算十問|(八):存算一體芯片生產(chǎn)制造流程與傳統(tǒng)AI芯片的差異是什么?
文章出處:【微信號:后摩智能,微信公眾號:后摩智能】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論