背景
在處理數(shù)據(jù)密集型應(yīng)用時(shí),馮·諾伊曼架構(gòu)面臨嚴(yán)重的性能和能量消耗問題,主要因?yàn)?a target="_blank">處理器和存儲(chǔ)器之間頻繁傳輸大量數(shù)據(jù)。 為應(yīng)對(duì)這一挑戰(zhàn),基于SRAM的存內(nèi)計(jì)算技術(shù)被提出,通過將運(yùn)算單元整合到內(nèi)存中,實(shí)現(xiàn)即存即算的數(shù)據(jù)處理,徹底打破了馮·諾伊曼瓶頸。 馮·諾伊曼架構(gòu)和馮·諾伊曼瓶頸如下圖:
SRAM 存內(nèi)計(jì)算技術(shù)
存內(nèi)計(jì)算技術(shù)是一種新興的存儲(chǔ)器技術(shù),它將存儲(chǔ)單元和計(jì)算單元集成在同一個(gè)存儲(chǔ)器芯片中,從而實(shí)現(xiàn)數(shù)據(jù)在存儲(chǔ)和計(jì)算之間的直接傳輸,而不需要通過外部總線或處理器進(jìn)行數(shù)據(jù)傳輸。這種技術(shù)可以大大提高數(shù)據(jù)處理的效率和能效,因此在人工智能、大數(shù)據(jù)處理等領(lǐng)域具有廣泛的應(yīng)用前景。SRAM(靜態(tài)隨機(jī)存取存儲(chǔ)器)是一種常見的存內(nèi)計(jì)算技術(shù),它具有高速、低功耗、易擴(kuò)展等優(yōu)點(diǎn),因此在存內(nèi)計(jì)算領(lǐng)域得到了廣泛的應(yīng)用。本文將對(duì)SRAM存內(nèi)計(jì)算技術(shù)進(jìn)行綜述,介紹其基本原理、技術(shù)實(shí)現(xiàn)、應(yīng)用場景和未來發(fā)展方向。
知存科技的WTM2101量產(chǎn)芯片采用40nm制程,將神經(jīng)網(wǎng)絡(luò)部署在芯片中,已經(jīng)實(shí)現(xiàn)了滿足端側(cè)算力需求的語音識(shí)別等功能。即將量產(chǎn)的WTM8芯片,采用28nm制程,作為新一代存內(nèi)AI計(jì)算視覺芯片,能夠?qū)崿F(xiàn)圖像的AI超分、插幀、HDR識(shí)別和檢測這樣復(fù)雜的功能[8],現(xiàn)有的一些研究也已經(jīng)證明存算一體可以實(shí)現(xiàn)16bit、32bit的浮點(diǎn)計(jì)算,具備進(jìn)入高算力芯片的能力。
SRAM存內(nèi)計(jì)算技術(shù)的核心思想是將存儲(chǔ)單元和計(jì)算單元集成在一起,從而實(shí)現(xiàn)數(shù)據(jù)在存儲(chǔ)和計(jì)算之間的直接傳輸。這種技術(shù)可以大大提高數(shù)據(jù)處理的效率和能效,因?yàn)閿?shù)據(jù)不需要通過外部總線或處理器進(jìn)行傳輸,從而減少了數(shù)據(jù)傳輸?shù)难舆t和功耗。此外,SRAM存內(nèi)計(jì)算技術(shù)還可以實(shí)現(xiàn)更高的能效比,因?yàn)榇鎯?chǔ)器和計(jì)算單元的集成可以減少電路的復(fù)雜性,從而降低功耗。
SRAM存內(nèi)計(jì)算技術(shù)的實(shí)現(xiàn)方式有多種,其中最常見的是通過在傳統(tǒng)的SRAM存儲(chǔ)單元中集成計(jì)算邏輯來實(shí)現(xiàn)。這種實(shí)現(xiàn)方式可以在不增加額外的硬件開銷的情況下實(shí)現(xiàn)高性能的計(jì)算能力。另一種實(shí)現(xiàn)方式是通過在SRAM存儲(chǔ)器陣列中集成多個(gè)計(jì)算單元,從而實(shí)現(xiàn)更強(qiáng)大的計(jì)算能力。這種實(shí)現(xiàn)方式可以擴(kuò)展到更大的規(guī)模,但需要更多的硬件資源。
SRAM存內(nèi)計(jì)算技術(shù)的應(yīng)用場景非常廣泛,包括人工智能、大數(shù)據(jù)處理、圖像處理、自然語言處理等領(lǐng)域。在人工智能領(lǐng)域,SRAM存內(nèi)計(jì)算技術(shù)可以用于實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的存儲(chǔ)和計(jì)算,從而提高神經(jīng)網(wǎng)絡(luò)的性能和能效。在大數(shù)據(jù)處理領(lǐng)域,SRAM存內(nèi)計(jì)算技術(shù)可以用于實(shí)現(xiàn)高效的數(shù)據(jù)處理和分析,從而提高數(shù)據(jù)處理的速度和精度。在圖像處理和自然語言處理領(lǐng)域,SRAM存內(nèi)計(jì)算技術(shù)可以用于實(shí)現(xiàn)高效的特征提取和模型訓(xùn)練,從而提高圖像和自然語言處理的性能和能效。
基于電壓域的 SRAM 存內(nèi)計(jì)算技術(shù)
基于電壓域的SRAM存內(nèi)計(jì)算技術(shù)是一種將計(jì)算和存儲(chǔ)單元結(jié)合在一起的技術(shù),它利用SRAM存儲(chǔ)單元的電壓變化來實(shí)現(xiàn)計(jì)算功能。這種技術(shù)可以顯著提高處理速度,同時(shí)降低功耗和硬件成本。
在電壓域上實(shí)現(xiàn)的 SRAM 存內(nèi)計(jì)算技術(shù),通常先使用 DAC 單元將數(shù)字量先轉(zhuǎn)化為線性的電壓值,然后利用電荷共享的方式實(shí)現(xiàn)計(jì)算,最后再用ADC 單元將模擬的計(jì)算結(jié)果轉(zhuǎn)換為相應(yīng)的數(shù)字信號(hào).通過將數(shù)據(jù)量轉(zhuǎn)換成電壓值的方式實(shí)現(xiàn)多位算法,簡單易行,也是當(dāng)下存內(nèi)計(jì)算的最主要實(shí)現(xiàn)形式.如果按計(jì)算模塊和存儲(chǔ)模塊之間的距離劃分。
位串性技術(shù)的8TSRAM 通用近內(nèi)存計(jì)算
基于位串性技術(shù)的 8TSRAM 通用近內(nèi)存計(jì)算。Wang 等人提出了一種混合近內(nèi)存計(jì)算陣列,可用于需要高能效、高靈活性和高可編程性的般用途的應(yīng)用。架構(gòu)如下圖:
在傳統(tǒng)的處理器中,數(shù)據(jù)需要在存儲(chǔ)器和處理器之間不斷傳輸,這不僅增加了數(shù)據(jù)傳輸?shù)难舆t,還增加了功耗。而基于電壓域的SRAM存內(nèi)計(jì)算技術(shù)可以將存儲(chǔ)單元和計(jì)算單元集成在一起,實(shí)現(xiàn)數(shù)據(jù)在存儲(chǔ)和計(jì)算之間的直接傳輸,從而避免了數(shù)據(jù)傳輸?shù)难舆t和功耗。
基于電壓域的SRAM存內(nèi)計(jì)算技術(shù)的實(shí)現(xiàn)方式是利用SRAM存儲(chǔ)單元的電壓變化來模擬邏輯門的輸入和輸出。通過對(duì)SRAM存儲(chǔ)單元的電壓進(jìn)行讀取、轉(zhuǎn)換和寫入操作,可以實(shí)現(xiàn)各種邏輯運(yùn)算,從而完成計(jì)算任務(wù)。這種技術(shù)可以實(shí)現(xiàn)在單個(gè)SRAM存儲(chǔ)單元中完成多個(gè)邏輯運(yùn)算,提高了計(jì)算速度和能效。
脈沖寬度調(diào)制8T-RAM 存內(nèi)計(jì)算
基于脈沖寬度調(diào)制的8T-RAM 存內(nèi)計(jì)算.Yang 等人設(shè)計(jì)了一款基于 8TSRAM 三明治 RAM 設(shè)備,能夠?qū)崿F(xiàn)特征值8bit,權(quán)重 lbit 的BWN 網(wǎng)絡(luò),如圖7所示,該方案將特征值和權(quán)重值的存儲(chǔ)單元分別存儲(chǔ)在脈沖寬度調(diào)制單元PWMU附近,在計(jì)算模式下,兩位輸入會(huì)經(jīng)2-4譯碼器置換成4種電壓水平,用于調(diào)整脈沖寬度,權(quán)重作用在選擇器上,如果權(quán)重為1,脈沖寬度會(huì)對(duì)應(yīng)擴(kuò)展,反之則縮短,最終經(jīng)脈沖量化器量化得到最終結(jié)果,該設(shè)計(jì)通過特制的 PWMU 實(shí)現(xiàn)了時(shí)間域的乘加計(jì)算,能耗效率可達(dá)到 119.7 TOPS/W,但是 8TSRAM 和 PWMU 單元都會(huì)造成大面積開銷.同時(shí):模擬域的 SRAM 存內(nèi)計(jì)算對(duì) PVT 以及版圖走線比較敏感,相應(yīng)的計(jì)算精度、量化誤差問題仍需進(jìn)步優(yōu)化改進(jìn)
架構(gòu)如下圖:
基于電壓域的SRAM技術(shù)缺點(diǎn)
基于電壓域的SRAM技術(shù)存在以下缺點(diǎn):
電壓窗口受限:SRAM存儲(chǔ)單元的電壓變化范圍有限,這限制了可實(shí)現(xiàn)的功能和計(jì)算精度。
高精度電壓控制:需要高精度的電壓源和電壓調(diào)節(jié)電路,增加了硬件復(fù)雜性和成本。 溫度、工藝和時(shí)間影響:SRAM存儲(chǔ)單元的電壓變化會(huì)受到溫度、工藝和時(shí)間的影響,這會(huì)影響技術(shù)的穩(wěn)定性。
可擴(kuò)展性挑戰(zhàn):隨著存儲(chǔ)器規(guī)模的擴(kuò)大,電路的復(fù)雜性和功耗都會(huì)顯著增加。
集成度和能耗:SRAM的基本單元電路較復(fù)雜,集成度較低,且運(yùn)行功耗較大。
成本高:每個(gè)存儲(chǔ)單元需要更多的晶體管,使得SRAM的成本較高。
基于電壓域的SRAM技術(shù)的優(yōu)點(diǎn)
基于電壓域的SRAM技術(shù)具有以下優(yōu)點(diǎn):
高性能:SRAM作為讀寫速度最快的內(nèi)存介質(zhì),具備高能效比的計(jì)算優(yōu)勢,適用于需要高速處理的應(yīng)用場景,如自動(dòng)駕駛、無人機(jī)等對(duì)計(jì)算準(zhǔn)確性和反應(yīng)速度要求高的場景。
可擴(kuò)展性強(qiáng):SRAM可向先進(jìn)制程兼容,從而達(dá)到更高的能效比和面效比,有助于實(shí)現(xiàn)更大規(guī)模的存內(nèi)計(jì)算。
工藝成熟度高:SRAM的工藝成熟度較高,可以相對(duì)較快地實(shí)現(xiàn)技術(shù)落地與量產(chǎn)。
精度無損:SRAM在進(jìn)行操作時(shí)不需要?jiǎng)討B(tài)的刷新電路,讀寫延遲短,精度無損。
集成度高:SRAM具有集成度高,完全兼容數(shù)字邏輯電路工藝等優(yōu)點(diǎn)。
低功耗:由于SRAM在進(jìn)行操作時(shí)不需要?jiǎng)討B(tài)的刷新電路,使其具有快速訪問、較低功耗等優(yōu)點(diǎn)。
電壓域的SRAM技術(shù)的局限性
基于電壓域的SRAM技術(shù)雖然具有許多優(yōu)點(diǎn),但也存在一些局限性。
由于SRAM存儲(chǔ)單元的電壓變化范圍有限,因此基于電壓域的SRAM技術(shù)只能在有限的電壓范圍內(nèi)實(shí)現(xiàn)邏輯運(yùn)算,這限制了其可實(shí)現(xiàn)的功能和計(jì)算精度。
基于電壓域的SRAM技術(shù)需要精確控制存儲(chǔ)單元的電壓,這需要高精度的電壓源和電壓調(diào)節(jié)電路,增加了硬件復(fù)雜性和成本。
由于SRAM存儲(chǔ)單元的電壓變化會(huì)受到溫度、工藝和時(shí)間的影響,因此基于電壓域的SRAM技術(shù)的穩(wěn)定性有待提高。
基于電壓域的SRAM技術(shù)的可擴(kuò)展性也有挑戰(zhàn)。隨著存儲(chǔ)器規(guī)模的擴(kuò)大,電路的復(fù)雜性和功耗都會(huì)顯著增加,因此需要解決如何在大規(guī)模存儲(chǔ)器中實(shí)現(xiàn)高效、低功耗的存內(nèi)計(jì)算技術(shù)。 盡管存在這些局限性,基于電壓域的SRAM技術(shù)仍然是一種非常有前途的存內(nèi)計(jì)算技術(shù),可以應(yīng)用于人工智能、物聯(lián)網(wǎng)、智能傳感器等領(lǐng)域。未來隨著技術(shù)的不斷發(fā)展和完善,相信這些局限性可以得到一定程度的解決。
應(yīng)用領(lǐng)域
基于電壓域的SRAM存內(nèi)計(jì)算技術(shù)的應(yīng)用場景主要包括人工智能、物聯(lián)網(wǎng)、智能傳感器等領(lǐng)域。在人工智能領(lǐng)域,這種技術(shù)可以用于實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的存儲(chǔ)和計(jì)算,從而提高神經(jīng)網(wǎng)絡(luò)的性能和能效。在物聯(lián)網(wǎng)和智能傳感器領(lǐng)域,這種技術(shù)可以用于實(shí)現(xiàn)高效的數(shù)據(jù)處理、分析和傳輸,從而提高物聯(lián)網(wǎng)和智能傳感器的性能和能效。
基于電壓域的SRAM存內(nèi)計(jì)算技術(shù)是一種非常有前途的技術(shù),它可以提高數(shù)據(jù)處理的效率和能效,降低功耗和硬件成本。未來隨著技術(shù)的不斷發(fā)展和完善,這種技術(shù)有望在更多領(lǐng)域得到應(yīng)用。
總結(jié)
這篇文章總結(jié)了馮·諾伊曼架構(gòu)及其在處理數(shù)據(jù)密集型應(yīng)用中所面臨的性能和能耗問題。為了應(yīng)對(duì)這一挑戰(zhàn),文章介紹了存內(nèi)計(jì)算技術(shù),其中重點(diǎn)討論了基于電壓域的SRAM存內(nèi)計(jì)算技術(shù)。
在馮·諾伊曼架構(gòu)中,存儲(chǔ)器和處理器之間頻繁傳輸大量數(shù)據(jù),導(dǎo)致性能瓶頸。為解決這個(gè)問題,存內(nèi)計(jì)算技術(shù)被提出,其核心思想是將計(jì)算單元整合到存儲(chǔ)器中,實(shí)現(xiàn)數(shù)據(jù)在存儲(chǔ)和計(jì)算之間的直接傳輸,從而提高數(shù)據(jù)處理效率和降低能耗。
特別關(guān)注了基于電壓域的SRAM存內(nèi)計(jì)算技術(shù),這一技術(shù)利用SRAM存儲(chǔ)單元的電壓變化來實(shí)現(xiàn)計(jì)算功能。通過將數(shù)字量轉(zhuǎn)化為電壓值,利用電荷共享的方式進(jìn)行計(jì)算,最終將結(jié)果轉(zhuǎn)換為數(shù)字信號(hào)。這種技術(shù)在人工智能、大數(shù)據(jù)處理、圖像處理等領(lǐng)域有著廣泛的應(yīng)用前景。
總體而言,基于電壓域的SRAM存內(nèi)計(jì)算技術(shù)在改善馮·諾伊曼架構(gòu)的性能和能耗方面具有潛在的優(yōu)勢,為未來在各個(gè)領(lǐng)域的應(yīng)用提供了創(chuàng)新的可能性。
參考文獻(xiàn)
微電子學(xué)與計(jì)算機(jī)-SRAM 存內(nèi)計(jì)算技術(shù)綜述
審核編輯 黃宇
-
存儲(chǔ)器
+關(guān)注
關(guān)注
38文章
7495瀏覽量
163921 -
數(shù)據(jù)傳輸
+關(guān)注
關(guān)注
9文章
1914瀏覽量
64645 -
sram
+關(guān)注
關(guān)注
6文章
768瀏覽量
114714 -
AI
+關(guān)注
關(guān)注
87文章
30998瀏覽量
269302 -
存內(nèi)計(jì)算
+關(guān)注
關(guān)注
0文章
30瀏覽量
1383
發(fā)布評(píng)論請先 登錄
相關(guān)推薦
評(píng)論