隨著邊緣人工智能的興起,對存儲系統(tǒng)提出了一系列新要求。當今的內(nèi)存技術能否滿足這一具有挑戰(zhàn)性的新應用的嚴格要求,新興內(nèi)存技術對邊緣 AI 的長期承諾是什么?
首先要意識到的是,沒有標準的“邊緣人工智能”應用;最廣泛解釋的邊緣涵蓋了云外所有支持人工智能的電子系統(tǒng)。這可能包括“近邊緣”,通常涵蓋企業(yè)數(shù)據(jù)中心和本地服務器。
更進一步的是用于自動駕駛的計算機視覺等應用。用于制造的網(wǎng)關設備執(zhí)行 AI 推理以檢查生產(chǎn)線上產(chǎn)品的缺陷。電線桿上的 5G“邊緣盒”分析智能城市應用(如交通管理)的視頻流。5G 基礎設施在邊緣使用人工智能來實現(xiàn)復雜但高效的波束形成算法。
在“遠端”,人工智能在手機等設備中得到支持——想想 Snapchat 過濾器——在將結果發(fā)送到另一個網(wǎng)關設備之前,工廠中執(zhí)行傳感器融合的設備和物聯(lián)網(wǎng)傳感器節(jié)點的語音控制。
內(nèi)存在邊緣 AI 系統(tǒng)中的作用——存儲神經(jīng)網(wǎng)絡權重、模型代碼、輸入數(shù)據(jù)和中間激活——對于大多數(shù) AI 應用程序來說都是相同的。必須加速工作負載以最大化 AI 計算能力以保持高效,因此對容量和帶寬的要求通常很高。然而,特定應用的需求是多種多樣的,可能包括尺寸、功耗、低電壓操作、可靠性、熱/冷卻考慮和成本。
邊緣數(shù)據(jù)中心
邊緣數(shù)據(jù)中心是一個關鍵的邊緣市場。用例范圍從醫(yī)學成像、研究和復雜的金融算法,其中隱私阻止上傳到云。另一個是自動駕駛汽車,延遲會阻止它。
這些系統(tǒng)使用與其他應用程序中的服務器相同的內(nèi)存。
“在開發(fā)和訓練 AI 算法的應用中,將低延遲 DRAM 用于快速、字節(jié)級的主內(nèi)存非常重要,”內(nèi)存產(chǎn)品設計師和開發(fā)商 Smart Modular Technologies 的解決方案架構師 Pekon Gupta 說?!按笮蛿?shù)據(jù)集需要高容量 RDIMM 或 LRDIMM。系統(tǒng)加速需要 NVDIMM——我們將它們用于寫入緩存和檢查點,而不是速度較慢的 SSD。”
佩孔古普塔
將計算節(jié)點定位在靠近最終用戶的位置是電信運營商采用的方法。
“我們看到了使這些[電信] 邊緣服務器更有能力運行復雜算法的趨勢,”Gupta 說。因此,“服務提供商正在使用 RDIMM、LRDIMM 和 NVDIMM 等高可用性持久內(nèi)存等設備為這些邊緣服務器增加更多內(nèi)存和處理能力?!?/p>
Gupta 認為英特爾 Optane 是該公司的 3D-Xpoint 非易失性內(nèi)存,其特性介于 DRAM 和閃存之間,是服務器 AI 應用程序的良好解決方案。
“Optane DIMM 和 NVDIMM 都被用作 AI 加速器,”他說?!癗VDIMM 為 AI 應用程序加速提供了非常低延遲的分層、緩存、寫入緩沖和元數(shù)據(jù)存儲功能。Optane 數(shù)據(jù)中心 DIMM 用于內(nèi)存數(shù)據(jù)庫加速,其中數(shù)百 GB 到 TB 的持久內(nèi)存與 DRAM 結合使用。盡管這些都是用于 AI/ML 加速應用程序的持久內(nèi)存解決方案,但它們有不同且獨立的用例?!?/p>
英特爾 Optane 產(chǎn)品營銷總監(jiān) Kristie Mann 告訴EE Times , Optane正在服務器 AI 領域獲得應用。
英特爾的克里斯蒂曼
“我們的客戶現(xiàn)在已經(jīng)在使用 Optane 持久內(nèi)存來支持他們的 AI 應用程序,”她說?!八麄冋诔晒Φ貫殡娮由虅?、視頻推薦引擎和實時財務分析應用提供支持。由于可用容量的增加,我們看到了向內(nèi)存應用程序的轉(zhuǎn)變?!?/p>
DRAM 的高價格使 Optane 越來越成為有吸引力的替代品。配備兩個 Intel Xeon Scalable 處理器和 Optane 持久內(nèi)存的服務器可以為需要大量數(shù)據(jù)的應用程序容納多達 6 TB 的內(nèi)存。
“DRAM 仍然是最受歡迎的,但從成本和容量的角度來看,它有其局限性,”Mann 說。“由于其成本、容量和性能優(yōu)勢,Optane 持久內(nèi)存和 Optane SSD 等新的內(nèi)存和存儲技術正在 [新興] 作為 DRAM 的替代品。Optane SSD 是特別強大的緩存 HDD 和 NAND SSD 數(shù)據(jù),可以持續(xù)為 AI 應用程序提供數(shù)據(jù)?!?/p>
她補充說,Optane 還優(yōu)于目前尚未完全成熟或可擴展的其他新興存儲器。
英特爾傲騰 200 系列模塊。英特爾表示,Optane 目前
已用于為 AI 應用程序提供動力。(來源:英特爾)
GPU 加速
對于高端邊緣數(shù)據(jù)中心和邊緣服務器應用程序,GPU 等 AI 計算加速器正在獲得關注。除 DRAM 外,這里的內(nèi)存選擇還包括GDDR,一種用于為高帶寬 GPU 供電的特殊 DDR SDRAM,以及HBM,一種相對較新的芯片堆疊技術,它將多個內(nèi)存芯片與 GPU 本身放在同一個封裝中。
兩者都是為 AI 應用程序所需的極高內(nèi)存帶寬而設計的。
對于最苛刻的 AI 模型訓練,HBM2E 提供 3.6 Gbps 并提供 460 GB/s 的內(nèi)存帶寬(兩個 HBM2E 堆棧提供接近 1 TB/s)。這是可用的性能最高的內(nèi)存之一,在最小的區(qū)域內(nèi)具有最低的功耗。GPU 領導者Nvidia 在其所有數(shù)據(jù)中心產(chǎn)品中都使用 HBM 。
Rambus IP 內(nèi)核產(chǎn)品營銷高級總監(jiān) Frank Ferro 表示,GDDR6 還用于邊緣的 AI 推理應用程序。Ferro 表示,GDDR6 可以滿足邊緣 AI 推理系統(tǒng)的速度、成本和功耗要求。例如,GDDR6 可以提供 18 Gbps 并提供 72 GB/s。擁有四個 GDDR6 DRAM 可提供接近 300 GB/s 的內(nèi)存帶寬。
“GDDR6 用于 AI 推理和 ADAS 應用,”Ferro 補充道。
在將 GDDR6 與 LPDDR(從 Jetson AGX Xavier 到 Jetson Nano 的大多數(shù)非數(shù)據(jù)中心邊緣解決方案的 Nvidia 方法)進行比較時,F(xiàn)erro 承認 LPDDR 適用于邊緣或端點的低成本 AI 推理。
“LPDDR 的帶寬限制為 LPDDR4 的 4.2 Gbps 和 LPDDR5 的 6.4 Gbps,”他說。“隨著內(nèi)存帶寬需求的增加,我們將看到越來越多的設計使用 GDDR6。這種內(nèi)存帶寬差距有助于推動對 GDDR6 的需求?!?/p>
Rambus 的弗蘭克·費羅
盡管設計為與 GPU 一起使用,但其他處理加速器可以利用 GDDR 的帶寬。Ferro 重點介紹了 Achronix Speedster7t,這是一款基于 FPGA 的 AI 加速器,用于推理和一些低端訓練。
“在邊緣 AI 應用中,HBM 和 GDDR 內(nèi)存都有空間,”Ferro 說。HBM“將繼續(xù)用于邊緣應用。對于 HBM 的所有優(yōu)點,由于 3D 技術和 2.5D 制造,成本仍然很高。鑒于此,GDDR6 是成本和性能之間的良好權衡,尤其是對于網(wǎng)絡中的 AI 推理?!?/p>
HBM 用于高性能數(shù)據(jù)中心 AI ASIC,例如Graphcore IPU。雖然它提供了出色的性能,但對于某些應用來說,它的價格可能很高。
高通公司就是使用這種方法的公司之一。其 Cloud AI 100 針對邊緣數(shù)據(jù)中心、5G“邊緣盒”、ADAS/自動駕駛和 5G 基礎設施中的 AI 推理加速。
“與 HBM 相比,使用標準 DRAM 對我們來說很重要,因為我們希望降低材料成本,”高通計算和邊緣云部門總經(jīng)理 Keith Kressin 說?!拔覀兿M褂每梢詮亩鄠€供應商處購買的標準組件。我們有客戶想要在芯片上做所有事情,我們也有客戶想要跨卡。但他們都希望保持合理的成本,而不是選擇 HBM 甚至更奇特的內(nèi)存。
“在訓練中,”他繼續(xù)說,“你有可以跨越[多個芯片]的非常大的模型,但對于推理[Cloud AI 100的市場],很多模型都更加本地化?!?/p>
遙遠的邊緣
在數(shù)據(jù)中心之外,邊緣人工智能系統(tǒng)通常專注于推理,但有一些明顯的例外,例如聯(lián)邦學習和其他增量訓練技術。
一些用于功耗敏感應用的 AI 加速器使用內(nèi)存進行 AI 處理?;诙嗑S矩陣乘法的推理適用于具有用于執(zhí)行計算的存儲單元陣列的模擬計算技術。使用這種技術,Syntiant 的設備專為消費電子產(chǎn)品的語音控制而設計,而Gyrfalcon 的設備已被設計成智能手機,用于處理相機效果的推理。
在另一個例子中,智能處理單元專家Mythic使用閃存單元的模擬操作在單個閃存晶體管上存儲一個 8 位整數(shù)值(一個權重參數(shù)),使其比其他內(nèi)存計算技術更密集。編程的閃存晶體管用作可變電阻器;輸入作為電壓提供,輸出作為電流收集。結合 ADC 和 DAC,結果是一個高效的矩陣乘法引擎。
Mythic 的 IP 在于補償和校準技術,可消除噪聲并實現(xiàn)可靠的 8 位計算。
Mythic 使用閃存晶體管陣列來制造密集的乘法累加引擎(來源:Mythic)
除了內(nèi)存計算設備外,ASIC 在特定的邊緣領域也很受歡迎,特別是低功耗和超低功耗系統(tǒng)。ASIC 的內(nèi)存系統(tǒng)使用多種內(nèi)存類型的組合。分布式本地 SRAM 是最快、最節(jié)能的,但不是很節(jié)省面積。在芯片上擁有一個大容量 SRAM 的面積效率更高,但會帶來性能瓶頸。片外 DRAM 更便宜,但耗電量更大。
Flex Logix 的首席執(zhí)行官 Geoff Tate 表示,要為其 InferX X1 在分布式 SRAM、大容量 SRAM 和片外 DRAM 之間找到適當?shù)钠胶猓枰M行一系列性能模擬。目標是最大化每美元的推理吞吐量——這是芯片尺寸、封裝成本和使用的 DRAM 數(shù)量的函數(shù)。
“最佳點是單個 x32 LPDDR4 DRAM;4K MAC(933MHz 時為 7.5 TOPS);和大約 10MB 的 SRAM,”他說?!癝RAM 速度很快,但與 DRAM 相比價格昂貴。使用臺積電的16納米制程技術,1MB的SRAM大約需要1.1mm 2?!拔覀兊?InferX X1 只有 54mm 2,由于我們的架構,DRAM 訪問很大程度上與計算重疊,因此沒有性能影響。對于具有單個 DRAM 的大型模型來說,這是正確的權衡,至少對于我們的架構而言,”Tate 說。
Flex Logix 芯片將用于需要實時操作的邊緣 AI 推理應用,包括以低延遲分析流視頻。這包括 ADAS 系統(tǒng)、安全鏡頭分析、醫(yī)學成像和質(zhì)量保證/檢查應用程序。
在這些應用中,什么樣的 DRAM 將與 InferX X1 一起使用?
“我們認為 LPDDR 將是最受歡迎的:單個 DRAM 提供超過 10GB/秒的帶寬……但有足夠的位來存儲權重/中間激活,”Tate 說?!叭魏纹渌?DRAM 都需要更多的芯片和接口,并且需要購買更多未使用的位?!?/p>
這里有任何新興內(nèi)存技術的空間嗎?
“當使用任何新興存儲器時,晶圓成本會急劇上升,而 SRAM 是‘免費的’,除了硅片面積,”他補充道?!半S著經(jīng)濟的變化,臨界點也可能發(fā)生變化,但它會更進一步?!?/p>
涌現(xiàn)的記憶
盡管具有規(guī)模經(jīng)濟性,但其他內(nèi)存類型為人工智能應用提供了未來的可能性。
MRAM(磁阻式 RAM)通過由施加電壓控制的磁體方向存儲每一位數(shù)據(jù)。如果電壓低于翻轉(zhuǎn)位所需的電壓,則只有位翻轉(zhuǎn)的可能性。這種隨機性是不受歡迎的,因此用更高的電壓驅(qū)動 MRAM 以防止它發(fā)生。盡管如此,一些人工智能應用程序可以利用這種固有的隨機性(可以被認為是隨機選擇或生成數(shù)據(jù)的過程)。
實驗已將其 MRAM 的隨機性功能應用于Gyrfalcon 的設備,這是一種將所有權重和激活的精度降低到 1 位的技術。這用于顯著降低遠端應用程序的計算和功率要求。取決于重新訓練網(wǎng)絡的方式,可能會在準確性上進行權衡。一般來說,盡管精度降低,神經(jīng)網(wǎng)絡仍可以可靠地運行。
“二值化神經(jīng)網(wǎng)絡的獨特之處在于,即使數(shù)字為 -1 或 +1 的確定性降低,它們也能可靠地運行,”Spin Memory 產(chǎn)品副總裁 Andy Walker 說?!拔覀儼l(fā)現(xiàn),這種 BNN 仍然可以以高準確度運行,因為 [通過] 引入錯誤寫入的內(nèi)存位的所謂‘誤碼率’降低了這種確定性?!?/p>
自旋記憶的安迪沃克
MRAM 可以在低電壓水平下以受控方式自然地引入誤碼率,在保持精度的同時進一步降低功耗要求。關鍵是在最低電壓和最短時間下確定最佳精度。沃克說,這轉(zhuǎn)化為最高的能源效率。
雖然這項技術也適用于更高精度的神經(jīng)網(wǎng)絡,但它特別適用于 BNN,因為 MRAM 單元有兩種狀態(tài),與 BNN 中的二進制狀態(tài)相匹配。
Walker 表示,在邊緣使用 MRAM 是另一個潛在應用。
“對于邊緣人工智能,MRAM 能夠在不需要高性能精度的應用中以較低的電壓運行,但提高能效和內(nèi)存耐用性非常重要,”他說?!按送猓琈RAM 固有的非易失性允許在沒有電源的情況下保存數(shù)據(jù)。
一種應用是作為所謂的統(tǒng)一存儲器,“這種新興存儲器可以作為嵌入式閃存和 SRAM 的替代品,節(jié)省芯片面積并避免 SRAM 固有的靜態(tài)功耗?!?/p>
雖然 Spin Memory 的 MRAM 正處于商業(yè)應用的邊緣,但 BNN 的具體實施最好在基本 MRAM 單元的變體上工作。因此,它仍處于研究階段。
神經(jīng)形態(tài) ReRAM
用于邊緣 AI 應用的另一種新興內(nèi)存是 ReRAM。Politecnico Milan 最近使用 Weebit Nano 的氧化硅 (SiOx) ReRAM 技術進行的研究顯示了神經(jīng)形態(tài)計算的前景。ReRAM 為神經(jīng)網(wǎng)絡硬件增加了一個可塑性維度;也就是說,它可以隨著條件的變化而發(fā)展——神經(jīng)形態(tài)計算中的一個有用品質(zhì)。
當前的神經(jīng)網(wǎng)絡無法在不忘記他們接受過訓練的任務的情況下學習,而大腦可以很容易地做到這一點。在 AI 術語中,這是“無監(jiān)督學習”,算法在沒有標簽的數(shù)據(jù)集上執(zhí)行推理,在數(shù)據(jù)中尋找自己的模式。最終的結果可能是支持 ReRAM 的邊緣 AI 系統(tǒng),它可以就地學習新任務并適應周圍的環(huán)境。
總體而言,內(nèi)存制造商正在引入提供人工智能應用所需的速度和帶寬的技術。各種內(nèi)存,無論是與 AI 計算在同一芯片上、在同一封裝中還是在單獨的模塊上,都可用于適應許多邊緣 AI 應用。
雖然邊緣 AI 的內(nèi)存系統(tǒng)的確切性質(zhì)取決于應用程序,但 GDDR、HBM 和 Optane 被證明在數(shù)據(jù)中心中很受歡迎,而 LPDDR 與片上 SRAM 競爭端點應用程序。
新興記憶正在將其新穎的特性用于研究,旨在推動神經(jīng)網(wǎng)絡超越當今硬件的能力,以實現(xiàn)未來的節(jié)能、受大腦啟發(fā)的系統(tǒng)。
、審核編輯 黃昊宇
-
內(nèi)存
+關注
關注
8文章
3034瀏覽量
74129 -
AI
+關注
關注
87文章
31054瀏覽量
269406 -
EDGE
+關注
關注
0文章
181瀏覽量
42681
發(fā)布評論請先 登錄
相關推薦
評論