RA8系列是瑞薩電子推出的全新超高性能產(chǎn)品業(yè)界首款基于Arm Cortex-M85處理器的MCU,能夠提供卓越的6.39 CoreMark/MHz,可滿足工業(yè)自動(dòng)化、家電、智能家居、消費(fèi)電子、樓宇/家庭自動(dòng)化、醫(yī)療等廣泛應(yīng)用的各類圖形顯示和語音/視覺多模態(tài)AI要求。
所有RA8系列MCU均利用Arm Cortex-M85處理器和Arm的Helium技術(shù)所帶來的高性能,結(jié)合矢量/SIMD指令集擴(kuò)展,能夠在數(shù)字信號(hào)處理器(DSP)和機(jī)器學(xué)習(xí)(ML)的實(shí)施方面獲得相比Cortex-M7內(nèi)核高4倍的性能提升。
當(dāng)人工智能 (AI) 下沉到各式各樣的應(yīng)用當(dāng)中,作為市場上最大量的物聯(lián)網(wǎng)設(shè)備也將被賦予智能性。ArmHelium 技術(shù)正是為基于Arm Cortex-M 處理器的設(shè)備帶來關(guān)鍵機(jī)器學(xué)習(xí)與數(shù)字信號(hào)處理的性能提升。
在上周的 Helium 技術(shù)講堂中,我們與大家共同探討了復(fù)雜而又有趣的交錯(cuò)加載/存儲(chǔ)指令。今天,我們將一起聊聊與內(nèi)存訪問相關(guān)的內(nèi)容。若您想要了解如何高效利用 Helium,千萬別錯(cuò)過文末視頻,通過 Arm 技術(shù)專家的實(shí)例演示,詳解 Helium 如何為端點(diǎn)設(shè)備引入更多智能。
Arm Helium 技術(shù)誕生的由來
循環(huán)緩沖區(qū)的使用
作者:Arm 架構(gòu)與技術(shù)部高級(jí)首席工程師 Fran?ois Botman
我們?cè)跒?Arm Cortex-M 處理器系列設(shè)計(jì)矢量擴(kuò)展 (MVE) —— Arm Helium 技術(shù)時(shí),希望它能廣泛地適用于各種數(shù)字信號(hào)處理 (DSP) 的應(yīng)用。具備高效的數(shù)據(jù)計(jì)算能力只成功了一半,同樣重要的是具備在內(nèi)存中訪問和存儲(chǔ)這些數(shù)據(jù)的能力。
正如之前的文章內(nèi)容所述,Helium 是一種四節(jié)拍矢量架構(gòu)。將數(shù)據(jù)加載到矢量中的最直接的方法是連續(xù)加載操作(見圖一)。在每個(gè)節(jié)拍中,都從標(biāo)量寄存器中指定的基址開始依次訪問內(nèi)存。無論目標(biāo)數(shù)據(jù)類型如何(8、16 或 32 位),都可以通過充分利用總線寬度的訪問來高效地執(zhí)行這一操作,因?yàn)閿?shù)據(jù)元素在內(nèi)存和矢量中都是相鄰的,存儲(chǔ)操作也是如此。
圖一:連續(xù)加載操作
內(nèi)存是一種稀缺資源,通常情況下,要盡可能緊湊地打包數(shù)據(jù),使用可容納數(shù)據(jù)的最小數(shù)據(jù)類型。不過,在處理數(shù)據(jù)時(shí),可能需要更多的空間,以避免在計(jì)算的中間階段出現(xiàn)溢出。這可以作為一個(gè)獨(dú)立的拓寬指令來執(zhí)行,但正如本系列第一篇文章所述,它存在時(shí)間跨越問題(對(duì)于 8 到 32 位的擴(kuò)展,將數(shù)據(jù)擴(kuò)展到最后一節(jié)拍需要第一節(jié)拍的數(shù)據(jù),而第一節(jié)拍的數(shù)據(jù)已不可用)。
因此,擴(kuò)展指令不能與其他指令重疊,否則會(huì)對(duì)性能產(chǎn)生不利影響。相反,Helium 引入了改變大小的內(nèi)存操作。數(shù)據(jù)可以作為單個(gè) 8、16 或 32 位訪問,針對(duì)每個(gè)節(jié)拍高效加載,并用零或符號(hào)擴(kuò)展,以匹配所需的數(shù)據(jù)類型。在圖二的示例中,我們希望執(zhí)行將每個(gè)矢量通道的 8 位加載擴(kuò)展到 16 位。兩個(gè) 8 位數(shù)據(jù)樣本作為一個(gè) 16 位加載操作加載,每個(gè)樣本在寫入矢量通道之前擴(kuò)展到 16 位。同樣,對(duì)于存儲(chǔ)來說,數(shù)據(jù)可以截?cái)嗟剿璧拇笮?,?shí)現(xiàn)高效存儲(chǔ)。
圖二:加載擴(kuò)展
Helium 加載和存儲(chǔ)指令具有與 M 系列架構(gòu)的其他部分相同的豐富的尋址模式集,支持預(yù)遞增或后遞增以及指針回寫等功能。這樣,在大多數(shù)情況下就不需要單獨(dú)進(jìn)行指針操作了。
DSP 應(yīng)用通常在數(shù)據(jù)結(jié)構(gòu)而非單個(gè)元素上運(yùn)行。例如,立體聲音頻數(shù)據(jù)通常以左右數(shù)值交織流的形式存儲(chǔ)。同樣,圖像數(shù)據(jù)通常以紅、綠、藍(lán)、Alpha 交錯(cuò)值的形式存儲(chǔ)。這是上一篇文章的主題內(nèi)容,其中介紹了可以有效實(shí)現(xiàn)這一目標(biāo)的結(jié)構(gòu)化加載/存儲(chǔ)指令。
有時(shí),存儲(chǔ)在內(nèi)存中的數(shù)據(jù)無法以便捷的方式構(gòu)建以實(shí)現(xiàn)連續(xù)訪問。在某些架構(gòu)中,這實(shí)際上會(huì)阻礙代碼的矢量化。Helium 通過“離散?聚合”操作解決了這一問題。這些操作將偏移矢量指向內(nèi)存,這樣就可以用一條指令訪問多個(gè)非連續(xù)地址(見圖三)。它們還能擴(kuò)展或截?cái)嗨L問的數(shù)據(jù)。
圖三:匯總負(fù)載
“離散-聚合”操作是一種功能強(qiáng)大的指令,可為應(yīng)用提供很大的靈活性。例如,它們幾乎是實(shí)現(xiàn) FFT(快速傅里葉變換)不可或缺的工具;在這種算法中,第一個(gè)或最后一個(gè)蝴蝶階段的內(nèi)存訪問需要使用反位尋址執(zhí)行。專用反位指令 (VBRSR) 生成反位尋址模式,供這些離散-聚合指令使用。
為了提高性能,這些指令重疊執(zhí)行,加載數(shù)據(jù)的效率遠(yuǎn)遠(yuǎn)超過同等序列的標(biāo)量指令。而且,它們也更容易使用。雖然連續(xù)矢量訪問能為規(guī)律模式提供更好的性能,但由于離散-聚合指令無法對(duì)數(shù)據(jù)布局做出假設(shè),因此有多少個(gè)不同的元素,匯總加載指令就必須執(zhí)行多少次單獨(dú)的訪問。對(duì)于 8 位數(shù)據(jù),訪問次數(shù)可能多達(dá) 16 次,這就成了不斷加載的負(fù)載。
DSP 應(yīng)用通常使用一種稱為循環(huán)尋址的內(nèi)存布局。可以按順序訪問元素,但最多只能訪問配置的緩沖區(qū)大小,之后的訪問會(huì)繞回到第一個(gè)元素(見圖四)。例如,從元素 N?1 開始的四元素讀取操作將會(huì)訪問元素 N?1, 0, 1, 2。
圖四:循環(huán)緩沖區(qū)示例
這在 DSP 應(yīng)用中用途廣泛,包括在處理數(shù)據(jù)流后只需要前 N 個(gè)數(shù)據(jù)樣本時(shí)避免指針操作。在 FIR 濾波器中,最后 N 個(gè)數(shù)據(jù)樣本需要與一組系數(shù)相乘,才能產(chǎn)生所需的濾波器響應(yīng)。當(dāng)一個(gè)新的數(shù)據(jù)樣本到來時(shí),需要處理的是之前的 N?1 個(gè)樣本和新樣本,最舊的樣本不再使用。數(shù)據(jù)可以重新排列,使要處理的緩沖區(qū)總是按正確的順序包含元素,但這需要在開始處理前將每個(gè)樣本復(fù)制到不同的位置,耗費(fèi)大量資源。如果使用循環(huán)緩沖區(qū),就可以就地訪問數(shù)據(jù),必要時(shí)還可以繞回到開頭,而且只需要寫入一次就可以用最新的樣本替換最舊的樣本。
一些 DSP 通過專用訪問指令和專用寄存器來實(shí)現(xiàn)循環(huán)緩沖區(qū)的起始地址和結(jié)束地址。指針每次遞增時(shí),硬件都會(huì)將其與結(jié)束地址進(jìn)行比較,并相應(yīng)地回繞。這意味著同時(shí)支持的循環(huán)緩沖區(qū)數(shù)量受到可用硬件的限制。這也意味著每次中斷都需要保留大量額外狀態(tài),而這會(huì)影響延遲。
為此,所需的硬件支持不容忽視;在典型的實(shí)施中,需要更復(fù)雜的地址生成單元。為了避免這種情況,一些 DSP 要求循環(huán)緩沖區(qū)的大小等于 2 的冪次方,緩沖區(qū)的地址調(diào)整為該大小的倍數(shù)??梢酝ㄟ^將指針與位掩碼進(jìn)行 AND 運(yùn)算實(shí)現(xiàn),從而簡化硬件要求。但是,這樣會(huì)限制這些緩沖區(qū)的放置和使用,特別是幾乎無法直接從高級(jí)語言使用緩沖區(qū)。由于 M 系列的宗旨是讓一切都能通過 C 語言輕松使用,因此我們需要想出一種更好的方法。
我們的解決方案是將循環(huán)緩沖區(qū)分成兩個(gè)不同的操作,其方式與上文討論的反位尋址類似。我們將用于生成回繞偏移的指令與離散?聚合指令相結(jié)合來訪問這些偏移地址的數(shù)據(jù)。這就為緩沖區(qū)大小和位置提供了靈活性,而且關(guān)鍵路徑上也不需要有專用硬件。循環(huán)緩沖區(qū)生成指令 (VIWDUP) 可創(chuàng)建一個(gè)矢量,其中包含一連串遞增的偏移量,當(dāng)?shù)竭_(dá)終點(diǎn)位置時(shí)會(huì)回繞到開頭(見圖五)。該指令用從 R0 值開始的序列填充矢量寄存器 Q0,并在達(dá)到 R1 值時(shí)回繞。然后,它將更新后的起始偏移量 2 寫回 R0。這條指令的一個(gè)巧妙設(shè)計(jì)是,每次寫入 Q0 的偏移量矢量都是由標(biāo)量值重新生成的。
通常下一條指令就是使用偏移量的離散?聚合指令,因此 Q0 可以直接重復(fù)用于其他目的。立即值指定偏移量的增量,這對(duì)于處理不同的元素大小非常有用。例如,如果加載的是 32 位數(shù)值,將使用四個(gè)字節(jié)的增量。可以指定任意增量或減量,因此該指令可用于其他需要通用數(shù)字模式的情況。通過這種方式,Helium 可以提供任意數(shù)量的循環(huán)緩沖區(qū),在內(nèi)存中具有靈活的大小、方向和對(duì)齊方式,而且這個(gè)過程只需要使用現(xiàn)有的硬件就可以提供序列生成指令。
圖五:序列生成指令的操作示例
那么性能表現(xiàn)如何呢?雖然需要額外的偏移生成指令 (VIWDUP),但我們發(fā)現(xiàn)在許多情況下,可能會(huì)因?yàn)榕c內(nèi)存訪問本身重疊而隱藏了開銷。在所有情況下,這一開銷都小于在沒有硬件支持的情況下管理回繞的計(jì)算工作量。我們之前也說過,出于性能考慮,最好使用連續(xù)訪問。循環(huán)緩沖區(qū)的特別之處在于,大部分訪問都是連續(xù)的,只有偶爾發(fā)生回繞時(shí)才會(huì)出現(xiàn)不連續(xù)。一種方法是離散-聚合指令比較偏移值,然后合并連續(xù)的訪問。遺憾的是,這樣做將需要大量額外的硬件,并給設(shè)計(jì)的關(guān)鍵部分增加許多額外的復(fù)雜性。在負(fù)載連續(xù)的情況下,離散?聚合操作會(huì)降低性能,這違背了我們追求將每個(gè) gate 的性能發(fā)揮到極致的原則。
當(dāng)我們?cè)噲D找到解決這個(gè)問題的方法時(shí),我們注意到偏移生成指令 (VIWDUP) 已經(jīng)掌握回繞點(diǎn)的位置。如果能將這一信息傳遞給離散-聚合指令,它就能將訪問提升為連續(xù)訪問,而無需使用昂貴又耗時(shí)的偏移比較器。那么我們能不能指定一個(gè)額外的標(biāo)量寄存器來傳輸這些信息呢?遺憾的是,這將增加所需的讀取端口數(shù)量,而且標(biāo)量依賴關(guān)系從 VIWDUP 改為離散?聚合指令將會(huì)導(dǎo)致指令無法重疊。
Helium 實(shí)現(xiàn)是否可以將這些信息存儲(chǔ)在隱藏的微架構(gòu)元數(shù)據(jù)中,并在矢量發(fā)生修改時(shí)清除元數(shù)據(jù)?一般不建議這樣做,因?yàn)樵獢?shù)據(jù)需要在中斷時(shí)保留,而這會(huì)影響延遲。但我們發(fā)現(xiàn),在這種情況下,我們不需要保留元數(shù)據(jù)。在出現(xiàn)異常的極少數(shù)情況時(shí),備選措施是正常執(zhí)行離散-聚合,而不是優(yōu)化連續(xù)訪問。通過使用易失性隱藏元數(shù)據(jù)來指示連續(xù)訪問,可以優(yōu)化普通非回繞情況下的性能,同時(shí)避免出現(xiàn)額外的架構(gòu)狀態(tài)和中斷延遲。
在受限的環(huán)境中工作極具挑戰(zhàn)性,Helium 要求我們不斷尋找創(chuàng)新的解決方案,充分發(fā)揮硬件性能。我們努力聯(lián)合設(shè)計(jì)架構(gòu)和微架構(gòu),尋找一系列內(nèi)存訪問指令,既能滿足 DSP 應(yīng)用的需要,又能最大限度地減少實(shí)現(xiàn)這些指令所需的硬件數(shù)量。特別是在循環(huán)緩沖區(qū)方面,我們延續(xù)了 M 系列的傳統(tǒng),確保每個(gè) gate 都物盡其用,從而以較低的面積實(shí)現(xiàn)性能表現(xiàn),同時(shí)為終端用戶提供良好的體驗(yàn)感。
您是否想要更深入了解 Helium 技術(shù)?由 Arm 物聯(lián)網(wǎng)事業(yè)部技術(shù)管理總監(jiān) Mark Quartermain 與 Arm 物聯(lián)網(wǎng)事業(yè)部嵌入式工具集成高級(jí)經(jīng)理 Matthias Hertel 共同為大家錄制了 Helium 技術(shù)視頻,通過實(shí)例演示詳解如何高效利用 Helium。
審核編輯:劉清
-
處理器
+關(guān)注
關(guān)注
68文章
19382瀏覽量
230461 -
寄存器
+關(guān)注
關(guān)注
31文章
5359瀏覽量
120790 -
人工智能
+關(guān)注
關(guān)注
1792文章
47497瀏覽量
239188 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8428瀏覽量
132832 -
快速傅里葉變換
+關(guān)注
關(guān)注
0文章
13瀏覽量
1709
原文標(biāo)題:Helium技術(shù)講堂 | 循環(huán)緩沖區(qū)的使用
文章出處:【微信號(hào):瑞薩MCU小百科,微信公眾號(hào):瑞薩MCU小百科】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論