Versal AI Core 系列可借助 AI 引擎提供突破性的人工智能( AI )推斷加速。此系列應(yīng)用范圍廣泛,包括用于云端動(dòng)態(tài)工作負(fù)載以及超高帶寬網(wǎng)絡(luò),同時(shí)還可提供高級安全性功能。AI 和數(shù)據(jù)科學(xué)家以及軟硬件開發(fā)者均可充分利用高計(jì)算密度的優(yōu)勢來加速提升任何應(yīng)用的性能。鑒于 AI 引擎所具備的高級信號(hào)處理計(jì)算能力,它十分適合用于高度優(yōu)化的無線應(yīng)用,例如射頻、5G、回程( backhaul )和其它高性能 DSP 應(yīng)用。
本文檔聚焦 AI 引擎內(nèi)核編程,除單內(nèi)核編程外,還涵蓋了多方面的內(nèi)容,如內(nèi)核之間的數(shù)據(jù)通信,這些方面的內(nèi)容都是將應(yīng)用分區(qū)為多個(gè)內(nèi)核以達(dá)成整體系統(tǒng)性能所必不可少的概念。本文檔涵蓋了以下設(shè)計(jì)進(jìn)程:
? AI 引擎開發(fā):創(chuàng)建 AI 引擎 Graph 及內(nèi)核、庫用法、仿真調(diào)試與剖析以及算法開發(fā)。還包含 PL 與 AI 引擎內(nèi)核的集成。
AI 引擎架構(gòu)概述
AI 引擎陣列由二維 AI 引擎拼塊 (tile) 陣列構(gòu)成,其中每個(gè) AI 引擎拼塊均包含一個(gè) AI 引擎、存儲(chǔ)器模塊和拼塊互連模 塊。AI 引擎拼塊二維陣列概覽如下圖所示。
圖:AI引擎陣列
根據(jù)陣列中拼塊的位置,存儲(chǔ)器模塊在其東西南北四向的相鄰 AI 引擎之間共享。AI 引擎可訪問其東西南北各存儲(chǔ)器模塊及其自己本身的存儲(chǔ)器模塊。AI 引擎通過專用存儲(chǔ)器訪問接口來訪問這些相鄰存儲(chǔ)器模塊,并且每次訪問最大位寬為 256 位。AI 引擎與相鄰 AI 引擎之間還可發(fā)送或接收級聯(lián)串流數(shù)據(jù)。級聯(lián)串流是水平方向從左到右或從右到左的單向串流,它通過卷繞方式移至下一行。AXI4 互連模塊可提供 AI 引擎拼塊之間的串流連接,并在串流接口與存儲(chǔ)器模塊之間提供串流到存儲(chǔ)器 (S2MM) 或存儲(chǔ)器到串流 (MM2S) 連接。此外,互連模塊還可連接到相鄰互連模塊,以便以類似網(wǎng)格的方式提供靈活的布線功能。
下圖顯示了單個(gè) AI 引擎拼塊的架構(gòu)。
圖:AI引擎拼塊詳情信息
每個(gè) AI 引擎拼塊都有一個(gè) AXI4-Stream 交換機(jī),它屬于完全可編程的 32 位 AXI4-Stream 交叉開關(guān)矩陣。它支持含有反壓的電路切換和包切換串流。通過 MM2S DMA 和 S2MM DMA,AXI4-Stream 交換機(jī)可提供往來 AI 引擎數(shù)據(jù)存儲(chǔ)器的串流訪問。此交換機(jī)還包含 2 個(gè)深度為 16 且位寬為 33 位(32 位數(shù)據(jù) + 1 位 TLAST)的 FIFO,這兩個(gè) FIFO 可鏈接在一起構(gòu)成深度為 32 的 FIFO,方法是通過電路切換將其中一個(gè) FIFO 的輸出鏈接到另一個(gè) FIFO 的輸入。
圖:標(biāo)量處理單元
-
AI
+關(guān)注
關(guān)注
87文章
31399瀏覽量
269787 -
人工智能
+關(guān)注
關(guān)注
1793文章
47590瀏覽量
239472 -
編程設(shè)計(jì)
+關(guān)注
關(guān)注
0文章
9瀏覽量
6464
原文標(biāo)題:AI 引擎內(nèi)核編碼最佳實(shí)踐指南
文章出處:【微信號(hào):賽靈思,微信公眾號(hào):Xilinx賽靈思官微】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論