0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用設(shè)計(jì)網(wǎng)關(guān)的 IP 內(nèi)核在 Xilinx VCK190 評(píng)估套件上加速人工智能應(yīng)用

eeDesigner ? 來(lái)源:物聯(lián)網(wǎng)評(píng)論 ? 作者:物聯(lián)網(wǎng)評(píng)論 ? 2022-11-25 16:27 ? 次閱讀

Xilinx 的 Versal AI Core 系列器件旨在通過(guò)使用高計(jì)算效率的 ASIC 級(jí) AI 計(jì)算引擎和靈活的可編程結(jié)構(gòu)來(lái)解決 AI 推理的獨(dú)特和最困難的問(wèn)題,以構(gòu)建具有加速器的 AI 應(yīng)用程序,最大限度地提高任何給定的效率工作負(fù)載,同時(shí)提供低功耗和低延遲。

Versal AI Core 系列VCK190 評(píng)估套件采用VC1902 器件,該器件在產(chǎn)品組合中具有最佳的 AI 性能。該套件適用于需要高吞吐量 AI 推理和信號(hào)處理計(jì)算性能的設(shè)計(jì)。提供比當(dāng)前服務(wù)器級(jí) CPU 高 100 倍的計(jì)算能力并具有多種連接選項(xiàng),使 VCK190 套件成為從云端到邊緣的各種應(yīng)用程序的理想評(píng)估和原型設(shè)計(jì)平臺(tái)。

1.jpg

圖 1:Xilinx Versal AI Core 系列 VCK190 評(píng)估套件。(圖片來(lái)源:AMD 公司)

VCK190 評(píng)估套件的主要特性

板載 Versal AI 核心系列設(shè)備

配備 Versal ACAP XCVC1902 量產(chǎn)芯片

AI 和 DSP 引擎提供比當(dāng)今服務(wù)器級(jí) CPU 高 100 倍的計(jì)算性能

用于快速原型制作的預(yù)建合作伙伴參考設(shè)計(jì)

用于前沿應(yīng)用程序開(kāi)發(fā)的最新連接技術(shù)

內(nèi)置 PCIe? Gen4 Hard IP,用于 NVMe SSD 和主機(jī)處理器等高性能設(shè)備接口

內(nèi)置 100G EMAC Hard IP,用于高速 100G 網(wǎng)絡(luò)接口

DDR4 和 LPDDR4 內(nèi)存接口

共同優(yōu)化的工具和調(diào)試方法

Vivado? ML、Vitis? 統(tǒng)一軟件平臺(tái)、Vitis AI、用于 AI 推理應(yīng)用程序開(kāi)發(fā)的 AI Engine 工具

使用 Xilinx 的 Versal AI Core 系列器件實(shí)現(xiàn) AI 接口加速

image.png

圖 2:Xilinx Versal AI Core VC1902 ACAP 器件框圖。(圖片來(lái)源:AMD 公司)

Versal? AI Core 自適應(yīng)計(jì)算加速平臺(tái) (ACAP) 是一款高度集成的多核異構(gòu)設(shè)備,可在硬件和軟件層面動(dòng)態(tài)適應(yīng)各種 AI 工作負(fù)載,是 AI 邊緣計(jì)算應(yīng)用或云加速器的理想選擇牌。該平臺(tái)集成了用于嵌入式計(jì)算的下一代標(biāo)量引擎、用于硬件靈活性的自適應(yīng)引擎,以及由 DSP 引擎和用于推理和信號(hào)處理的革命性 AI 引擎組成的智能引擎。其結(jié)果是一個(gè)適應(yīng)性強(qiáng)的加速器,在 AI/ML 工作負(fù)載方面超越了傳統(tǒng) FPGAGPU 的性能、延遲和能效。

Versal ACAP 平臺(tái)亮點(diǎn)

自適應(yīng)引擎:

自定義內(nèi)存層次結(jié)構(gòu)優(yōu)化加速器內(nèi)核的數(shù)據(jù)移動(dòng)和管理

預(yù)處理和后處理功能,包括神經(jīng)網(wǎng)絡(luò) RT 壓縮和圖像縮放

人工智能引擎 (DPU)

向量處理器的平鋪陣列,XCVC1902 設(shè)備的性能高達(dá) 133 INT8 TOPS,稱為深度學(xué)習(xí)處理單元或 DPU

適用于 CNN、RNN 和 MLP 等神經(jīng)網(wǎng)絡(luò);硬件適用于優(yōu)化不斷發(fā)展的算法

標(biāo)量引擎

四核 ARM 處理子系統(tǒng),用于安全、電源和比特流管理的平臺(tái)管理控制器

VCK190 AI推理性能

與當(dāng)前服務(wù)器級(jí) CPU 相比,VCK190 能夠提供超過(guò) 100 倍的計(jì)算性能。下面是基于 C32B6 DPU Core 的 AI Engine 實(shí)現(xiàn)的性能示例,batch = 6。請(qǐng)參閱下表了解 VCK190 上各種神經(jīng)網(wǎng)絡(luò)樣本的吞吐量性能(以幀/秒或 fps 為單位),DPU 在 1250 下運(yùn)行兆赫茲。

image.png

表 1:VCK190 AI 推理性能示例。

查看 Vitis AI 庫(kù)用戶指南 (UG1354) r2.5.0 中的 VCK190 AI 性能的更多詳細(xì)信息,網(wǎng)址為https://docs.xilinx.com/r/en-US/ug1354-xilinx-ai-sdk/VCK190-Evaluation-Board

Design Gateway 的 IP 核如何加速 AI 應(yīng)用性能?

Design Gateway 的 IP 核旨在處理網(wǎng)絡(luò)和數(shù)據(jù)存儲(chǔ)協(xié)議,無(wú)需 CPU 干預(yù)。這使得完全卸載 CPU 系統(tǒng)的復(fù)雜協(xié)議處理成為理想之選,并使它們能夠?qū)⒋蟛糠钟?jì)算能力用于 AI 應(yīng)用程序,包括 AI 推理、前后數(shù)據(jù)處理、用戶界面、網(wǎng)絡(luò)通信和數(shù)據(jù)存儲(chǔ)訪問(wèn),以實(shí)現(xiàn)最佳性能表現(xiàn)。

image.png

圖 3:具有 Design Gateway 的 IP 核的 AI 應(yīng)用示例框圖。(圖片來(lái)源:Design Gateway)

Design Gateway 的 TCP 卸載引擎 IP (TOExxG-IP) 性能

傳統(tǒng) CPU 系統(tǒng)處理超過(guò) 10GbE 或 25GbE 的高速、高吞吐量 TCP 數(shù)據(jù)流需要超過(guò) 50% 的 CPU 時(shí)間,這降低了 AI 應(yīng)用程序的整體性能。根據(jù) Xilinx 的 MPSoC Linux 系統(tǒng)上的 10G TCP 性能測(cè)試,10GbE TCP 傳輸期間的 CPU 使用率超過(guò) 50%,TCP 發(fā)送和接收數(shù)據(jù)傳輸速度可以達(dá)到 10GbE 速度的 40% 到 60% 或 400 MB/s 到600 兆字節(jié)/秒。

通過(guò)實(shí)施 Design Gateway 的TOExxG-IP 內(nèi)核,通過(guò) 10GbE 和 25GbE 進(jìn)行 TCP 傳輸?shù)?CPU 使用率可以降低到幾乎 0%,而以太網(wǎng)帶寬利用率可以達(dá)到接近 100%。這允許通過(guò)純硬件邏輯直接通過(guò) TCP 網(wǎng)絡(luò)發(fā)送和接收數(shù)據(jù),并以最少的 CPU 使用率和盡可能低的延遲將數(shù)據(jù)饋送到 Versal AI 引擎。下面的圖 4 顯示了 TOExxG-IP 和 MPSoC Linux 系統(tǒng)之間的 CPU 使用率和 TCP 傳輸速度比較。

image.png

圖 4:MPSoC Linux 系統(tǒng)和 Design Gateway 的 TOExxG-IP 內(nèi)核的 10G/25G TCP 傳輸性能比較。(圖片來(lái)源:Design Gateway)

Design Gateway 用于 Versal 器件的 TOExxG-IP

image.png

圖 5:TOExxG-IP 系統(tǒng)概覽。(圖片來(lái)源:Design Gateway)

TOExxG-IP 內(nèi)核實(shí)現(xiàn)了 TCP/IP 堆棧(在硬線邏輯中),并與 Xilinx 的 EMAC Hard IP 和以太網(wǎng)子系統(tǒng)模塊連接,用于具有 10G/25G/100G 以太網(wǎng)速度的下層硬件接口。TOExxG-IP 的用戶接口包括一個(gè)用于控制信號(hào)的寄存器接口和一個(gè)用于數(shù)據(jù)信號(hào)的 FIFO 接口。TOExxG-IP 旨在通過(guò) AXI4-ST 接口與 Xilinx 的以太網(wǎng)子系統(tǒng)連接。用戶界面的時(shí)鐘頻率取決于以太網(wǎng)接口速度(例如,156.625 MHz 或 322.266 MHz)。

TOExxG-IP 的特點(diǎn)

無(wú)需 CPU 即可實(shí)現(xiàn)完整的 TCP/IP 堆棧

支持一個(gè)會(huì)話與一個(gè) TOExxG-IP

可以通過(guò)使用多個(gè) TOExxG-IP 實(shí)例來(lái)實(shí)現(xiàn)多會(huì)話

支持服務(wù)器和客戶端模式(被動(dòng)/主動(dòng)打開(kāi)和關(guān)閉)

支持巨型幀

通過(guò)標(biāo)準(zhǔn) FIFO 接口的簡(jiǎn)單數(shù)據(jù)接口

通過(guò)單端口 RAM 接口的簡(jiǎn)單控制接口

XCVC1902-VSVA2197-2MP-ES FPGA 設(shè)備上的 FPGA 資源使用情況如下表 2 所示。

1669096115469055316.png

表 2:Versal 設(shè)備的實(shí)施統(tǒng)計(jì)示例。

TOExxG-IP 的更多詳細(xì)信息在其數(shù)據(jù)表中進(jìn)行了描述,該數(shù)據(jù)表可通過(guò)以下鏈接從 Design Gateway 網(wǎng)站下載

TOE10G-IP 內(nèi)核 Xilinx 數(shù)據(jù)表

TOE25G-IP 內(nèi)核 Xilinx 數(shù)據(jù)表

TOE100G-IP 內(nèi)核 Xilinx 數(shù)據(jù)表

Design Gateway 的 NVMe 主機(jī)控制器 IP 性能

NVMe 存儲(chǔ)接口速度與 PCIe Gen3 x4 或 PCIe Gen4 x4 的數(shù)據(jù)速率高達(dá) 32 Gbps 和 64 Gbps。這比 10GbE 以太網(wǎng)速度高三到六倍。CPU 處理復(fù)雜的 NVMe 存儲(chǔ)協(xié)議以達(dá)到盡可能高的磁盤(pán)訪問(wèn)速度需要比 10GbE 以上的 TCP 協(xié)議更多的 CPU 時(shí)間。

Design Gateway 通過(guò)開(kāi)發(fā)能夠作為獨(dú)立 NVMe 主機(jī)控制器運(yùn)行的 NVMe IP 核解決了這個(gè)問(wèn)題,能夠在沒(méi)有 CPU 的情況下直接與 NVMe SSD 通信。這實(shí)現(xiàn)了 NVMe PCIe Gen3 和 Gen4 SSD 訪問(wèn)的高效率和性能,從而簡(jiǎn)化了用戶界面和標(biāo)準(zhǔn)功能,以便在無(wú)需了解 NVMe 協(xié)議的情況下易于使用。NVMe PCIe Gen4 SSD 性能可通過(guò) NVMe IP 實(shí)現(xiàn)高達(dá) 6 GB/s 的傳輸速度,如圖 6 所示。

image.png

圖 6:NVMe PCIe Gen3 和 Gen4 SSD 與 Design Gateway 的 NVMe-IP Core 的性能比較。(圖片來(lái)源:Design Gateway)

Design Gateway 的 NVMe-IP 用于 Versal 設(shè)備

image.png

圖 7:NVMe-IP 系統(tǒng)概覽。(圖片來(lái)源:Design Gateway)

NVMe-IP的特點(diǎn)

能夠?qū)崿F(xiàn)應(yīng)用層、事務(wù)層、數(shù)據(jù)鏈路層和部分物理層訪問(wèn)NVMe SSD,無(wú)需CPU或外部DDR內(nèi)存

與 Xilinx PCIe Gen3 和 Gen4 Hard IP 一起運(yùn)行

無(wú)需外部存儲(chǔ)器接口即可利用 BRAM 和 URAM 作為數(shù)據(jù)緩沖器的能力

支持六個(gè)命令:Identify、Shutdown、Write、Read、SMART 和 Flush(可選的附加命令支持)

XCVC1902-VSVA2197-2MP-ES FPGA 設(shè)備上的 FPGA 資源使用情況如表 2 所示。

1669096085727048653.png

表 3:Versal 設(shè)備的實(shí)施統(tǒng)計(jì)示例。

用于 Versal 設(shè)備的 NVMe-IP 的更多詳細(xì)信息在其數(shù)據(jù)表中進(jìn)行了描述

適用于 Gen4 Xilinx 數(shù)據(jù)表的 NVMe IP 核

結(jié)論

TOExxG-IP 和 NVMe-IP 內(nèi)核都可以通過(guò)完全卸載 CPU 系統(tǒng)從計(jì)算和內(nèi)存密集型協(xié)議(例如 TCP 和 NVMe 存儲(chǔ)協(xié)議)中卸載對(duì)實(shí)時(shí) AI 應(yīng)用程序至關(guān)重要的協(xié)議來(lái)幫助加速 AI 應(yīng)用程序性能。這使得 Xilinx 的 Versal AI Core 系列器件能夠執(zhí)行 AI 推理和高性能計(jì)算應(yīng)用,而不會(huì)出現(xiàn)網(wǎng)絡(luò)和數(shù)據(jù)存儲(chǔ)協(xié)議處理的瓶頸或延遲。

VCK190 評(píng)估套件和 Design Gateway 的網(wǎng)絡(luò)和存儲(chǔ) IP 解決方案可在賽靈思 Versal AI Core 設(shè)備上以盡可能低的 FPGA 資源使用率和極高的能效在 AI 應(yīng)用中實(shí)現(xiàn)最佳性能。

審核編輯 黃昊宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Xilinx
    +關(guān)注

    關(guān)注

    71

    文章

    2167

    瀏覽量

    121514
  • IP
    IP
    +關(guān)注

    關(guān)注

    5

    文章

    1709

    瀏覽量

    149585
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    30947

    瀏覽量

    269217
  • 人工智能
    +關(guān)注

    關(guān)注

    1791

    文章

    47314

    瀏覽量

    238653
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    如何在Linux平臺(tái)上進(jìn)行Linux程序開(kāi)發(fā)

    最近陸陸續(xù)續(xù)有工程師拿到了VCK190單板。 VCK190集成了Xilinx的7nm AIE,有很強(qiáng)的處理能力。 本文介紹怎么運(yùn)行Xilinx AIE的例程,熟悉AIE開(kāi)發(fā)流程。
    發(fā)表于 08-02 08:03 ?3206次閱讀
    如何在Linux平臺(tái)上進(jìn)行Linux程序開(kāi)發(fā)

    FPGA人工智能中的應(yīng)用有哪些?

    FPGA(現(xiàn)場(chǎng)可編程門(mén)陣列)人工智能領(lǐng)域的應(yīng)用非常廣泛,主要體現(xiàn)在以下幾個(gè)方面: 一、深度學(xué)習(xí)加速 訓(xùn)練和推理過(guò)程加速:FPGA可以用來(lái)加速
    發(fā)表于 07-29 17:05

    人工智能是什么?

    簡(jiǎn)單的理解為“人工”與“智能”的完美結(jié)合呢?關(guān)于這個(gè)問(wèn)題,仁者見(jiàn)仁智者見(jiàn)智。 現(xiàn)在繼續(xù)剛才的話題,以目前服務(wù)機(jī)器人的智商度來(lái)看的話,當(dāng)前人工智能雖然不斷高速前進(jìn),但還是處于弱
    發(fā)表于 09-16 15:40

    嵌入式人工智能簡(jiǎn)介

    嵌入式人工智能-簡(jiǎn)要了解OPEN AI LAB嵌入式人工智能開(kāi)發(fā)套件(EAIDK)AIoTOPEN AI LAB最開(kāi)始聽(tīng)到這個(gè)名字,以為是一家國(guó)外的公司或者是一個(gè)開(kāi)源社區(qū),登錄官網(wǎng)之后發(fā)現(xiàn)是國(guó)內(nèi)
    發(fā)表于 10-28 09:44

    利用設(shè)計(jì)網(wǎng)關(guān)IP 內(nèi)核 Xilinx VCK190 評(píng)估套件加速人工智能應(yīng)用

    出現(xiàn)網(wǎng)絡(luò)和數(shù)據(jù)存儲(chǔ)協(xié)議處理的瓶頸或延遲。VCK190 評(píng)估套件和 Design Gateway 的網(wǎng)絡(luò)和存儲(chǔ) IP 解決方案可在 Xilinx
    發(fā)表于 11-25 16:29

    如何將人工智能應(yīng)用到效能評(píng)估系統(tǒng)軟件中去解決

    ,我們可以將其應(yīng)用到效能評(píng)估系統(tǒng)中,進(jìn)一步提高效能評(píng)估的準(zhǔn)確性和實(shí)用性。   華盛恒輝可以利用人工智能技術(shù),通過(guò)對(duì)大量數(shù)據(jù)的分析,來(lái)識(shí)別和評(píng)估各個(gè)業(yè)務(wù)環(huán)節(jié)的表現(xiàn),從而對(duì)效能進(jìn)行
    發(fā)表于 08-30 12:58

    賽靈思Versal評(píng)估套件助力開(kāi)發(fā)者邁入解鎖ACAP功能的高速路

    裝備業(yè)界首個(gè)自適應(yīng)計(jì)算加速平臺(tái)(ACAP)的賽靈思 Versal AI Core 系列 VCK190評(píng)估套件 和 Versal Prime 系列 VMK180 Prime
    的頭像 發(fā)表于 01-14 09:30 ?2267次閱讀

    賽靈思宣布兩款Versal ACAP評(píng)估套件現(xiàn)已上市

    日前,賽靈思宣布兩款 Versal ACAP 評(píng)估套件現(xiàn)已上市,分別為?Versal AI Core 系列 VCK190 評(píng)估套件和?Ver
    的頭像 發(fā)表于 03-12 15:14 ?3217次閱讀

    VCK190板子使用DDR4-DIMM的ECC

    Vivado 2021.2的VCK190 boardfile里DDR4-DIMM的DQ width被限制為64bit,不能使能ECC功能。如果需要在VCK190板子使用DDR4-D
    的頭像 發(fā)表于 08-17 09:12 ?1304次閱讀

    如何更改VCK190單板啟動(dòng)模式

    辦公室有VCK190單板,運(yùn)行在SD啟動(dòng)模式下,能進(jìn)入Linux。但是現(xiàn)在在家辦公,不能更改VCK190單板啟動(dòng)模式。
    的頭像 發(fā)表于 08-26 11:05 ?1254次閱讀

    利用設(shè)計(jì)網(wǎng)關(guān)IP 內(nèi)核 Xilinx VCK190 評(píng)估套件加速人工智能應(yīng)用

    。 VCK190 評(píng)估套件和 Design Gateway 的網(wǎng)絡(luò)和存儲(chǔ) IP 解決方案可在 Xilinx 的 Versal AI Core
    的頭像 發(fā)表于 11-29 18:36 ?1096次閱讀
    <b class='flag-5'>利用</b><b class='flag-5'>設(shè)計(jì)網(wǎng)關(guān)</b>的 <b class='flag-5'>IP</b> <b class='flag-5'>內(nèi)核</b><b class='flag-5'>在</b> <b class='flag-5'>Xilinx</b> <b class='flag-5'>VCK190</b> <b class='flag-5'>評(píng)估</b><b class='flag-5'>套件</b><b class='flag-5'>上</b><b class='flag-5'>加速</b><b class='flag-5'>人工智能</b>應(yīng)用

    【產(chǎn)品測(cè)試】利用設(shè)計(jì)網(wǎng)關(guān)IP 內(nèi)核 Xilinx VCK190 評(píng)估套件加速人工智能應(yīng)用

    系列器件能夠執(zhí)行 AI 推理和高性能計(jì)算應(yīng)用,而不會(huì)出現(xiàn)網(wǎng)絡(luò)和數(shù)據(jù)存儲(chǔ)協(xié)議處理的瓶頸或延遲。 VCK190 評(píng)估套件和 Design Gateway 的網(wǎng)絡(luò)和存儲(chǔ) IP 解決方案可在
    的頭像 發(fā)表于 11-29 18:36 ?2666次閱讀

    Versal VCK190評(píng)估套件使用器件固件升級(jí)(DFU)執(zhí)行USB輔助啟動(dòng)模式測(cè)試

    本文將演示如何在 Versal AI Core 系列 VCK190 評(píng)估套件從 USB 輔助啟動(dòng)模式啟動(dòng) Linux
    的頭像 發(fā)表于 07-10 17:09 ?982次閱讀
    <b class='flag-5'>在</b>Versal <b class='flag-5'>VCK190</b><b class='flag-5'>評(píng)估</b><b class='flag-5'>套件</b><b class='flag-5'>上</b>使用器件固件升級(jí)(DFU)執(zhí)行USB輔助啟動(dòng)模式測(cè)試

    利用Design Gateway的IP Core加速Xilinx VCK190評(píng)估套件的AI應(yīng)用

    Xilinx?的?Versal AI Core?系列器件旨在解決有關(guān) AI 推理的最大而獨(dú)特的難題
    的頭像 發(fā)表于 07-07 14:15 ?1202次閱讀
    <b class='flag-5'>利用</b>Design Gateway的<b class='flag-5'>IP</b> Core<b class='flag-5'>加速</b><b class='flag-5'>Xilinx</b> <b class='flag-5'>VCK190</b><b class='flag-5'>評(píng)估</b><b class='flag-5'>套件</b><b class='flag-5'>上</b>的AI應(yīng)用

    VCK190評(píng)估板用戶指南

    電子發(fā)燒友網(wǎng)站提供《VCK190評(píng)估板用戶指南.pdf》資料免費(fèi)下載
    發(fā)表于 09-13 14:40 ?0次下載
    <b class='flag-5'>VCK190</b><b class='flag-5'>評(píng)估</b>板用戶指南