0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

利用設計網(wǎng)關的 IP 內(nèi)核在 Xilinx VCK190 評估套件上加速人工智能應用

innswaiter ? 2022-11-29 18:36 ? 次閱讀

XilinxVersal AI Core 系列器件旨在解決獨特且最困難的 AI 推理問題,方法是使用高計算效率 ASIC 級 AI 計算引擎和靈活的可編程結構來構建具有加速器的 AI 應用,從而最大限度地提高任何給定工作負載的效率,同時提供低功耗和低延遲。

Versal AI Core 系列VCK190 評估套件采用VC1902器件,該器件在產(chǎn)品組合中具有最佳的 AI 性能。該套件專為需要高吞吐量 AI 推理和信號處理計算性能的設計而設計。VCK190 套件的計算能力是當前服務器級 CPU 的 100 倍,并具有多種連接選項,是從云到邊緣的各種應用的理想評估和原型設計平臺。

賽靈思 Versal AI 內(nèi)核系列 VCK190 評估套件圖像圖 1:賽靈思 Versal AI 內(nèi)核系列 VCK190 評估套件。(圖片來源:AMD, Inc)

VCK190 評估套件的主要特性

  • 板載 Versal AI 核心系列設備
    • 配備 Versal ACAP XCVC1902 量產(chǎn)芯片
    • AI 和 DSP 引擎的計算性能比當今的服務器級 CPU 高 100 倍
    • 用于快速原型設計的預構建合作伙伴參考設計
  • 用于前沿應用開發(fā)的最新連接技術
    • 內(nèi)置 PCIe 第 4 代硬 IP,用于高性能設備接口,如 NVMe? 固態(tài)盤和主機處理器
    • 內(nèi)置 100G EMAC 硬 IP,用于高速 100G 網(wǎng)絡接口
    • DDR4 和 LPDDR4 內(nèi)存接口
  • 協(xié)同優(yōu)化工具和調(diào)試方法
    • Vivado? ML, Vitis 統(tǒng)一軟件平臺, Vitis? AI, 用于 AI 推理應用開發(fā)的 AI 引擎工具

利用賽靈思 Versal AI 內(nèi)核系列器件實現(xiàn) AI 接口加速

賽靈思 Versal AI 內(nèi)核 VC1902 ACAP 器件框圖
圖 2:賽靈思 Versal AI 內(nèi)核 VC1902 ACAP 器件框圖。(圖片來源:AMD, Inc)

Versal? AI Core 自適應計算加速平臺 (ACAP) 是一款高度集成的多核異構設備,可在硬件和軟件級別動態(tài)適應各種 AI 工作負載,使其成為 AI 邊緣計算應用或云加速器卡的理想選擇。該平臺集成了用于嵌入式計算的下一代標量引擎、用于硬件靈活性的自適應引擎,以及由 DSP 引擎和用于推理和信號處理的革命性 AI 引擎組成的智能引擎。其結果是一個適應性強的加速器,其性能、延遲和能效超過了傳統(tǒng) FPGAGPU 的性能、延遲和能效,適用于 AI/ML 工作負載。

Versal ACAP 平臺亮點

  • 適應性強的引擎:
    • 自定義內(nèi)存層次結構優(yōu)化了加速器內(nèi)核的數(shù)據(jù)移動和管理
    • 預處理和后處理功能,包括神經(jīng)網(wǎng)絡 RT 壓縮和圖像縮放
  • 人工智能引擎 (DPU)
    • 矢量處理器的平鋪陣列,使用 XCVC1902 設備(稱為深度學習處理單元或 DPU)時,性能高達 133 INT8 TOPS
    • 非常適合神經(jīng)網(wǎng)絡,包括CNN,RNN和MLP;硬件可適應不斷演變的算法進行優(yōu)化
  • 標量引擎
    • 四核ARM處理子系統(tǒng),用于安全、電源和比特流管理的平臺管理控制器

VCK190 人工智能推理性能

與當前服務器級 CPU 相比,VCK190 能夠提供超過 100 倍的計算性能。下面是基于 C32B6 DPU 內(nèi)核的 AI 引擎實現(xiàn)的性能示例,批處理 = 6。有關 VCK190 上各種神經(jīng)網(wǎng)絡樣本的吞吐量性能(以幀/秒或 fps 為單位),DPU 以 1250 MHz 運行,請參閱下表。

no 神經(jīng)網(wǎng)絡 輸入大小 共和黨 性能(幀率)(多線程)
1 face_landmark 96x72 0.14 24605.3
2 facerec_resnet20 112×96 3.5 5695.3
3 inception_v2 224×224 4 1845.8
4 medical_seg_cell_tf2 128×128 5.3 3036.3
5 MLPerf_resnet50_v1.5_tf 224×224 8.19 2744.2
6 精煉Medical_EDD_tf 320x320 9.8 1283.6
7 tiny_yolov3_vmss 416×416 5.46 1424.4
8 yolov2_voc_pruned_0_77 448×448 7.8 1366.0

表 1:VCK190 AI 推理性能示例。

有關 VCK190 AI 性能的更多詳細信息,請參閱 Vitis AI 庫用戶指南 (UG1354), r2.5.0 athttps://docs.xilinx.com/r/en-US/ug1354-xilinx-ai-sdk/VCK190-Evaluation-Board

設計網(wǎng)關的 IP 核如何提高 AI 應用程序性能?

設計網(wǎng)關的IP 核設計用于處理網(wǎng)絡和數(shù)據(jù)存儲協(xié)議,無需 CPU 干預。這使得將CPU系統(tǒng)從復雜的協(xié)議處理中完全卸載成為理想的選擇,并使它們能夠?qū)⒋蟛糠钟嬎隳芰τ糜贏I應用程序,包括AI推理,前后數(shù)據(jù)處理,用戶界面,網(wǎng)絡通信和數(shù)據(jù)存儲訪問,以獲得最佳性能。

具有設計網(wǎng)關 IP 核的 AI 應用程序示例框圖圖 3:具有設計網(wǎng)關 IP 核的示例 AI 應用程序的框圖。(圖片來源:設計網(wǎng)關)

設計網(wǎng)關的 TCP 卸載引擎 IP (TOExxG-IP) 性能

傳統(tǒng) CPU 系統(tǒng)處理超過 10GbE 或 25GbE 的高速、高吞吐量 TCP 數(shù)據(jù)流需要超過 50% 的 CPU 時間,這會降低 AI 應用程序的整體性能。根據(jù)賽靈思MPSoC Linux系統(tǒng)上的10G TCP性能測試,10GbE TCP傳輸過程中的CPU使用率超過50%,TCP發(fā)送和接收數(shù)據(jù)傳輸速度可以達到10GbE速度的40%至60%左右或400 MB / s至600 MB / s。

通過實施設計網(wǎng)關的TOExxG-IP 內(nèi)核,通過 10GbE 和 25GbE 傳輸?shù)?CPU 使用率可以降低到幾乎 0%,同時以太網(wǎng)帶寬利用率可以達到接近 100%。這允許通過純硬件邏輯直接通過 TCP 網(wǎng)絡發(fā)送和接收數(shù)據(jù),并以最小的 CPU 使用率和盡可能低的延遲饋送到 Versal AI 引擎。下面的圖 4 顯示了 TOExxG-IP 和 MPSoC Linux 系統(tǒng)之間的 CPU 使用率和 TCP 傳輸速度比較。

MPSoC Linux系統(tǒng)10G/25G TCP傳輸性能對比圖片圖 4:MPSoC Linux 系統(tǒng)和 Design Gateway 的 TOExxG-IP 內(nèi)核對 10G/25G TCP 傳輸?shù)男阅鼙容^。(圖片來源:設計網(wǎng)關)

設計網(wǎng)關的 TOExxG-IP for Versal 設備

TOExxG-IP 系統(tǒng)概述示意圖圖 5:TOExxG-IP 系統(tǒng)概述。(圖片來源:設計網(wǎng)關)

TOExxG-IP 內(nèi)核實現(xiàn)了 TCP/IP 堆棧(硬線邏輯),并與賽靈思的 EMAC 硬 IP 和以太網(wǎng)子系統(tǒng)模塊連接,以實現(xiàn) 10G/25G/100G 以太網(wǎng)速度的下層硬件接口。TOExxG-IP 的用戶界面由用于控制信號的寄存器接口和用于數(shù)據(jù)信號的 FIFO 接口組成。TOExxG-IP 設計用于通過 AXI4-ST 接口與賽靈思以太網(wǎng)子系統(tǒng)連接。用戶界面的時鐘頻率取決于以太網(wǎng)接口速度(例如,156.625 MHz 或 322.266 MHz)。

TOExxG-IP的特點

  • 完整的 TCP/IP 堆棧實現(xiàn),無需 CPU
  • 支持一個會話與一個 TOExxG-IP
  • 可以使用多個 TOExxG-IP 實例實現(xiàn)多會話
  • 支持服務器和客戶端模式(被動/主動打開和關閉)
  • 支持巨型幀
  • 通過標準先進先出接口實現(xiàn)簡單的數(shù)據(jù)接口
  • 通過單端口 RAM 接口實現(xiàn)簡單的控制接口

XCVC1902-VSVA2197-2MP-ES FPGA 器件上的 FPGA 資源使用情況如下表 2 所示。

家庭 示例設備 最大頻率 (兆赫 負載均衡注冊 負載均衡 LUT IOB 布拉姆蒂勒^1^ 烏蘭 設計工具
Versal AI Core XCVC1902-VSVA2197-2MP-ES 350 11340 10921 2165 - 51.5 - 萬歲2021.2

表 2:Versal 設備的實現(xiàn)統(tǒng)計信息示例。

TOExxG-IP 的更多詳細信息在其數(shù)據(jù)表中進行了描述,可通過以下鏈接從設計網(wǎng)關的網(wǎng)站下載

Design Gateway's NVMe Host Controller IP performance

NVMe Storage interface speed with PCIe Gen3 x4 or PCIe Gen4 x4 has data rates up to 32 Gbps and 64 Gbps. This is three to six times higher than 10GbE Ethernet speed. Processing complicated NVMe storage protocol by the CPU to achieve the highest possible disk access speed requires more CPU time than TCP protocol over 10GbE.

Design Gateway solved this problem by developing the NVMe IP core that is able to run as a standalone NVMe host controller, able to communicate with an NVMe SSD directly without the CPU. This enables a high efficiency and performance of the NVMe PCIe Gen3 and Gen4 SSD access, which simplifies the user interface and standard features for ease of usage without needing knowledge of the NVMe protocol. NVMe PCIe Gen4 SSD performance can achieve up to a 6 GB/s transfer speed with NVMe IP as shown in Figure 6.

Image of performance comparison of NVMe PCIe Gen3 and Gen4 SSDFigure 6: Performance comparison of NVMe PCIe Gen3 and Gen4 SSD with Design Gateway's NVMe-IP Core. (Image source: Design Gateway)

Design Gateway's NVMe-IP’s for Versal devices

Diagram of NVMe-IP systems overviewFigure 7: NVMe-IP systems overview. (Image source: Design Gateway)

NVMe-IP’s features

  • Able to implement application layer, transaction layer, data link layer, and some parts of the physical layer to access the NVMe SSD without a CPU or external DDR memory
  • Operates with Xilinx PCIe Gen3 and Gen4 Hard IP
  • 能夠利用BRAM和URAM作為數(shù)據(jù)緩沖區(qū),而無需外部存儲器接口
  • 支持六個命令:識別、關機、寫入、讀取、SMART 和刷新(提供可選的附加命令支持)

XCVC1902-VSVA2197-2MP-E-S FPGA 器件上的 FPGA 資源使用情況如表 2 所示。

家庭 示例設備 最大頻率 (兆赫) 負載均衡注冊 負載均衡 LUT IOB 布拉姆蒂勒^1^ 烏蘭 設計工具
Versal AI Core XCVC1902-VSVA2197-2MP-ES 375 6280 3948 1050 - 4 8 萬歲2022.1

表 3:Versal 設備的實現(xiàn)統(tǒng)計信息示例。

有關 Versal 器件的 NVMe-IP 的更多詳細信息,請參見其數(shù)據(jù)表,可通過以下鏈接從 Design Gateway 的網(wǎng)站下載:

面向第四代賽靈思的 NVMe IP 核數(shù)據(jù)表

結論

TOExxG-IP 和 NVMe-IP 內(nèi)核都可以通過將 CPU 系統(tǒng)從計算和內(nèi)存密集型協(xié)議(如 TCP 和 NVMe 存儲協(xié)議)中完全卸載來幫助加速 AI 應用程序性能,這對于實時 AI 應用程序至關重要。這使得賽靈思的 Versal AI Core 系列器件能夠執(zhí)行 AI 推理和高性能計算應用,而不會出現(xiàn)網(wǎng)絡和數(shù)據(jù)存儲協(xié)議處理的瓶頸或延遲。

VCK190 評估套件和 Design Gateway 的網(wǎng)絡和存儲 IP 解決方案可在 Xilinx 的 Versal AI Core 器件上以盡可能低的 FPGA 資源使用量和極高的能效在 AI 應用中實現(xiàn)最佳性能。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 測試
    +關注

    關注

    8

    文章

    5308

    瀏覽量

    126691
收藏 人收藏

    評論

    相關推薦

    嵌入式和人工智能究竟是什么關系?

    人工智能的結合,無疑是科技發(fā)展中的一場革命。人工智能硬件加速中,嵌入式系統(tǒng)以其獨特的優(yōu)勢和重要性,發(fā)揮著不可或缺的作用。通過深度學習和神經(jīng)網(wǎng)絡等算法,嵌入式系統(tǒng)能夠高效地處理大量數(shù)
    發(fā)表于 11-14 16:39

    《AI for Science:人工智能驅(qū)動科學創(chuàng)新》第6章人AI與能源科學讀后感

    幸得一好書,特此來分享。感謝平臺,感謝作者。受益匪淺。 閱讀《AI for Science:人工智能驅(qū)動科學創(chuàng)新》的第6章后,我深刻感受到人工智能在能源科學領域中的巨大潛力和廣泛應用。這一章詳細
    發(fā)表于 10-14 09:27

    AI for Science:人工智能驅(qū)動科學創(chuàng)新》第4章-AI與生命科學讀后感

    很幸運社區(qū)給我一個閱讀此書的機會,感謝平臺。 《AI for Science:人工智能驅(qū)動科學創(chuàng)新》第4章關于AI與生命科學的部分,為我們揭示了人工智能技術在生命科學領域中的廣泛應用和深遠影響。
    發(fā)表于 10-14 09:21

    《AI for Science:人工智能驅(qū)動科學創(chuàng)新》第一章人工智能驅(qū)動的科學創(chuàng)新學習心得

    ,無疑為讀者鋪設了一條探索人工智能(AI)如何深刻影響并推動科學創(chuàng)新的道路。閱讀這一章后,我深刻感受到了人工智能技術科學領域的廣泛應用潛力以及其帶來的革命性變化,以下是我個人的學習
    發(fā)表于 10-14 09:12

    risc-v人工智能圖像處理應用前景分析

    RISC-V和Arm內(nèi)核及其定制的機器學習和浮點運算單元,用于處理復雜的人工智能圖像處理任務。 四、未來發(fā)展趨勢 隨著人工智能技術的不斷發(fā)展和普及,RISC-V
    發(fā)表于 09-28 11:00

    人工智能ai4s試讀申請

    目前人工智能在繪畫對話等大模型領域應用廣闊,ai4s也是方興未艾。但是如何有效利用ai4s工具助力科研是個需要研究的課題,本書對ai4s基本原理和原則,方法進行描訴,有利于總結經(jīng)驗,擬按照要求準備相關體會材料??茨芊裼兄谌腴T和提高ss
    發(fā)表于 09-09 15:36

    名單公布!【書籍評測活動NO.44】AI for Science:人工智能驅(qū)動科學創(chuàng)新

    大力發(fā)展AI for Science的原因。 第2章從科學研究底層的理論模式與主要困境,以及人工智能三要素(數(shù)據(jù)、算法、算力)出發(fā),對AI for Science的技術支撐進行解讀。 第3章介紹了
    發(fā)表于 09-09 13:54

    【xG24 Matter開發(fā)套件試用體驗】深入了解Silicon Labs xG24 Matter開發(fā)套件

    特色的智能和機器學習加速模塊,能夠勝任邊緣端部署輕量級智能應用。 借助高性能 2.4 GHz RF、低電流消耗、人工智能 (AI)/機器
    發(fā)表于 08-27 20:23

    FPGA人工智能中的應用有哪些?

    FPGA(現(xiàn)場可編程門陣列)人工智能領域的應用非常廣泛,主要體現(xiàn)在以下幾個方面: 一、深度學習加速 訓練和推理過程加速:FPGA可以用來加速
    發(fā)表于 07-29 17:05

    【xG24 Matter開發(fā)套件試用體驗】初識xG24 Matter開發(fā)套件

    。 借助高性能 2.4 GHz RF、低電流消耗、人工智能 (AI)/機器學習 (ML) 硬件加速器和 Secure Vault 等關鍵功能,物聯(lián)網(wǎng)設備制造商可以打造智能、強大、節(jié)能且能夠避免遠程
    發(fā)表于 07-11 23:31

    5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開發(fā)(SC171開發(fā)套件V2)

    5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開發(fā)(SC171開發(fā)套件V2) 課程類別 課程名稱 視頻課程時長 視頻課程鏈接 課件鏈接 人工智能 參賽基礎知識指引 14分50秒 https
    發(fā)表于 05-10 16:46

    FPGA開發(fā)如何降低成本,比如利用免費的IP內(nèi)核

    。 了解IP內(nèi)核的特性和使用方式:選定IP內(nèi)核后,應詳細閱讀其文檔,了解內(nèi)核的功能、性能、接口
    發(fā)表于 04-28 09:41

    5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開發(fā)(SC171開發(fā)套件V1)

    課程類別 課程名稱 視頻課程時長 視頻課程鏈接 課件鏈接 人工智能 參賽基礎知識指引 14分50秒 https://t.elecfans.com/v/25508.html *附件:參賽基礎知識指引
    發(fā)表于 04-01 10:40

    嵌入式人工智能的就業(yè)方向有哪些?

    嵌入式人工智能的就業(yè)方向有哪些? 新一輪科技革命與產(chǎn)業(yè)變革的時代背景下,嵌入式人工智能成為國家新型基礎建設與傳統(tǒng)產(chǎn)業(yè)升級的核心驅(qū)動力。同時在此背景驅(qū)動下,眾多名企也紛紛嵌入式
    發(fā)表于 02-26 10:17

    利用GPU加速Orange Pi?5跑LLMs:人工智能愛好者High翻了!

    本期視頻將會給人工智能愛好者們帶來超級震撼!視頻中,我們將深入了解利用GPU加速OrangePi5跑LLMs的精彩世界。最近知乎
    的頭像 發(fā)表于 01-22 15:29 ?1009次閱讀
    <b class='flag-5'>利用</b>GPU<b class='flag-5'>加速</b><b class='flag-5'>在</b>Orange Pi?5<b class='flag-5'>上</b>跑LLMs:<b class='flag-5'>人工智能</b>愛好者High翻了!