0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

國產(chǎn)FPAI芯片的AI系統(tǒng)方案

國產(chǎn)FPGA之家 ? 來源:國產(chǎn)FPGA之家 ? 作者:國產(chǎn)FPGA之家 ? 2023-11-28 11:32 ? 次閱讀

各位親愛的老鐵,繼上次《漫談人工智能與國產(chǎn)FPAI芯片》嘮完已經(jīng)過去一個多月了;真的是時間不等人呀,2023年馬上就要over了,最后一個月,大家要繼續(xù)努力卷呀,come on!!!

漫談人工智能與國產(chǎn)FPAI芯片

今天,小弟和大家談一談某國產(chǎn)FPAI芯片的AI系統(tǒng)方案以及參考設(shè)計實例。

1)FPAI芯片架構(gòu):博采眾長、兼容并蓄

首先,我們簡單了解下FPAI(Field Programmable AI)芯片。FPAI芯片,創(chuàng)新性地采用了異構(gòu)融合架構(gòu),即在一顆die上集成了高性能SOC(PS)、大容量FPGA(PL)、AI加速引擎(AI)三大模塊。該異構(gòu)融合架構(gòu),可謂“博采眾長、兼容并蓄”,融合了各異構(gòu)模塊優(yōu)勢,特別適合AI計算。其中,高性能SOC優(yōu)勢在于控制和通用計算,使得能在單芯片上運行完成完整的AI計算;大容量FPGA優(yōu)勢在于可重構(gòu)和高速接口,解決了長尾算子的難題,適應(yīng)了AI算法不斷的迭代升級趨勢;AI加速引擎優(yōu)勢在于高性能、低功耗地完成卷積等計算密集型算子的計算。

wKgaomVlX1eAKB36AAAuMxzdbw0341.png

圖1 FPAI芯片架構(gòu):異構(gòu)融合

具體的,以下是某款國產(chǎn)FPAI芯片,該芯片資源很豐富。PS部分,有四核處理器CPU、視頻編解碼模塊VPU、圖像處理模塊GPU等;PL部分,有444K的邏輯資源,16個高速接口GTX;AI部分,有高達(dá)27.52TOPS的int8算力,精度支持int8和int16,配合AI編譯器支持快速部署

wKgZomVlX1eAJaxWAAFDL0NK_bo458.png

圖2 某國產(chǎn)FPAI芯片資源

綜上,該顆FPAI芯片支持豐富的AI應(yīng)用場景,特別適合邊緣融合端的AI應(yīng)用場景。

2)FPAI系統(tǒng)方案:好馬配好鞍,好船配好帆

從芯片到系統(tǒng)產(chǎn)品,還需設(shè)計硬件,開發(fā)FPGA程序,開發(fā)軟件程序,部署AI網(wǎng)絡(luò)等。系統(tǒng)方案及對應(yīng)的參考實現(xiàn),提供了一整套完整的解決方案參考,能夠幫助用戶方便、快速、高效、可靠地完成自己產(chǎn)品的設(shè)計。

所謂“好馬配好鞍,好船配好帆”,不同芯片需要適合的系統(tǒng)方案以及對應(yīng)的參考設(shè)計。

首先,F(xiàn)PAI芯片是PS+PL+AI的架構(gòu),對外接口管腳位于PS、PL模塊,因此依據(jù)外部數(shù)據(jù)流輸入的管腳,設(shè)計了PS_IN、PL_IN的系統(tǒng)方案,以此對應(yīng)不同的內(nèi)部控制流數(shù)據(jù)流方案;然后,F(xiàn)PAI芯片的AI峰值算力達(dá)27.52Tops,能夠支持多路數(shù)據(jù)流的不同的AI計算,視頻編解碼模塊能支持多路視頻流的壓縮,可編程邏輯資源也支持多輸入的高速數(shù)據(jù)流接口,因此依據(jù)以上算力特點,設(shè)計了多源的系統(tǒng)方案,以此也符合了邊緣融合端的AI應(yīng)用特點;此外,PCIe加速板卡的系統(tǒng)方案,配合主機(jī)服務(wù)器,完成AI的推理計算加速。

綜上,基于FPAI芯片的架構(gòu)、算力、資源、輸入數(shù)據(jù)流來源、應(yīng)用場景等特點,分別制定了如下4種系統(tǒng)方案,基本能夠涵蓋FPAI單芯片下的各種應(yīng)用場景。

(1)PS_IN系統(tǒng)方案

(2)PL_IN系統(tǒng)方案

(3)多源系統(tǒng)方案

(4)PCIe加速卡系統(tǒng)方案

wKgaomVlX1eAKnJEAAF2kI2rtrE813.png

圖3 FPAI芯片的系統(tǒng)方案

一個系統(tǒng)方案可能有多個具體的參考實現(xiàn),但對應(yīng)的設(shè)計架構(gòu)是一致的,可能只是具體內(nèi)部實現(xiàn)有區(qū)別。參考設(shè)計會提供一整套參考方案,包括硬件設(shè)計、FPGA設(shè)計、軟件設(shè)計的代碼和相應(yīng)文檔。因此,想要基于FPAI設(shè)計系統(tǒng)的朋友,可以依據(jù)自身的應(yīng)用場景需求,選擇上述系統(tǒng)方案的參考設(shè)計。

3)多路PL_IN+VPU編碼的參考設(shè)計實例

好了,說了這么多,大家等不及要看具體的參考設(shè)計實例吧。以下會介紹多源系統(tǒng)方案的一個參考設(shè)計實例:多路PL_IN+VPU編碼的參考設(shè)計,分別從參考設(shè)計概述、硬件板卡介紹、FPGA工程介紹、軟件工程介紹、實例功耗介紹等5部分來介紹該實例。

3.1參考設(shè)計概述

輸入:4路SDI攝像頭,默認(rèn)分辨率和幀率設(shè)置1080p@30Hz;

輸出:SD卡,H.265/H.264格式文件格式;

VPU:分辨率1080p,YUV422輸入, 輸出 H.265/H.264,默認(rèn)編碼幀率設(shè)置30Hz;

檢測:運行示例網(wǎng)絡(luò)Yolov5s AI檢測,帶檢測結(jié)果的視頻壓縮到SD卡。

性能:4路1080p@30Hz輸入,AI+VPU編碼,每一路30fps。

wKgZomVlX1eAe19iAABwCx85uLI399.png

圖4 多路PL_IN+VPU編碼的參考實現(xiàn)框圖

3.22

悟空硬件開發(fā)板簡介

如下圖,采用SDI接口攝像頭輸入4路視頻到板卡,悟空硬件板卡上主芯片F(xiàn)PAI芯片;SD卡,儲存和啟動Linux操作系統(tǒng)啟動文件和根文件系統(tǒng);1GB PS DDR和2GB PL DDR,用于運行操作系統(tǒng)和AI;通過子卡接入的4路SDI視頻接口;網(wǎng)口、串口、JTAG調(diào)試接口等。

wKgZomVlX1eAfjysAAzOUSBCM58684.png

圖5 悟空硬件開發(fā)板

3.32

FPGA設(shè)計介紹

首先,整體數(shù)據(jù)流如圖所示:

wKgZomVlX1eAGTBoAACNsqz4PaI100.png

圖6 多路PL_IN+VPU編碼的數(shù)據(jù)流

Step1:對應(yīng)圖中的數(shù)據(jù)流1,Cam0~Cam3為4路不同的SDI攝像頭視頻流,幀率1080p@30Hz。對于每一路SDI攝像頭視頻流,復(fù)制成兩路,一路經(jīng)過resize、image_make模塊完成AI預(yù)處理后存入PL_DDR,供AI檢測使用;另一路經(jīng)過resize、rgb565轉(zhuǎn)為yuv422(可選)通過HP接口存入PS_DDR,供后續(xù)畫上檢測結(jié)果后VPU壓縮用或者HDMI顯示用。

Step2:對應(yīng)圖中的數(shù)據(jù)流2,啟動AI訪問PL_DDR完成AI的計算。

Step3:對應(yīng)圖中的數(shù)據(jù)流3,最后一層特征圖,經(jīng)過icore_post模塊處理后,通過HP接口寫入PS_DDR。PS完成剩余后處理計算,得出AI檢測結(jié)果,畫在PS DDR上的視頻幀上。

Step4:對應(yīng)圖中的數(shù)據(jù)流4,啟動VPU,對含有結(jié)果的視頻幀壓縮成H.264/H.265格式。

Step5:對應(yīng)圖中的數(shù)據(jù)流5,將壓縮視頻流寫回SD卡。

Step6(可選):對應(yīng)圖中數(shù)據(jù)流6,將檢測框的視頻顯示到HDMI顯示屏。

其次,介紹以下子數(shù)據(jù)流通路的實現(xiàn)

(1)Camera -> PLDDR的邏輯通路實現(xiàn)

wKgZomVlX1eAO8DBAAD_i0URAFw389.png

圖7 子邏輯通路Camera -> PLDDR

輸入的4路視頻流幀率為1080p@30Hz,均以serdes 差分對接入FPGA端口,通過rx_sdi模塊解析為rgb888數(shù)據(jù)格式。然后經(jīng)過frame_trans模塊resize成AI計算所需要的尺寸。

在一些應(yīng)用場景中,輸入數(shù)據(jù)可能預(yù)先存儲在了PS DDR中,因此本工程也預(yù)留了2路獨立的PSIN數(shù)據(jù)通路,通過HP口讀取數(shù)據(jù),轉(zhuǎn)變成AI_MATE接口規(guī)范好的數(shù)據(jù)總線格式。這兩路PSIN數(shù)據(jù)通過img_data_crossbar_0/1模塊分別與CAM2/3視頻流數(shù)據(jù)進(jìn)行仲裁,各自選出1路輸入給AI_MATE端。

(2)Camera -> PSDDR的邏輯通路實現(xiàn)

wKgaomVlX1eAG9WnAAC7NB9yyBE870.png

圖8 子邏輯通路Camera -> PSDDR

將CAM視頻流數(shù)據(jù)resize成VPU壓縮需要的尺寸,注意此處的resize與CAM->PL DDR通路中的resize相互獨立,即AI計算尺寸和VPU壓縮尺寸獨立配置。為了減少寫入PS DDR的數(shù)據(jù)量,這里將rgb565數(shù)據(jù)格式轉(zhuǎn)為yuv422(16bit),相比于rgba(32bit)格式,數(shù)據(jù)量可減少50%,而圖像色度分量完整保留,基本不影響圖像質(zhì)量。

每一路CAM數(shù)據(jù)均需要通過HP口寫入PS DDR,PS端共有4個HP口,有很多模塊會對它發(fā)起請求,因此工程中在BlockDesign中調(diào)用axi interconnect IP進(jìn)行仲裁。

最終,實現(xiàn)的FPGA資源占用情況如下所示:

wKgaomVlX1eAbhpGAABHZdtr6C0798.png

圖9 FPGA實現(xiàn)資源占用情況

3.42

軟件設(shè)計介紹

參考實現(xiàn)軟件整體流程可以歸結(jié)如下:

攝像頭輸入視頻數(shù)據(jù) > AI檢測 > AI結(jié)果繪制 > vpu編碼h264/h265視頻 > 輸出數(shù)據(jù)流

軟件中按功能將代碼封裝為多個模塊:攝像頭模塊、神經(jīng)網(wǎng)絡(luò)模塊、VPU模塊。則在實現(xiàn)一次完整數(shù)據(jù)流通路對應(yīng)的模塊調(diào)用為:攝像頭模塊取幀 > 神經(jīng)網(wǎng)絡(luò)模塊計算與后處理 > 攝像頭模塊得到圖像數(shù)據(jù) > vpu模塊壓縮 > vpu模塊輸出數(shù)據(jù)。

在AI調(diào)度過程中,采用了任務(wù)隊列的實現(xiàn)方式。主要參考了生產(chǎn)者消費者設(shè)計模式,前處理、icore前向、后處理運行在各自的線程中,互相之間通過任務(wù)隊列的方式通信。

對于多路的情況,則會使用多個前處理線程與多個后處理線程,以4路為例,4路不同的輸入圖像數(shù)據(jù)、icore推理結(jié)果會存放在ddr的不同位置,不同路之間數(shù)據(jù)不會相互干擾。任務(wù)隊列還提供了可以控制不同路是否做AI或者設(shè)置優(yōu)先級的功能。

wKgaomVlX1eADHQhAAOnsGigQ6E033.png

圖10 軟件任務(wù)隊列調(diào)度框圖

具體的AI神經(jīng)網(wǎng)絡(luò)部署,基于icraft編譯器,直接編譯生成json和raw文件,就能夠更新參考設(shè)計的AI網(wǎng)絡(luò)部署。

3.52

實例結(jié)果介紹

性能:能夠穩(wěn)定完成4路1080p@30Hz視頻的AI檢測和視頻編碼。

功耗:整體芯片功耗(含DDR)是12.32W。

wKgZomVlX1eAV1dTAACjt7ltKOc800.png

表1 多路PL_IN+VPU編碼的功耗

4)小結(jié):海闊憑魚躍,天高任鳥飛

好了,經(jīng)過以上的參考設(shè)計實例的介紹,相信大家對FPAI芯片的系統(tǒng)方案以及參考設(shè)計有了更深層次的了解。

近幾年,邊緣端AI計算的市場份額逐年增長明顯,越來越多的落地應(yīng)用需求提出?!昂i煈{魚躍,天高任鳥飛”,如何選擇一款A(yù)I芯片及系統(tǒng)方案,能夠滿足邊緣融合端的各種應(yīng)用場景,能夠適應(yīng)算法迭代的需求,能夠解決長尾算子的問題,形成高性能、低功耗、靈活可靠的產(chǎn)品?相信FPAI芯片及系統(tǒng)方案,會是一個不錯的選擇!

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • FPGA
    +關(guān)注

    關(guān)注

    1629

    文章

    21736

    瀏覽量

    603419
  • 芯片
    +關(guān)注

    關(guān)注

    455

    文章

    50816

    瀏覽量

    423663
  • 半導(dǎo)體
    +關(guān)注

    關(guān)注

    334

    文章

    27367

    瀏覽量

    218748
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    30896

    瀏覽量

    269107
收藏 人收藏

    評論

    相關(guān)推薦

    談一談FPAI芯片AI系統(tǒng)方案以及參考設(shè)計實例

    首先,我們簡單了解下FPAI(Field Programmable AI芯片。FPAI芯片,創(chuàng)新性地采用了異構(gòu)融合架構(gòu),即在一顆die上集
    的頭像 發(fā)表于 11-28 11:33 ?2250次閱讀
    談一談<b class='flag-5'>FPAI</b><b class='flag-5'>芯片</b>的<b class='flag-5'>AI</b><b class='flag-5'>系統(tǒng)</b><b class='flag-5'>方案</b>以及參考設(shè)計實例

    AI系統(tǒng)供電電源芯片及解決方案

    AI在這幾年發(fā)展特別迅速,大家普遍比較關(guān)注的點在于AI的算力、算法和大數(shù)據(jù)。這三大核心元素確實很重要,但其實還有一個我們大家沒怎么關(guān)注,但卻不可或缺的元素也在不斷發(fā)展中,那就是AI系統(tǒng)
    的頭像 發(fā)表于 08-30 08:00 ?5399次閱讀

    國產(chǎn)RISC-V芯片性能穩(wěn)定嗎?

    想使用國產(chǎn)的RISC-V架構(gòu)的芯片做無人機(jī)投送快遞的方案,可行性高嗎?國產(chǎn)的RISC-V MCU穩(wěn)定么?
    發(fā)表于 05-20 15:43

    國產(chǎn)芯片RK3066 RK3188 RK3288 這些芯片性能怎么樣呢

    RK3066做POS方案系統(tǒng)android操作系統(tǒng),有配套POS機(jī)軟件。有誰用過國產(chǎn)芯片的POS機(jī)系統(tǒng)
    發(fā)表于 12-29 14:18

    想找合伙人,一起做國產(chǎn)芯片的POS 機(jī)方案!

    合伙找POS機(jī)方案商,本人做POS機(jī)方案,系統(tǒng)使用android4.4.2系統(tǒng)CPU 選國產(chǎn)的rockchip
    發(fā)表于 12-29 14:42

    手把手教你設(shè)計人工智能芯片系統(tǒng)--(全階設(shè)計教程+AI芯片FPGA實現(xiàn)+開發(fā)板)

    追捧,獲得高薪高酬。2、目前國內(nèi)沒有系統(tǒng)化的、專業(yè)性的AI芯片設(shè)計課程,學(xué)習(xí)資料也僅有相關(guān)論文沒有詳細(xì)的教程教材,并且這些資料大部分限于理論,難以應(yīng)用于實踐;本課程將開放某AI
    發(fā)表于 07-19 11:54

    通用型AI語音識別芯片音旋風(fēng)611如何?

    近日,國產(chǎn)原生芯片品牌探境科技宣布全球首款通用型AI語音識別芯片——音旋風(fēng)611(英文名稱:Voitist611)目前正式進(jìn)入批量供貨量產(chǎn)并已獲得大量客戶的認(rèn)可和采用。這款
    發(fā)表于 09-11 11:52

    【免費直播】AI芯片專家陳小柏博士,帶你解析AI算法及其芯片操作系統(tǒng)。

    智慧化進(jìn)程。人工智能芯片是人工智能發(fā)展的基石,是數(shù)據(jù)、算法和算力在各類場景應(yīng)用落地的基礎(chǔ)依托。“無芯片AI”已經(jīng)深入人心,成為業(yè)界共識。本次直播將述說AI
    發(fā)表于 11-07 14:03

    【免費直播】讓AI芯片擁有最強大腦—AI芯片的操作系統(tǒng)設(shè)計介紹.

    智慧化進(jìn)程。人工智能芯片是人工智能發(fā)展的基石,是數(shù)據(jù)、算法和算力在各類場景應(yīng)用落地的基礎(chǔ)依托?!盁o芯片AI”已經(jīng)深入人心,成為業(yè)界共識。本次直播將述說AI
    發(fā)表于 11-07 14:18

    顯控和AI計算機(jī)方案趨勢

    本帖最后由 我愛方案網(wǎng) 于 2022-11-15 16:25 編輯 根據(jù)瑞芯微和北京君正等芯片原廠的技術(shù)分析,我愛方案網(wǎng)整理了顯控技術(shù)向AI計算發(fā)展的四個特點。顯控往高端發(fā)展與邊
    發(fā)表于 11-15 16:22

    新思科技發(fā)布業(yè)界首款全棧式AI驅(qū)動型EDA解決方案Synopsys.ai

    能夠在芯片開發(fā)的每個階段(從系統(tǒng)架構(gòu)到設(shè)計和制造)都采用AI技術(shù),并從云端訪問這些解決方案。值得一提的是,Synopsys.ai已經(jīng)成功幫助
    發(fā)表于 04-03 16:03

    首顆國產(chǎn)車規(guī)級AI芯片即將量產(chǎn) 國產(chǎn)汽車芯片即將迎來一大突破

    3 月 8 日訊,國產(chǎn)汽車芯片突破,首款車規(guī)級 AI 芯片即將正式前裝量產(chǎn)。
    發(fā)表于 03-09 09:49 ?2781次閱讀

    國產(chǎn)AI芯片加持百度飛槳應(yīng)用落地,國產(chǎn)替代已不遙遠(yuǎn)

    AI時代,深度學(xué)習(xí)框架和操作系統(tǒng)類似,起著承上啟下的作用,連接芯片與應(yīng)用。擁有強大算力的AI芯片加持,
    發(fā)表于 07-10 17:55 ?740次閱讀
    <b class='flag-5'>國產(chǎn)</b><b class='flag-5'>AI</b><b class='flag-5'>芯片</b>加持百度飛槳應(yīng)用落地,<b class='flag-5'>國產(chǎn)</b>替代已不遙遠(yuǎn)

    國產(chǎn)自動駕駛AI芯片應(yīng)該如何快速發(fā)展

    隨著5G時代到來以及AI技術(shù)的興起,智能化成為了傳統(tǒng)車企轉(zhuǎn)型升級的目標(biāo)和需求導(dǎo)向,自動駕駛在眾多汽車應(yīng)用場景中廣受關(guān)注,在對AI芯片提出更高挑戰(zhàn)的同時,也增加了AI
    的頭像 發(fā)表于 09-20 12:09 ?2427次閱讀

    國產(chǎn)AI芯片企業(yè)迎風(fēng)成長

    景中廣受關(guān)注,也是門檻較高的一個領(lǐng)域,在對AI芯片提出更高挑戰(zhàn)的同時,也增加了AI芯片的需求。在自動駕駛領(lǐng)域,目前全球已有英偉達(dá)、英特爾等不少芯片
    的頭像 發(fā)表于 09-23 11:19 ?1426次閱讀
    <b class='flag-5'>國產(chǎn)</b><b class='flag-5'>AI</b><b class='flag-5'>芯片</b>企業(yè)迎風(fēng)成長