0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

結(jié)合卷積層來(lái)創(chuàng)建一個(gè)完整的推理函數(shù)

OpenFPGA ? 來(lái)源:OpenFPGA ? 2023-03-13 09:22 ? 次閱讀

到上一篇為止,我們已經(jīng)完成了卷積層、全連接層、池化層、激活函數(shù)ReLU的所有C的編程實(shí)現(xiàn)。在本文中,我們將結(jié)合這些層來(lái)創(chuàng)建一個(gè)完整的推理函數(shù)。

模型實(shí)現(xiàn)

下面是在第 2 篇文章中創(chuàng)建的推理模型的圖表。

8eefb56e-c01c-11ed-bfe3-dac502259ad0.png

首先輸入一張1x28x28的圖片,然后兩次通過(guò)Conv2d -> ReLU -> MaxPool2d提取特征,最后轉(zhuǎn)為linear,> ReLU -> Linear為10階向量值。

用C寫(xiě)的時(shí)候,只需按如下依次逐層處理即可。

voidconv2d(constfloat*x,constfloat*weight,constfloat*bias,int32_twidth,int32_theight,
int32_tin_channels,int32_tout_channels,int32_tksize,float*y){
for(int32_toch=0;och=height||pw=width){
continue;
}

int64_tpix_idx=(ich*height+ph)*width+pw;
int64_tweight_idx=((och*in_channels+ich)*ksize+kh)*ksize+kw;

sum+=x[pix_idx]*weight[weight_idx];
}
}
}

//addbias
sum+=bias[och];

y[(och*height+h)*width+w]=sum;
}
}
}
}

函數(shù)內(nèi)部的緩沖區(qū) (x1-x8) 用于連接各層之間的特征數(shù)據(jù)。

在HLS中,在哪里定義這個(gè)buffer很重要,如果像這次一樣把它放在函數(shù)中,就可以指定使用FPGA中的RAM(或寄存器)。

另一方面,如果將此緩沖區(qū)作為函數(shù)的參數(shù)提供,則可以將數(shù)據(jù)連接到外部 DRAM。這個(gè)區(qū)域需要根據(jù)應(yīng)用來(lái)設(shè)計(jì),但是這次內(nèi)部SRAM已經(jīng)夠用了,所以定義在函數(shù)內(nèi)部。

如果像以前一樣編寫(xiě)接口規(guī)范,將如下所示:

輸入

x: 輸入圖像。shape=(1, 28, 28)

weight0:第一個(gè)卷積層的權(quán)重。shape=(4, 1, 3, 3)

bias0:第一個(gè)卷積層的偏差。shape=(4)

weight1:第二個(gè)卷積層的權(quán)重。shape=(8, 4, 3, 3)

bias1:第二個(gè)卷積層的偏差。shape=(8)

weight2:第一個(gè)全連接層的權(quán)重。shape=(32, 8 * 7 * 7)

bias2:第一個(gè)全連接層的偏差。shape=(32)

weight3:第二個(gè)全連接層的權(quán)重。shape=(10, 32)

bias3:第二個(gè)全連接層的偏差。shape=(10)

輸出

y:輸出向量。shape=(10)

界面設(shè)置

在目前創(chuàng)建的函數(shù)中,我們還沒(méi)有具體定義創(chuàng)建電路的接口。未指定接口時(shí),HLS 會(huì)為簡(jiǎn)單 SRAM 生成一個(gè)接口。

該接口不能用于訪問(wèn)DRAM等訪問(wèn)時(shí)間不確定的接口,不方便在真機(jī)上操作。為此,我們告訴HLS使用一種稱(chēng)為AMBA AXI4接口協(xié)議(以下簡(jiǎn)稱(chēng)AXI)的協(xié)議,該協(xié)議主要用于Xilinx FPGA上IP之間的接口。

簡(jiǎn)單介紹一下AXI,AXI是ARM公司提供的一種接口標(biāo)準(zhǔn)。

Xilinx IP主要使用以下三種協(xié)議。

AXI4:高速內(nèi)存訪問(wèn)協(xié)議(主要用途:訪問(wèn)DRAM、PCIe等)

AXI4-Lite:AXI4的一個(gè)子集,一種用于低速內(nèi)存訪問(wèn)的協(xié)議(主要用途:IP寄存器控制)

AXI4-Stream:僅用于單向數(shù)據(jù)傳輸?shù)膮f(xié)議,無(wú)地址(主要用途:流數(shù)據(jù)處理)

這次我們將使用 AXI4 訪問(wèn)輸入/輸出數(shù)據(jù),使用 AXI4-Lite 控制 IP。

具有接口定義的推理函數(shù)如下所示:

voidinference_top(constfloatx[kMaxSize],
constfloatweight0[kMaxSize],constfloatbias0[kMaxSize],
constfloatweight1[kMaxSize],constfloatbias1[kMaxSize],
constfloatweight2[kMaxSize],constfloatbias2[kMaxSize],
constfloatweight3[kMaxSize],constfloatbias3[kMaxSize],
floaty[kMaxSize]){
#pragmaHLSinterfacem_axiport=xoffset=slavebundle=gmem0
#pragmaHLSinterfacem_axiport=weight0offset=slavebundle=gmem1
#pragmaHLSinterfacem_axiport=weight1offset=slavebundle=gmem2
#pragmaHLSinterfacem_axiport=weight2offset=slavebundle=gmem3
#pragmaHLSinterfacem_axiport=weight3offset=slavebundle=gmem4
#pragmaHLSinterfacem_axiport=bias0offset=slavebundle=gmem5
#pragmaHLSinterfacem_axiport=bias1offset=slavebundle=gmem6
#pragmaHLSinterfacem_axiport=bias2offset=slavebundle=gmem7
#pragmaHLSinterfacem_axiport=bias3offset=slavebundle=gmem8
#pragmaHLSinterfacem_axiport=yoffset=slavebundle=gmem9
#pragmaHLSinterfaces_axiliteport=xbundle=control
#pragmaHLSinterfaces_axiliteport=weight0bundle=control
#pragmaHLSinterfaces_axiliteport=weight1bundle=control
#pragmaHLSinterfaces_axiliteport=weight2bundle=control
#pragmaHLSinterfaces_axiliteport=weight3bundle=control
#pragmaHLSinterfaces_axiliteport=bias0bundle=control
#pragmaHLSinterfaces_axiliteport=bias1bundle=control
#pragmaHLSinterfaces_axiliteport=bias2bundle=control
#pragmaHLSinterfaces_axiliteport=bias3bundle=control
#pragmaHLSinterfaces_axiliteport=ybundle=control
#pragmaHLSinterfaces_axiliteport=returnbundle=control
dnnk::inference(x,
weight0,bias0,
weight1,bias1,
weight2,bias2,
weight3,bias3,
y);
}

dnnk::inference函數(shù)就是前面提到的推理函數(shù),這個(gè)函數(shù)將dnnk::inference“包起來(lái)”了。

和上一篇文章一樣,top函數(shù)的接口是一個(gè)數(shù)組,而不是一個(gè)指針。在仿真 HLS 時(shí),此符號(hào)對(duì)于指定仿真器保留的內(nèi)存緩沖區(qū)的大小是必需的,但它并不是很重要。

第 30-50 行 #pragma HLS interfaceport=<參數(shù)名稱(chēng)>bundle=<要分配的接口名稱(chēng)> 使用語(yǔ)法為每個(gè)函數(shù)參數(shù)指定接口協(xié)議,使用的協(xié)議有兩個(gè),m_axi和s_axilite,其中m_/s_部分表示請(qǐng)求是發(fā)送還是接收(AXI術(shù)語(yǔ)中的master/slave),后面的部分就是前面提到的協(xié)議部分增加。

在此函數(shù)中,每個(gè)數(shù)據(jù)端口都成為 AXI4 主端口并主動(dòng)從 DRAM (L30-39) 中獲取數(shù)據(jù)。此時(shí)主機(jī)CPU等訪問(wèn)的存儲(chǔ)器地址可以通過(guò)AXI4-Lite從端口(L40-49)進(jìn)行設(shè)置。

最后,用于開(kāi)始處理的控制寄存器和用于檢查處理完成的狀態(tài)寄存器port=return鏈接到 AXI4-Lite 從端口 (L50)。

綜合/結(jié)果確認(rèn)

界面

將這個(gè)電路作為IP輸出,放到Vivado的IP Integrator中,如下圖。每個(gè)端口的名稱(chēng)對(duì)應(yīng)于上面的interface pragma bundle位置。

8f0edcc8-c01c-11ed-bfe3-dac502259ad0.png

熟悉 Vivado 開(kāi)發(fā)的都知道,剩下要做的就是適當(dāng)?shù)剡B接端口,將能夠創(chuàng)建能夠進(jìn)行推理處理的 FPGA 圖像。

綜合

綜合時(shí)的表現(xiàn)如下:執(zhí)行時(shí)間最短 1.775 ms,最長(zhǎng) 7.132 ms。

8f287d68-c01c-11ed-bfe3-dac502259ad0.png

在這里,我想知道為什么輸入圖像大小是固定的,但執(zhí)行時(shí)間不固定,這是因?yàn)榈谌恼轮袆?chuàng)建的卷積函數(shù)continue包括補(bǔ)零處理。

由于這個(gè)補(bǔ)零過(guò)程只在屏幕邊緣進(jìn)行,實(shí)際執(zhí)行時(shí)間幾乎是最大時(shí)間7.132 ms。

for(int32_tkw=0;kw=height||pw=width){
continue;
}

int64_tpix_idx=(ich*height+ph)*width+pw;
int64_tweight_idx=((och*in_channels+ich)*ksize+kh)*ksize+kw;

sum+=x[pix_idx]*weight[weight_idx];
}

在這里為了可讀性,用continue中止,但是在FPGA上,與在這里中斷循環(huán)的處理相比,使用已經(jīng)安裝的乘法加法器進(jìn)行0加法運(yùn)算的成本更少。

資源使用

FPGA的資源利用率如下所示:總體使用量是微不足道的,因?yàn)闆](méi)有增加并行化和流水線(xiàn)等資源的加速。

8f415f86-c01c-11ed-bfe3-dac502259ad0.png






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • DRAM
    +關(guān)注

    關(guān)注

    40

    文章

    2320

    瀏覽量

    183693
  • 寄存器
    +關(guān)注

    關(guān)注

    31

    文章

    5359

    瀏覽量

    120808
  • SRAM芯片
    +關(guān)注

    關(guān)注

    0

    文章

    65

    瀏覽量

    12139
  • HLS
    HLS
    +關(guān)注

    關(guān)注

    1

    文章

    130

    瀏覽量

    24159

原文標(biāo)題:總結(jié)

文章出處:【微信號(hào):Open_FPGA,微信公眾號(hào):OpenFPGA】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    函數(shù)計(jì)算序列線(xiàn)性卷積結(jié)果

    定義個(gè)函數(shù)文件,功能是采用重疊相加法完成無(wú)限長(zhǎng)序列與有限長(zhǎng)序列的線(xiàn)性卷積,然后用該函數(shù)文件計(jì)算序列x[k]=2k+1,0≤k≤18與序列h
    發(fā)表于 11-29 13:36

    CNN之卷積

    相乘再求和)的操作就是所謂的『卷積』操作,也是卷積神經(jīng)網(wǎng)絡(luò)的名字來(lái)源。非嚴(yán)格意義上來(lái)講,下圖中紅框框起來(lái)的部分便可以理解為個(gè)濾波器,即帶著
    發(fā)表于 10-17 10:15

    卷積神經(jīng)網(wǎng)絡(luò)卷積的處理過(guò)程

    。本文就以卷積神經(jīng)網(wǎng)絡(luò)為例談?wù)勗趺?b class='flag-5'>來(lái)進(jìn)步優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)使用的memory。文章(卷積神經(jīng)
    發(fā)表于 12-23 06:16

    【飛凌RK3568開(kāi)發(fā)板試用體驗(yàn)】RKNN模型推理測(cè)試

    MobileNet是Google團(tuán)隊(duì)2017年提出個(gè)深度學(xué)習(xí)模型,專(zhuān)注于移動(dòng)端或者嵌入式設(shè)備中的輕量級(jí)CNN網(wǎng)絡(luò)。模型推理卷積操作占用了大部分的時(shí)間,因此MobileNet V1使
    發(fā)表于 12-08 19:06

    如何在PyTorch上學(xué)習(xí)和創(chuàng)建網(wǎng)絡(luò)模型呢?

    的網(wǎng)絡(luò)模型是個(gè)卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)由以下三和激活函數(shù)的組合組成。全連接
    發(fā)表于 02-21 15:22

    對(duì)卷積的C++實(shí)現(xiàn)詳細(xì)介紹

    。第一個(gè)三級(jí)循環(huán)確定輸出圖像上的位置,隨后的三級(jí)循環(huán)對(duì)該位置執(zhí)行卷積操作。零填充在第 24-26 行完成。由于實(shí)際創(chuàng)建零填充輸入圖像是低效的,所以零填充是通過(guò)在訪問(wèn)圖像外部時(shí)不參與乘積之和來(lái)
    發(fā)表于 02-24 15:41

    一層卷積能做啥?一層卷積可以做超分嗎?

      Abstract  經(jīng)典的圖像縮放(比如bicubic)可以視作個(gè)卷積+個(gè)上采樣濾波器
    發(fā)表于 03-06 14:05

    結(jié)合卷積與全連接創(chuàng)建個(gè)完整推理函數(shù)

    連接的偏差。shape=(10)  輸出  y:輸出向量。shape=(10)  界面設(shè)置  在目前創(chuàng)建函數(shù)中,我們還沒(méi)有具體定義創(chuàng)建電路的接口。未指定接口時(shí),HLS 會(huì)為簡(jiǎn)單 S
    發(fā)表于 03-17 16:19

    C語(yǔ)言入門(mén)教程-創(chuàng)建個(gè)函數(shù)庫(kù)

    創(chuàng)建個(gè)函數(shù)庫(kù) 上述程序中的rand和bubble_sort函數(shù)很實(shí)用,很可能在您寫(xiě)其他程序時(shí)也能派上用場(chǎng)。為了能更方便地重復(fù)使用,您可以
    發(fā)表于 07-29 11:18 ?3144次閱讀

    種改進(jìn)的殘差網(wǎng)絡(luò)結(jié)構(gòu)以減少卷積參數(shù)

    網(wǎng)絡(luò)結(jié)構(gòu),以降低殘差塊數(shù)量與卷積核數(shù)量來(lái)減少卷積參數(shù)。同時(shí),在原始損失函數(shù)中加入類(lèi)間相似懲罰項(xiàng)來(lái)
    發(fā)表于 03-23 14:48 ?8次下載
    <b class='flag-5'>一</b>種改進(jìn)的殘差網(wǎng)絡(luò)結(jié)構(gòu)以減少<b class='flag-5'>卷積</b><b class='flag-5'>層</b>參數(shù)

    如何去理解CNN卷積與池化計(jì)算?

    概述 深度學(xué)習(xí)中CNN網(wǎng)絡(luò)是核心,對(duì)CNN網(wǎng)絡(luò)來(lái)說(shuō)卷積與池化的計(jì)算至關(guān)重要,不同的步長(zhǎng)、填充方式、卷積核大小、
    的頭像 發(fā)表于 04-06 15:13 ?2774次閱讀
    如何去理解CNN<b class='flag-5'>卷積</b><b class='flag-5'>層</b>與池化<b class='flag-5'>層</b>計(jì)算?

    卷積神經(jīng)網(wǎng)絡(luò)層級(jí)結(jié)構(gòu) 卷積神經(jīng)網(wǎng)絡(luò)的卷積講解

    像分類(lèi)、目標(biāo)檢測(cè)、人臉識(shí)別等。卷積神經(jīng)網(wǎng)絡(luò)的核心是卷積和池化,它們構(gòu)成了網(wǎng)絡(luò)的主干,實(shí)現(xiàn)了對(duì)圖像特征的提取和抽象。 、
    的頭像 發(fā)表于 08-21 16:49 ?8989次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)共有幾層 卷積神經(jīng)網(wǎng)絡(luò)模型三

    卷積神經(jīng)網(wǎng)絡(luò)共有幾層 卷積神經(jīng)網(wǎng)絡(luò)模型三? 卷積神經(jīng)網(wǎng)絡(luò) (Convolutional Neural Networks,CNNs) 是
    的頭像 發(fā)表于 08-21 17:11 ?7097次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)每一層的作用

    (Input Layer) 輸入卷積神經(jīng)網(wǎng)絡(luò)的第一層,負(fù)責(zé)接收輸入數(shù)據(jù)。在圖像識(shí)別任務(wù)中,輸入通常接收
    的頭像 發(fā)表于 07-02 15:28 ?1697次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)激活函數(shù)的作用

    卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNNs)是深度學(xué)習(xí)中種重要的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),廣泛應(yīng)用于圖像識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理等領(lǐng)域。在卷積神經(jīng)網(wǎng)絡(luò)中,激活
    的頭像 發(fā)表于 07-03 09:18 ?1175次閱讀