亚洲午夜性春猛交XXXX,暴行JAPANESE人妻,亚洲第一精品精品无码久久

在上一篇文章中，我們用C語言實(shí)現(xiàn)了一個(gè)卷積層，并查看了結(jié)果。在本文中，我們將實(shí)現(xiàn)其余未實(shí)現(xiàn)的層：全連接層、池化層和激活函數(shù) ReLU。

每一層的實(shí)現(xiàn)

全連接層

全連接層是將輸入向量X乘以權(quán)重矩陣W，然后加上偏置B的過程。下面轉(zhuǎn)載第二篇的圖，能按照這個(gè)圖計(jì)算就可以了。

全連接層的實(shí)現(xiàn)如下。

voidlinear(constfloat*x,constfloat*weight,constfloat*bias,
int64_tin_features,int64_tout_features,float*y){
for(int64_ti=0;i

	

	該函數(shù)的接口和各個(gè)數(shù)據(jù)的內(nèi)存布局如下。

	考慮稍后設(shè)置 PyTorch 參數(shù)，內(nèi)存布局與 PyTorch 對(duì)齊。

	輸入

	x: 輸入圖像。shape=(in_features)

	weight: 權(quán)重因子。shape=(out_features, in_features)

	bias: 偏置值。shape=(out_features)

	輸出

	y: 輸出圖像。shape=(out_features)

	參數(shù)

	in_features: 輸入順序

	out_features: 輸出順序

	在全連接層中，內(nèi)部操作數(shù)最多為out_channels * in_channels一個(gè)，對(duì)于典型參數(shù)，操作數(shù)遠(yuǎn)低于卷積層。

	另一方面，關(guān)注權(quán)重因子，卷積層為shape=(out_channels, in_channels, ksize, ksize)，而全連接層為shape=(out_features, in_features)。


	例如，如果層從卷積層變?yōu)槿B接層，in_features = channels * width * height則以下關(guān)系成立。width, height >> ksize考慮到這一點(diǎn)，在很多情況下，全連接層參數(shù)的內(nèi)存需求大大超過了卷積層。

	由于FPGA內(nèi)部有豐富的SRAM緩沖區(qū)，因此擅長處理內(nèi)存訪問量大和內(nèi)存數(shù)據(jù)相對(duì)于計(jì)算總量的大量復(fù)用。


	單個(gè)全連接層不會(huì)復(fù)用權(quán)重?cái)?shù)據(jù)，但是在視頻處理等連續(xù)處理中，這是一個(gè)優(yōu)勢，因?yàn)橐M(jìn)行多次全連接。

	另一方面，本文標(biāo)題中也提到的邊緣環(huán)境使用小型FPGA，因此可能會(huì)出現(xiàn)SRAM容量不足而需要訪問外部DRAM的情況。


	如果你有足夠的內(nèi)存帶寬，你可以按原樣訪問它，但如果你沒有足夠的內(nèi)存帶寬，你可以在參數(shù)調(diào)整和訓(xùn)練后對(duì)模型應(yīng)用稱為剪枝和量化的操作。

	池化層

	池化層是對(duì)輸入圖像進(jìn)行縮小的過程，這次使用的方法叫做2×2 MaxPooling。在這個(gè)過程中，取輸入圖像2x2區(qū)域的最大值作為輸出圖像一個(gè)像素的值。這個(gè)看第二張圖也很容易理解，所以我再貼一遍。

	

	即使在池化層，輸入圖像有多個(gè)通道，但池化過程本身是針對(duì)每個(gè)通道獨(dú)立執(zhí)行的。因此，輸入圖像中的通道數(shù)和輸出圖像中的通道數(shù)在池化層中始終相等。

	池化層的實(shí)現(xiàn)如下所示：

	
voidmaxpool2d(constfloat*x,int32_twidth,int32_theight,int32_tchannels,int32_tstride,float*y){
for(intch=0;ch

	

	這個(gè)函數(shù)的接口是：

	此實(shí)現(xiàn)省略了邊緣處理，因此圖像的寬度和高度都必須能被stride整除。

	輸入

	x: 輸入圖像。shape=(channels, height, width)

	輸出

	y: 輸出圖像。shape=(channels, height/stride, width/stride)

	參數(shù)

	width: 圖像寬度

	height: 圖像高度

	stride：減速比

	ReLU

	ReLU 非常簡單，因?yàn)樗皇菍⒇?fù)值設(shè)置為 0。

	
voidrelu(constfloat*x,int64_tsize,float*y){
for(int64_ti=0;i

	

	由于每個(gè)元素的處理是完全獨(dú)立的，x, y因此未指定內(nèi)存布局。

	硬件生成

	到這里為止的內(nèi)容，各層的功能都已經(jīng)完成了。按照上一篇文章中的步驟，可以確認(rèn)這次創(chuàng)建的函數(shù)也產(chǎn)生了與 libtorch 相同的輸出。


	此外，Vivado HLS 生成了一個(gè)通過 RTL 仿真的電路。從這里開始，我將簡要說明實(shí)際生成了什么樣的電路。

	如果將上述linear函數(shù)原樣輸入到 Vivado HLS，則會(huì)發(fā)生錯(cuò)誤。這里，將輸入輸出設(shè)為指針->數(shù)組是為了決定在電路制作時(shí)用于訪問數(shù)組的地址的位寬。


	另外，in_features的值為778=392，out_將features的值固定為32。這是為了避免Vivado HLS 在循環(huán)次數(shù)可變時(shí)輸出性能不佳。

	
staticconststd::size_tkMaxSize=65536;

voidlinear_hls(constfloatx[kMaxSize],constfloatweight[kMaxSize],
constfloatbias[kMaxSize],floaty[kMaxSize]){
dnnk::linear(x,weight,bias,7*7*8,32,y);
}


	

	linear_hls函數(shù)的綜合報(bào)告中的“性能估計(jì)”如下所示：

	

	在Timing -> Summary中寫入了綜合時(shí)指定的工作頻率，此時(shí)的工作頻率為5.00 ns = 200MHz。


	重要的是 Latency -> Summary 部分，它描述了執(zhí)行此函數(shù)時(shí)的周期延遲（Latency（cycles））和實(shí)時(shí)延遲（Latency（absolute））?？纯催@個(gè)，我們可以看到這個(gè)全連接層在 0.566 ms內(nèi)完成。

	在 Latency -> Detail -> Loop 列中，描述了每個(gè)循環(huán)的一次迭代所需的循環(huán)次數(shù)（Iteration Latency）和該循環(huán)的迭代次數(shù)（Trip Count）。


	延遲（周期）包含Iteration Latency * Trip Count +循環(huán)初始化成本的值。Loop 1 是out_features循環(huán)到loop 1.1 in_features。


	在Loop1.1中進(jìn)行sum += x[j] * weight[i * in_features + j]; 簡單計(jì)算會(huì)發(fā)現(xiàn)需要 9 個(gè)周期才能完成 Loop 1.1 所做的工作。

	使用HLS中的“Schedule Viewer”功能，可以更詳細(xì)地了解哪些操作需要花費(fèi)更多長時(shí)間。


	下圖橫軸的2~10表示Loop1.1的處理內(nèi)容，大致分為x，weights等的加載2個(gè)循環(huán)，乘法（fmul）3個(gè)循環(huán)，加法（fadd）4個(gè)循環(huán)共計(jì)9個(gè)循環(huán)。

	

	在使用 HLS 進(jìn)行開發(fā)期間通過添加#pragma HLS pipeline指令，向此代碼添加優(yōu)化指令以指示它創(chuàng)建高效的硬件。


	與普通的 FPGA 開發(fā)類似，運(yùn)算單元的流水線化和并行化經(jīng)常用于優(yōu)化。通過這些優(yōu)化，HLS 報(bào)告證實(shí)了加速：

	流水線：減少迭代延遲（min=1）

	并行化：減少行程次數(shù)，刪除循環(huán)

	正如之前也說過幾次的那樣，這次的課程首先是以FPGA推理為目的，所以不會(huì)進(jìn)行上述的優(yōu)化。

	最后，該函數(shù)的接口如下所示。

	

	由于本次沒有指定接口，所以數(shù)組接口如x_ 等ap_memory對(duì)應(yīng)FPGA上可以1個(gè)周期讀寫的存儲(chǔ)器（BRAM/Distributed RAM）。


	在下一篇文章中，我們將連接每一層的輸入和輸出，但在這種情況下，我們計(jì)劃連接 FPGA 內(nèi)部的存儲(chǔ)器作為每一層之間的接口，如本例所示。

	總結(jié)

	在本文中，我們實(shí)現(xiàn)了全連接層、池化層和 ReLU。現(xiàn)在我們已經(jīng)實(shí)現(xiàn)了所有層，我們將在下一篇文章中組合它們。之后我們會(huì)實(shí)際給MNIST數(shù)據(jù)，確認(rèn)我們可以做出正確的推論。

	





	審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

FPGA

FPGA

+關(guān)注

關(guān)注
1631

文章
21807

瀏覽量
606777
DRAM

DRAM

+關(guān)注

關(guān)注
40

文章
2334

瀏覽量
184000
sram

sram

+關(guān)注

關(guān)注
6

文章
769

瀏覽量
114961
C語言

C語言

+關(guān)注

關(guān)注
180

文章
7616

瀏覽量
138054

評(píng)論

相關(guān)推薦

C語言實(shí)現(xiàn)：見縫插針游戲！代碼思路+源碼分享

見縫插圓我們昨天已經(jīng)用C語言實(shí)現(xiàn)了，今天將實(shí)現(xiàn)一個(gè)見縫插針的游戲。

發(fā)表于 12-05 11:02 ?808次閱讀

介紹一個(gè)C語言實(shí)現(xiàn)的http下載器

做OTA升級(jí)功能時(shí)，能直接拿到的往往只是升級(jí)包的鏈接，需要我們自己去下載，這時(shí)候就需要用到http下載器，下文介紹一個(gè)C語言實(shí)現(xiàn)的http下載器。

發(fā)表于 02-22 10:25 ?452次閱讀

如何用C語言實(shí)現(xiàn)面向?qū)ο缶幊?/a>

1 用C語言實(shí)現(xiàn)面向?qū)ο缶幊蘂OF的《設(shè)計(jì)模式》一書的副標(biāo)題叫做“可復(fù)用面向?qū)ο筌浖幕A(chǔ)”，從標(biāo)題就能看出面向?qū)ο笫窃O(shè)計(jì)模式基本思想。由于C

發(fā)表于 07-12 07:24

C語言實(shí)現(xiàn)的泛型函數(shù)swap()

C語言實(shí)現(xiàn)的泛型函數(shù)swap()：交換兩個(gè)變量中的數(shù)據(jù).

發(fā)表于 01-20 07:10

正余弦函數(shù)曲線的C語言繪制方法

今天來學(xué)習(xí)一個(gè)小小的實(shí)例，使用C語言實(shí)現(xiàn)在屏幕上用“*”顯示0-360度的余弦函數(shù)cos(x)曲

發(fā)表于 11-15 18:25 ?36次下載

正余弦函數(shù)曲線的C語言繪制方法

今天來學(xué)習(xí)一個(gè)小小的實(shí)例，使用C語言實(shí)現(xiàn)在屏幕上用“*”顯示0-360度的余弦函數(shù)cos(x)曲

發(fā)表于 11-15 18:25 ?16次下載

用C語言實(shí)現(xiàn)DES算法

用C語言實(shí)現(xiàn)DES算法本DES算法，使用了效率很高的C完成。目前，國內(nèi)知名企業(yè)的POS終端中，單DES算法，均是采用這個(gè)函數(shù)完成。

發(fā)表于 01-16 10:09 ?3277次閱讀

用C語言實(shí)現(xiàn)FFT算法

用C語言實(shí)現(xiàn)FFT算法 /*****************fft programe*********************/#include "typedef.h" #include "math.h" struct

發(fā)表于 10-30 13:39 ?6371次閱讀

用C語言實(shí)現(xiàn)數(shù)字濾波

用C語言實(shí)現(xiàn)數(shù)字濾波。對(duì)數(shù)值進(jìn)行精度調(diào)整，下面給出幾種常用的數(shù)字濾波方法的C語言函數(shù),這些

發(fā)表于 07-26 15:44 ?10次下載

4個(gè)重要算法C語言實(shí)現(xiàn)源代碼

4個(gè)重要算法C語言實(shí)現(xiàn)源代碼

發(fā)表于 06-10 08:00 ?13次下載

激活函數(shù)中sigmoid、ReLU等函數(shù)的一些性質(zhì)

非線性：當(dāng)激活函數(shù)是線性的時(shí)候，一個(gè)兩層的神經(jīng)網(wǎng)絡(luò)就可以基本逼近所有的函數(shù)，但是，如果

發(fā)表于 08-02 14:52 ?1.1w次閱讀

使用C語言實(shí)現(xiàn)圖書館管理系統(tǒng)的源代碼和函數(shù)及軟件等資料合集

本文檔的主要內(nèi)容詳細(xì)介紹的是使用C語言實(shí)現(xiàn)圖書館管理系統(tǒng)的源代碼和函數(shù)及軟件等資料合集

發(fā)表于 03-03 08:00 ?9次下載

在PyTorch中使用ReLU激活函數(shù)的例子

PyTorch已為我們實(shí)現(xiàn)了大多數(shù)常用的非線性激活函數(shù)，我們可以像使用任何其他的層那樣使用它們。讓我們快速看一

發(fā)表于 07-06 15:27 ?2607次閱讀

怎么用C語言實(shí)現(xiàn)多態(tài)

這里我想主要介紹下在C語言中是如何實(shí)現(xiàn)的面向?qū)ο蟆Ｖ懒?b class='flag-5'>C語言實(shí)現(xiàn)面向?qū)ο蟮姆绞?，我們再?lián)想下，C

發(fā)表于 10-12 09:12 ?2122次閱讀

使用C語言實(shí)現(xiàn)函數(shù)模板

　　用C語言能不能實(shí)現(xiàn)一個(gè)通用的函數(shù)，既能完成整數(shù)的

發(fā)表于 11-09 11:38 ?513次閱讀

搜索歷史

用C語言實(shí)現(xiàn)一個(gè)全連接層和激活函數(shù)ReLU

評(píng)論

C語言實(shí)現(xiàn)：見縫插針游戲！代碼思路+源碼分享

介紹一個(gè)C語言實(shí)現(xiàn)的http下載器

如何用C語言實(shí)現(xiàn)面向?qū)ο缶幊?/a>

C語言實(shí)現(xiàn)的泛型函數(shù)swap()

正余弦函數(shù)曲線的C語言繪制方法

正余弦函數(shù)曲線的C語言繪制方法

用C語言實(shí)現(xiàn)DES算法

用C語言實(shí)現(xiàn)FFT算法

用C語言實(shí)現(xiàn)數(shù)字濾波

4個(gè)重要算法C語言實(shí)現(xiàn)源代碼

激活函數(shù)中sigmoid、ReLU等函數(shù)的一些性質(zhì)

使用C語言實(shí)現(xiàn)圖書館管理系統(tǒng)的源代碼和函數(shù)及軟件等資料合集

在PyTorch中使用ReLU激活函數(shù)的例子

怎么用C語言實(shí)現(xiàn)多態(tài)

使用C語言實(shí)現(xiàn)函數(shù)模板

電子發(fā)燒友