欧美成年黄网站色视频,亚洲人成综合网站777香蕉

一個破紀(jì)錄的人群計數(shù)算法！

——使用深度學(xué)習(xí)構(gòu)建一個人群計數(shù)模型

人工智能和機(jī)器學(xué)習(xí)將成為我們未來十年最大的幫手！

今天，我將分享一個例子——如何計算人群中的人數(shù)深度學(xué)習(xí)與計算機(jī)視覺？

但是，在我們開始之前，請先幫我一個忙……

人臉識別或人臉簽到往往是1:1，或1:N的圖像識別技術(shù)，但如何數(shù)人數(shù)，少量只要能識別人臉當(dāng)然就可以數(shù)人數(shù)了。

但當(dāng)我們面臨大規(guī)模擁擠的人群，我們可能不需要識別人臉，只是人群計數(shù)，是否可以實現(xiàn)呢？

能幫我數(shù)數(shù)圖片中這個活動有多少人參加嗎？

太多了？那這個怎么樣？

還是不行？沒關(guān)系！

今天我們將教你創(chuàng)建一個基于深度學(xué)習(xí)的人群計數(shù)模型。

本文是基于卷積神經(jīng)網(wǎng)絡(luò)（CNN）的工作方式建立的，在進(jìn)一步研究之前，您可以參考下面這篇文章來了解這個主題：

https://www.analyticsvidhya.com/blog/2018/12/guide-convolutional-neural-network-cnn/?utm_source=blog&utm_medium=crowd-counting

現(xiàn)在，我們正式開始介紹~

1.什么是人群計數(shù)？

2.為什么要數(shù)人群？

3.了解不同計算機(jī)視覺技術(shù)在人群計數(shù)中的應(yīng)用

4.CSRNet的體系結(jié)構(gòu)與訓(xùn)練方法

5.用Python構(gòu)建自己的人群計數(shù)模型

什么是人群計數(shù)？

人群計數(shù)是一種計算或估計圖像中的人數(shù)的技術(shù)。

還是這張圖——

你能告訴我這個圖片里大概有多少人嗎？最直接的方法是手工算，但這有實際意義嗎？當(dāng)人群這么多的時候，一個一個數(shù)幾乎是不可能的！

人群科學(xué)家們可以通過對圖片區(qū)域劃分，計算圖像某些部分的人數(shù)，然后外推得出估計值。這種方法是現(xiàn)在較為普遍的方式，但是也存在誤差。幾十年來，我們不得不依靠粗略的指標(biāo)來估計這個數(shù)字。

“

肯定有更好、更準(zhǔn)確的方法吧？

沒錯，有！

”

雖然我們還沒有算法可以給出確切的數(shù)字，但大多數(shù)計算機(jī)視覺技術(shù)可以產(chǎn)生幾乎完美的精確估計。讓我們先了解為什么人群計數(shù)是重要的，然后再深入研究其背后的算法。

人群計數(shù)有什么用？

讓我們用一個例子來理解人群計數(shù)的有用性。想象一下，中國傳媒大學(xué)剛剛舉辦了一個大型的數(shù)據(jù)科學(xué)會議?；顒悠陂g舉行了許多不同的會議。

你被要求分析和估計每一次參加會議的人數(shù)。這將幫助我們了解什么樣的會議吸引了最多的人數(shù)（以及哪些會議在這方面失敗了）。并由此可以針對性塑造明年的會議，所以這是一項重要的任務(wù)！

參加會議的人數(shù)太多了，如果人工數(shù)可能將需要很久！這就是學(xué)習(xí)人群計數(shù)技能的作用所在。只要獲得每一次會議中人群的照片，就可以建立了一個計算機(jī)視覺模型來完成其余的工作！

還有很多其他情況下，人群計數(shù)算法正在改變行業(yè)的運(yùn)作方式：

統(tǒng)計參加體育賽事的人數(shù)

估計有多少人參加了就職典禮或游行(可能是政治集會）

對交通繁忙地區(qū)的監(jiān)察

協(xié)助人員配置和資源分配

不同計算機(jī)視覺技術(shù)在人群計數(shù)中的應(yīng)用

概括地說，目前我們可以用四種方法來計算人群中的人數(shù)：

1.基于檢測的方法

我們可以使用一個移動窗口式檢測器來識別圖像中的人，并計算出有多少人。用于檢測的方法需要訓(xùn)練有素的分類器來提取低層次特征。雖然這些方法在人臉檢測方面效果很好，但在擁擠的圖像上效果不佳，因為大多數(shù)目標(biāo)對象都不是清晰可見的。

2.回歸方法

對于低級別的特征，上述方法使用并不有效，可以使用基于回歸的方法。我們首先從圖像中裁剪補(bǔ)丁，然后，針對每個補(bǔ)丁，提取低級別的特征。

3.基于密度估計的方法

我們首先為要檢測的圖片創(chuàng)建一個密度圖。然后，該算法學(xué)習(xí)了提取的特征與目標(biāo)密度映射之間的線性映射。我們也可以利用隨機(jī)森林回歸來學(xué)習(xí)非線性映射。

4.基于CNN的方法

我們不用看圖像的補(bǔ)丁，而是使用可靠的卷積神經(jīng)網(wǎng)絡(luò)(CNN)構(gòu)建一個端到端的回歸方法。這將整個圖像作為輸入，并直接生成人群計數(shù)。CNN在回歸或分類任務(wù)中非常有效，并且在生成密度圖方面也證明了它們的價值。

CSRNet是我們在本文中將實現(xiàn)的一種技術(shù)，它部署了一個更深層次的CNN，用于捕獲高級別的特性和生成高質(zhì)量的密度圖，而不需要擴(kuò)展網(wǎng)絡(luò)復(fù)雜性。在講到編碼部分之前，讓我們先了解一下CSRNet是什么。

了解CSRNet的體系結(jié)構(gòu)和培訓(xùn)方法

CSRNet以VGG-16為前端，具有很強(qiáng)的遷移學(xué)習(xí)能力.VGG的輸出大小是原始輸入大小的?。CSRNet還在后端使用膨脹的卷積層。

那么，什么是膨脹的卷積？請參考以下圖像：

使用膨脹卷積的基本概念是在不增加參數(shù)的情況下擴(kuò)大核。所以，如果膨脹率是1，我們?nèi)『瞬⑺D(zhuǎn)到整個圖像上。然而，如果我們將擴(kuò)展率提高到2，內(nèi)核就會像上面的圖像所示的那樣擴(kuò)展(按照每個圖像下面的標(biāo)簽)。它可以替代匯集圖層。

基礎(chǔ)數(shù)學(xué)(推薦，選擇性了解)

我要花點(diǎn)時間解釋一下數(shù)學(xué)是如何工作的。（請注意，在Python中實現(xiàn)算法并不是必須的，但我強(qiáng)烈建議學(xué)習(xí)基本思想。）當(dāng)我們需要調(diào)整或修改模型時，這將派上用場。

假設(shè)我們有一個輸入x(m，n)，一個濾波器w(i，j)，以及膨脹率r。輸出y(m，n)為：

我們可以用(k*k)核推廣這個方程，其擴(kuò)張率為r。內(nèi)核擴(kuò)展到：

([K+(k-1)*(r-1)]*[k+(k-1)*(r-1)])

因此，每一幅圖像都產(chǎn)生了地面真相。在給定的圖像中，每個人的頭部都是用高斯核模糊的。所有圖像都被裁剪成9個補(bǔ)丁，每個補(bǔ)丁的大小是圖像原始大小的1/4。

前4個補(bǔ)丁分為4個四分之一，其他5個補(bǔ)丁隨機(jī)裁剪。最后，每個補(bǔ)丁的鏡像被取為訓(xùn)練集的兩倍。

簡而言之，這就是CSRNet背后的體系結(jié)構(gòu)細(xì)節(jié)。接下來，我們將查看它的培訓(xùn)細(xì)節(jié)，包括所使用的評估指標(biāo)。

隨機(jī)梯度下降用于訓(xùn)練CSRNet作為端到端結(jié)構(gòu)。在訓(xùn)練期間，固定學(xué)習(xí)率設(shè)置為1e-6。損失函數(shù)被認(rèn)為是歐幾里德距離，以便測量地面之間的差異真相和估計的密度圖。這表示為：

其中N是訓(xùn)練批次的大小。CSRNet中使用的評估標(biāo)準(zhǔn)是mae和mse。，即平均絕對誤差和均方誤差。這些建議是由以下方面提供的：

在這里，Ci是估計數(shù)：

L和W是預(yù)測密度圖的寬度。

我們的模型將首先預(yù)測給定圖像的密度圖。如果沒有人在場，像素值將為0。如果某個像素對應(yīng)于某個人，則將指定某個預(yù)定義的值。因此，計算一個人的總像素值會給出圖像中人的數(shù)量。

那么現(xiàn)在，是時候建立我們自己的人群計數(shù)模型了！

建立自己的人群計數(shù)模型

我們將在上海科技數(shù)據(jù)集上實現(xiàn)CSRNet。這包括1198個加注釋的圖片，總共有330，165人。您可以從這里下載。

https://www.dropbox.com//s/fipgjqxl7uj8hd5/ShanghaiTech.zip?dl=0

使用下面的代碼塊克隆CSRNet-py火炬存儲庫。這保存了用于創(chuàng)建數(shù)據(jù)集、培訓(xùn)模型和驗證結(jié)果的全部代碼：

git clone https://github.com/leeyeehoo/CSRNet-pytorch.git

請先安裝CUDA和PyTorch。這些是我們將在下面使用的代碼背后的主干。

現(xiàn)在，將數(shù)據(jù)集移動到您在上面克隆的存儲庫并解壓它。然后我們需要創(chuàng)建基本事實值.make_dataset.ipynbfile是我們的救星。我們只需要在該筆記本中做一些小改動：

#setting the root to the Shanghai dataset you have downloaded # change the root path as per your location of datasetroot = '/home/pulkit/CSRNet-pytorch/'

現(xiàn)在，讓我們?yōu)閜art_A和part_B中的圖像生成基本真值：

生成每幅圖像的密度圖是一個時間步驟。所以，在代碼運(yùn)行時，去泡一杯咖啡吧。

到目前為止，我們已經(jīng)在第A部分中為圖像生成了地面真值，我們將對Part_B圖像進(jìn)行同樣的處理。但在此之前，讓我們看看一個示例圖像，并繪制它的地面真實熱圖：

生成每張圖像的密度圖是一個很長的時間。所以在代碼運(yùn)行時去沖泡一杯咖啡吧，耐心等待一下。

到目前為止，我們已經(jīng)為part_A中的圖像生成了基本真值。我們將對part_B圖像執(zhí)行相同的操作。但在此之前，讓我們看一個示例圖像并繪制其地面真實熱圖：

plt.imshow(Image.open(img_paths[0]))

gt_file = h5py.File(img_paths[0].replace('.jpg','.h5').replace('images','ground-truth'),'r') groundtruth = np.asarray(gt_file['density']) plt.imshow(groundtruth,cmap=CM.jet)

讓我們數(shù)一下這張圖片中有多少人在場：

np.sum(groundtruth)

270.32568

同樣，我們將為part_B生成值：

我們將使用克隆目錄中可用的.json文件。我們只需要更改JSON文件中圖像的位置。為此，打開.json文件并將當(dāng)前位置替換為圖像所在的位置。

請注意，所有這些代碼都是用Python 2編寫的。如果您使用的是其他任何Python版本，請進(jìn)行以下更改：

1.在model.py中，將第18行中的xrange更改為range

2.在model.py中更改第19行：list（self.frontend.state_dict（）。items（））[i] [1] .data [：] = list（mod.state_dict（）。items（））[i][1]。數(shù)據(jù)[：]

3.在image.py中，將ground_truth替換為ground-true

現(xiàn)在，打開一個新的終端窗口并鍵入以下命令：

cd CSRNet-pytorch python train.py part_A_train.json part_A_val.json 0 0

這個步驟需要一些時間，耐心等一下。你也可以減少train.py文件中的紀(jì)元數(shù)量，以加快這個過程。你也可以從這里下載預(yù)先訓(xùn)練的重量，如果你不想等待的話。

最后，讓我們檢查一下我們的模型在看不見的數(shù)據(jù)上的性能。我們將使用val.ipynb文件來驗證結(jié)果。記住要更改到預(yù)先訓(xùn)練過的權(quán)重和圖像的路徑。

#defining the image path img_paths = [] for path in path_sets: for img_path in glob.glob(os.path.join(path, '*.jpg')): img_paths.append(img_path)model = CSRNet()#defining the model model = model.cuda()#loading the trained weights checkpoint = torch.load('part_A/0model_best.pth.tar') model.load_state_dict(checkpoint['state_dict'])

檢查測試圖像上的MAE(平均絕對誤差)，以評估我們的模型：

我們得到的MAE值為75.69，相當(dāng)不錯?，F(xiàn)在讓我們檢查一下單個圖像上的預(yù)測：

哇，最初的數(shù)字是382，我們的模型估計圖像中有384人。這幾乎是一個完美的演繹！

恭喜你建立了自己的人群計數(shù)模型！

原始論文的評測圖和結(jié)果

最后

您可以在https://colab.research.google.com上測試跑人群計數(shù)。

需要安裝：Pytorch和Cuda

來源：PULKIT SHARMA,

FEBRUARY 18, 2019

責(zé)任編輯：lq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

圖像識別

圖像識別

+關(guān)注

關(guān)注
9

文章
520

瀏覽量
38290
計數(shù)算法

計數(shù)算法

+關(guān)注

關(guān)注
0

文章
2

瀏覽量
5463
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5506

瀏覽量
121265

原文標(biāo)題：圖像識別 | 大規(guī)模擁擠人群：一個破紀(jì)錄的人群計數(shù)算法！

文章出處：【微信號：vision263com，微信公眾號：新機(jī)器視覺】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

【「大話芯片制造」閱讀體驗】+內(nèi)容概述，適讀人群

)？如何將電路刻到晶圓上？光刻機(jī)的基本原理等半導(dǎo)體專業(yè)知識。展示的內(nèi)容更偏向于科普，對于半導(dǎo)體從業(yè)者的人來說，更像是一個大綱，羅列了所有的主要內(nèi)容。對于半導(dǎo)體愛好者來說，弄懂這三四頁的內(nèi)容，就可以

發(fā)表于 12-21 16:32

如何使用Python構(gòu)建LSTM神經(jīng)網(wǎng)絡(luò)模型

： NumPy：用于數(shù)學(xué)運(yùn)算。 TensorFlow：一個開源機(jī)器學(xué)習(xí)庫，Keras是其高級API。 Keras：用于構(gòu)建和訓(xùn)練深度

發(fā)表于 11-13 10:10 ?429次閱讀

為THS3001構(gòu)建一個簡單的SPICE模型

電子發(fā)燒友網(wǎng)站提供《為THS3001構(gòu)建一個簡單的SPICE模型.pdf》資料免費(fèi)下載

發(fā)表于 10-29 10:11 ?0次下載

為THS3001<b class='flag-5'>構(gòu)建</b><b class='flag-5'>一</b><b class='flag-5'>個</b>簡單的SPICE<b class='flag-5'>模型</b>

FPGA加速深度學(xué)習(xí)模型的案例

FPGA（現(xiàn)場可編程門陣列）加速深度學(xué)習(xí)模型是當(dāng)前硬件加速領(lǐng)域的一個熱門研究方向。以下是一些FP

發(fā)表于 10-25 09:22 ?256次閱讀

AI大模型與深度學(xué)習(xí)的關(guān)系

AI大模型與深度學(xué)習(xí)之間存在著密不可分的關(guān)系，它們互為促進(jìn)，相輔相成。以下是對兩者關(guān)系的介紹：一、深度

發(fā)表于 10-23 15:25 ?899次閱讀

插片式遠(yuǎn)程IO模塊：雙通道PNP和NPN高速計數(shù)模塊案例說明

插片式遠(yuǎn)程 IO模塊：XD5002為雙通道PNP高速計數(shù)模塊，XD5003為雙通道NPN高速計數(shù)模塊，用于對工業(yè)現(xiàn)場的設(shè)備（如手輪、編碼器等）進(jìn)行計數(shù)。注意：區(qū)別在于XD5002為高電平，XD5003為低電平。

發(fā)表于 07-18 09:21 ?472次閱讀

深度學(xué)習(xí)算法在嵌入式平臺上的部署

隨著人工智能技術(shù)的飛速發(fā)展，深度學(xué)習(xí)算法在各個領(lǐng)域的應(yīng)用日益廣泛。然而，將深度學(xué)習(xí)算法部署到資源

發(fā)表于 07-15 10:03 ?1501次閱讀

利用Matlab函數(shù)實現(xiàn)深度學(xué)習(xí)算法

在Matlab中實現(xiàn)深度學(xué)習(xí)算法是一個復(fù)雜但強(qiáng)大的過程，可以應(yīng)用于各種領(lǐng)域，如圖像識別、自然語言處理、時間序列預(yù)測等。這里，我將概述

發(fā)表于 07-14 14:21 ?2289次閱讀

深度學(xué)習(xí)中的模型權(quán)重

在深度學(xué)習(xí)這一充滿無限可能性的領(lǐng)域中，模型權(quán)重（Weights）作為其核心組成部分，扮演著至關(guān)重要的角色。它們不僅是模型

發(fā)表于 07-04 11:49 ?1449次閱讀

深度學(xué)習(xí)的典型模型和訓(xùn)練過程

深度學(xué)習(xí)作為人工智能領(lǐng)域的一個重要分支，近年來在圖像識別、語音識別、自然語言處理等多個領(lǐng)域取得了顯著進(jìn)展。其核心在于通過構(gòu)建復(fù)雜的神經(jīng)網(wǎng)絡(luò)

發(fā)表于 07-03 16:06 ?1550次閱讀

深度學(xué)習(xí)模型訓(xùn)練過程詳解

深度學(xué)習(xí)模型訓(xùn)練是一個復(fù)雜且關(guān)鍵的過程，它涉及大量的數(shù)據(jù)、計算資源和精心設(shè)計的算法。訓(xùn)練

發(fā)表于 07-01 16:13 ?1331次閱讀

一種利用光電容積描記（PPG）信號和深度學(xué)習(xí)模型對高血壓分類的新方法

死于高血壓。一個人有必要擁有有益于心臟健康的生活方式，以防止被診斷出患有心血管疾?。–VD）和動脈疾病等致命疾病的風(fēng)險。如果一個人疏于定期監(jiān)測血壓，他們可能會突然被診斷出患有血壓。有時很難預(yù)測

發(fā)表于 05-11 20:01

TC275 GTM內(nèi)部有單獨(dú)的計數(shù)模塊嗎？

TC275GTM模塊可以打時間戳測量頻率占空比，但是我輸入高頻信號號，這種方式計數(shù)就不準(zhǔn)確，他內(nèi)部有單獨(dú)的計數(shù)模塊嗎

發(fā)表于 02-20 07:33

利用巍泰技術(shù)人員感知雷達(dá)實現(xiàn)精準(zhǔn)人員定位，提升人群熱力圖分析

WTR-812人員感知雷達(dá)在客流統(tǒng)計與人群熱力圖中的應(yīng)用主要利用雷達(dá)人員計數(shù)與人員定位功能實現(xiàn)對人員流動的監(jiān)測和可視化呈現(xiàn)上。

發(fā)表于 01-26 14:49 ?540次閱讀

如何從零開始構(gòu)建深度學(xué)習(xí)項目？（如何啟動一個深度學(xué)習(xí)項目）

性能重大提升的背后往往是模型設(shè)計的改變。不過有些時候?qū)?b class='flag-5'>模型進(jìn)行微調(diào)也可以提升機(jī)器學(xué)習(xí)的性能。最終的判斷可能會取決于你對相應(yīng)任務(wù)的基準(zhǔn)測試結(jié)果。

發(fā)表于 01-11 10:49 ?309次閱讀

搜索歷史

一個破紀(jì)錄的人群計數(shù)算法！——使用深度學(xué)習(xí)構(gòu)建一個人群計數(shù)模型

評論

【「大話芯片制造」閱讀體驗】+內(nèi)容概述，適讀人群

如何使用Python構(gòu)建LSTM神經(jīng)網(wǎng)絡(luò)模型

為THS3001構(gòu)建一個簡單的SPICE模型

FPGA加速深度學(xué)習(xí)模型的案例

AI大模型與深度學(xué)習(xí)的關(guān)系

插片式遠(yuǎn)程IO模塊：雙通道PNP和NPN高速計數(shù)模塊案例說明

深度學(xué)習(xí)算法在嵌入式平臺上的部署

利用Matlab函數(shù)實現(xiàn)深度學(xué)習(xí)算法

深度學(xué)習(xí)中的模型權(quán)重

深度學(xué)習(xí)的典型模型和訓(xùn)練過程

深度學(xué)習(xí)模型訓(xùn)練過程詳解

一種利用光電容積描記（PPG）信號和深度學(xué)習(xí)模型對高血壓分類的新方法

TC275 GTM內(nèi)部有單獨(dú)的計數(shù)模塊嗎？

利用巍泰技術(shù)人員感知雷達(dá)實現(xiàn)精準(zhǔn)人員定位，提升人群熱力圖分析

如何從零開始構(gòu)建深度學(xué)習(xí)項目？（如何啟動一個深度學(xué)習(xí)項目）

搜索歷史

一個破紀(jì)錄的人群計數(shù)算法！——使用深度學(xué)習(xí)構(gòu)建一個人群計數(shù)模型

評論

一個破紀(jì)錄的人群計數(shù)算法！——使用深度學(xué)習(xí)構(gòu)建一個人群計數(shù)模型