0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

圖像識(shí)別與分類在許多領(lǐng)域都有著廣泛的應(yīng)用

新機(jī)器視覺 ? 來源:新機(jī)器視覺 ? 作者:新機(jī)器視覺 ? 2021-06-18 11:36 ? 次閱讀

圖像識(shí)別是利用計(jì)算機(jī)對(duì)圖像進(jìn)行處理、分析和理解,以識(shí)別各種不同模式的目標(biāo)和對(duì)象的技術(shù),是應(yīng)用深度學(xué)習(xí)算法的一種實(shí)踐應(yīng)用。圖像分類是根據(jù)圖像的語義信息對(duì)不同類別圖像進(jìn)行區(qū)分,是計(jì)算機(jī)視覺的核心,是物體檢測、圖像分割、物體跟蹤、行為分析、人臉識(shí)別等其他高層次視覺任務(wù)的基礎(chǔ)。圖像識(shí)別與分類在許多領(lǐng)域都有著廣泛的應(yīng)用。

一、垃圾圖像識(shí)別及分類

研究背景:垃圾分類可以實(shí)現(xiàn)資源的回收利用,是解決垃圾處理問題的有效方式。傳統(tǒng)的手工垃圾分揀的效率低、成本高,因此,如何將垃圾自動(dòng)按類處理具有重要的研究意義。

[1].Engineering; Study Results from Ho Chi Minh City University of Technology Hutech Update Understanding of Engineering (A Novel Framework for Trash Classification Using Deep Transfer Learning)[J].Journal of Engineering,2020.

數(shù)據(jù)來源:TrashNet數(shù)據(jù)集和自制越南垃圾數(shù)據(jù)集(VN-trash dataset),該數(shù)據(jù)集由來自越南的有機(jī)、無機(jī)和醫(yī)療廢物三個(gè)不同類別的5904幅圖像組成。

數(shù)據(jù)處理方法:選擇ResNext架構(gòu)作為應(yīng)用遷移學(xué)習(xí)的基礎(chǔ)模型,修改了原始ResNext-101模型,在全局平均池層之后添加了兩個(gè)完全連接的層。輸入圖像的被歸一化為0和1之間的值。在訓(xùn)練和測試階段,通過水平翻轉(zhuǎn)和隨機(jī)裁剪方式,進(jìn)行數(shù)據(jù)增強(qiáng)處理生成更多的圖像。在訓(xùn)練階段,為每個(gè)特定的廢物類別呈現(xiàn)的輸入圖像被輸入到我們建議的體系結(jié)構(gòu)中。在最后一層,選用softmax函數(shù)的對(duì)數(shù)作為分類器,Adam作為優(yōu)化器。在TrashNet數(shù)據(jù)集和VN-trash數(shù)據(jù)集60%的圖像作為訓(xùn)練集,20%作為驗(yàn)證集,20%作為測試集。選擇Desenet121_Aral、RecycleNet和ResNet_Ruiz模型作為對(duì)比試驗(yàn),驗(yàn)證所設(shè)計(jì)模型的有效性。

研究結(jié)論:DNN垃圾分類器在垃圾網(wǎng)和虛擬垃圾數(shù)據(jù)集上的準(zhǔn)確率分別為94%和98%,在這兩個(gè)實(shí)驗(yàn)數(shù)據(jù)集上均優(yōu)于現(xiàn)有的垃圾分類方法。

與同類研究相比優(yōu)缺點(diǎn):提供了兩個(gè)實(shí)驗(yàn)數(shù)據(jù)集,一個(gè)基于公開數(shù)據(jù)集,一個(gè)自制數(shù)據(jù)集,使模型訓(xùn)練更具泛化性。但是對(duì)圖像的分割并沒有針對(duì)性,圖像背景比較平衡,未考慮不平衡背景下的圖像分類。

文獻(xiàn)閱讀價(jià)值:開發(fā)了用于垃圾分類的深度神經(jīng)網(wǎng)絡(luò)模型DNN-TC,對(duì)ResNext模型的改進(jìn),提高了預(yù)測性能。

[2]Bobulski Janusz, Kubanek Mariusz, Yang Miin-Shen. Deep Learning for Plastic Waste Classification System[J].Applied Computational Intelligence and Soft Computing,2021,2021.

數(shù)據(jù)來源:WaDaBa數(shù)據(jù)集,包括聚酯(PET)、聚乙烯(PE-HD)、聚苯乙烯(PS)、聚丙烯(PP)四類垃圾圖像。

數(shù)據(jù)處理方法:對(duì)PET圖像旋轉(zhuǎn)24°、PE-HD圖像旋轉(zhuǎn)6°、PS圖像旋轉(zhuǎn)5°、PP圖像旋轉(zhuǎn)7°對(duì)圖像進(jìn)行增強(qiáng),獲得33000張PET圖像,36000張PE-HD圖像、37440張PS圖像,3380張PP圖像。對(duì)圖像進(jìn)行分割,得到尺寸為120×120和227×227像素的輸入圖像。構(gòu)建兩個(gè)卷積神經(jīng)網(wǎng)絡(luò),第一個(gè)基于AlexNet網(wǎng)絡(luò)構(gòu)建,包含23層,第一個(gè)卷積層大小為11×11,輸入圖像大小為227×227;第二個(gè)神經(jīng)網(wǎng)絡(luò)為自己構(gòu)建的網(wǎng)絡(luò)結(jié)構(gòu),包括15層,第一個(gè)卷積層由64個(gè)大小為9×9的卷積核構(gòu)成,輸入圖像大小為120×120。學(xué)習(xí)率初始值設(shè)為0.001,每4次迭代減少一次,借助Matlab實(shí)現(xiàn)模型訓(xùn)練與測試。90%數(shù)據(jù)用來訓(xùn)練,10%數(shù)據(jù)用來測試模型。對(duì)比文章所設(shè)計(jì)模型與AlexNet模型以及MobileNet v.1、MobileNet v.2模型的效率。

研究結(jié)論:15層網(wǎng)絡(luò)對(duì)于120×120像素的圖像比23層網(wǎng)絡(luò)對(duì)于227×227像素的圖像具有更好的性能,而且時(shí)間短,但效率低于其他神經(jīng)網(wǎng)絡(luò)模型。

與同類研究相比優(yōu)缺點(diǎn):所設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與其他模型相比規(guī)模小得多,但同時(shí)也損失了一部分效率。

文獻(xiàn)閱讀價(jià)值:提出了一種可應(yīng)用于便攜式設(shè)備的廢物識(shí)別技術(shù),有助于解決城市塑料廢物問題。

[3]Hanxiang Wang,Yanfen Li,L. Minh Dang,Jaesung Ko,Dongil Han,Hyeonjoon Moon. Smartphone-based bulky waste classification using convolutional neural networks[J]. Multimedia Tools and Applications,2020,79(prepublish).

數(shù)據(jù)來源:從Yahoo,Bing,Google, Baidu, andNaver網(wǎng)站采集到95類圖像數(shù)據(jù)69737張。

數(shù)據(jù)處理方法:所有圖像數(shù)據(jù)儲(chǔ)存為224 × 224的彩色圖像。90%圖像作為訓(xùn)練集,10%作為測試集。在訓(xùn)練階段選擇VGG-19、ResNet50和Inception-V3網(wǎng)絡(luò)進(jìn)行參數(shù)訓(xùn)練,對(duì)比三個(gè)網(wǎng)絡(luò)的性能,選擇最優(yōu)性能的網(wǎng)絡(luò)VGG-19。對(duì)VGG-19進(jìn)行微調(diào):預(yù)訓(xùn)練模型的所有卷積層都被初始化,并且前幾個(gè)卷積層的參數(shù)被凍結(jié)。在匯集層和最后一個(gè)卷積塊的卷積層之間增加兩個(gè)卷積核大小為3×3的卷積層。第五個(gè)卷積塊中的卷積層數(shù)從4變?yōu)?,在兩個(gè)全連接層之間添加批量標(biāo)準(zhǔn)化層。采用基于低價(jià)敏感直接學(xué)習(xí)法和集成學(xué)習(xí)法的三種方法處理圖像數(shù)據(jù)不平衡問題:通過設(shè)置權(quán)重參數(shù)來減少不平衡數(shù)據(jù)的影響,被稱為CW_VGG19;從VGG-19模型中提取的特征分別被饋送到XGBoost分類器(XGB_VGG19)和LightGBM分類器(LGB_VGG19)來處理不平衡數(shù)據(jù),對(duì)比三種方法的性能,選擇LGB_VGG19方法。進(jìn)一步測試原始VGG-19、微調(diào)后的VGG-19和LGB-VGG19的性能,并在垃圾網(wǎng)數(shù)據(jù)集上與DNN-TC模型進(jìn)行比較。最后基于Kaggle數(shù)據(jù)集將不同CNN架構(gòu),包括VGG-16、ResNet、Mobile-Net、Inception-Net和Dense-Net進(jìn)行對(duì)比。

研究結(jié)論:微調(diào)VGG-19是收集數(shù)據(jù)集的最佳模型,精度為86.19%;LGB_VGG19模型和XGB_VGG19模型比CW_VGG19模型相對(duì)穩(wěn)定,隨著不平衡率的增加,LGB_VGG19模型的AUC值高于XGB_VGG19模型。至于運(yùn)行時(shí)間,LGB_VGG19型號(hào)比其他型號(hào)快得多。

與同類研究相比優(yōu)缺點(diǎn):數(shù)據(jù)集圖像種類豐富,但最終的VGG-19模型由于參數(shù)多,對(duì)計(jì)算機(jī)內(nèi)存的要求更高。而且在訓(xùn)練采集的數(shù)據(jù)集之前,由于采集的數(shù)據(jù)集較大,對(duì)背景復(fù)雜的圖像沒有進(jìn)行圖像預(yù)處理操作,對(duì)識(shí)別結(jié)果有影響。

文獻(xiàn)閱讀價(jià)值:選用多種方法解決圖像數(shù)據(jù)不平衡問題,為數(shù)據(jù)不平衡的處理提供了思路。

[4]王莉,何牧天,徐碩,袁天,趙天翊,劉建飛.基于YOLOv5s網(wǎng)絡(luò)的垃圾分類和檢測[J].包裝工程,2021,42(08):50-56.

數(shù)據(jù)來源:實(shí)驗(yàn)自制了一個(gè)垃圾數(shù)據(jù)集,包括紙盒、塑料瓶、易拉罐、玻璃瓶、藥瓶、電池、塑料袋、廢紙、衣服、磚頭、水果和蔬菜12類垃圾。

數(shù)據(jù)處理方法:采用數(shù)據(jù)增廣的方式將樣本個(gè)數(shù)增至原來的4倍,用labelimg工具對(duì)圖片中垃圾物體進(jìn)行了標(biāo)注,按照8∶2 的比例將數(shù)據(jù)集劃分為訓(xùn)練集和測試集。實(shí)驗(yàn)的運(yùn)行環(huán)境為CPU為Intel i77800X,GPU為GeForceGTX 1080ti,內(nèi)存為16G,操作系統(tǒng)為ubuntu16.04,安裝CUDA9.0庫文件,開發(fā)語言為Python,Pytorch框架。Coco和Voc數(shù)據(jù)集上的訓(xùn)練結(jié)果初始化Yolov5s的網(wǎng)絡(luò)參數(shù),參數(shù)訓(xùn)練采用SGD優(yōu)化算法,參數(shù)設(shè)置Batch為32;最大迭代次數(shù)為400;動(dòng)量因子為0.9;權(quán)重衰減系數(shù)為0.0005。采用余弦退火策略動(dòng)態(tài)調(diào)整學(xué)習(xí)率,初始學(xué)習(xí)率為0.01。采用GIOU Loss作為損失函數(shù)。繪制損失函數(shù)圖,將Yolov5s和Yolov3在自制垃圾數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對(duì)比,驗(yàn)證實(shí)驗(yàn)方法的有效性。

研究結(jié)論:基于 YOLOv5s 網(wǎng)絡(luò)的垃圾分類檢測模型在不同光照、視角等條件下,檢測準(zhǔn)確率高,魯棒性好、計(jì)算速度快,有助于促進(jìn)垃圾處理公司實(shí)現(xiàn)智能分揀,提高工作效率。

與同類研究相比優(yōu)缺點(diǎn):自制的垃圾分類數(shù)據(jù)集考慮了不同光照、角度、距離和遮擋情況,使模型更具普適性。

文獻(xiàn)閱讀價(jià)值:通過研究基于視覺的垃圾檢測與分類模型,實(shí)現(xiàn)對(duì)垃圾的自動(dòng)識(shí)別和檢測。

[5]康莊,楊杰,郭濠奇.基于機(jī)器視覺的垃圾自動(dòng)分類系統(tǒng)設(shè)計(jì)[J].浙江大學(xué)學(xué)報(bào)(工學(xué)版),2020,54(07):1272-1280+1307.

數(shù)據(jù)來源:數(shù)據(jù)集來源于網(wǎng)上和現(xiàn)實(shí)生活拍照,共14種物體4168張圖片。

數(shù)據(jù)處理方法:利用設(shè)計(jì)好的垃圾分類硬件系統(tǒng)將所有垃圾分為可回收和不可回收兩大類,其中訓(xùn)練樣本占60%,即2500張;驗(yàn)證樣本數(shù)量占20%,即834張;測試樣本占20%,即834張。以Inception v3為特征提取網(wǎng)絡(luò),優(yōu)化算法使用RMSprop替代SGD,使用LSR方法降低過擬合,采用獨(dú)熱編碼的形式進(jìn)行模型訓(xùn)練。使用2個(gè)1×n和n×1的卷積核取代n×n的卷積核,在模型的全連接層進(jìn)行批標(biāo)準(zhǔn)化操作。采用遷移學(xué)習(xí)方法對(duì) Inceptionv3模型進(jìn)行重訓(xùn)練?;贗mage Net數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,訓(xùn)練批次大小為32,激活函數(shù)選擇ReLU函數(shù),學(xué)習(xí)率為0.001得到預(yù)訓(xùn)練模型;將Inception v3全連接層前的所有卷積層參數(shù)保留不變,將最后的全連接層的輸出由原來1000變?yōu)?4(14中垃圾種類),在自制垃圾數(shù)據(jù)集上繼續(xù)訓(xùn)練,得到垃圾識(shí)別分類模型。在公共數(shù)據(jù)集cifar-10上進(jìn)行驗(yàn)證,將Inception v3模型與當(dāng)下較流行的LeNet、Alex Net、Vgg和ResNet模型進(jìn)行對(duì)比,進(jìn)行105次迭代訓(xùn)練。訓(xùn)練完成后比較各模型的準(zhǔn)確率和損失值。

研究結(jié)論:系統(tǒng)能夠有效地進(jìn)行垃圾種類的識(shí)別和完成垃圾的分類回收。

與同類研究相比優(yōu)缺點(diǎn):以研究設(shè)計(jì)多箱體垃圾桶或者其他結(jié)構(gòu)的垃圾回收裝置,滿足更多目標(biāo)類別的分揀需求。

文獻(xiàn)閱讀價(jià)值:提出基于機(jī)器視覺的垃圾自動(dòng)分類系統(tǒng),設(shè)計(jì)垃圾分類的硬件系統(tǒng),該系統(tǒng)可以滿足可回收和不可回收垃圾分類的要求。

[6]和澤.基于遷移學(xué)習(xí)的垃圾分類研究[D].寧夏大學(xué),2020.

數(shù)據(jù)來源:數(shù)據(jù)集使用華為云的公開數(shù)據(jù)集,該數(shù)據(jù)集包括可回收物、廚余垃圾、有害垃圾和其他垃圾四個(gè)大類,每類分為若干小類,共40個(gè)類別14802張圖片。

數(shù)據(jù)處理方法:首先通過標(biāo)注新數(shù)據(jù)的方法增加4100張圖片,增加了少類別樣本數(shù)量。使用Keras提供的ImageDataGenerator方法對(duì)樣本數(shù)量在300張以下的類別數(shù)據(jù)進(jìn)行隨機(jī)幾何變換進(jìn)行數(shù)據(jù)增強(qiáng)。使每個(gè)類別的樣本數(shù)均在300張以上,數(shù)據(jù)集的各類別樣本數(shù)據(jù)趨于平衡。將數(shù)據(jù)集進(jìn)行9:1拆分,90%的樣本當(dāng)作訓(xùn)練集,10%的樣本當(dāng)作測試集進(jìn)行訓(xùn)練。采用MobileNetV2模型,設(shè)置相同的數(shù)據(jù)集和參數(shù),進(jìn)行三組預(yù)訓(xùn)練對(duì)比實(shí)驗(yàn):隨機(jī)權(quán)重分類器對(duì)權(quán)重隨機(jī)初始化,并進(jìn)行訓(xùn)練;訓(xùn)練全連接層分類器對(duì)模型卷積層凍結(jié),訓(xùn)練全連接層;微調(diào)分類器凍結(jié)模型的前128層,訓(xùn)練其余的卷積層和全連接層。每個(gè)實(shí)驗(yàn)訓(xùn)練過程中都迭代200次,采用AdamOptimizer優(yōu)化函數(shù),學(xué)習(xí)率設(shè)置0.0001,在分類層使用softmax層作為分類器,損失函數(shù)使用多分類交叉熵?fù)p失函數(shù)。使用微調(diào)模型的遷移學(xué)習(xí)方法,采用VGG16、ResNET50與MobileNetV2進(jìn)行模型對(duì)比實(shí)驗(yàn),采用100張圖片進(jìn)行推理實(shí)驗(yàn),并用平均值計(jì)算單張圖片推理時(shí)間。

研究結(jié)論:三個(gè)分類器分類效果最好的是微調(diào)分類器,最差的是隨機(jī)權(quán)重分類器,訓(xùn)練全連接層分類器是處于中間的性能,MobileNetV2模型相對(duì)于VGG16、ResNET50模型在移動(dòng)和嵌入式等便攜式設(shè)備上做了明顯的優(yōu)化,提升了模型精度且降低了存儲(chǔ)空間的要求。最后使用訓(xùn)練好的MobileNetV2模型對(duì)垃圾進(jìn)行分類。

與同類研究相比優(yōu)缺點(diǎn):分別從預(yù)訓(xùn)練模型三種策略和不同模型之間進(jìn)行對(duì)比,基于微調(diào)分類器的MobileNetV2模型更具說服力。但是研究所獲取的數(shù)據(jù)集偏少且類別不平衡。

文獻(xiàn)閱讀價(jià)值:以遷移學(xué)習(xí)為基礎(chǔ)提出了基于輕量型網(wǎng)絡(luò)MobileNetV2的垃圾分類算法和基于遷移學(xué)習(xí)的移動(dòng)端垃圾分類方案,解決了垃圾類別龐雜和垃圾分類難的問題。

[7]袁建野,南新元,蔡鑫,李成榮.基于輕量級(jí)殘差網(wǎng)路的垃圾圖片分類方法[J].環(huán)境工程,2021,39(02):110-115.

數(shù)據(jù)來源:數(shù)據(jù)集由中國科學(xué)院自動(dòng)化研究所智能服務(wù)機(jī)器人實(shí)驗(yàn)室所提供,共收集了2400張垃圾圖片信息。訓(xùn)練集共1920張,每類分別為320張,測試集共510張,每類分別為85張,訓(xùn)練集和測試集總共分為6類。

數(shù)據(jù)處理方法:以ResNet50為基礎(chǔ)進(jìn)行優(yōu)化構(gòu)建輕量級(jí)網(wǎng)絡(luò),提出最大平均組合池化替換ResNet50的池化層,用深度可分離卷積代替ResNet50中Bottleneck的3×3標(biāo)準(zhǔn)卷積。Mode數(shù)量一共4個(gè),Mode數(shù)設(shè)置為[1,1,1,1],每個(gè)Mode的結(jié)構(gòu)都是1×1、3×3、1×1的結(jié)構(gòu),其中3×3的卷積核用深度可分離卷積替換。實(shí)驗(yàn)batch size設(shè)置為32,學(xué)習(xí)率設(shè)置為0.01,每經(jīng)過一次步長為5時(shí),學(xué)習(xí)率變?yōu)橹暗?5%,訓(xùn)練完成迭代100次。對(duì)不同的池化層以及不同模型進(jìn)行對(duì)比。

研究結(jié)論:提出的最大平均池化輕量級(jí)網(wǎng)絡(luò)使得網(wǎng)路達(dá)到參數(shù)量小、計(jì)算量小、內(nèi)存消耗小,運(yùn)行時(shí)間短的目的。

與同類研究相比優(yōu)缺點(diǎn):提出的輕量級(jí)殘差網(wǎng)路參數(shù)更加簡化,但是測試集510張,實(shí)際操作測試集只利用了1張,測試集應(yīng)用數(shù)據(jù)較少。

文獻(xiàn)閱讀價(jià)值:提出的輕量級(jí)網(wǎng)絡(luò)適用于移動(dòng)端嵌入式設(shè)備的垃圾分類系統(tǒng)應(yīng)用。

[8]董子源.基于深度學(xué)習(xí)的垃圾分類系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].中國科學(xué)院大學(xué)(中國科學(xué)院沈陽計(jì)算技術(shù)研究所),2020.

數(shù)據(jù)來源:單幀圖像垃圾檢測:華為公開數(shù)據(jù)集(國內(nèi)唯一公開數(shù)據(jù)集),共14683張垃圾圖像和對(duì)應(yīng)的分類標(biāo)簽,加上實(shí)地拍攝一些垃圾場景中的圖片。

數(shù)據(jù)處理方法:單幀圖像垃圾檢測:將華為數(shù)據(jù)集按照不同的大類別和小類別進(jìn)行組合,保存在相應(yīng)的文件夾下。通過python手動(dòng)標(biāo)注圖像中垃圾的位置信息,利用記錄鼠標(biāo)位置的相應(yīng)函數(shù),記錄鼠標(biāo)畫取的垃圾外接矩形,并將矩形的四個(gè)頂點(diǎn)坐標(biāo)記錄在文本文件中。對(duì)數(shù)據(jù)集中不同小類的垃圾數(shù)據(jù)進(jìn)行采樣并標(biāo)注,得到2000張不同種類的垃圾圖像的數(shù)據(jù)標(biāo)注,作為初始的檢測網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)集。通過第一輪的訓(xùn)練,得到了垃圾檢測模型初始結(jié)果。使用初始模型對(duì)未經(jīng)訓(xùn)練的數(shù)據(jù)集中其他圖像進(jìn)行檢測,得到垃圾的初始預(yù)測位置,并修正檢測錯(cuò)誤圖像的檢測框作為圖像中目標(biāo)位置的標(biāo)簽,得到初始訓(xùn)練后的擴(kuò)充數(shù)據(jù)集。用華為數(shù)據(jù)集對(duì)ResNet101、Inception v3和VGG16主干網(wǎng)絡(luò)進(jìn)行評(píng)估,選定ResNet101網(wǎng)絡(luò)作為垃圾檢測的基線網(wǎng)絡(luò)。在分類階段,將數(shù)據(jù)增強(qiáng)后的圖像按4:1的比例分為訓(xùn)練集和測試集,選用ADAM優(yōu)化算法訓(xùn)練模型動(dòng)量系數(shù)為0.9,共設(shè)50個(gè)迭代周期,初始學(xué)習(xí)率設(shè)為0.01,每隔10個(gè)迭代周期學(xué)習(xí)率衰減0.1倍,一階矩估計(jì)的指數(shù)衰減率為0.99,二階矩估計(jì)的指數(shù)衰減率為0.999。在ResNet101網(wǎng)絡(luò)的不同的Bottle Neck位置僅插入空間注意力模塊、僅插入通道注意力模塊、插入特征融合模塊分別進(jìn)行對(duì)比試驗(yàn),對(duì)模型的注意力模塊、通道注意力模塊、特征融合模塊分別進(jìn)行評(píng)估。以GCNet作為主干提取網(wǎng)絡(luò)并入到SSD作為垃圾檢測網(wǎng)絡(luò)的基礎(chǔ),與加入特征融合與注意力機(jī)制的ResNet101網(wǎng)絡(luò)相結(jié)合。實(shí)地拍攝了一些垃圾場景中的圖片(手動(dòng)繪制檢測框)與華為數(shù)據(jù)集作為檢測任務(wù)的訓(xùn)練集和測試集。使用批量32來訓(xùn)練模型,使用0.0001的權(quán)重衰減和0.9的動(dòng)量,SGD優(yōu)化器,設(shè)置Dropout為0.8,在每個(gè)conv模塊激活函數(shù)后添加BatchNormalization層以防止過擬合以及加快網(wǎng)絡(luò)收斂。在相同測試集上對(duì)DSSD算法進(jìn)行評(píng)估與改進(jìn)的SSD算法進(jìn)行對(duì)比。

研究結(jié)論:加入了注意力機(jī)制、特征融合機(jī)制以及殘差預(yù)測模塊的SSD在小目標(biāo)方面,效果明顯好于SSD與DSSD算法,檢測速度方面也明顯好于DSSD,稍微低于SSD。

與同類研究相比優(yōu)缺點(diǎn):針對(duì)樣本集中類內(nèi)垃圾形態(tài)差異大,背景變化大,不利于分類的情況,本文在分類網(wǎng)絡(luò)中加入了空間注意力與通道注意力機(jī)制,有效地提升了分類準(zhǔn)確率。

文獻(xiàn)閱讀價(jià)值:提出了對(duì)ResNet101 加入注意力機(jī)制和特征融合機(jī)制的改進(jìn)方法,更好地提取到了垃圾圖像中的有用信息,成功地解決了圖片中類內(nèi)差異大不利于分類的問題。

[9]陳非予,楊婷婷,蔣銘陽.基于深度學(xué)習(xí)技術(shù)的生活垃圾分類模型設(shè)計(jì)[J].電子元器件與信息技術(shù),2020,4(07):94-96.

數(shù)據(jù)來源:垃圾圖像數(shù)據(jù)是在TrashNet數(shù)據(jù)集的基礎(chǔ)上增加手機(jī)拍照以及網(wǎng)絡(luò)搜索所得,共確定3727張。

數(shù)據(jù)處理方法:采用Inception-v3模型在大型圖像分類數(shù)據(jù)集ImageNet訓(xùn)練的參數(shù)模型。特征提取模型采用預(yù)訓(xùn)練模型的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù),通過輸入并處理一張垃圾圖像,提取圖像2048維向量特征,經(jīng)softmax回歸完成垃圾圖像分類。訓(xùn)練數(shù)據(jù)為數(shù)據(jù)集中的80%,另20%數(shù)據(jù)作為測試驗(yàn)證數(shù)據(jù)集。在訓(xùn)練中,設(shè)置超參ECHO為50,即迭代訓(xùn)練訓(xùn)練數(shù)據(jù)集50次,每次選取其中16張圖像進(jìn)行訓(xùn)練,在每次訓(xùn)練的圖像輸入階段,將所選圖像進(jìn)行數(shù)據(jù)增強(qiáng)處理,初始化學(xué)習(xí)率為0.001。

研究結(jié)論:分類正確率可以達(dá)到95.3%,證明了該模型對(duì)于實(shí)現(xiàn)垃圾分類的有效性。

與同類研究相比優(yōu)缺點(diǎn):垃圾圖像涉及種類只包含塑料、金屬、紙板、廢報(bào)紙、玻璃、以及廢料六類垃圾圖像,數(shù)據(jù)類別較少。

文獻(xiàn)閱讀價(jià)值:模型通過數(shù)據(jù)增強(qiáng)方法降低了圖像成像要求,對(duì)光照、距離、大小不敏感,具有相當(dāng)高的魯棒性和泛化能力。

[10]呂程熙.基于深度學(xué)習(xí)實(shí)現(xiàn)自動(dòng)垃圾分類[J].電子制作,2019(24):36-38.

數(shù)據(jù)來源:數(shù)據(jù)集共包含10類物品的圖片共2000張,每一類200張。

數(shù)據(jù)處理方法:1800張為訓(xùn)練集,200張為測試集。每一類共180張為訓(xùn)練集,20張為測試集。將訓(xùn)練集與測試集的輸入圖片隨機(jī)裁減成32×32×3大小的圖片,將圖片信息歸一化。建立基于卷積神經(jīng)網(wǎng)絡(luò)的垃圾分類分類器,學(xué)習(xí)率為0.01,batch_size為5,對(duì)比深度神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的測試結(jié)果分類準(zhǔn)確度。進(jìn)一步對(duì)數(shù)據(jù)集進(jìn)行二分類,劃分為可回收利用和不可回收利用,由十分類變?yōu)槎诸愒俅芜M(jìn)行實(shí)驗(yàn)。

研究結(jié)論:CNN模型的效果要比DNN 模型的效果好。從十分類變?yōu)槎诸?,模型選擇正確的概率大大加大,使得準(zhǔn)確率升高。

與同類研究相比優(yōu)缺點(diǎn):對(duì)比DNN與CNN分類識(shí)別效果,證明CNN對(duì)垃圾分類識(shí)別應(yīng)用效果更好。但是針對(duì)物品的不同部位屬于不同類型的垃圾,還需要增加預(yù)識(shí)別功能。

文獻(xiàn)閱讀價(jià)值:利用算法對(duì)圖像識(shí)別可以大大提高垃圾分類的效率,為人們的生活帶來便利。

[11]高明,陳玉涵,張澤慧,馮雨,樊衛(wèi)國.基于新型空間注意力機(jī)制和遷移學(xué)習(xí)的垃圾圖像分類算法[J].系統(tǒng)工程理論與實(shí)踐,2021,41(02):498-512.

數(shù)據(jù)來源:“華為云人工智能大賽垃圾分類挑戰(zhàn)杯”競賽提供的數(shù)據(jù)集,共包括14000余張垃圾圖片。

數(shù)據(jù)處理方法:將圖片尺寸統(tǒng)一處理為224×224像素。將數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集與測試集,訓(xùn)練集中劃分為包含14372張圖片,驗(yàn)證集與測試集各包含215張圖片。選擇EfficientNet-B5、ResNet50、DenseNet-169網(wǎng)絡(luò)架構(gòu)分別對(duì)華為垃圾分類數(shù)據(jù)集和ImageNet數(shù)據(jù)集進(jìn)行無遷移學(xué)習(xí)與有遷移學(xué)習(xí)的訓(xùn)練,其中預(yù)訓(xùn)練權(quán)重均由Keras庫提供,最后選擇EfficientNet-B5作為GANet中的主干網(wǎng)絡(luò)結(jié)構(gòu)。運(yùn)用以EfficientNet-B5為主干的GANet構(gòu)架,嘗試對(duì)提出的新型的像素級(jí)空間注意力機(jī)制PSATT的基礎(chǔ)結(jié)構(gòu)微調(diào)后的模型進(jìn)行有效性驗(yàn)證,選擇出性能最好的PSATT結(jié)構(gòu)。將GANet結(jié)構(gòu)的注意力模塊分別換成PSATT、Squeeze-and-Excitation block、Non-Local block與注意增強(qiáng)卷積在ImageNet數(shù)據(jù)集上進(jìn)行多次訓(xùn)練對(duì)比。通過訓(xùn)練策略消融實(shí)驗(yàn)、迭代延長實(shí)驗(yàn)和交叉驗(yàn)證實(shí)驗(yàn)來檢驗(yàn)GANet架構(gòu)在訓(xùn)練過程中是否出現(xiàn)過擬合情況。依次用ResNet50和DenseNet-169架構(gòu)替換GANet主干結(jié)構(gòu)中的EfficientNet-B5進(jìn)行遷移學(xué)習(xí),驗(yàn)證PSATT在不同網(wǎng)絡(luò)架構(gòu)上的適用性。將輸入圖片尺寸設(shè)為456×456,借助該比賽的自動(dòng)化測試系統(tǒng)對(duì)GANet進(jìn)行云端評(píng)估,測試集為賽方未公開的4000張盲測圖片。對(duì)于GANet模型的訓(xùn)練中選用RAdam優(yōu)化,損失函數(shù)選擇標(biāo)簽平滑正則化+Focal loss,用在OCL基礎(chǔ)上提出的階梯形OneCycle控制學(xué)習(xí)率,在訓(xùn)練的最后幾個(gè)輪次,對(duì)于權(quán)重平滑選擇進(jìn)行SWA處理。

研究結(jié)論:基于PSATT機(jī)制的GANet在細(xì)粒度垃圾圖像分類問題中,整體準(zhǔn)確率相較對(duì)比方法得到了顯著提升。

與同類研究相比優(yōu)缺點(diǎn):改進(jìn)的階梯形OneCycle學(xué)習(xí)率控制方法和RAdam優(yōu)化方法的結(jié)合使用加快收斂速度,縮短實(shí)驗(yàn)周期;運(yùn)用標(biāo)簽平滑和Focalloss緩解樣本不平衡問題;優(yōu)化方法與階梯形OneCycle學(xué)習(xí)策略的結(jié)合使用緩解了模型收斂階段的不穩(wěn)定性。但是圖像數(shù)據(jù)集在不同光照條件、不同終端采集的圖像存在格式、噪音、分辨率等差異。

文獻(xiàn)閱讀價(jià)值:針對(duì)問題特點(diǎn),提出了一種新型的像素級(jí)空間注意力機(jī)制,建立了一套端到端的面向細(xì)粒度垃圾圖像分類的遷移學(xué)習(xí)架構(gòu)GANet。

[12]王洋.垃圾分類數(shù)據(jù)的機(jī)器學(xué)習(xí)方法研究[D].黑龍江大學(xué),2020.

數(shù)據(jù)來源:選擇了來自Kaggle網(wǎng)站上提供的包括濕垃圾、可回收物兩類垃圾的圖像數(shù)據(jù),包含訓(xùn)練集22564張,測試集2513張,練集中包含12565張濕垃圾圖像,9999張可回收垃圾圖像;而測試集中包含1401張濕垃圾圖像,1112張可回收垃圾圖像。

數(shù)據(jù)處理方法:預(yù)處理:對(duì)圖像進(jìn)行灰度化處理,選擇將所有圖像尺寸設(shè)為64×64將圖像尺寸歸一化。運(yùn)用python從兩類垃圾圖像中分別提取顏色特征和紋理特征作為分類依據(jù)。選用灰度直方圖作為圖像的顏色特征,將灰度直方圖和圖像標(biāo)簽作為KNN和SVM算法的輸入。對(duì)圖像的LBP和HOG特征向量進(jìn)行PCA降維以提高計(jì)算機(jī)運(yùn)行速度,保留原數(shù)據(jù)95%的信息提取出降維后的LBP特征和HOG特征。傳統(tǒng)機(jī)器學(xué)習(xí)算法:使用sklearn庫中的KNeighborsClassifier函數(shù)搭建KNN模型,距離定義為歐式距離,分別以GH,HOG,LBP特征向量導(dǎo)入模型并分別建模,參數(shù)

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:【文獻(xiàn)閱讀筆記】圖像識(shí)別與分類

文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    AI圖像識(shí)別攝像機(jī)

    隨著科技的迅猛發(fā)展,人工智能(AI)各個(gè)領(lǐng)域的應(yīng)用越來越廣泛,其中圖像識(shí)別技術(shù)尤為引人注目。AI圖像識(shí)別攝像機(jī)作為這一技術(shù)的重要應(yīng)用之一,
    的頭像 發(fā)表于 11-08 10:38 ?338次閱讀
    AI<b class='flag-5'>圖像識(shí)別</b>攝像機(jī)

    AI大模型圖像識(shí)別中的優(yōu)勢(shì)

    大模型借助高性能的計(jì)算硬件和優(yōu)化的算法,能夠短時(shí)間內(nèi)完成對(duì)大量圖像數(shù)據(jù)的處理和分析,顯著提高了圖像識(shí)別的效率。 識(shí)別準(zhǔn)確性 :通過深度學(xué)習(xí)和計(jì)算機(jī)視覺技術(shù),AI大模型能夠自動(dòng)提取
    的頭像 發(fā)表于 10-23 15:01 ?938次閱讀

    目標(biāo)檢測與圖像識(shí)別的區(qū)別在哪

    目標(biāo)檢測與圖像識(shí)別是計(jì)算機(jī)視覺領(lǐng)域中的兩個(gè)重要研究方向,它們實(shí)際應(yīng)用中有著廣泛的應(yīng)用,如自動(dòng)駕駛、智能監(jiān)控、醫(yī)療診斷等。盡管它們
    的頭像 發(fā)表于 07-17 09:51 ?1064次閱讀

    圖像檢測和圖像識(shí)別的原理、方法及應(yīng)用場景

    圖像檢測和圖像識(shí)別是計(jì)算機(jī)視覺領(lǐng)域的兩個(gè)重要概念,它們許多應(yīng)用場景中發(fā)揮著關(guān)鍵作用。 1. 定義 1.1
    的頭像 發(fā)表于 07-16 11:19 ?4825次閱讀

    圖像識(shí)別算法都有哪些方法

    圖像識(shí)別算法是計(jì)算機(jī)視覺領(lǐng)域的核心任務(wù)之一,它涉及到從圖像中提取特征并進(jìn)行分類識(shí)別和分析的過程。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,
    的頭像 發(fā)表于 07-16 11:14 ?5971次閱讀

    圖像識(shí)別算法的優(yōu)缺點(diǎn)有哪些

    圖像識(shí)別算法是一種利用計(jì)算機(jī)視覺技術(shù)對(duì)圖像進(jìn)行分析和理解的方法,它在許多領(lǐng)域都有廣泛的應(yīng)用,如自
    的頭像 發(fā)表于 07-16 11:09 ?1865次閱讀

    圖像識(shí)別算法的核心技術(shù)是什么

    圖像識(shí)別算法是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要研究方向,其目標(biāo)是使計(jì)算機(jī)能夠像人類一樣理解和識(shí)別圖像中的內(nèi)容。圖像識(shí)別算法的核心技術(shù)包括以下幾個(gè)方面
    的頭像 發(fā)表于 07-16 11:02 ?720次閱讀

    圖像識(shí)別技術(shù)包括自然語言處理嗎

    圖像識(shí)別技術(shù)與自然語言處理是人工智能領(lǐng)域的兩個(gè)重要分支,它們很多方面有著密切的聯(lián)系,但也存在一些區(qū)別。 一、圖像識(shí)別技術(shù)與自然語言處理的關(guān)
    的頭像 發(fā)表于 07-16 10:54 ?920次閱讀

    圖像識(shí)別技術(shù)醫(yī)療領(lǐng)域的應(yīng)用

    一、引言 圖像識(shí)別技術(shù)是一種利用計(jì)算機(jī)視覺技術(shù)對(duì)圖像進(jìn)行分析和處理的技術(shù)。隨著計(jì)算機(jī)技術(shù)、人工智能技術(shù)、大數(shù)據(jù)技術(shù)等的發(fā)展,圖像識(shí)別技術(shù)各個(gè)領(lǐng)域
    的頭像 發(fā)表于 07-16 10:48 ?1101次閱讀

    圖像識(shí)別技術(shù)的原理是什么

    圖像識(shí)別技術(shù)是一種利用計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)技術(shù)對(duì)圖像進(jìn)行分析和理解的技術(shù)。它可以幫助計(jì)算機(jī)識(shí)別和理解圖像中的對(duì)象、場景和活動(dòng)。 圖像預(yù)處理
    的頭像 發(fā)表于 07-16 10:46 ?1342次閱讀

    圖像識(shí)別屬于人工智能嗎

    的過程。它涉及到圖像的獲取、預(yù)處理、特征提取、分類識(shí)別等多個(gè)環(huán)節(jié)。 1.2 重要性 圖像識(shí)別技術(shù)人工智能
    的頭像 發(fā)表于 07-16 10:44 ?1275次閱讀

    計(jì)算機(jī)視覺人工智能領(lǐng)域有哪些主要應(yīng)用?

    計(jì)算機(jī)視覺是人工智能領(lǐng)域的一個(gè)重要分支,它主要研究如何讓計(jì)算機(jī)能夠像人類一樣理解和處理圖像和視頻數(shù)據(jù)。計(jì)算機(jī)視覺技術(shù)許多領(lǐng)域
    的頭像 發(fā)表于 07-09 09:14 ?1577次閱讀

    圖像檢測和圖像識(shí)別的區(qū)別是什么

    圖像檢測和圖像識(shí)別是計(jì)算機(jī)視覺領(lǐng)域的兩個(gè)重要研究方向,它們許多應(yīng)用場景中都有著
    的頭像 發(fā)表于 07-03 14:41 ?1183次閱讀

    神經(jīng)網(wǎng)絡(luò)圖像識(shí)別中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,神經(jīng)網(wǎng)絡(luò)圖像識(shí)別領(lǐng)域的應(yīng)用日益廣泛。神經(jīng)網(wǎng)絡(luò)以其強(qiáng)大的特征提取和分類能力,為
    的頭像 發(fā)表于 07-01 14:19 ?777次閱讀

    圖像識(shí)別技術(shù)原理 圖像識(shí)別技術(shù)的應(yīng)用領(lǐng)域

    。圖像識(shí)別技術(shù)已經(jīng)各個(gè)領(lǐng)域廣泛應(yīng)用,其應(yīng)用領(lǐng)域包括但不限于以下幾個(gè)方面。 一、智能安防領(lǐng)域
    的頭像 發(fā)表于 02-02 11:01 ?2712次閱讀