編輯
高光譜圖像分析
圖1為77個(gè)不同物質(zhì)含量面粉樣品的原始平均光譜反射曲線。在901-2517nm波長(zhǎng)范圍內(nèi),不同面粉的光譜具有相似的趨勢(shì),但也存在一定差異,這些差異可能是面粉品種的內(nèi)部化學(xué)成分和表面信息的差異造成的。但當(dāng)波長(zhǎng)在小于969nm和超過(guò)2174nm時(shí)由于掃描過(guò)程中能量過(guò)大,噪音等影響導(dǎo)致光譜曲線的變化趨勢(shì)不規(guī)則,因此選取969-2174nm波段的原始光譜數(shù)據(jù)進(jìn)行后續(xù)工作。波長(zhǎng)在969-1310、1470-1860、1935-2025和2040-2170nm處的顯著特征波峰和波谷與面粉中存在的蛋白質(zhì)、淀粉和水分中的N-H、C-H、O-H的第一和第二泛音拉伸以及組合波段和彎曲振動(dòng)有關(guān)。因此,利用NIR-HSI技術(shù)預(yù)測(cè)小麥粉中蛋白質(zhì)、淀粉和水分含量是可行的。
編輯
圖1 面粉原始平均光譜反射曲線
樣本集劃分
首先將面粉樣本劃分為校正集和預(yù)測(cè)集,然后進(jìn)行多元數(shù)據(jù)分析。利用校正集樣品進(jìn)行優(yōu)化,建立定量模型。利用預(yù)測(cè)集樣本來(lái)證明最優(yōu)化結(jié)果和所建立的定量模型的重復(fù)性能。采用KS算法按照3:1的比例劃分水分、蛋白質(zhì)和淀粉的樣本集。使系統(tǒng)響應(yīng)之間的歐氏距離最大化,均勻覆蓋多維空間。因此,選取347個(gè)樣本作為校正集,其余115個(gè)樣本作為預(yù)測(cè)集。校正集和預(yù)測(cè)集面粉樣品中蛋白質(zhì)、淀粉和水分含量的分布如表3-1所示。校正集樣本包含了預(yù)測(cè)集樣本的變化范圍。這些數(shù)據(jù)表明,樣本集劃分方法的結(jié)果是合理的,所選擇的樣本構(gòu)建模型具有較強(qiáng)的代表性。表3-1面粉中蛋白質(zhì)、淀粉和水分含量的校正集和預(yù)測(cè)集的統(tǒng)計(jì)參考測(cè)量結(jié)果
編輯
面粉中蛋白質(zhì)含量模型的建立
3.1 基于全波長(zhǎng)的建模分析
根據(jù)面粉高光譜圖像提取的全光譜數(shù)據(jù)及其對(duì)應(yīng)的蛋白質(zhì)含量參考值,建立全光譜校正模型,采用4種算法模型對(duì)蛋白質(zhì)含量進(jìn)行預(yù)測(cè)。表3-2給出了PLSR、PCR、SVMR和MLR相應(yīng)優(yōu)化校正模型的R2C、RMSEC、R2P、RMSEP、R2CV、RMSECV和RPD的結(jié)果。PCR為面粉蛋白質(zhì)含量的最佳全波長(zhǎng)預(yù)測(cè)模型。相應(yīng)的R2C、R2CV和R2P分別為0.9861、0.9843和0.9580,相關(guān)的RMSEC、RMSECV和RMSEP分別為0.5201g/100g、0.5548g/100g和1.8223g/100g,RPD為1.0126。表3-2利用高光譜成像技術(shù)預(yù)測(cè)面粉蛋白質(zhì)含量的模型性能
編輯
3.2 數(shù)據(jù)預(yù)處理
對(duì)原始光譜分別進(jìn)行Detrending、FD、SD、SNV、MSC、FD-SNV、SNV-FD、SNV-Detrending和SD-SNV共9種預(yù)處理算法,預(yù)處理后的光譜數(shù)據(jù)分別建立PLSR、PCR、SVMR和MLR四類模型用于預(yù)測(cè)蛋白質(zhì)含量。各預(yù)處理算法在Unscrambler中運(yùn)行。各模型參數(shù)如下表3-3所示,結(jié)果表明,基于原始光譜的PCR模型對(duì)蛋白質(zhì)含量的預(yù)測(cè)效果最好,PLSR、SVMR和MLR模型的預(yù)測(cè)效果略差于PCR模型,且SVMR模型存在一定程度的過(guò)擬合。PCR模型中9種預(yù)處理方法,Detrending和SNV的預(yù)測(cè)效果較好,其R2C、RMSEC、R2CV、RMSECV和R2P、RMSEP分別為0.9559和0.9709、0.9270g/100g和0.7533g/100g、0.9524和0.9687、0.9750g/100g和0.7811g/100g、0.9535和0.9557、2.1085g/100g和1.9625g/100g,但模型的效果和預(yù)測(cè)的精度均低于基于原始光譜的PCR模型,預(yù)處理效果不佳可能是由于一些關(guān)鍵信息失真。因此在后續(xù)工作中蛋白質(zhì)含量預(yù)測(cè)模型的建立并未經(jīng)過(guò)預(yù)處理。969-2174nm范圍內(nèi)的光譜包含大量冗余信息,不利于提高模型的魯棒性和預(yù)測(cè)速度。因此,需原始光譜中選取特征波長(zhǎng)進(jìn)一步優(yōu)化模型。表3-3基于不同預(yù)處理方法的PLSR、PCR、SVMR和MLR模型的蛋白質(zhì)含量預(yù)測(cè)結(jié)果
編輯
3.3 提取特征波長(zhǎng)
(1)基于IRIV算法提取面粉中蛋白質(zhì)的特征波長(zhǎng)IRIV是一種基于二進(jìn)制矩陣變換濾波器(BMSF)的新型變量選擇方法。IRIV算法通過(guò)多次迭代剔除非信息變量和無(wú)關(guān)信息變量,保留有效信息變量。圖2(a)顯示了波長(zhǎng)數(shù)隨迭代次數(shù)增加的變化過(guò)程。采用IRIV算法對(duì)蛋白質(zhì)在962-2174nm波長(zhǎng)范圍內(nèi)共進(jìn)行了8輪迭代。在前四輪迭代中,波長(zhǎng)的數(shù)量從203急劇下降到45,因?yàn)樵S多無(wú)關(guān)信息波長(zhǎng)被消除,然后在隨后的多輪迭代中緩慢下降。該結(jié)果在第7輪迭代時(shí)是穩(wěn)定的,隨后反向消除了9個(gè)變量。從圖2(b)中可以看出,從原波長(zhǎng)中選取的蛋白質(zhì)特征波長(zhǎng)數(shù)為16個(gè)(1452,1458,1464,1526,1532,1538,1544,1660,1666,1672,1750,2025,2030,2041,2090,2095nm),占總波長(zhǎng)的7.88%。
編輯
圖2IRIV算法篩選面粉中蛋白質(zhì)含量特征波長(zhǎng)
(a:迭代次數(shù)剩余變量生長(zhǎng)模式,b:挑選特征波長(zhǎng))
(2)基于VCPA算法提取面粉中蛋白質(zhì)的特征波長(zhǎng)VCPA基于指數(shù)遞減函數(shù)(EDF)和二進(jìn)制矩陣采樣(BMS)迭代,選擇性能最優(yōu)的特征波長(zhǎng)子集。VCPA參數(shù)設(shè)置如下:EDF運(yùn)行50次,BMS運(yùn)行1000次,通過(guò)5倍交叉驗(yàn)證確定所選波長(zhǎng),最優(yōu)子集之比為0.1。圖3(a)為EDF運(yùn)行過(guò)程中RMSECV的變化趨勢(shì)。隨著EDF的反復(fù)操作,特征空間縮小,RMSECV整體呈下降趨勢(shì),當(dāng)?shù)螖?shù)為37次時(shí),RMSECV最小為0.4171g/00g。最后選取RMSECV最小的變量子集,提取8個(gè)蛋白質(zhì)含量的特征波長(zhǎng)(994,1001,1139,1489,1532,2030,2036,2090nm)(圖3(b)),占總波長(zhǎng)的3.94%。
編輯
圖3VCPA算法篩選面粉中蛋白質(zhì)含量特征波長(zhǎng)
a:選擇結(jié)果根據(jù)最小RMSECV確定特征波長(zhǎng);b:IRIV選擇的特征波長(zhǎng)分布
(3)基于IVISSA算法提取面粉中蛋白質(zhì)的特征波長(zhǎng)IVISSA結(jié)合全局搜索和局部搜索,以迭代方式智能優(yōu)化光譜區(qū)間的位置、寬度和組合。圖4(a)為RMSECV在迭代過(guò)程中的變化趨勢(shì)。本研究中,在經(jīng)過(guò)27次迭代后IVISSA算法篩選出蛋白質(zhì)的82個(gè)特征波長(zhǎng)。該算法提取了大量的特征波長(zhǎng)且波段間距較小,一般來(lái)說(shuō),相似波長(zhǎng)具有相同或相似的信息。因此,有必要進(jìn)一步提取高光譜圖像降維的特征波長(zhǎng),以減少相鄰波段之間的無(wú)效信息,提高模型的運(yùn)算速度。在IVISSA的基礎(chǔ)上,利用IRIV進(jìn)一步選擇特征波長(zhǎng),并提出IVISSA-IRIV相結(jié)合,篩選出蛋白質(zhì)的最佳特征波長(zhǎng)數(shù)為11個(gè)(1001,1145,1470,1477,1732,1738,1744,1773,1791,2030,2079nm)(圖4(b)),占總波長(zhǎng)的5.42%。
編輯
圖4IVISSA和IVISSA-IRIV算法篩選面粉中蛋白質(zhì)含量特征波長(zhǎng)
(a:RMSECV在迭代過(guò)程中的變化趨勢(shì);b:所選特征波長(zhǎng)的序號(hào))
(4)基于MASS算法提取面粉中蛋白質(zhì)的特征波長(zhǎng)MASS算法主要采用連續(xù)模型空間收縮和加權(quán)迭代策略來(lái)獲得模型空間中的高性能模型。在此過(guò)程中,MASS應(yīng)用隨機(jī)樣本程序,結(jié)合離群值掩蔽和變量組合效應(yīng),得到最優(yōu)模型。圖5(a)為迭代過(guò)程中RMSECV的變化趨勢(shì),為下降趨勢(shì)。MASS算法經(jīng)過(guò)42次迭代后,RMSECV最小值降至0.2587g/100g,蛋白質(zhì)保留64個(gè)特征波長(zhǎng)。本文將MASS算法與IRIV算法相結(jié)合,建立了一種混合變量選擇方法來(lái)解決特征變量問(wèn)題。MASS-IRIV算法最終得到的變量子集如圖5(b)所示。從64個(gè)變量集中,提取了13個(gè)蛋白質(zhì)含量的特征波長(zhǎng)(1452,1470,1612,1630,1642,1684,1708,1744,1756,1767,1969,2023,2095nm),占總波長(zhǎng)的6.40%。
編輯
圖5MASS和MASS-IRIV算法篩選面粉中蛋白質(zhì)含量特征波長(zhǎng)
(a:RMSECV在迭代過(guò)程中的變化趨勢(shì);b:所選特征波長(zhǎng)的序號(hào))
(5)基于IRF算法提取面粉中蛋白質(zhì)的特征波長(zhǎng)IRF是一種基于隨機(jī)蛙PLS框架的新型波長(zhǎng)選擇方法。在此過(guò)程中,IRF計(jì)算300次迭代生成的300個(gè)變量子集中每個(gè)波長(zhǎng)的選擇概率,并按降序排列。對(duì)每組波長(zhǎng)分別進(jìn)行交叉驗(yàn)證,得到RMSECV。RMSECV最小組中的波長(zhǎng)即為所選波長(zhǎng)。如圖6(a)所示,選取前81個(gè)變量子集作為蛋白質(zhì)的特征波長(zhǎng)。IRF最終選擇了976-1019、1101-1164、1415-1489、1507-1550、1581-1593、1618-1678、1690-1773、1785-1797、1873-1907和1964-2101nm共105個(gè)特征波長(zhǎng)[圖6(b)]。IRF保留了許多波長(zhǎng)變量,結(jié)合IRIV進(jìn)一步選取IRF的運(yùn)行結(jié)果,以提高模型的魯棒性和運(yùn)算速度。蛋白質(zhì)的波長(zhǎng)數(shù)從105個(gè)減少到20個(gè)(1007,1013,1151,1158,1164,1433,1439,1446,1660,1666,1702,1708,1714,1750,1791,1797,2030,2036,2074,2095nm),其中有效減少的光譜維數(shù)如圖6(c)所示,占全波長(zhǎng)的9.85%。
編輯
(a:RMSECV在迭代過(guò)程中的變化趨勢(shì);b:IRF算法所選特征波長(zhǎng)的序號(hào);c:IRF-IRIV算法所選特征波長(zhǎng)的序號(hào))
3.4 最優(yōu)建模效果的比較
首先評(píng)估了基于全波段近紅外高光譜數(shù)據(jù)建立的PLSR、PCR、SVMR和MLR模型的性能。合適的特征波長(zhǎng)提取算法有利于模型獲得更好的魯棒性和準(zhǔn)確性,反之則可能會(huì)對(duì)模型的準(zhǔn)確性和穩(wěn)定性造成破壞,降低預(yù)測(cè)精度[100]。將全波段波長(zhǎng)和提取的特征波長(zhǎng)作為PCR模型的輸入數(shù)據(jù),評(píng)估特征波長(zhǎng)提取對(duì)預(yù)測(cè)模型的影響。不同模型對(duì)蛋白質(zhì)含量的預(yù)測(cè)結(jié)果如圖7(a)所示。對(duì)比所建預(yù)測(cè)模型的預(yù)測(cè)性能,基于特征波長(zhǎng)的模型對(duì)面粉蛋白質(zhì)含量均能獲得較好的預(yù)測(cè)效果。雖然IVISSA、MASS和IRF算法選擇的特征波長(zhǎng)數(shù)較多,提高了模型的性能,但模型的簡(jiǎn)化效果并不明顯。因此,應(yīng)進(jìn)一步結(jié)合預(yù)測(cè)性能較好的IRIV算法提取特征波長(zhǎng)。在蛋白質(zhì)含量的定量分析模型中,基于全波長(zhǎng)PCR模型的預(yù)測(cè)模型效果中R2P=0.9580,RMSEP=1.8223g/100g,RPD=1.0126。在蛋白質(zhì)含量的預(yù)測(cè)模型中,對(duì)所選擇的特征波長(zhǎng)提取算法進(jìn)行了評(píng)價(jià)和比較,驗(yàn)證了特征波長(zhǎng)提取算法的準(zhǔn)確性和有效性。最優(yōu)模型IVISSA-IRIV-PCR預(yù)測(cè)蛋白質(zhì)含量,提取了11個(gè)特征波長(zhǎng),其中R2C=0.9883,R2P=0.9859,RMSEC=0.4769g/100g,RMSEP=1.1580g/100g,RPD=1.5935。圖7(b)是基于IVISSA-IRIV-PCR模型對(duì)面粉中蛋白質(zhì)含量的預(yù)測(cè)值和實(shí)際值的散點(diǎn)圖。虛線表示蛋白質(zhì)實(shí)際值與預(yù)測(cè)值之間理想相關(guān)性的回歸線。樣本點(diǎn)在回歸線附近分布緊密,說(shuō)明模型的預(yù)測(cè)性能較好。在本研究中,面粉根據(jù)面筋含量可分為低筋面粉和高筋面粉。高筋面粉的蛋白質(zhì)含量較高,淀粉含量較低,而低筋面粉的淀粉含量較高,蛋白質(zhì)含量較低。因此,樣品的蛋白質(zhì)含量分布在兩個(gè)簇中是合理的。本研究選取高筋面粉和低筋面粉作為樣品,是為了擴(kuò)大模型的檢測(cè)范圍,為今后模型的應(yīng)用奠定基礎(chǔ)。綜上所述,特征波長(zhǎng)的選擇可以降低高光譜數(shù)據(jù)的高維度和復(fù)雜性,提高預(yù)測(cè)模型的精度和計(jì)算速度。結(jié)果表明,近紅外高光譜成像技術(shù)可以準(zhǔn)確地實(shí)現(xiàn)面粉中蛋白質(zhì)含量的檢測(cè)。綜上所述,近紅外高光譜成像技術(shù)是一種適用于面粉化學(xué)成分檢測(cè)的方法。
編輯
圖7a:基于全光譜和挑選特征光譜的蛋白質(zhì)含量的PCR模型的預(yù)測(cè)結(jié)果;
b:IVISSA-IRIV-PCR模型獲得的預(yù)測(cè)蛋白質(zhì)含量的散點(diǎn)圖
3.5 面粉中蛋白質(zhì)含量的可視化分布
與傳統(tǒng)光譜技術(shù)相比近紅外高光譜成像技術(shù)可以同時(shí)提供樣品的光譜和圖像信息[1011。采用線性色標(biāo)對(duì)提取的特征波長(zhǎng)建立的蛋白質(zhì)模型進(jìn)行像素級(jí)處理可視化的偽彩色圖,其中紅色區(qū)域表示蛋白質(zhì)含量高,紫色區(qū)域代表其含量低,如圖8所示。利用IVISSA-IRIV提取的11個(gè)特征波長(zhǎng),建立了預(yù)測(cè)高光譜圖像上每個(gè)像素蛋白質(zhì)含量的簡(jiǎn)化模型。最后構(gòu)建檢測(cè)指標(biāo)可視化圖(圖8)。預(yù)測(cè)樣品的顏色變化自動(dòng)集中在一個(gè)線性色條上,其中不同的顏色對(duì)應(yīng)著面粉中蛋白質(zhì)含量的不同值??梢暬瘓D可以直觀地反映不同品種樣品甚至同一品種樣品中蛋白質(zhì)含量的空間變化,有利于掌握物質(zhì)含量的相對(duì)分布。偽彩色圖可以顯示不同面粉中基本化學(xué)成分的分布情況方便食品加工企業(yè)和采集者直觀地選擇需要的面粉。
編輯
圖8 面粉中蛋白質(zhì)含量的可視化圖
推薦:
便攜式高光譜成像系統(tǒng) iSpecHyper-VS1000
專門(mén)用于公安刑偵、物證鑒定、醫(yī)學(xué)醫(yī)療、精準(zhǔn)農(nóng)業(yè)、礦物地質(zhì)勘探等領(lǐng)域的最新產(chǎn)品,主要優(yōu)勢(shì)具有體積小、幀率高、高光譜分辨率高、高像質(zhì)等性價(jià)比特點(diǎn)采用了透射光柵內(nèi)推掃原理高光譜成像,系統(tǒng)集成高性能數(shù)據(jù)采集與分析處理系統(tǒng),高速USB3.0接口傳輸,全靶面高成像質(zhì)量光學(xué)設(shè)計(jì),物鏡接口為標(biāo)準(zhǔn)C-Mount,可根據(jù)用戶需求更換物鏡。
審核編輯 黃宇
-
成像
+關(guān)注
關(guān)注
2文章
240瀏覽量
30485 -
高光譜
+關(guān)注
關(guān)注
0文章
331瀏覽量
9943
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論