高光譜圖像分析
圖1為77個(gè)不同物質(zhì)含量面粉樣品的原始平均光譜反射曲線。在901-2517nm波長(zhǎng)范圍內(nèi),不同面粉的光譜具有相似的趨勢(shì),但也存在一定差異,這些差異可能是面粉品種的內(nèi)部化學(xué)成分和表面信息的差異造成的。但當(dāng)波長(zhǎng)在小于969nm和超過(guò)2174nm時(shí)由于掃描過(guò)程中能量過(guò)大,噪音等影響導(dǎo)致光譜曲線的變化趨勢(shì)不規(guī)則,因此選取969-2174nm波段的原始光譜數(shù)據(jù)進(jìn)行后續(xù)工作。波長(zhǎng)在969-1310、1470-1860、1935-2025和2040-2170nm處的顯著特征波峰和波谷與面粉中存在的蛋白質(zhì)、淀粉和水分中的N-H、C-H、O-H的第一和第二泛音拉伸以及組合波段和彎曲振動(dòng)有關(guān)。因此,利用NIR-HSI技術(shù)預(yù)測(cè)小麥粉中蛋白質(zhì)、淀粉和水分含量是可行的。
圖1 面粉原始平均光譜反射曲線
面粉中面粉含量模型的建立
2.1 基于全波長(zhǎng)的建模分析
根據(jù)面粉高光譜圖像提取的全光譜數(shù)據(jù)及其對(duì)應(yīng)的淀粉含量參考值,建立4種模型對(duì)淀粉含量全光譜數(shù)據(jù)的校正集、交叉驗(yàn)證集和預(yù)測(cè)集的預(yù)測(cè)模型。表3-4給出了PLSR、PCR、SVMR和MLR相應(yīng)優(yōu)化校正模型的R2C、RMSEC、R2P、RMSEP、R2CV、RMSECV和RPD的結(jié)果。基于原始光譜的MLR模型對(duì)淀粉含量的預(yù)測(cè)效果最好,PLSR、PCR和SVMR模型的預(yù)測(cè)效果略差于MLR模型。相應(yīng)的R2C、R2CV和R2P分別為0.9171、0.8908和0.8954,相關(guān)的RMSEC、RMSECV和RMSEP分別為1.1087g/100g、2.0704g/100g和3.8357g/100g,RPD為1.2547。
表3-4利用高光譜成像技術(shù)預(yù)測(cè)面粉淀粉含量的模型性能
2.2數(shù)據(jù)預(yù)處理
對(duì)原始光譜分別進(jìn)行Detrending、FD、SD、SNV、MSC、FD-SNV、SNV-FD、SNV-Detrending和SD-SNV共9種預(yù)處理算法,預(yù)處理后的淀粉光譜數(shù)據(jù)分別建立PLSR、PCR、SVMR和MLR四類模型。各模型參數(shù)如下表3-5所示,對(duì)比所有預(yù)處理模型的預(yù)測(cè)性能,發(fā)現(xiàn)SVMR模型存在一定程度過(guò)擬合?;贛LR模型的9種預(yù)處理方法中,SNV和SNV-FD的預(yù)測(cè)效果較好,其R2C、RMSEC、R2CV、RMSECV和R2P、RMSEP分別為0.9274和0.9374、1.0914g/100g和1.0857g/100g、0.9005和0.9060、1.9766g/100g和1.9216g/100g、0.8776和0.8708、4.2457g/100g和4.3973g/100g。但經(jīng)過(guò)預(yù)處理后的模型預(yù)測(cè)精度和穩(wěn)定性均低于基于原始光譜的MLR模型,可能是由于一些有關(guān)淀粉含量的關(guān)鍵信息被剔除導(dǎo)致預(yù)處理效果不佳。因此在后續(xù)工作中淀粉含量預(yù)測(cè)模型的建立基于原始光譜信息。
表3-5基于不同預(yù)處理方法的PLSR、PCR、SVMR和MLR模型的淀粉含量預(yù)測(cè)結(jié)果
2.3 提取特征波長(zhǎng)
(1)基于IRIV算法提取面粉中淀粉的特征波長(zhǎng)IRIV算法通過(guò)多次迭代剔除非信息變量和弱信息變量,保留有效信息變量作為特征波長(zhǎng)。經(jīng)過(guò)幾輪迭代之后,剩余變量的數(shù)量相應(yīng)減少。由于變量之間的相互作用,反向消除策略的精細(xì)化評(píng)價(jià)具有良好的性能[102]。圖9(a)給出了剩余波長(zhǎng)數(shù)隨迭代次數(shù)增加的變化過(guò)程。在969-2173nm波長(zhǎng)范圍內(nèi),采用IRIV算法共進(jìn)行8輪迭代。在前4輪迭代中,由于許多不相關(guān)的信息波長(zhǎng)被消除,波長(zhǎng)數(shù)從203急劇減少到47,然后在隨后的多輪迭代中緩慢減少。該結(jié)果在第7輪迭代中保持穩(wěn)定,隨后向后消除了9個(gè)變量。圖9(b)顯示了在1045、1145、1151、1195、1202、1208、1352、1358、1408、1702、1732、1738、1744、1896、1901、1907、1964、1975、2068和2095nm處選取的20個(gè)變量,占總波長(zhǎng)的9.85%。
圖9IRIV算法篩選面粉中淀粉含量特征波長(zhǎng)
(a:迭代次數(shù)剩余變量生長(zhǎng)模式,b:挑選特征波長(zhǎng))
(2)基于VCPA算法提取面粉中淀粉的特征波長(zhǎng)使用VCPA算法對(duì)面粉中淀粉含量進(jìn)行挑選特征波長(zhǎng)處理。圖10(a)為EDF運(yùn)行過(guò)程中RMSECV的變化趨勢(shì)。隨著EDF的反復(fù)操作,特征空間縮小,RMSECV整體呈下降趨勢(shì)。在這種情況下,刪除了與淀粉含量相關(guān)性最小的波長(zhǎng),并將剩余波長(zhǎng)添加到最佳子集中。最后,選取RMSECV的最小波長(zhǎng)變量組合,當(dāng)?shù)螖?shù)為14次時(shí),RMSECV最小為1.7328g/100g。提取9個(gè)淀粉含量相關(guān)的特征波長(zhǎng)(圖10(b))(1151、1170、1177、1402、1544、1732、1980、2058、2095nm),占總波長(zhǎng)的4.43%。
圖10VCPA算法篩選面粉中淀粉含量特征波長(zhǎng)
(a:選擇結(jié)果根據(jù)最小RMSECV確定特征波長(zhǎng);b:IRIV選擇的特征波長(zhǎng)分布)
(3)基于IVISSA算法提取面粉中淀粉的特征波長(zhǎng)IVISSA是一種波長(zhǎng)間隔光譜區(qū)域選擇方法。圖12(a)為RMSECV在迭代過(guò)程中的變化趨勢(shì),在經(jīng)過(guò)34次迭代后,IVISSA算法篩選出淀粉的95個(gè)特征波長(zhǎng)。該方法選取的特征波長(zhǎng)數(shù)量眾多,波長(zhǎng)之間的間隔距離很小,相似波段攜帶相似信息。因此,需要優(yōu)化特征變量對(duì)所得數(shù)據(jù)進(jìn)行維數(shù)分解,以避免相鄰波段之間信息的冗余,從而提高模型的運(yùn)算速度和效率。因此,在IVISSA的基礎(chǔ)上,利用IRIV進(jìn)一步篩選特征波長(zhǎng),并提出IVISSA-IRIV組合選擇最優(yōu)特征變量以確定面粉中淀粉的含量。從圖12(b)可以看出,面粉中提取的淀粉含量對(duì)應(yīng)的特征波長(zhǎng)為28個(gè),分別為1145、1177、1183、1352、1458、1470、1477、1483、1526、1532、1538、1544、1550、1726、1732、1738、1744、1750、1756、1785、1861、1896、1907、1935、1964、1969、2068、2101nm,占總波長(zhǎng)的13.79%。所選擇的最優(yōu)變量幾乎包含了整個(gè)光譜區(qū)域,減少了數(shù)據(jù)冗余并保留了關(guān)鍵信息。
圖12IVISSA和IVISSA-IRIV算法篩選面粉中淀粉含量特征波長(zhǎng)
(a:RMSECV在迭代過(guò)程中的變化趨勢(shì);b:所選特征波長(zhǎng)的序號(hào))
(4)基于MASS算法提取面粉中淀粉的特征波長(zhǎng)應(yīng)用MASS算法提取面粉中淀粉含量的特征波長(zhǎng),圖13(a)為迭代過(guò)程中RMSECV的變化趨勢(shì),隨著迭代次數(shù)的增加,RMSECV呈現(xiàn)下降趨勢(shì)。MASS算法經(jīng)過(guò)39輪迭代后,RMSECV達(dá)到最小值為1.2138g/100g。淀粉保留56個(gè)特征波長(zhǎng)。為了進(jìn)一步提高模型的運(yùn)算速度及準(zhǔn)確性,將MASS算法與IRIV算法相結(jié)合,建立了一種混合變量選擇方法。MASS-IRIV算法最終得到的變量子集如圖13(b)所示。在39個(gè)變量集中,提取了13個(gè)淀粉含量的特征波長(zhǎng)(1101、1133、1421、1684、1696、1726、1732、1901、1969、2041、2052、2090、2106nm),占總波長(zhǎng)的6.40%。
圖13MASS和MASS-IRIV算法篩選面粉中淀粉含量特征波長(zhǎng)
(a:RMSECV在迭代過(guò)程中的變化趨勢(shì);b:所選特征波長(zhǎng)的序號(hào))
(5)基于IRF算法提取面粉中淀粉的特征波長(zhǎng)在IRF算法的計(jì)算過(guò)程中,可以根據(jù)定義的策略對(duì)變量子集進(jìn)行更新,在滿足迭代次數(shù)后,計(jì)算每個(gè)被選中波段的概率,并按降序排列。對(duì)每組波段進(jìn)行交叉驗(yàn)證,RMSECV最低組對(duì)應(yīng)的波段即為所選波長(zhǎng)波段。如圖14(a)所示,當(dāng)?shù)螖?shù)為65次時(shí),RMSECV達(dá)到最小值為1.8168g/100g,因此選取前65個(gè)變量子集作為淀粉的特征波長(zhǎng)。IRF最終選擇了1019-1038,1051-1089,1107-1151,1164-1214,1283-1358,1390-1415,1458-1470,1520-1532,1630-1642,1708-1750,1785-1797,1838-1849,1861-1924,1958-1997,2014-2106,2138-2159nm共111個(gè)特征波長(zhǎng)(圖14(b))。IRF保留了許多波長(zhǎng)變量,結(jié)合IRIV進(jìn)一步選取特征波長(zhǎng),以提高模型的魯棒性和運(yùn)算速度。淀粉含量的特征波長(zhǎng)數(shù)從111個(gè)減少到15個(gè)(1032、1057、1296、1302、1321、1415、1732、1738、1744、1750、1838、2025、2030、2068和2095nm),其中有效減少的光譜維數(shù)如圖14(c)所示,占全波長(zhǎng)的7.39%。
圖14IRF和IRF-IRIV算法篩選面粉中淀粉含量特征波長(zhǎng)
(a:RMSECV在迭代過(guò)程中的變化趨勢(shì);b:IRF算法所選特征波長(zhǎng)的序號(hào);c:IRF-IRIV算法所選特征波長(zhǎng)的序號(hào))
2.4 最優(yōu)建模效果的比較
首先基于全波段近紅外高光譜數(shù)據(jù)建立的PLSR、PCR、SVMR和MLR模型的性能進(jìn)行評(píng)估。將全波段波長(zhǎng)和挑選的特征波長(zhǎng)作為MLR模型的輸入數(shù)據(jù),評(píng)估特征波長(zhǎng)提取對(duì)預(yù)測(cè)模型的影響。不同模型對(duì)淀粉含量的預(yù)測(cè)結(jié)果如圖15(a)所示。對(duì)比所建預(yù)測(cè)模型的預(yù)測(cè)性能,基于特征波長(zhǎng)的模型對(duì)面粉淀粉含量均能獲得較好的預(yù)測(cè)效果。雖然IVISSA、MASS和IRF算法選擇的特征波長(zhǎng)數(shù)較多,提高了模型的預(yù)測(cè)性能,但模型的運(yùn)算過(guò)程仍舊復(fù)雜且計(jì)算量大。因此,應(yīng)進(jìn)一步結(jié)合預(yù)測(cè)性能較好的IRIV算法提取特征波長(zhǎng)。在淀粉含量的定量分析模型中,基于全波長(zhǎng)MLR模型的預(yù)測(cè)模型效果中R2P=0.8954,RMSEP=3.8357g/100g,RPD=1.2547。在淀粉含量的預(yù)測(cè)模型中,對(duì)所選擇的特征波長(zhǎng)提取算法進(jìn)行了評(píng)價(jià)和比較,驗(yàn)證了特征波長(zhǎng)提取算法的準(zhǔn)確性和有效性。最優(yōu)模型IVISSA-IRIV-MLR預(yù)測(cè)淀粉含量,提取了11個(gè)特征波長(zhǎng),其中R2C=0.9394,R2P=0.9243,RMSEC=1.6090g/100g,RMSEP=2.1669g/100g,RPD=2.2209。在基于MLR模型的IRF-IRIV算法中,雖然R2P為0.9443,但其預(yù)測(cè)數(shù)值的準(zhǔn)確性高于了R2C=0.9000,其模型在校正集上的準(zhǔn)確性應(yīng)該更高,造成這種現(xiàn)象的原因可能是:(1)校正集和預(yù)測(cè)集上數(shù)據(jù)分布較為不均勻;(2)模型正則化過(guò)多造成模型的準(zhǔn)確性較低;(3)欠擬合即隨著預(yù)測(cè)周期的增加,預(yù)測(cè)集上的準(zhǔn)確率會(huì)超過(guò)校正集。因此,根據(jù)多重比較選取IVISSA-IRIV-MLR模型作為面粉中淀粉含量預(yù)測(cè)的最優(yōu)模型。圖15(b)是基于IVISSA-IRIV-MLR模型對(duì)面粉中淀粉含量的預(yù)測(cè)值和實(shí)際值的散點(diǎn)圖。在本研究中,面粉根據(jù)面筋含量可分為低筋面粉和高筋面粉。因此,樣品的淀粉含量分布在兩個(gè)簇中是合理的。結(jié)果表明,近紅外高光譜成像技術(shù)可以準(zhǔn)確地實(shí)現(xiàn)面粉中淀粉含量的檢測(cè)。
圖15a:基于全光譜和挑選特征光譜的淀粉含量的MLR模型的預(yù)測(cè)結(jié)果;
b:IVISSA-IRIV-MLR模型獲得的預(yù)測(cè)淀粉含量的散點(diǎn)圖
2.5 面粉中淀粉含量的可視化分布
高光譜成像技術(shù)可以同時(shí)提供樣品的光譜和圖像信息。利用特征波長(zhǎng)算法選取最優(yōu)模型,對(duì)面粉中淀粉含量進(jìn)行可視化,并對(duì)樣品高光譜圖像中感興趣區(qū)域像素點(diǎn)進(jìn)行變換,預(yù)測(cè)淀粉含量。將所建立的最優(yōu)IVISSA-IRIV-MLR模型轉(zhuǎn)移到圖像的每個(gè)像素上,構(gòu)建面粉中淀粉含量的可視化分布圖,并預(yù)測(cè)面粉樣品中所有像素點(diǎn)的淀粉含量。最優(yōu)模型預(yù)測(cè)的淀粉含量用線性色條表示(圖16)。在可視化圖像中,具有相似光譜特征的高光譜圖像像素具有相似的顏色值(淀粉含量)。在可視化分布圖中,紅色區(qū)域代表淀粉含量高,紫色區(qū)域代表淀粉含量低。隨著淀粉含量的增加,顏色逐漸由紫色變?yōu)榧t色。不同面粉品種淀粉含量可通過(guò)顏色明顯區(qū)分,且分布不均勻。高光譜成像技術(shù)可以實(shí)現(xiàn)面粉任意位置的可視化,直接表征面粉淀粉含量的分布,進(jìn)而輔助面粉品質(zhì)的綜合評(píng)價(jià)。
圖16 面粉中淀粉含量的可視化圖
3、面粉中水分含量模型的建立
3.1基于全波長(zhǎng)的建模分析
表3-5給出了用于計(jì)算面粉水分含量模型的校準(zhǔn)集、交叉驗(yàn)證集和預(yù)測(cè)集的統(tǒng)計(jì)參數(shù)結(jié)果。對(duì)比PLSR、PCR、SVMR和MLR四種模型發(fā)現(xiàn),只有PLSR模型的預(yù)測(cè)集決定系數(shù)穩(wěn)定性最優(yōu)達(dá)到了0.8以上,因此選取PLSR模型進(jìn)行后續(xù)建模?;谌庾V數(shù)據(jù)的PLSR模型中相應(yīng)的R2C、R2CV和R2P分別為0.8797、0.7721和0.8264,相關(guān)的RMSEC、RMSECV和RMSEP分別為0.1752、0.2409和0.2540g/100g,RPD為2.4220。
表3-5利用高光譜成像技術(shù)預(yù)測(cè)面粉水分含量的模型性能。
3.2數(shù)據(jù)預(yù)處理
表3-6給出了基于原始光譜分別進(jìn)行Detrending、FD、SD、SNV、MSC、FD-SNV、SNV-FD、SNV-Detrending和SD-SNV共9種預(yù)處理算法所建立的PLSR、PCR、SVMR和MLR四類模型。從表3-6可以看出,PLSR模型的性能明顯優(yōu)于其余三類,與PLSR模型下未進(jìn)行預(yù)處理的原始數(shù)據(jù)相比,SNV和MSC兩種預(yù)處理算法均優(yōu)于其他預(yù)處理方法且有利于改進(jìn)PLSR模型的預(yù)測(cè)性能?;谠脊庾V數(shù)據(jù)進(jìn)行SNV預(yù)處理的PLSR模型具有較優(yōu)的預(yù)測(cè)精度,其R2C、RMSEC、R2CV、RMSECV和R2P、RMSEP分別為0.8751,0.1785g/100g,0.7836,0.2362g/100g,0.8502和0.2360g/100g。因此在后續(xù)工作中,基于原始高光譜數(shù)據(jù)建立PLSR模型進(jìn)行SNV預(yù)處理進(jìn)行預(yù)測(cè)面粉中水分含量。
表3-6基于不同預(yù)處理方法的PLSR、PCR、SVMR和MLR模型的水分含量預(yù)測(cè)結(jié)果
3.3 提取特征波長(zhǎng)
(1)基于IRIV算法提取面粉中水分的特征波長(zhǎng)IRIV算法評(píng)估每個(gè)變量的重要性并根據(jù)其重要性對(duì)變量進(jìn)行排序,是一種穩(wěn)定性較好的方法。圖17(a)顯示了波長(zhǎng)數(shù)隨迭代次數(shù)增加的變化過(guò)程。在969-2173nm波長(zhǎng)范圍內(nèi),采用IRIV算法共進(jìn)行8輪迭代。在前4輪迭代中,由于許多不相關(guān)的信息波長(zhǎng)被消除,波長(zhǎng)數(shù)從203急劇減少到41,然后在隨后的多輪迭代中緩慢減少。該結(jié)果在第7輪迭代中保持穩(wěn)定,隨后向后消除了4個(gè)變量。圖17(b)顯示了在1019,1026,1057,1076,1408,1415,1720,1732,1738,1815,1820,1826,1832,1867,1930,1941,1952,1969,1975,1980,2047,2101,2122和2148nm處選取的24個(gè)變量,占總波長(zhǎng)的11.82%。
圖17IRIV算法篩選面粉中水分含量特征波長(zhǎng)
(a:迭代次數(shù)剩余變量生長(zhǎng)模式,b:挑選特征波長(zhǎng))
(2)基于VCPA算法提取面粉中水分的特征波長(zhǎng)使用VCPA算法對(duì)面粉中水分含量進(jìn)行挑選特征波長(zhǎng)處理。圖18(a)為VCPA算法利用EDF根據(jù)可變頻率消除變量獨(dú)立運(yùn)行50次后得到的波長(zhǎng)優(yōu)化結(jié)果,保留RMSECV最?。?.2471g/100g)的變量子集為最終結(jié)果。VCPA算法挑選了12個(gè)水分含量相關(guān)的特征波長(zhǎng)(圖18(b),分別為982,1308,1346,1421,1738,1744,1750,1756,1901,1935,1952和1992nm,占總波段的5.91%。
圖18VCPA算法篩選面粉中水分含量特征波長(zhǎng)
(a:選擇結(jié)果根據(jù)最小RMSECV確定特征波長(zhǎng);b:IRIV選擇的特征波長(zhǎng)分布
(3)基于IVISSA算法提取面粉中水分的特征波長(zhǎng)對(duì)于IVISSA算法將潛在變量數(shù)設(shè)置為4個(gè),采用五重交叉驗(yàn)證對(duì)模型進(jìn)行評(píng)估,將二進(jìn)制矩陣采樣運(yùn)行次數(shù)設(shè)置為1000次。RMSECV隨著迭代過(guò)程的變化趨勢(shì)如圖19(a)所示。在經(jīng)過(guò)26次迭代后,RMSECV值降至0.2071g/100g,保留102個(gè)特征波長(zhǎng)。該算法選取的特征波長(zhǎng)數(shù)量較多,模型的運(yùn)算速度慢,不利于精簡(jiǎn)提效,因此結(jié)合效果較優(yōu)的IRIV算法進(jìn)一步挑選特征波長(zhǎng)。并提出IVISSA-IRIV算法相結(jié)合提取面粉中水分含量。圖19(b)為挑選出水分含量的最佳特征波長(zhǎng)數(shù)為36個(gè),分別為1089,1133,1151,1221,1227,1233,1239,1246,1252,1346,1358,1408,1415,1421,1427,1433,1507,1544,1550,1557,1738,1744,1809,1820,1844,1849,1867,1873,1896,1901,1907,1952,1958,1986,2025和2047nm,占總波段的17.73%。
圖19IVISSA和IVISSA-IRIV算法篩選面粉中水分含量特征波長(zhǎng)
a:RMSECV在迭代過(guò)程中的變化趨勢(shì);b:所選特征波長(zhǎng)的序號(hào))
(4)基于MASS算法提取面粉中水分的特征波長(zhǎng)MASS算法提取面粉中水分含量的特征波長(zhǎng),圖20(a)表示隨著迭代次數(shù)的增加RMSECV呈現(xiàn)下降趨勢(shì)。MASS算法在經(jīng)過(guò)41輪迭代后,RMSECV達(dá)到最小值為0.1762g/100g。面粉中水分含量的相關(guān)波長(zhǎng)保留52個(gè)特征波長(zhǎng)。為了進(jìn)一步預(yù)測(cè)減少波長(zhǎng)數(shù)是否有助于提高模型的運(yùn)算速度,將MASS算法與IRIV算法相結(jié)合。MASS-IRIV算法最終得到的水分含量的特征波長(zhǎng)如圖20(b)所示。在52個(gè)變量集中,提取了17個(gè)水分含量的特征波長(zhǎng),分別為982,1038,1133,1346,1408,1415,1421,1575,1720,1744,1750,1762,1809,1826,1913,1930和1958nm,占總波長(zhǎng)的8.37%。
圖20MASS和MASS-IRIV算法篩選面粉中水分含量特征波長(zhǎng)
(a:RMSECV在迭代過(guò)程中的變化趨勢(shì);b:所選特征波長(zhǎng)的序號(hào))
(5)基于IRF算法提取面粉中水分的特征波長(zhǎng)利用IRF算法提取面粉中水分含量的特征波長(zhǎng),如圖21(a)所示,隨著迭代次數(shù)的增加,當(dāng)?shù)螖?shù)達(dá)到81次時(shí),選取RMSECV最小值(1.8122g/100g)的變量子集為所挑選的特征波長(zhǎng),IRF算法最終選擇了969-982,1082-1195,1327-1346,1383-1396,1538-1550,1732-1779,1791-1844,1918-1941,1958-1997,2008-2164nm共94個(gè)特征波長(zhǎng)(圖21(b))。進(jìn)一步結(jié)合IRIV算法以減少特征波長(zhǎng)的數(shù)量,其挑選出的特征波長(zhǎng)數(shù)從94減少到了20個(gè)(圖21(c)),分別為982,1183,1195,1396,1732,1738,1744,1815,1935,1941,1975,1980,1986,1997,2014,2025,2030,2041,2047和2117nm,占總波段的9.85%。
圖21IRF和IRF-IRIV算法篩選面粉中水分含量特征波長(zhǎng)
(a:RMSECV在迭代過(guò)程中的變化趨勢(shì);b:IRF算法所選特征波長(zhǎng)的序號(hào);c:IRF-IRIV算法所選特征波長(zhǎng)的序號(hào))
3.4 最優(yōu)建模效果的比較
首先基于全波段近紅外高光譜數(shù)據(jù)建立的PLSR、PCR、SVMR和MLR四類模型的性能進(jìn)行評(píng)估比較,發(fā)現(xiàn)PLSR模型性能最優(yōu),后續(xù)使用PLSR模型進(jìn)行建模和評(píng)估。在預(yù)處理過(guò)程中,SNV表現(xiàn)出較好的預(yù)測(cè)能力,因此將全波段波長(zhǎng)和挑選的特征波長(zhǎng)先進(jìn)行SNV預(yù)處理,然后作為PLSR模型的輸入數(shù)據(jù),評(píng)估SNV預(yù)處理結(jié)果結(jié)合特征波長(zhǎng)提取對(duì)預(yù)測(cè)模型的影響。不同模型對(duì)水分含量的預(yù)測(cè)結(jié)果如圖22(a)所示。對(duì)比所建模型的預(yù)測(cè)性能,基于IVISSA、MASS和IRF三種算法挑選特征波長(zhǎng)模型仍然包含大量波段,不利于提高計(jì)算速度,基于三種特征波長(zhǎng)提取算法所建的PLSR模型對(duì)面粉中水分含量能獲得較好的預(yù)測(cè)效果。然而IRIV、VCPA以及三種混合變量選擇方法雖然大大減少了樣本的波長(zhǎng)數(shù)量,但預(yù)測(cè)模型的精度下降,沒(méi)有達(dá)到理想的預(yù)測(cè)效果,可能是因?yàn)樵谔崛≈匾ǘ蔚倪^(guò)程中丟失了一些與含水分含量相關(guān)的有用信息,從而降低了模型的魯棒性。在水分含量的PLSR模型中,基于全波長(zhǎng)所建立的PLSR模型中R2C=0.8797,R2P=0.8264,RMSEC=0.1752g/100g,RMSEP=0.2540g/100g,RPD=2.4220。基于全波長(zhǎng)數(shù)據(jù)預(yù)處理所建立的SNV-PLSR模型中R2C=0.8751,R2P=0.8502,RMSEC=0.1785g/100g,RMSEP=0.2360g/100g。在水分含量的預(yù)測(cè)模型中,基于IVISSA和MASS算法分別提取102和52個(gè)特征波長(zhǎng)所建立的模型效果最好。其中SNV-IVISSA-MLR模型中,R2C=0.9062,R2P=0.8687,RMSEC=0.1547g/100g,RMSEP=0.2079g/100g。在SNV-MASS-MLR中,其R2C=0.9028,R2P=0.8646,RMSEC=0.1575g/100g,RMSEP=0.2068g/100g。但是基于IVISSA算法提取的特征波長(zhǎng)數(shù)為102個(gè)遠(yuǎn)多于基于MASS算法提取的特征波長(zhǎng)數(shù),其模型的預(yù)測(cè)效果略高于SNV-MASS-MLR,但基于IVISSA算法的模型運(yùn)行速度慢,不利于簡(jiǎn)化模型,因此選取SNV-MASS-MLR模型最為水分特征波長(zhǎng)選擇的最優(yōu)模型。圖22(b)是基于SNV-MASS-MLR模型對(duì)面粉中水分含量的預(yù)測(cè)值和實(shí)際值的散點(diǎn)圖。水分含量的實(shí)際值和預(yù)測(cè)值在回歸線附近分布緊密,表明模型的預(yù)測(cè)性能較好,可以準(zhǔn)確實(shí)現(xiàn)面粉中水分含量的檢測(cè)
圖22a:基于全光譜和挑選特征光譜的水分含量的PLSR模型的預(yù)測(cè)結(jié)果;
b:SNV-MASS-PLSR模型獲得的預(yù)測(cè)水分含量的散點(diǎn)圖
3.5 面粉中淀粉含量的可視化分布
高光譜成像技術(shù)的突出優(yōu)勢(shì)是可以在像素級(jí)模型中創(chuàng)建樣品化學(xué)性質(zhì)的空間分布圖。充分利用該方法的優(yōu)勢(shì),實(shí)現(xiàn)了水分含量分布的可視化,用線性色條來(lái)反映面粉中水分含量的變化。圖23為應(yīng)用最優(yōu)模型SNV-MASS-PLSR預(yù)測(cè)水分含量分布圖。右邊為線性色度條,面粉中水分含量的變化可直觀地用線性的顏色刻度條進(jìn)行表示。在可視化分布圖中,紫色代表面粉的水分含量較低為9.4093g/100g,深紅色代表面粉中的水分含量較高為13.0145g/100g,面粉的顏色從紫色到藍(lán)色,再到綠色,再到黃色,最后變成紅色,即面粉中的水分含量在不斷增加。結(jié)果表明,通過(guò)顏色的變化可以區(qū)分面粉中水分含量的變化,實(shí)現(xiàn)了面粉中水分含量的可視化檢測(cè)。因此,近紅外高光譜成像技術(shù)是一種簡(jiǎn)單實(shí)用的方法,可用于快速、準(zhǔn)確的無(wú)損檢測(cè)物質(zhì)內(nèi)部化學(xué)成分并實(shí)現(xiàn)可視化。相對(duì)于單點(diǎn)檢測(cè)技術(shù),高光譜成像技術(shù)可以實(shí)現(xiàn)面粉任意局部水分含量的可視化,直觀地揭示面粉中水分含量的變化,有助于對(duì)面粉的質(zhì)量進(jìn)行綜合評(píng)價(jià)。
圖23面粉中水分含量的可視化圖
4、總結(jié)
本文首先將462份面粉根據(jù)KS算法按照3:1的比例劃分為347個(gè)校正集和115個(gè)預(yù)測(cè)集。隨后基于原始光譜建立全光譜數(shù)據(jù)的校正模型,構(gòu)建PLSR、PCR、SVMR和MLR四種相應(yīng)優(yōu)化校正模型,并比較各模型的預(yù)測(cè)效果。經(jīng)過(guò)比較發(fā)現(xiàn)在蛋白質(zhì)、淀粉和水分的預(yù)測(cè)模型中,PCR、MLR和PLSR模型分別表現(xiàn)出較優(yōu)的性能,為最佳全波長(zhǎng)預(yù)測(cè)模型,后續(xù)實(shí)驗(yàn)分別基于其最優(yōu)模型進(jìn)行。基于蛋白質(zhì)、淀粉和水分含量的PLSR、PCR、SVMR和MLR中,分別結(jié)合Detrending、FD、SD、SNV、MSC、FD-SNV、SNV-FD、SNV-Detrending和SD-SNV共9種預(yù)處理算法進(jìn)行建模。與原始光譜數(shù)據(jù)所建模型進(jìn)行比較發(fā)現(xiàn),基于原始光譜的PCR和MLR模型對(duì)蛋白質(zhì)和淀粉含量的預(yù)測(cè)效果最好,經(jīng)過(guò)預(yù)處理后的模型預(yù)測(cè)精度和穩(wěn)定性均低于基于原始光譜的PCR和MLR模型,可能是由于一些有關(guān)蛋白質(zhì)和淀粉含量的關(guān)鍵信息被剔除導(dǎo)致預(yù)處理效果不佳。因此在后續(xù)工作中蛋白質(zhì)和淀粉含量預(yù)測(cè)模型的建立并未經(jīng)過(guò)預(yù)處理。
在水分含量的預(yù)測(cè)模型中,基于原始光譜數(shù)據(jù)進(jìn)行SNV預(yù)處理的PLSR模型具有較優(yōu)的預(yù)測(cè)精度。969-2174nm范圍內(nèi)的光譜包含大量冗余信息,不利于提高模型的魯棒性和預(yù)測(cè)速度。因此,需從原始光譜中選取特征波長(zhǎng)進(jìn)一步優(yōu)化模型。特征波長(zhǎng)的選擇可以降低高光譜數(shù)據(jù)的高維度和復(fù)雜性,提高預(yù)測(cè)模型的精度和計(jì)算速度。
本研究采用近紅外高光譜成像技術(shù)與化學(xué)計(jì)量學(xué)方法相結(jié)合,提出了一種快速可靠的測(cè)定小麥面粉中蛋白質(zhì)、淀粉和水分含量變化的方法。采用SPA、CARS、UVE、IRIV、VCPA、IVISSA、MASS、IRF及其組合算法作為數(shù)據(jù)降維方法,挑選能反映小麥面粉有效信息在具有光譜噪聲和重疊的光譜曲線上變化的特征波長(zhǎng)。以全波長(zhǎng)數(shù)據(jù)和特征波長(zhǎng)數(shù)據(jù)子集作為輸入變量,建立了基于PLSR、PCR、SVMR和MLR的一系列化學(xué)成分(蛋白質(zhì)、淀粉和水分)預(yù)測(cè)模型。蛋白質(zhì)、淀粉和水分含量的最佳預(yù)測(cè)模型分別為IVISSA-IRIV-PCR(R2C=0.9883,RMSEC=0.4701g/100g,R2P=0.9859,RMSEP=1.1580g/100g)、IVISA-IRIV-MLR(R2C=0.9394,RMSEC=1.6090g/100,R2P=0.9243,RMSEP=2.1669g/100g)和SNV-MASS-PLSR(R2C=0.9028,RMSEC=0.1575g/100g,R2P=0.8646,RMSEP=0.2068g/100g),分別提取出11、28和52個(gè)特征波長(zhǎng)。利用高光譜成像技術(shù)能同時(shí)提供樣品的光譜和圖像信息。在像素級(jí)模型中創(chuàng)建樣品化學(xué)性質(zhì)的空間分布圖。通過(guò)將像素級(jí)光譜數(shù)據(jù)代入挑選的最優(yōu)模型中來(lái)預(yù)測(cè)面粉中每個(gè)像素點(diǎn)的蛋白質(zhì)、淀粉和水分含量,最終構(gòu)建面粉中各化學(xué)成分含量的可視化分布圖。直觀地表征面粉中各物質(zhì)含量的分布,進(jìn)而輔助面粉品質(zhì)進(jìn)行綜合評(píng)價(jià)。
推薦:
便攜式高光譜成像系統(tǒng) iSpecHyper-VS1000
專門(mén)用于公安刑偵、物證鑒定、醫(yī)學(xué)醫(yī)療、精準(zhǔn)農(nóng)業(yè)、礦物地質(zhì)勘探等領(lǐng)域的最新產(chǎn)品,主要優(yōu)勢(shì)具有體積小、幀率高、高光譜分辨率高、高像質(zhì)等性價(jià)比特點(diǎn)采用了透射光柵內(nèi)推掃原理高光譜成像,系統(tǒng)集成高性能數(shù)據(jù)采集與分析處理系統(tǒng),高速USB3.0接口傳輸,全靶面高成像質(zhì)量光學(xué)設(shè)計(jì),物鏡接口為標(biāo)準(zhǔn)C-Mount,可根據(jù)用戶需求更換物鏡。
審核編輯 黃宇
-
成像
+關(guān)注
關(guān)注
2文章
240瀏覽量
30485 -
高光譜
+關(guān)注
關(guān)注
0文章
331瀏覽量
9943
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論