背景
高粱在發(fā)展中國(guó)家作為食糧作物, 在田間種植過(guò)程中需要噴撒農(nóng)藥以減少病蟲(chóng)害對(duì)于產(chǎn)量和品質(zhì)的影響。當(dāng)出現(xiàn)嚴(yán)重的病蟲(chóng)害時(shí), 農(nóng)戶(hù)們會(huì)多次噴灑高濃度的農(nóng)藥溶液, 這導(dǎo)致高粱中存在過(guò)量的農(nóng)藥殘留。研究表明, 長(zhǎng)期食用農(nóng)藥殘留超標(biāo)的食物對(duì)人體危害巨大, 會(huì)造成癌癥、心臟病、神經(jīng)性疾病等嚴(yán)重后果。因此, 如何無(wú)損、快速、準(zhǔn)確檢測(cè)高粱中的農(nóng)藥殘留是亟待解決的問(wèn)題。
現(xiàn)階段農(nóng)藥檢測(cè)方法包括氣相色譜法、氣相色譜-串聯(lián)質(zhì)譜法、高效液相色譜法等, 這些方法雖然具備較高的檢測(cè)準(zhǔn)確性和精密度, 但存在制樣復(fù)雜、價(jià)格昂貴、檢測(cè)耗時(shí)長(zhǎng)、破壞樣品和操作難度高的缺點(diǎn)。近些年來(lái), 研究者們已經(jīng)開(kāi)始利用光譜技術(shù)來(lái)檢測(cè)農(nóng)藥殘留, 常用的方法有拉曼光譜檢測(cè)方法[7]、近紅外光譜檢測(cè)方法和高光譜成像檢測(cè)方法。其中, 拉曼光譜法和近紅外光譜法的檢測(cè)精度和靈敏度受環(huán)境影響較大。
高光譜技術(shù)相比于傳統(tǒng)的光譜技術(shù), 可以同時(shí)獲得檢測(cè)樣品的圖像信息和光譜信息, 可以實(shí)現(xiàn)對(duì)農(nóng)藥殘留的準(zhǔn)確檢測(cè)。本研究建立了基于BP神經(jīng)網(wǎng)絡(luò)自適應(yīng)增強(qiáng)算法的集成學(xué)習(xí)高粱農(nóng)藥殘留分類(lèi)模型, 相比于單一分類(lèi)模型, BP-AdaBoost結(jié)合BP神經(jīng)網(wǎng)絡(luò)和AdaBoost算法的優(yōu)勢(shì), 可以適應(yīng)不同的數(shù)據(jù)和問(wèn)題, 提高模型分類(lèi)正確率、減少模型過(guò)擬合風(fēng)險(xiǎn)。本研究結(jié)合高光譜技術(shù)與機(jī)器學(xué)習(xí)算法快速檢測(cè)高粱中殘留的農(nóng)藥種類(lèi), 可以幫助農(nóng)產(chǎn)品生產(chǎn)者和食品加工廠快速識(shí)別高粱中的農(nóng)藥殘留種類(lèi)。
實(shí)驗(yàn)設(shè)計(jì)
本研究所使用的高粱品種為紅纓子, 是貴州某高粱育種中心常見(jiàn)的品種。農(nóng)藥選擇高粱種植過(guò)程中常用的農(nóng)藥種類(lèi), 分別為苯醚甲環(huán)唑、馬拉硫磷、氯蟲(chóng)苯甲酰胺、莠去津, 分別表示為B、M、L、Y, 購(gòu)買(mǎi)于四川宜賓某農(nóng)藥市場(chǎng)。4種農(nóng)藥分別用蒸餾水稀釋400、700、700、200倍, 配制實(shí)驗(yàn)所需的農(nóng)藥溶液。用4個(gè)噴壺農(nóng)藥溶液均勻噴灑在4組高粱樣品上, 并設(shè)置一組噴灑清水(Q)樣品的對(duì)照組。每組樣品包含2880顆高粱籽粒, 共計(jì)14400顆。將高粱樣品放置于室內(nèi)通風(fēng)處, 自然干燥12 h后利用GaiaField-N17E-HR高光譜成像系統(tǒng)(江蘇雙利合譜公司)采集高粱樣品的高光譜圖像。
圖1高光譜成像系統(tǒng)
采用分水嶺算法分割高粱樣品籽粒,將每顆高粱籽粒所在區(qū)域作為感興趣區(qū)域提取光譜信息。使用孤立森林算法剔除光譜中的異常值,利用SNV、SG和DWT對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理,通過(guò)CARS、PCA、CatBoost和GBDT篩選特征波長(zhǎng),建立了XGBoost、LGBM、SVM和 BP-Adaboost農(nóng)藥殘留分類(lèi)模型,實(shí)現(xiàn)了高粱農(nóng)藥殘留種類(lèi)的快速無(wú)損檢測(cè)。
結(jié)論
為顯示不同種類(lèi)農(nóng)藥殘留高粱樣品光譜曲線(xiàn)的差異, 計(jì)算每類(lèi)高粱樣品的光譜曲線(xiàn)的平均值得到平均光譜曲線(xiàn), 如圖2所示。由圖2中可以看出, 在近紅外波段范圍內(nèi), 光譜曲線(xiàn)出現(xiàn)3處較為明顯的吸收峰, 分別位于925 nm、1230 nm、1470 nm左右。925 nm位置處的吸收峰與O-H的第一拉伸泛頻有關(guān), 1230 nm位置處的吸收峰與C-H的第二拉伸泛頻有關(guān), 1470 nm位置處的吸收峰與N-H的第一拉伸泛頻有關(guān)。在近紅外波段范圍內(nèi), 各類(lèi)農(nóng)藥殘留高粱樣品的光譜反射率不同, 但總體變化趨勢(shì)相似。無(wú)農(nóng)藥殘留高粱樣品的反射率較低, 與不同類(lèi)型農(nóng)藥殘留樣品的光譜曲線(xiàn)差異明顯。此外, B與Y的平均光譜反射率非常接近, L的平均光譜反射率最高。在1000~1100 nm范圍內(nèi), 各類(lèi)高粱樣品的反射率差距最大, 由高到低分別是L、M、Y、B、Q。這些平均光譜的差異為鑒別高粱樣品農(nóng)藥殘留種類(lèi)提供了依據(jù)。
圖2 高粱農(nóng)藥殘留樣品平均光譜曲線(xiàn)
高粱農(nóng)藥殘留樣品的光譜曲線(xiàn)在900 nm和1700 nm處出現(xiàn)了異常波動(dòng), 這說(shuō)明這兩個(gè)位置處的光譜數(shù)據(jù)受到的干擾較大, 數(shù)據(jù)存在嚴(yán)重失真的情況。為消除數(shù)據(jù)失真對(duì)后期建模分類(lèi)效果的影響, 本研究截去了光譜數(shù)據(jù)開(kāi)始處前15個(gè)和末尾處后41個(gè)波段信息, 保留456個(gè)波段用于建模分析。利用SG、DWT、SNV預(yù)處理方法對(duì)高粱農(nóng)藥殘留樣品的光譜數(shù)據(jù)進(jìn)行預(yù)處理。建立預(yù)處理光譜數(shù)據(jù)的SVM農(nóng)藥殘留分類(lèi)模型識(shí)別農(nóng)藥殘留種類(lèi), 識(shí)別結(jié)果如表1所示。結(jié)果顯示, 使用SNV預(yù)處理的光譜數(shù)據(jù)建立的分類(lèi)模型識(shí)別效果好, 訓(xùn)練正確率和測(cè)試集正確率分別為85.94%和81.58%。這可能是SNV預(yù)處理可以同時(shí)減少噪聲和散射成分對(duì)光譜數(shù)據(jù)的影響。因此, 將SNV預(yù)處理后的光譜數(shù)據(jù)用于后續(xù)的研究分析中。原始光譜曲線(xiàn)如圖3(a)所示,SNV預(yù)處理之后的高粱農(nóng)藥殘留樣品光譜曲線(xiàn)如圖3(b)所示。
注: a: 原始光譜曲線(xiàn); b: SNV預(yù)處理后的光譜曲線(xiàn)
圖3 高粱農(nóng)藥殘留樣品光譜曲線(xiàn)
表1 光譜數(shù)據(jù)預(yù)處理后的建模效果(%)
方法 | 訓(xùn)練集正確率 | 測(cè)試集正確率 |
原始光譜(未處理) | 82.67 | 81.11 |
SG | 82.77 | 81.43 |
DWT | 82.53 | 81.46 |
SNV | 85.94 | 81.58 |
本研究使用了CatBoost、GBDT、CARS、PCA特征選擇方法, CatBoost和GBDT通過(guò)設(shè)置特征重要性得分閾值(0.2)選擇特征波長(zhǎng), PCA通過(guò)設(shè)置載荷系數(shù)閾值(0.1)選擇特征波長(zhǎng), CARS選擇建立最小交叉驗(yàn)證均方根誤差(root mean square error of cross validation, RMSECV)值PLS模型的波長(zhǎng)為特征波長(zhǎng), 分別選擇了132、147、35、12個(gè)特征波長(zhǎng)。圖4為特征波長(zhǎng)的具體位置分布圖, 在圖4(a)和圖4(b)中, 綠色線(xiàn)條代表特征波長(zhǎng)的具體位置, 紅色線(xiàn)條代表所選擇特征波長(zhǎng)對(duì)應(yīng)的特征重要性得分, 特征波長(zhǎng)大致分布在900、1100、1400、1650 nm范圍內(nèi)。其中, CatBoost提取的最大貢獻(xiàn)率波長(zhǎng)分布在1600 nm左右, 特征重要性得分為10.23%, GBDT提取的最大貢獻(xiàn)率波長(zhǎng)分布在1400 nm左右, 特征重要性得分為4.11%。在圖4(c)和圖4(d)中,紅色線(xiàn)條代表特征波長(zhǎng)的具體位置。
表2為不同特征選擇方法篩選的特征波長(zhǎng)建立的分類(lèi)模型結(jié)果。全波長(zhǎng)模型測(cè)試集分類(lèi)正確率為81.58%, CatBoost-SVM模型測(cè)試集分類(lèi)正確率為81.87%, GBDT- SVM模型測(cè)試集分類(lèi)正確率為81.30%, CARS-SVM模型測(cè)試集分類(lèi)正確率為76.47%, PCA-SVM模型測(cè)試集分類(lèi)正確率為59.19%。特征波長(zhǎng)選擇方法效果由高到低分別是CatBoost、GBDT、CARS、PCA, 使用CARS和PCA選擇的特征波長(zhǎng)所建立模型的分類(lèi)正確率有所下降, 這可能是在特征波長(zhǎng)的選擇過(guò)程中, 減少冗余信息的同時(shí), 也刪除了對(duì)建立農(nóng)藥殘留分類(lèi)模型有貢獻(xiàn)的光譜數(shù)據(jù)。研究表明, CatBoost選擇的特征波長(zhǎng)不僅可以減少模型的訓(xùn)練時(shí)間, 還能提高模型的分類(lèi)正確率, 因此, 使用CatBoost選擇的光譜數(shù)據(jù)用于后續(xù)分析。
表2 特征方法的建模結(jié)果(%)
模型 | 特征方法 | 訓(xùn)練集正確率 | 測(cè)試集正確率 |
SVM | None | 85.94 | 81.58 |
CatBoost | 82.40 | 81.87 | |
GBDT | 82.04 | 81.30 | |
CARS | 77.34 | 76.47 | |
| PCA | 60.68 | 59.19 |
注: a: CatBoost; b: GBDT; c: CARS; d: PCA
圖4 特征波長(zhǎng)分布位置
使用CatBoost算法選擇的特征波長(zhǎng)為光譜數(shù)據(jù), 以實(shí)際農(nóng)藥殘留種類(lèi)為標(biāo)簽, 建立光譜數(shù)據(jù)集, 并使用樣品集劃分方法將光譜數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集, 建立了BP-Adaboost、XGBoost、LGBM、SVM模型, 實(shí)現(xiàn)高粱中不同類(lèi)別的農(nóng)藥殘留的分類(lèi), 建模結(jié)果如表3所示。從整體分類(lèi)結(jié)果可以看出, Q的分類(lèi)正確率最高, 識(shí)別效果好, Y的分類(lèi)正確率低。最佳的農(nóng)藥殘留分類(lèi)模型為BP-Adaboost, 測(cè)試集平均分類(lèi)正確率為95.17%, B、L、M、Q、Y測(cè)試集分類(lèi)正確率分別為99.80%、85.11%、94.76%、99.80%、96.24%, 錯(cuò)誤識(shí)別農(nóng)藥殘留高粱籽粒顆數(shù)分別為1、74、24、1、19。相比于XGBoost、LGBM、SVM模型, BP-Adaboost模型平均正確率分別提升了12.66%、13.47%、13.3%。BP-Adaboost模型之所以取得如此良好的分類(lèi)結(jié)果, 是因?yàn)樗粌H利用弱分類(lèi)器組合形成強(qiáng)分類(lèi)器, 而且還利用BP神經(jīng)網(wǎng)絡(luò)來(lái)調(diào)整輸入值與輸出值之間的誤差。XGBoost與LGBM模型訓(xùn)練集分類(lèi)正確率為100%, 但測(cè)試集分類(lèi)正確率卻較低, 模型出現(xiàn)過(guò)擬合現(xiàn)象。本研究針對(duì)這個(gè)情況使用網(wǎng)格尋優(yōu)來(lái)調(diào)整模型的參數(shù), 但分類(lèi)效果仍然沒(méi)有提升, 這可能是由于模型的復(fù)雜程度過(guò)高而導(dǎo)致的模型過(guò)擬合。此外, BP-Adaboost模型建模時(shí)間為124.79 s, 雖然相比于XGBoost等模型所需較長(zhǎng), 但與全波長(zhǎng)建立的BP-Adaboost模型相比(建模時(shí)間為3325.34 s), 極大地降低了模型訓(xùn)練的時(shí)間。與相比姜榮昌等[13]的研究, 在保證單一農(nóng)藥殘留類(lèi)別識(shí)別率高的基礎(chǔ)上, 同時(shí)又提升了模型平均分類(lèi)正確率。總體來(lái)說(shuō), CatBoost特征選擇方法結(jié)合BP-Adaboost模型可以準(zhǔn)確鑒別高粱農(nóng)藥殘留種類(lèi)。
本研究利用IF算法剔除了高粱光譜數(shù)據(jù)集中的異常值, 減少了異常樣品對(duì)于建模結(jié)果的影響; 使用SNV預(yù)處理方法對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理, 減少了噪聲和散射成分對(duì)于光譜信息的干擾; 在特征波長(zhǎng)選擇方面, 使用CatBoost特征選擇方法, 通過(guò)計(jì)算波長(zhǎng)的特征重要性選擇特征波長(zhǎng), 降低了冗余信息對(duì)于分類(lèi)結(jié)果的影響, 加快了模型的訓(xùn)練速度, 特征波長(zhǎng)建模效果優(yōu)于PCA、CARS和GBDT選擇的特征波長(zhǎng); 最重要的是使用BP-Adaboost集成學(xué)習(xí)模型, 結(jié)合BPNN與AdaBoost方法, 對(duì)多個(gè)弱分類(lèi)器的結(jié)果進(jìn)行集成, 提高了模型的分類(lèi)正確率, 成功地識(shí)別出4組不同農(nóng)藥殘留的高粱樣品和一組無(wú)農(nóng)藥殘留的高粱樣品, 其中B和Q的分類(lèi)正確率均為99.80%, 與XGBoost、LGBM、SVM模型相比分別高出了12.66%、13.47%、13.3%, 充分體現(xiàn)出集成學(xué)習(xí)模型的優(yōu)勢(shì)。綜上所述, 本研究提出了一種新高粱農(nóng)藥殘留識(shí)別方法, 融合高光譜成像技術(shù)、CatBoost特征選擇方法和BP-Adaboost集成學(xué)習(xí)模型, 成功的實(shí)現(xiàn)了高粱農(nóng)藥殘留的快速、無(wú)損識(shí)別, 模型訓(xùn)練集平均分類(lèi)正確率為95.68%, 模型測(cè)試集平均分類(lèi)正確率為95.17%, 為農(nóng)產(chǎn)品中的農(nóng)藥殘留種類(lèi)提供了一種高效、準(zhǔn)確的分類(lèi)解決方案。
表3 特征波長(zhǎng)建模結(jié)果
模型 | 類(lèi)別 | 訓(xùn)練集正確率/% | 訓(xùn)練集平均正確率/% | 測(cè)試集正確率/% | 測(cè)試集平均正確率 | 時(shí)間/s |
BP-Adaboost | B | 99.55 | 95.68 | 99.80 | 95.17 | 124.79 |
L | 86.13 | 85.11 | ||||
M | 95.74 | 94.76 | ||||
Q | 99.95 | 99.80 | ||||
Y | 96.86 | 96.24 | ||||
XGBoost | B | 100.00 | 100.00 | 96.39 | 82.51 | 45.49 |
L | 100.00 | 77.47 | ||||
M | 100.00 | 73.91 | ||||
Q | 100.00 | 99.62 | ||||
Y | 100.00 | 63.07 | ||||
LGBM | B | 100.00 | 99.55 | 97.41 | 81.70 | 47.82 |
L | 98.62 | 73.68 | ||||
M | 99.59 | 76.16 | ||||
Q | 100.00 | 99.17 | ||||
Y | 99.54 | 63.16 | ||||
SVM | B | 97.84 | 82.40 | 97.71 | 81.87 | 47.82 |
L | 71.55 | 70.40 | ||||
M | 78.12 | 74.58 | ||||
Q | 99.44 | 99.61 | ||||
Y | 64.44 | 67.00 |
參考文獻(xiàn):
張嘉洪,何林,胡新軍等. 基于高光譜成像技術(shù)的高粱農(nóng)藥殘留種類(lèi)檢測(cè)研究 [J]. 食品安全質(zhì)量檢測(cè)學(xué)報(bào), 2023, 14 (20): 209-217. DOI:10.19812/j.cnki.jfsq11-5956/ts.2023.20.016