番茄是一種受歡迎且營養(yǎng)豐富的水果,在全球市場上占據(jù)了重要地位。近幾十年來,大量的研究致力于培育出品質(zhì)更高、抗逆性更強(qiáng)的番茄品種。果實的品質(zhì)與幼苗的生長密切相關(guān),因此,有效監(jiān)控幼苗的生長對于培育優(yōu)質(zhì)番茄至關(guān)重要。傳統(tǒng)的化學(xué)方法在監(jiān)測植物中大量色素的濃度方面可能會受到限制。為了克服這些限制,研究人員經(jīng)常求助于非侵入性、高通量和實時監(jiān)測技術(shù),例如光譜學(xué)和高光譜成像,這些技術(shù)可以在不需要破壞性采樣的情況下評估植物中的色素濃度,并提供有效監(jiān)測大量植物的能力。
本研究使用的櫻桃番茄幼苗在華南農(nóng)業(yè)大學(xué)園藝學(xué)院室內(nèi)植物工廠(113.36°E,23.6°N)進(jìn)行水培,包括兩種類型的番茄幼苗:未改變的野生型和長下胚軸缺失(HY5)突變體。野生型花青素含量較高,HY5突變體的花青素含量較低。花青素在植物光合作用中起重要作用,并影響其他色素的積累。兩種苗種在相同的環(huán)境條件下培養(yǎng)。如圖1(a)所示,將幼苗置于頂部和底部有開口的海綿方塊上,使其葉子向上,根向下,將幼苗種植在72孔泡沫板上。泡沫板被放置在植物工廠的水培架子上,使番茄幼苗的根部能夠接觸到營養(yǎng)液。番茄幼苗以單孔空間分開種植,以減少植物葉片在生長過程中的相互遮蔭,以確保植物獲得足夠的光線。本研究記錄了番茄幼苗在播種后17、20和23天的光譜數(shù)據(jù)和色素濃度數(shù)據(jù)。從4塊泡沫板中選取144個樣本,每塊泡沫板中包含36棵幼苗。一半的樣本是野生型,另一半是HY5型。實驗中番茄幼苗的選擇標(biāo)準(zhǔn)是葉片表面平整,以便于光譜圖像的獲取。
圖1 (a)高光譜圖像采集和(b)ROI提取
如圖1(a)所示,高光譜圖像采集裝置由近紅外相機(jī)Gaia Field-N17、光源、暗盒和加載板組成。該近紅外相機(jī)具有256個光譜通道,可以記錄900-1700 nm范圍內(nèi)的反射光譜。每個樣品的高光譜數(shù)據(jù)使用近紅外相機(jī)和控制軟件SpecVIEW v2.9采集。儀器和軟件均由江蘇雙利合譜光譜成像技術(shù)有限公司提供。本研究共采集了432株幼苗,其中一半為野生型,一半為HY5型。幼苗葉片中色素濃度隨時間的平均值和分布如圖2所示。這些折現(xiàn)說明了每種光合色素的平均濃度總體上呈上升趨勢。葉綠素濃度在第20天顯著高于第17天,第23天變化不大。這可能有兩個潛在原因:隨著植物的生長,它可能耗盡了土壤中可用的營養(yǎng)物質(zhì)。光合色素,如葉綠素,需要氮、鎂等關(guān)鍵營養(yǎng)物;植物可能將資源轉(zhuǎn)向開花、結(jié)果或其他繁殖過程。小提琴圖展示了不同時間間隔中色素濃度的分布,小提琴圖中較寬的部分表明該范圍內(nèi)樣本數(shù)量較多。每個時間點分組的上部小提琴圖顯示了野生型的分布,而下部小提琴圖代表HY5突變型。HY5是植物生長發(fā)育過程中促進(jìn)光形態(tài)發(fā)生,刺激葉綠素和類胡蘿卜素合成的關(guān)鍵調(diào)控因子。HY5缺失導(dǎo)致下胚軸變長,光形態(tài)發(fā)生受損導(dǎo)致色素沉著減少。
圖2 色素隨時間的平均濃度和分布番茄幼苗的原始反射率曲線
如圖3(a)所示,其中包含少量異常值。常用箱形圖來處理這一問題,超出上四分位數(shù)或低于下四分位數(shù)的樣本值會被排除出數(shù)據(jù)集。值得注意的是,在900 nm和1700 nm附近發(fā)生細(xì)微的波動,這可能是由噪音和雜散光引起的。利用SG濾波器進(jìn)行降噪處理,得到更平滑的反射率曲線,如圖3(b)所示。一階導(dǎo)數(shù)結(jié)果的顯著波動清楚地揭示了反射率曲線的變化,如圖3(c)所示。此外,如圖3(d)所示,經(jīng)過SNV標(biāo)準(zhǔn)化后,光譜曲線圍繞在零附近變得更加密集。因此,利用SG濾波器和SNV聯(lián)合對反射光譜進(jìn)行處理,在不失去其特性的情況下,消除了噪聲和快速振蕩的干擾。
圖3 預(yù)處理方法比較((a)原始光譜;(b)SG平滑濾波器;(c)一階導(dǎo)數(shù);(d)SNV)
在主成分分析法中,載荷圖通常用來檢驗特征與主成分之間的關(guān)系,每個主成分中原始變量的權(quán)重有助于進(jìn)一步理解所選波長的重要性。如圖4(a)所示,在21個選定的主成分中,有5個主成分占總載荷的90%以上。曲線的峰谷分別出現(xiàn)在910 nm、950 nm、1130 nm、1400 nm和1450 nm附近,與番茄幼苗色素的相關(guān)性*強(qiáng)。PC4在910 nm左右上升,PC5在1130 nm左右下降,可能是由于C-H鍵的拉伸和彎曲振動引起的。950 nm和1130 nm附近發(fā)生的特征是由于對稱和不對稱振動和旋轉(zhuǎn)方式對H2O分子的吸收。1450 nm左右的顯著下降與水的O-H拉伸第一泛音和碳水化合物的存在有關(guān)。如圖4(b)所示,以葉綠素-a的結(jié)果為例,CARS經(jīng)過21次蒙特卡羅采樣迭代后,所選擇的特征總計為37。所選特征主要集中在950~1150 nm和1400~1480 nm之間。在960 nm處觀察到的吸收峰主要來自于水分子內(nèi)羥基(OH)的二階頻率加倍,而在1200 nm附近的衰減被認(rèn)為是有機(jī)物內(nèi)CH基團(tuán)的二階振動吸收的結(jié)果。另一方面,葉綠素-b和類胡蘿卜素所選擇的波長不同。然而,它們都緊密地聚集在兩個特定的光譜范圍內(nèi):930-1210 nm之間和1350-1550 nm之間的峰谷。930-1210 nm之間的特征與植物中O-H和C-H鍵的振動有關(guān)。綜上所述,這些一致的結(jié)果符合光譜學(xué)的既定原理,支持了特征提取的驗證。
圖4 PCA和CARS的結(jié)果說明((a)基于PCA方法的波長權(quán)重;(b)CARS法提取葉綠素-a的敏感波長)
為了證明特征提取有助于預(yù)測性能的提升,進(jìn)行了全波段對比實驗。表1顯示了不同特征提取方法與PLSR結(jié)合時的性能,其中Np代表預(yù)測中使用的特征數(shù)量,R2c、R2v和RMSEc、RMSEv分別代表校準(zhǔn)集和驗證集上的R2和RMSE值。如表1所示,通過整合三種特征提取方法,PLSR模型的性能較使用全波段特征有所提升。以葉綠素-a為例,與全波段相比,PCA、ICA和CARS組合的R2分別提高了0.027、0.030和0.082。此外,其他三種色素的預(yù)測中也發(fā)現(xiàn)了相同的改善。因此,這些特征提取方法能有效地移除反射光譜中的無關(guān)信息。此外,在表1中,CARS顯示出更高的R2和更小的RMSE,證明了其相較于其他兩種策略的優(yōu)*性。雖然PCA和ICA方法傾向于使用較少的特征進(jìn)行預(yù)測,但它們可能無法保留重要的波長。另一方面,CARS展示了更高的準(zhǔn)確性和魯棒性。因此,在接下來的建模討論中采用了CARS來選擇敏感波長。
在特征提取后,對PLSR和ELM進(jìn)行測試和比較,以確定預(yù)測番茄幼苗中色素濃度的最佳模型。采用網(wǎng)格搜索技術(shù)確定模型的*優(yōu)參數(shù)。當(dāng)隱藏層節(jié)點數(shù)設(shè)置為30時,ELM達(dá)到*優(yōu),預(yù)測結(jié)果如圖5(a)所示??傮w而言,ELM比PLSR具有更高的R2和更低的RMSE,即ELM在檢測任務(wù)中表現(xiàn)出更高的準(zhǔn)確性和魯棒性,可能的關(guān)鍵因素是數(shù)據(jù)中非線性關(guān)系的存在。在3種色素中,ELM模型在葉綠素-a的預(yù)測精度最高,在測試集上的R2為0.86,在葉綠素-b和類胡蘿卜素數(shù)據(jù)中表現(xiàn)出幾乎一致的預(yù)測性能。
圖5 預(yù)測結(jié)果((a)PLSR和ELM的比較;(b)色素濃度的可視化)
所提出的方法隨后被用于檢測活體番茄幼苗葉片中的色素濃度。該過程包括將原始高光譜圖像作為輸入輸入到預(yù)訓(xùn)練系統(tǒng),系統(tǒng)隨即生成色素濃度的預(yù)測。如圖5(b)所示,熱圖中的顏色編碼(藍(lán)色代表低濃度,紅色代表高濃度)提供了對這些色素分布的直觀理解,結(jié)果也確實合理。如預(yù)期,葉片中的色素濃度高于莖部。這與植物生理學(xué)的理解一致,葉子是光合作用的主要場所,這些色素在其中發(fā)揮關(guān)鍵作用。利用預(yù)測的葉綠素和類胡蘿卜素濃度對野生型和HY5型番茄幼苗進(jìn)行分類。為此訓(xùn)練了基于邏輯回歸、支持向量機(jī)(SVC)和K最近鄰(KNN)的分類模型,將番茄幼苗的輸入樣本分為野生型和HY5型。模型訓(xùn)練是在包含三種色素濃度和相應(yīng)基因型標(biāo)簽的真實化學(xué)數(shù)據(jù)集上進(jìn)行的。然后,使用訓(xùn)練好的分類器和ELM預(yù)測的色素濃度作為測試輸入,來確定番茄幼苗的基因型。分類器的主要結(jié)果在表2中進(jìn)行了總結(jié)。從表中可以觀察到,邏輯回歸和SVC在測試集上達(dá)到了最高的準(zhǔn)確度得分,約為0.85。此外,這兩個模型的F1分?jǐn)?shù)和AUC也達(dá)到了相對較高的值,分別為0.86和0.85,表明這些模型在處理野生型和HY5型的二分類問題上具有高水平的表現(xiàn)。
為了解決在植物工廠監(jiān)測大量番茄幼苗生長的挑戰(zhàn),本研究提出了一種新的方法,該方法結(jié)合了高光譜成像技術(shù)和機(jī)器學(xué)習(xí)技術(shù)。在本研究中,葉綠素和類胡蘿卜素的實際濃度是通過化學(xué)方法確定的,這些數(shù)據(jù)作為建模的真實基準(zhǔn)。進(jìn)行了使用不同特征提取算法的實驗,以驗證提取過程的有效性并通過結(jié)果比較識別最佳算法。結(jié)果顯示,CARS方法勝過其他方法,成為特征選擇的*選方法。每種色素的敏感波長都被記錄下來,以備將來應(yīng)用。基于PLSR和ELM構(gòu)建的回歸模型進(jìn)一步用于預(yù)測葉綠素a、葉綠素b和類胡蘿卜素的濃度,結(jié)果顯示ELM模型表現(xiàn)更佳,這三種色素的R2分別達(dá)到了0.86、0.83和0.83。使用ELM預(yù)測的色素濃度作為輸入,基于邏輯回歸和SVC構(gòu)建的分類模型用于分類番茄幼苗的基因型,在測試集上達(dá)到了0.85的準(zhǔn)確度。所提出的方法可以整合到運(yùn)行在微型計算機(jī)上的軟件中,使用近紅外高光譜相機(jī)實時估算色素濃度和基因型。這一概念可能會啟發(fā)監(jiān)測設(shè)備的開發(fā),旨在提高植物工廠的效率和生產(chǎn)力。
黃斌山,一作,華南農(nóng)業(yè)大學(xué)電子工程學(xué)院/人工智能學(xué)院。
Huang Binshan, Li Songhao, Long Teng, Bai Shudai, Zhao Jing, Xu Haitao, Lan Yubin, Liu Houcheng, Long Yongbing. Research on Predicting Photosynthetic Pigments in Tomato Seedling Leaves Based on Near-Infrared Hyperspectral Imaging and Machine Learning. Microchemical Journal, 2024, 204: 111076.