背景
水分含量(Moisture content, MC)在海參腌制過程中起著重要作用。較高的MC會導致膠原纖維斷裂,使海參在儲存過程中更容易受損,較低的MC會降低海參的口感和營養(yǎng)價值。準確控制海參腌制過程中MC的含量,對海參的口感品質(zhì)和商品價值具有重要意義。
大量研究使用高光譜成像(Hyperspectral imaging, HSI)和低場核磁共振(Low field nuclear magnetic resonance, LF-NMR)研究水的遷移和變化并預測MC。HSI是一種用于探測淺水表面物理和化學性質(zhì)的快速、無損監(jiān)測技術。LF-NMR是另一種流行的無創(chuàng)檢測技術,用于監(jiān)測食品中水分狀態(tài)的變化和水分遷移。低頻核磁共振之所以有效,是因為當電磁脈沖(Electromagnetic pulse, EMP)在垂直方向輻射時,氫質(zhì)子由于能量從低能級到高能級的轉(zhuǎn)變而處于不穩(wěn)定狀態(tài),而當EMP消失時,這一過程是可逆的。對于海參淺層表面復雜的棘皮結構和內(nèi)部復雜的腔體、體壁等結構,HSI和LF-NMR聯(lián)合檢測可以更準確地預測MC。
深度學習(Deep learning, DL)網(wǎng)絡可以減少模型對人類經(jīng)驗的依賴,提高模型的泛化能力。CS(Cuckoo search)優(yōu)化算法通過提取數(shù)據(jù)的顯著特征實現(xiàn)降維,可以有效提高基于小樣本空間和低類間差異數(shù)據(jù)的模型性能。因此,本研究基于HSI和LF-NMR數(shù)據(jù),采用DL網(wǎng)絡和CS優(yōu)化算法聯(lián)合構建預測模型,對鹽漬海參的MC進行預測分析。
具體研究目標如下:(1)分別針對HSI和LF-NMR數(shù)據(jù)構建基于變種CS算法的MC深度學習預測模型;(2)通過探索模型的性能,確定了HSI和LF-NMR的最優(yōu)模型;(3)根據(jù)最優(yōu)模型和核磁共振成像(Magnetic resonance imaging, MRI),分別基于HSI和LF-NMR數(shù)據(jù)可視化MC分布;(4)構建基于融合數(shù)據(jù)的MC的Fusion-net DL(FDL)預測模型,并與以往基于單一數(shù)據(jù)的模型進行比較,選擇最終的最優(yōu)模型。
試驗設計
大連工業(yè)大學王慧慧教授團隊利用Image-λ-N17E近紅外高光譜成像系統(tǒng)(江蘇雙利合譜公司)獲取了510個不同腌制處理下的海參高光譜影像(圖1a)。高光譜數(shù)據(jù)由350張640×803像素的單波段光譜圖像組成,波長范圍為934.8 ~ 1710.6 nm。如圖1e所示,將鹽漬海參樣品置于核磁共振分析儀(Niumag電氣公司)中進行LF-NMR測,得到如圖1f所示的橫向松弛曲線。每個腌制周期取同一樣品進行MRI分析,通過自旋回波成像序列獲得MC在不同腌制時間的氫質(zhì)子MRI(圖1g)。
數(shù)據(jù)的強相關性可能導致“維度詛咒”,有必要對冗余的高維信息進行降維處理。使用CS算法選擇特征,如圖1h所示。針對不同的應用領域,CS有不同的變體,本研究使用的三個變體分別為Traditional-CS(TCS)、Binary-CS(BCS)和Chaotic-CS(CCS)。
將降維后的數(shù)據(jù)輸入到相應的模型中進行訓練,選擇最優(yōu)模型(圖1i),實現(xiàn)MC分布變化的可視化(圖1j)。在本文中,MC的預測模型包括基于高光譜數(shù)據(jù)的單獨DL模型、基于LF-NMR數(shù)據(jù)的單獨DL模型和基于HSI和LF-NMR數(shù)據(jù)的FDL模型。對于HSI數(shù)據(jù),DL框架中使用了兩個1D卷積層,分別包含32個和64個卷積核,大小為1×3(圖2a)。
對于LF-NMR數(shù)據(jù),DL框架的總體結構與上述HSI相同。
圖1 研究流程圖
圖2 多種深度學習模型。基于光譜的深度學習模型(a);基于LF-NMR的深度學習模型(b);融合深度學習模型(c)。
類可降解塑料和不可降解塑料共計1020個樣本的高光譜影像(圖1)。其波長范圍為380 ~ 1038 nm,波段數(shù)為520。在每個樣本的高光譜圖像的中心區(qū)域選擇一個像素大小為60 × 60的采樣區(qū)域作為感興趣區(qū)域,獲取其平均光譜,并對其進行SG濾波和SNV預處理。
CNN主要由卷積層、池化層和全連接層組成,其中全連接層的核心操作是卷積和池化。卷積提取了多波段高光譜特征,同時充分保持了特征之間的位置關系。池化可以減小特征圖的大小,可以保留最關鍵的信息,有效防止網(wǎng)絡過擬合。同時,通過池化可以減少網(wǎng)絡中的節(jié)點數(shù)量,有效提高了網(wǎng)絡的計算效率。ResNet由兩個卷積層組成,卷積核大小為3 × 3,填充和步長為1(圖2)。將原始特征與挖掘特征相結合,可以有效避免塑料高光譜圖像深度特征提取中的特征退化問題。
本文將靜態(tài)卷積層替換為動態(tài)卷積層,在不增加網(wǎng)絡深度和寬度的前提下提高了計算效率。根據(jù)卷積核的自適應性,動態(tài)卷積層具有魯棒的表示能力。動態(tài)卷積層結構如圖3所示。首先,對全局位置信息進行平均池化壓縮;然后,將壓縮后的信息通過全連接層映射到激活層,其中ReLU為激活函數(shù)。激活信息通過全連接層映射到softmax層。最后,softmax層輸出K個權值用于核聚合。K表示參與核聚合的卷積核的個數(shù),K的增加會導致模型的復雜度增加。在大多數(shù)情況下,softmax層的輸出值相對稀疏,因此只有一小部分卷積核可以跨層優(yōu)化,導致神經(jīng)網(wǎng)絡在訓練過程中收斂緩慢。因此,減少softmax層中的注意力是必要的,這樣可以使訓練更有效。計算公式如1所示,當T = 1時,公式為原始softmax層。利用Dy-kernel自適應提取高光譜數(shù)據(jù)的特征,然后依次通過BN和ReLU得到最終輸出。
| (1) |
本文提出了自適應提取塑料高光譜數(shù)據(jù)特征的Dy-ResNet方法,該方法主要由包含動態(tài)卷積層的殘差塊組成。圖4顯示了Dy-ResNet的結構,包括一個卷積層、一個BN層、四個動態(tài)卷積殘差塊(DR-block)、兩個池化層、一個flatten層和一個全連接層。
圖1 高光譜塑料檢測系統(tǒng)
圖2 殘差塊結構
圖3 動態(tài)卷積層結構
圖4 Dy-ResNet的結構
結論
在動態(tài)卷積層中,參數(shù)K和T顯著影響穩(wěn)定性和精度。如果K過大,雖然模型具有更強的表達能力,但優(yōu)化所有卷積核和注意力更加困難,網(wǎng)絡更容易出現(xiàn)過擬合。在softmax層中,T控制了注意力權值的稀疏性,適當?shù)?/font>T可以使模型在早期訓練中更有效。因此,有必要確定K和T的最優(yōu)值。如圖5所示,當K較小時,模型的訓練時間和分類穩(wěn)定性都較好。然而,K的數(shù)量限制了動態(tài)卷積核的自適應能力,降低了模型的分類精度和F1-score。當K設置為4時,既保證了模型的分類性能,又充分考慮了訓練時間。T越大,模型的穩(wěn)定性越高。但是,當T過于大時,模型的分類性能會下降,因此將T設為31。
圖5 不同參數(shù)的動態(tài)卷積層
可降解和不可降解塑料的分類結果如表1所示。雖然Dy-ResNet、ResNet、Dy-CNN和CNN模型都取得了很好的分類效果,但提出的Dy-ResNet模型的識別效果更好。Dy-ResNet模型的識別準確率為99.06%,F1-score為98.86%,Kappa為97.73%。此外,對比CNN和ResNet模型的分類結果可以看出,殘差連接的引入更有助于挖掘高光譜數(shù)據(jù)的深層特征。Dy-ResNet模型的精度、F1-score和Kappa分別比ResNet模型高1.53%、1.85%和3.71%,表明動態(tài)卷積層可以有效提高模型在高光譜數(shù)據(jù)挖掘中的適應性和表征能力。
不同模型的混淆矩陣如圖6所示??梢钥闯?,四種分類模型的分類效果都很好,說明該分類模型是有效的。此外,可以看到Resnet、Dy-CNN和CNN模型將一些不可降解塑料預測為可降解塑料,這可能是由于訓練集中樣本數(shù)量不平衡造成的。然而,Dy-Resnet模型可以避免由于訓練集各類別樣本數(shù)量不平衡而導致的錯誤預測。
表1 四種網(wǎng)絡模型的2-分類實驗結果
圖6 四種方法對可降解塑料和不可降解塑料的分類結果。Dy-ResNet(a), Dy-CNN(b), ResNet(c), CNN(d)
為了進一步驗證Dy-ResNet在塑料識別中的有效性,分別使用Dy-ResNet、ResNet、Dy-CNN和CNN模型對17種樣品進行分類。4個模型在全連接層的輸出神經(jīng)元數(shù)量從2個變?yōu)?/font>17個,4個模型的其他結構和超參數(shù)不變。17種塑料的分類結果見表2。總體而言,DyResNet的分類性能優(yōu)于其他模型,其準確率為89.76%,F1-score為89.68%,Kappa為89.13%。與CNN相比,Dy-ResNet中的殘差連接可以有效提取塑料高光譜圖像的深層特征。在5個獨立實驗中,Dy-ResNet的模型精度最高,表明其具有最好的識別穩(wěn)定性。殘差連接和動態(tài)卷積層的引入可以有效地提高模型的穩(wěn)定性。
測試集樣本的預測標簽與實際標簽形成的混淆矩陣如圖7所示??梢钥闯?,這四種模型都能有效識別標記為0、6、7、8、9、11、12、13、14、15的樣本。但值得注意的是,四種模型在識別標簽2和標簽10的樣品時存在一些錯誤,主要是將標簽2的樣品部分歸類為標簽3,將標簽10的樣品部分歸類為標簽11。這主要是由于,除了碳酸鈣外,標簽2和標簽3對應的樣品在成分材料上是相同的。除淀粉外,標簽10和11對應的樣品在組成材料上是相同的。上述樣品中相似的成分使得所收集的高光譜圖像難以區(qū)分,這就是它們被錯誤分類的原因。
表2 四種網(wǎng)絡模型的17種分類實驗結果
圖7 四種方法對17種塑料的分類結果。Dy-ResNet(a), Dy-CNN(b), ResNet(c), CNN(d)
合理解釋本研究提出的方法在塑料識別任務中取得良好的效果十分必要。Grad-CAM可用于可視化基于CNN模型的模型識別過程。如圖8(a)所示,在區(qū)分可降解和不可降解塑料時,Dy-ResNet提取的特征光譜波段分布在可見光和近紅外范圍內(nèi)。此外,用于識別不可降解塑料的關鍵特征主要分布在580 ~ 860 nm范圍內(nèi),用于識別可降解塑料的關鍵特征主要分布在680 ~ 1030 nm范圍內(nèi)。如圖8(b)所示,Dy-ResNet提取的特征光譜波段在區(qū)分17種塑料時也分布在可見光和近紅外范圍內(nèi)。總體而言,用于識別塑料種類的特征光譜波段主要集中在560 ~ 860nm范圍內(nèi)。然而,每種塑料的特征光譜波段的分布范圍是不同的。例如,標記為15的樣品的特征光譜波段主要集中在可見光范圍,而標記為12的樣品的特征光譜波段主要集中在近紅外范圍。因此,選擇380 ~ 1038 nm光譜波段進行塑料識別,有助于充分探索不同塑料在不同光譜波段的特性。
圖8 用于塑料識別的特征光譜可視化。2分類實驗(a), 17分類實驗(b)
作者信息
門洪,博士,東北電力大學自動化工程學院教授,博士生導師。
主要研究方向:智能感知與模式識別。
參考文獻:
Xia, X., Wang, M., Shi, Y., Huang, Z., Liu, J., Men, H., & Fang, H. (2023). Identification of white degradable and non-degradable plastics in food field: A dynamic residual network coupled with hyperspectral technology. Spectrochim Acta A Mol Biomol Spectrosc, 296, 122686.