背景
塑料根據(jù)其可降解性分為可降解塑料和不可降解塑料。不可降解塑料制品由于價格低廉,在日常生活中被廣泛使用。然而,大多數(shù)不可降解的塑料制品不能及時有效地處理。造成環(huán)境嚴重污染,造成生態(tài)破壞、作物減產(chǎn)、食品安全問題。目前,可降解塑料的推廣應用才剛剛起步,許多不合格的塑料制品混入市場。這給市場監(jiān)管帶來了很大的困難,因此迅速識別不可降解和可降解塑料勢在必行。
高光譜成像技術(shù)因其無損、無污染、低耗、高效等優(yōu)點,在質(zhì)量控制、定量分析、定性鑒定等方面得到了廣泛應用。普通塑料聚合物具有不同的光譜特征,因此利用可見近紅外波段對塑料聚合物進行識別是可行的。塑料光譜信息采集技術(shù)的進步也推動了光譜數(shù)據(jù)挖掘方法的創(chuàng)新。常用主成分分析、小波變換提取敏感特征,再用偏最小二乘判別分析、支持向量機、隨機森林等方法進行分類。然而,傳統(tǒng)的機器學習方法通常需要人工進行特征提取和分類器設計,難以靈活地處理分類任務。
與傳統(tǒng)機器學習相比,深度學習具有端到端特征,避免了復雜的特征工程。代表性的模型是卷積神經(jīng)網(wǎng)絡(Convolutional neural networks, CNN)和殘差網(wǎng)絡(Residual networks, ResNet)。利用ResNet中提出的殘差連接直接連接不同的網(wǎng)絡層,在保證良好網(wǎng)絡性能的同時可以加深網(wǎng)絡。然而,當CNN或ResNet的深度和寬度固定時,由于卷積核不容易根據(jù)實際數(shù)據(jù)的特點進行有效調(diào)整,其表示能力將受到限制。動態(tài)卷積是在靜態(tài)卷積的基礎上改進的非線性運算。它可以解決深度學習模型適應性差的問題,更有效地提取數(shù)據(jù)特征。同時,動態(tài)卷積計算是高效的,因為并行卷積核通過聚合共享輸出通道,這不會增加網(wǎng)絡的深度和寬度。在網(wǎng)絡中引入動態(tài)卷積可以在特征識別過程中自適應捕獲特征。
為此,我們提出了一種塑料高光譜數(shù)據(jù)挖掘方法,主要貢獻如下:
(1)設計了白色可降解和不可降解塑料的識別策略。
(2)提出了一種基于動態(tài)殘差網(wǎng)絡(Dy-ResNet)的高光譜數(shù)據(jù)挖掘模型。在模型優(yōu)化過程中引入殘差模塊,避免梯度消失;引入動態(tài)卷積層,提高模型的自適應性和表示能力。
(3)Dy-ResNet有效區(qū)分了白色可降解塑料和不可降解塑料。為食品領(lǐng)域中可降解和不可降解塑料的識別提供思路。
試驗設計
東北電力大學門洪教授團隊利用GaiaSorter高光譜成像系統(tǒng)(江蘇雙利合譜公司)獲取了17類可降解塑料和不可降解塑料共計1020個樣本的高光譜影像(圖1)。其波長范圍為380 ~ 1038 nm,波段數(shù)為520。在每個樣本的高光譜圖像的中心區(qū)域選擇一個像素大小為60 × 60的采樣區(qū)域作為感興趣區(qū)域,獲取其平均光譜,并對其進行SG濾波和SNV預處理。
CNN主要由卷積層、池化層和全連接層組成,其中全連接層的核心操作是卷積和池化。卷積提取了多波段高光譜特征,同時充分保持了特征之間的位置關(guān)系。池化可以減小特征圖的大小,可以保留最關(guān)鍵的信息,有效防止網(wǎng)絡過擬合。同時,通過池化可以減少網(wǎng)絡中的節(jié)點數(shù)量,有效提高了網(wǎng)絡的計算效率。ResNet由兩個卷積層組成,卷積核大小為3 × 3,填充和步長為1(圖2)。將原始特征與挖掘特征相結(jié)合,可以有效避免塑料高光譜圖像深度特征提取中的特征退化問題。
本文將靜態(tài)卷積層替換為動態(tài)卷積層,在不增加網(wǎng)絡深度和寬度的前提下提高了計算效率。根據(jù)卷積核的自適應性,動態(tài)卷積層具有魯棒的表示能力。動態(tài)卷積層結(jié)構(gòu)如圖3所示。首先,對全局位置信息進行平均池化壓縮;然后,將壓縮后的信息通過全連接層映射到激活層,其中ReLU為激活函數(shù)。激活信息通過全連接層映射到softmax層。最后,softmax層輸出K個權(quán)值用于核聚合。K表示參與核聚合的卷積核的個數(shù),K的增加會導致模型的復雜度增加。在大多數(shù)情況下,softmax層的輸出值相對稀疏,因此只有一小部分卷積核可以跨層優(yōu)化,導致神經(jīng)網(wǎng)絡在訓練過程中收斂緩慢。因此,減少softmax層中的注意力是必要的,這樣可以使訓練更有效。計算公式如1所示,當T = 1時,公式為原始softmax層。利用Dy-kernel自適應提取高光譜數(shù)據(jù)的特征,然后依次通過BN和ReLU得到最終輸出。
| (1) |
本文提出了自適應提取塑料高光譜數(shù)據(jù)特征的Dy-ResNet方法,該方法主要由包含動態(tài)卷積層的殘差塊組成。圖4顯示了Dy-ResNet的結(jié)構(gòu),包括一個卷積層、一個BN層、四個動態(tài)卷積殘差塊(DR-block)、兩個池化層、一個flatten層和一個全連接層。
圖1 高光譜塑料檢測系統(tǒng)
圖2 殘差塊結(jié)構(gòu)
圖3 動態(tài)卷積層結(jié)構(gòu)
圖4 Dy-ResNet的結(jié)構(gòu)
結(jié)論
在動態(tài)卷積層中,參數(shù)K和T顯著影響穩(wěn)定性和精度。如果K過大,雖然模型具有更強的表達能力,但優(yōu)化所有卷積核和注意力更加困難,網(wǎng)絡更容易出現(xiàn)過擬合。在softmax層中,T控制了注意力權(quán)值的稀疏性,適當?shù)?/font>T可以使模型在早期訓練中更有效。因此,有必要確定K和T的優(yōu)值。如圖5所示,當K較小時,模型的訓練時間和分類穩(wěn)定性都較好。然而,K的數(shù)量限制了動態(tài)卷積核的自適應能力,降低了模型的分類精度和F1-score。當K設置為4時,既保證了模型的分類性能,又充分考慮了訓練時間。T越大,模型的穩(wěn)定性越高。但是,當T過于大時,模型的分類性能會下降,因此將T設為31。
圖5 不同參數(shù)的動態(tài)卷積層
可降解和不可降解塑料的分類結(jié)果如表1所示。雖然Dy-ResNet、ResNet、Dy-CNN和CNN模型都取得了很好的分類效果,但提出的Dy-ResNet模型的識別效果更好。Dy-ResNet模型的識別準確率為99.06%,F1-score為98.86%,Kappa為97.73%。此外,對比CNN和ResNet模型的分類結(jié)果可以看出,殘差連接的引入更有助于挖掘高光譜數(shù)據(jù)的深層特征。Dy-ResNet模型的精度、F1-score和Kappa分別比ResNet模型高1.53%、1.85%和3.71%,表明動態(tài)卷積層可以有效提高模型在高光譜數(shù)據(jù)挖掘中的適應性和表征能力。
不同模型的混淆矩陣如圖6所示??梢钥闯?,四種分類模型的分類效果都很好,說明該分類模型是有效的。此外,可以看到Resnet、Dy-CNN和CNN模型將一些不可降解塑料預測為可降解塑料,這可能是由于訓練集中樣本數(shù)量不平衡造成的。然而,Dy-Resnet模型可以避免由于訓練集各類別樣本數(shù)量不平衡而導致的錯誤預測。
表1 四種網(wǎng)絡模型的2-分類實驗結(jié)果
圖6 四種方法對可降解塑料和不可降解塑料的分類結(jié)果。Dy-ResNet(a), Dy-CNN(b), ResNet(c), CNN(d)
為了進一步驗證Dy-ResNet在塑料識別中的有效性,分別使用Dy-ResNet、ResNet、Dy-CNN和CNN模型對17種樣品進行分類。4個模型在全連接層的輸出神經(jīng)元數(shù)量從2個變?yōu)?/font>17個,4個模型的其他結(jié)構(gòu)和超參數(shù)不變。17種塑料的分類結(jié)果見表2。總體而言,DyResNet的分類性能優(yōu)于其他模型,其準確率為89.76%,F1-score為89.68%,Kappa為89.13%。與CNN相比,Dy-ResNet中的殘差連接可以有效提取塑料高光譜圖像的深層特征。在5個獨立實驗中,Dy-ResNet的模型精度最高,表明其具有好的識別穩(wěn)定性。殘差連接和動態(tài)卷積層的引入可以有效地提高模型的穩(wěn)定性。
測試集樣本的預測標簽與實際標簽形成的混淆矩陣如圖7所示??梢钥闯觯@四種模型都能有效識別標記為0、6、7、8、9、11、12、13、14、15的樣本。但值得注意的是,四種模型在識別標簽2和標簽10的樣品時存在一些錯誤,主要是將標簽2的樣品部分歸類為標簽3,將標簽10的樣品部分歸類為標簽11。這主要是由于,除了碳酸鈣外,標簽2和標簽3對應的樣品在成分材料上是相同的。除淀粉外,標簽10和11對應的樣品在組成材料上是相同的。上述樣品中相似的成分使得所收集的高光譜圖像難以區(qū)分,這就是它們被錯誤分類的原因。
表2 四種網(wǎng)絡模型的17種分類實驗結(jié)果
圖7 四種方法對17種塑料的分類結(jié)果。Dy-ResNet(a), Dy-CNN(b), ResNet(c), CNN(d)
合理解釋本研究提出的方法在塑料識別任務中取得良好的效果十分必要。Grad-CAM可用于可視化基于CNN模型的模型識別過程。如圖8(a)所示,在區(qū)分可降解和不可降解塑料時,Dy-ResNet提取的特征光譜波段分布在可見光和近紅外范圍內(nèi)。此外,用于識別不可降解塑料的關(guān)鍵特征主要分布在580 ~ 860 nm范圍內(nèi),用于識別可降解塑料的關(guān)鍵特征主要分布在680 ~ 1030 nm范圍內(nèi)。如圖8(b)所示,Dy-ResNet提取的特征光譜波段在區(qū)分17種塑料時也分布在可見光和近紅外范圍內(nèi)。總體而言,用于識別塑料種類的特征光譜波段主要集中在560 ~ 860nm范圍內(nèi)。然而,每種塑料的特征光譜波段的分布范圍是不同的。例如,標記為15的樣品的特征光譜波段主要集中在可見光范圍,而標記為12的樣品的特征光譜波段主要集中在近紅外范圍。因此,選擇380 ~ 1038 nm光譜波段進行塑料識別,有助于充分探索不同塑料在不同光譜波段的特性。
圖8 用于塑料識別的特征光譜可視化。2分類實驗(a), 17分類實驗(b)
作者信息
門洪,博士,東北電力大學自動化工程學院教授,博士生導師。
主要研究方向:智能感知與模式識別。
參考文獻:
Xia, X., Wang, M., Shi, Y., Huang, Z., Liu, J., Men, H., & Fang, H. (2023). Identification of white degradable and non-degradable plastics in food field: A dynamic residual network coupled with hyperspectral technology. Spectrochim Acta A Mol Biomol Spectrosc, 296, 122686.