清空記錄
歷史記錄
取消
清空記錄
歷史記錄
1、引言
高粱在發(fā)展中國家作為食糧作物,在田間種植過程中需要噴撒農(nóng)藥以減少病蟲害對于產(chǎn)量和品質(zhì)的影響。當(dāng)出現(xiàn)嚴(yán)重的病蟲害時,農(nóng)戶們會多次噴灑高濃度的農(nóng)藥溶液,這導(dǎo)致高粱中存在過量的農(nóng)藥殘留。研究表明,長期食用農(nóng)藥殘留超標(biāo)的食物對人體危害巨大,會造成癌癥、心臟病、神經(jīng)性疾病等嚴(yán)重后果。因此,如何無損、快速、準(zhǔn)確檢測高粱中的農(nóng)藥殘留是亟待解決的問題?,F(xiàn)階段農(nóng)藥檢測方法包括氣相色譜法、氣相色譜-串聯(lián)質(zhì)譜法、高效液相色譜法等,這些方法雖然具備較高的檢測準(zhǔn)確性和精密度,但存在制樣復(fù)雜、價格昂貴、檢測耗時長、破壞樣品和操作難度高的缺點。近些年來,研究者們已經(jīng)開始利用光譜技術(shù)來檢測農(nóng)藥殘留,常用的方法有拉曼光譜檢測方法、近紅外光譜檢測方法和高光譜成像(HSI)檢測方法。其中,拉曼光譜法和近紅外光譜法的檢測精度和靈敏度受環(huán)境影響較大。高光譜技術(shù)相比于傳統(tǒng)的光譜技術(shù),可以同時獲得檢測樣品的圖像信息和光譜信息,可以實現(xiàn)對農(nóng)藥殘留的準(zhǔn)確檢測。許多研究表明高光譜技術(shù)可以用于農(nóng)產(chǎn)品農(nóng)藥殘留種類的快速無損鑒別,但只使用單一的分類模型,沒有考慮集成學(xué)習(xí)模型。本研究結(jié)合HIS技術(shù)與機器學(xué)習(xí)算法快速檢測高粱中殘留的農(nóng)藥種類,可以幫助農(nóng)產(chǎn)品生產(chǎn)者和食品加工廠快速識別高粱中的農(nóng)藥殘留種類,從而保證生產(chǎn)農(nóng)產(chǎn)品的質(zhì)量。
2、實驗方法
2.1 樣品制備
本研究所使用的高粱品種為紅纓子,農(nóng)藥選擇高粱種植過程中常用的農(nóng)藥種類,分別為苯醚甲環(huán)唑、馬拉硫磷、氯蟲苯甲酰胺、莠去津,分別表示為B、M、L、Y。4種農(nóng)藥分別用蒸餾水稀釋400、700、700、200倍,配制實驗所需的農(nóng)藥溶液。用4個噴壺將農(nóng)藥溶液均勻噴灑在4組高粱樣品上,并設(shè)置一組噴灑清水(Q)樣品的對照組。每組樣品包含2880顆高粱籽粒,共計14400顆。將高粱樣品放置于室內(nèi)通風(fēng)處,自然干燥12h后采集高粱樣品的高光譜圖像。
2.2 數(shù)據(jù)處理方法
2.2.1高光譜數(shù)據(jù)提取
采集的高光譜圖像中包含高粱樣品信息與背景信息,并且相鄰的高粱籽粒之間存在粘連現(xiàn)象,因此,需要對高光譜圖像進行圖像處理。圖像處理包括灰度變換、二值化和分水嶺分割。分水嶺利用圖像中的梯度灰度信息,將梯度較大的區(qū)域視為山脊,將梯度較小的區(qū)域當(dāng)作盆地,通過模擬水充滿盆地的過程,實現(xiàn)高粱粘連籽粒的分割。將每顆高粱籽粒所在區(qū)域作為感興趣區(qū)域(ROI),提取ROI內(nèi)的光譜信息。
2.2.2異常光譜值的剔除
在高光譜圖像采集過程中,由于環(huán)境變化、噪聲以及儀器穩(wěn)定性的影響,所提取的高粱籽粒光譜信息中往往會出現(xiàn)異常值。異常值的存在會影響后續(xù)的分析結(jié)果,因此,本研究使用IF剔除數(shù)據(jù)集中的異常數(shù)據(jù)。孤立森林由眾多的孤立樹構(gòu)成,高光譜數(shù)據(jù)被不斷地劃分到每棵樹的左右兩個子節(jié)點,其劃分的路徑長度對應(yīng)的數(shù)據(jù)異常得分,通過設(shè)置異常得分閾值實現(xiàn)異常數(shù)據(jù)的剔除。
2.2.3光譜預(yù)處理及樣品劃分
光譜曲線中存在由外部環(huán)境、基線變化以及采集過程中隨機噪聲所造成的波動。高粱籽粒在培養(yǎng)皿中分布不均,高粱籽粒大小不一,因此光譜曲線中也包含散射成分。光譜特征提取方法為降低高光譜數(shù)據(jù)維度,建立簡潔的高粱農(nóng)藥殘留分類模型,采用類型提升算法(CatBoost)、梯度提升樹(GBDT)、競爭性自適應(yīng)重加權(quán)采樣法(CARS)和主成分分析法(PCA)提取高粱光譜數(shù)據(jù)中的特征波長。CatBoost和GBDT是基于決策樹的集成學(xué)習(xí)方法,可以通過統(tǒng)計不同特征在構(gòu)建模型時被選擇的次數(shù)衡量特征的重要性,實現(xiàn)特征波長的篩選。CARS可以通過偏最小二乘(PLS)模型選擇出權(quán)重大的波長點,并利用交叉驗證選擇出均方根誤差最低的波長子集。PCA可以將代表性強且關(guān)聯(lián)性強的成分,轉(zhuǎn)化為代表性強而無相關(guān)性的新成分,消除光譜數(shù)據(jù)之間存在復(fù)雜的關(guān)聯(lián)。
3、實驗方法
3.1 圖像處理與光譜提取
為提取高粱樣品的光譜數(shù)據(jù),對高光譜圖像進行了圖像處理。高粱原始RGB圖像如圖2a所示,為區(qū)分背景與高粱籽粒,對圖像進行了灰度變換,改變圖像的灰度值,灰度圖像(圖2b)中背景與高粱籽粒區(qū)分更加明顯。對灰度圖像進行二值化處理,可以分離背景與高粱樣品,二值化圖像(圖2c)中的高粱籽粒之間存在粘連現(xiàn)象。使用分水嶺算法可以獲得高粱樣品之間的分水嶺脊線,實現(xiàn)對粘連的高粱籽粒的分割,分割之后的二值化圖像如圖2d所示。將每顆高粱對應(yīng)的區(qū)域作為ROI,提取ROI每個像素點的光譜數(shù)據(jù),對每個ROI內(nèi)的光譜值求平均作為高粱農(nóng)藥殘留籽粒的光譜信息。對于不同農(nóng)藥殘留類別的平均光譜曲線,通過計算同類別農(nóng)藥殘留的高粱籽粒光譜值的平均得到。
注: a: 原始圖像; b: 灰度圖像; c: 二值化圖像; d 分割圖像。
圖 2 高粱樣品的圖像處理
3.2 異常光譜值的剔除
采用IF算法剔除光譜數(shù)據(jù)中存在的異常值,消除異棒性較低,因此,本研究使用了PCA降低高光譜數(shù)據(jù)的維度,通過原始數(shù)據(jù)標(biāo)準(zhǔn)化、求解相關(guān)系數(shù)矩陣、計算矩陣特征值、計算特征向量、變換標(biāo)準(zhǔn)化后的向量為主成分以及主成分貢獻率計算,計算高粱農(nóng)藥殘留樣品光譜數(shù)據(jù)前3個成分的累計貢獻率
表1樣品PCA累計貢獻率(%)
如表1所示,B、L、M、Q、Y的累計貢獻率分別為97.67%、98.38%、98.62%、98.81%、98.65%。5種樣品的累計貢獻率均超過97.5%,這說明前3個成分對應(yīng)的主成分得分矩陣可以很好地代表高粱樣品的光譜數(shù)據(jù),因此,將前3個成分帶入IF算法中剔除異常值。以B和M為例,圖3中黑點為正常值,呈簇狀集中分布,紅點為異常值,離散分布在正常值的四周。
注: a: B 類高粱樣品; b: M 類高粱樣品
圖3 異常數(shù)據(jù)可視化
3.3 光譜特征分析
為顯示不同種類農(nóng)藥殘留高粱樣品光譜曲線的差異,計算每類高粱樣品的光譜曲線的平均值得到平均光譜曲線,如圖4所示。
圖 4 高粱農(nóng)藥殘留樣品平均光譜曲線
由圖4中可以看出,在近紅外波段范圍內(nèi),光譜曲線出現(xiàn)3處較為明顯的吸收峰,分別位于925、1230、1470nm左右。925nm位置處的吸收峰與O-H的第一拉伸泛頻有關(guān),1230nm位置處的吸收峰與C-H的第二拉伸泛頻有關(guān),1470nm位置處的吸收峰與N-H的第一拉伸泛頻有關(guān)。在近紅外波段范圍內(nèi),各類農(nóng)藥殘留高粱樣品的光譜反射率不同,但總體變化趨勢相似。無農(nóng)藥殘留高粱樣品的反射率最低,與不同類型農(nóng)藥殘留樣品的光譜曲線差異最明顯。此外,B與Y的平均光譜反射率非常接近,L的平均光譜反射率最高。在1000~1100nm范圍內(nèi),各類高粱樣品的反射率差距最大,由高到低分別是L、M、Y、B、Q。這些平均光譜的差異為鑒別高粱樣品農(nóng)藥殘留種類提供了依據(jù)。
3.4 光譜數(shù)據(jù)的預(yù)處理
高粱農(nóng)藥殘留樣品的光譜曲線在900nm和1700nm處出現(xiàn)了異常波動,這說明這兩個位置處的光譜數(shù)據(jù)受到的干擾較大,數(shù)據(jù)存在嚴(yán)重失真的情況。為消除數(shù)據(jù)失真對后期建模分類效果的影響,本研究截去了光譜數(shù)據(jù)開始處前15個和末尾處后41個波段信息,保留456個波段用于建模分析。利用SG、DWT、SNV預(yù)處理方法對高粱農(nóng)藥殘留樣品的光譜數(shù)據(jù)進行預(yù)處理。建立預(yù)處理光譜數(shù)據(jù)的SVM農(nóng)藥殘留分類模型識別農(nóng)藥殘留種類,識別結(jié)果如表2所示。
表2光譜數(shù)據(jù)預(yù)處理后的建模效果(%)
結(jié)果顯示,使用SNV預(yù)處理的光譜數(shù)據(jù)建立的分類模型識別效果最好,訓(xùn)練正確率和測試集正確率分別為85.94%和81.58%。這可能是SNV預(yù)處理可以同時減少噪聲和散射成分對光譜數(shù)據(jù)的影響。因此,將SNV預(yù)處理后的光譜數(shù)據(jù)用于后續(xù)的研究分析中。原始光譜曲線如圖5a所示,SNV預(yù)處理之后的高粱農(nóng)藥殘留樣品光譜曲線如圖5b所示。
注: a: 原始光譜曲線; b: SNV 預(yù)處理后的光譜曲線
圖5 高粱農(nóng)藥殘留樣品光譜曲線
3.5 特征光譜提取
雖然全波段內(nèi)的光譜數(shù)據(jù)可以用于識別高粱樣品農(nóng)藥殘留的類別,但數(shù)據(jù)中包含的冗余信息會降低模型的運算速度和識別精度。為消除光譜數(shù)據(jù)中冗余信息,提升高粱農(nóng)藥殘留識別模型的識別精度,需要選擇具有代表性的波長。本研究使用了CatBoost、GBDT、CARS、PCA特征選擇方法,CatBoost和GBDT通過設(shè)置特征重要性得分閾值(0.2)選擇特征波長,PCA通過設(shè)置載荷系數(shù)閾值(0.1)選擇特征波長,CARS選擇建立最小交叉驗證均方根誤差(RMSECV)值PLS模型的波長為特征波長,分別選擇了132、147、35、12個特征波長。
注: a: CatBoost; b: GBDT; c: CARS; d: PCA
圖 6 特征波長分布位置
圖6為特征波長的具體位置分布圖,在圖6a和圖6b中,綠色線條代表特征波長的具體位置,紅色線條代表所選擇特征波長對應(yīng)的特征重要性得分,特征波長大致分布在900、1100、1400、1650nm范圍內(nèi)。其中,CatBoost提取的最大貢獻率波長分布在1600nm左右,特征重要性得分為10.23%,GBDT提取的最大貢獻率波長分布在1400nm左右,特征重要性得分為4.11%。在圖6c和圖6d中,紅色線條代表特征波長的具體位置。
表3 特征方法的建模結(jié)果(%)
表3為不同特征選擇方法篩選的特征波長建立的分類模型結(jié)果。全波長模型測試集分類正確率為81.58%,CatBoost-SVM模型測試集分類正確率為81.87%,GBDTSVM模型測試集分類正確率為81.30%,CARS-SVM模型測確率為59.19%。特征波長選擇方法效果由高到低分別是CatBoost、GBDT、CARS、PCA,使用CARS和PCA選擇的特征波長所建立模型的分類正確率有所下降,這可能是在特征波長的選擇過程中,減少冗余信息的同時,也刪除了對建立農(nóng)藥殘留分類模型有貢獻的光譜數(shù)據(jù)。研究表明,CatBoost選擇的特征波長不僅可以減少模型的訓(xùn)練時間,還能提高模型的分類正確率,因此,使用CatBoost選擇的光譜數(shù)據(jù)用于后續(xù)分析。
4、結(jié)論
高光譜成像技術(shù)作為一種新興的食品檢測技術(shù),已經(jīng)廣泛應(yīng)用于農(nóng)藥殘留種類的快速檢測。本研究結(jié)合高光譜成像技術(shù)與BP-Adaboost集成學(xué)習(xí)模型,與此前的相關(guān)研究相比,在多個方面取得了顯著的進展,相比于姜榮昌等對于大白菜農(nóng)藥殘留種類的研究,在單類農(nóng)藥殘留樣品和無農(nóng)藥殘留樣品識別正確率方面都有著較大的提升。相比于沈兵兵等對于花椰菜中農(nóng)藥殘留的研究在識別更多農(nóng)藥殘留種類的情況下,也得到了良好的分類正確率。與HU等結(jié)合1D-CNN與高光譜成像技術(shù)識別哈密瓜表面的農(nóng)藥殘留種類相比,使用了CatBoost特征選擇方法,降低了模型的訓(xùn)練時間。本研究利用F算法剔除了高梁光譜數(shù)據(jù)集中的異常值,減少了異常樣品對干建模結(jié)果的影響;使用SNV預(yù)處理方法對光譜數(shù)據(jù)進行預(yù)處理,減少了噪聲和散射成分對于光譜信息的干擾:在特征波長選擇方面,使用CatBoost特征選擇方法,通過計算波長的特征重要性選擇特征波長,降低了幾余信息對于分類結(jié)果的影響,加快了模型的訓(xùn)練速度,特征波長建模效果優(yōu)于PCA、CARS和GBDT選擇的特征波長,最重要的是使用BP-Adaboost集成學(xué)習(xí)模型,結(jié)合BPNN與AdaBoost方法,對多個弱分類器的結(jié)果進行集成,提高了模型的分類下確率,成功地識別出4組不同農(nóng)藥殘留的高梁樣品和一組無農(nóng)藥殘留的高梁樣品,其中B和Q的分類正確率均為99.80%,與XGBoost、LGBM、SVM模型相比分別高出了12.66%、13.47%、13.30%,充分體現(xiàn)出集成學(xué)習(xí)模型的優(yōu)勢。綜上所述,本研究提出了一種新高梁農(nóng)藥殘留識別方法,融合高光譜成像技術(shù)、CatBoost特征選擇方法和BP-Adaboost集成學(xué)習(xí)模型,成功的實現(xiàn)了高梁農(nóng)藥殘留的快速、無損識別,模型訓(xùn)練集平均分類正確率為95.68%,模型測試集平均分類正確率為95.17%,為農(nóng)產(chǎn)品中的農(nóng)藥殘留種類提供了一種高效、準(zhǔn)確的分類解決方案。
推薦:
便攜式高光譜成像系統(tǒng) iSpecHyper-VS1000
專門用于公安刑偵、物證鑒定、醫(yī)學(xué)醫(yī)療、精準(zhǔn)農(nóng)業(yè)、礦物地質(zhì)勘探等領(lǐng)域的最新產(chǎn)品,主要優(yōu)勢具有體積小、幀率高、高光譜分辨率高、高像質(zhì)等性價比特點采用了透射光柵內(nèi)推掃原理高光譜成像,系統(tǒng)集成高性能數(shù)據(jù)采集與分析處理系統(tǒng),高速USB3.0接口傳輸,全靶面高成像質(zhì)量光學(xué)設(shè)計,物鏡接口為標(biāo)準(zhǔn)C-Mount,可根據(jù)用戶需求更換物鏡。