基于高光譜技術結合化學計量學方法的茶多酚無損檢測模型
背景
茶多酚是茶葉的重要組成部分,也是生物活性化學物質的重要來源,具有抗氧化、**、**、**和抗動脈硬化的能力,在醫(yī)藥和食品工業(yè)中發(fā)揮著重要作用。高光譜成像技術是基于大量窄波段的圖像數據技術。它將成像技術與光譜技術相結合,檢測目標的二維幾何空間和一維光譜信息,已被廣泛應用于農產品質量檢測。
基于高光譜技術建立的模型結果受多種因素的影響。特征數據預處理方法是影響分析結果的主要因素。常見的光譜數據預處理方法包括正交信號校正(OSC)、一階導數(FD)、二階導數(SD)、多元散射校正(MSC)、標準正態(tài)變量變換(SNVT)、Savitzky-Gola濾波(SG)。結果表明,這些方法可以減少外界因素的影響,在一定程度上提高檢測的準確性。
光譜特征波段的選擇是影響模型結果的另一個重要因素。有效地選擇特征波段可以節(jié)省計算資源,提高模型性能。近年來,研究人員提出了許多特征波段選擇方法,如區(qū)間偏*小二乘(iPLS)、協(xié)同區(qū)間偏*小二乘(siPLS)、后向區(qū)間偏*小二乘(biPLS)。這些特征選擇算法將所有特征劃分為若干個區(qū)間,然后通過迭代選取區(qū)間中效果較好的一小部分作為特征集合。然而,通過這種“捆綁”方法選擇的光譜特征可能會遺漏一些重要特征。
為了避免手動數據分割引起的偏差,有許多計算方法可用于樣本選擇,如隨機選擇(RS),Kennard-Stone(KS)或基于聯(lián)合x-y距離(SPXY)的樣本集分割算法。
本研究旨在探討基于高光譜圖像技術的茶多酚含量快速無損在線檢測的可行性。采用不同的數據預處理方法對采集到的茶葉高光譜數據進行處理。本文通過建立模型并對建模結果進行分析,選擇了*佳的預處理方法。
試驗設計
四川農業(yè)大學康志亮團隊共選出三個級別的雅安藏茶,獲取其茶多酚含量后,用SPXY算法對數據集進行劃分(表1)。利用江蘇雙利合譜公司研制的GaiaSorter高光譜分選儀獲得了藏茶的高光譜數據,其有效光譜范圍為387 ~ 1035nm,光譜分辨率為2.8 nm,光譜通道為256條。把茶葉均勻地鋪在一個容器里(大約65厘米 × 65厘米)。高光譜采集系統(tǒng)如圖1所示。由于暗電流的影響,*終420 ~ 1010 nm波段被保留作為原始光譜數據。
表1 基于 SPXY 算法的茶多酚含量統(tǒng)計及樣品分配結果
圖1 高光譜成像系統(tǒng)示意圖
隨機噪聲通常是在獲取光譜時由外界環(huán)境、儀器響應和其他與被測樣品性質無關的因素產生的,并且光譜數據出現(xiàn)無序波動。因此,本文采用了SG、MSC、SNVT、FD、SD和Z分數標準化(ZSS)六種預處理算法來消除原始光譜數據中的噪聲。
本研究使用的SPXY算法是由KS(Kennard-Stone)算法發(fā)展而來。KS算法將所有樣本看作校準集的候選樣本,并選擇進入校準集的歐幾里得度量*大的兩個樣本。然后,通過計算剩余樣本與校準集中已知樣本之間的歐幾里得度量,選擇*接近選定樣本的兩個樣本并將其放入校準集中,重復上述步驟,直到樣本數達到設定值。在SPXY計算樣本距離時,同時考慮了樣本標號(Y)和樣本特征(X)。
所獲得的高光譜數據往往包含大量冗余信息,這將對*終建模的準確性和效率產生一定的影響。本研究使用六種方法,梯度提升(GB)、自適應提升(AdaBoost)、隨機森林(RF)、分類提升(CatBoost)、LightGBM和XgBoost來選擇高光譜特征波段。模型中使用了隨機森林回歸(RFR)、分類提升回歸(CatBoostR)、LightGBM回歸(LightGBMR)、XGBoost回歸(XGBoostR)和模型集成策略用于預測茶多酚。
結論
梯度提升回歸(GBR)用于建模和預測原始數據和預處理的光譜數據。基于不同預處理算法和不同樣本劃分算法的建模結果如圖2所示。如圖2a所示,校準集的R2均大于0.96。RAW-KS-GBR模型效果*好。FD-KS-GBR模型校準集R2*大的,為0.9857,但測試集R2*小,僅為0.6490,表明FD-KS-GBR模型存在嚴重的過擬合問題。圖2b是基于SPXY劃分數據集的建模結果。通過FD和SD預處理光譜數據建立的模型校準集在0.98以上,但測試集R2不超過0.88。
圖2 不同輸入下GBR模型的預測結果。基于KS劃分數據集的建模結果(a)、基于SPXY劃分數據集的建模結果(b)。
KS算法比SPXY算法建立的模型更容易出現(xiàn)過擬合,因此SPXY-GBR模型總體上優(yōu)于KS-GBR模型?;趫D2,比較兩種不同的數據集劃分方法和六種不同的預處理算法建模結果,效果較好的模型是RAW-KS-GBR、SG-SPXY-GBR和SNVT-SPXY-GBR。SG-SPXY-GBR具有*高的測試集R2,為0.9365,其校準集R2也達到0.9563。這表明,以SG為預處理算法,SPXY為樣本分割法建立的模型不僅精度高,而且具有更好的魯棒性。綜上所述,*終選擇SG算法對藏茶原始高光譜數據進行預處理。原始光譜曲線RAW和SG預處理后的光譜曲線如圖3所示。
圖3 藏茶光譜曲線。原始數據(a);通過SG算法預處理的數據(b);(c)圖為(a)中紅框的放大視圖;(d)圖為(b)中紅框的放大視圖。
SG算法預處理后的數據噪聲有了一定程度的改善,但數據中仍有大量與茶多酚含量預測無關的信息。如果不進一步提取特征,高維數據無疑會影響模型的準確性和魯棒性。本研究采用GB、AdaBoost、RF、CatBoost、LightGBM和XGBoost這六種算法選擇前30個*重要光譜特征(圖4)。RF和CatBoost以522.66 nm波長為**重要特征,而XGBoost以564.55 nm波長為*一重要特征,在GB中僅排名第五,在AdaBoost中排名第四,在RF中排名第七。不同算法提取的特征波長大多分布在420 ~ 700 nm之間。試驗結果表明,不同算法提取的特征波長不同,但也有一定的共性。上述六種算法提取的特征將作為后續(xù)回歸預測算法的輸入。
表2展示了不同模型的全波段預測結果。CatBoostR模型具有*高的準確度,在校準和測試集上的R2分別為0.9578和0.9493。RFR模型預測效果較差,校準R2僅為0.9040。
本研究以RFR、LightGBM和XGBoostR為三個基礎學習模型,以CatBoostR為元學習模型,建立了一個新的stacking預測模型(圖5)。表3展示了不同模型的預測結果。與全波段建模結果相比,即使特征維數降低,模型性能也沒有相應降低。優(yōu)選特征在一定程度上提高了建模精度,并進一步提高了模型魯棒性。CatBoostR模型的預測精度普遍可以接受,RMSEC小于0.35,RMSEP小于0.45。CatBoost + CatBoostR模型的RMSEC和RMSEP值*接近。因此,該模型被認為是四個獨立模型中*好的。本文建立的stacking模型中以CatBoost算法提取的特征作為輸入的模型效果*優(yōu)。圖6a是CatBoost + stacking模型對藏茶茶多酚含量的預測結果。由于茶多酚含量在7%左右的樣本數量較少,SPXY沒有在該值附近分配測試集。因此,在SPXY劃分的數據集中,選擇對應于校準集中茶多酚含量為7.2671%的樣品作為測試樣本之一,選擇對應于測試集中茶多酚含量為8.7892%的樣品作為校準樣本之一。如果替換的數據被輸入到CatBoost + stacking模型中,校準集R2為0.9686,RMSEC為0.2833,測試集R2為0.9577,RMSEP為0.3703。
綜上結果表明,新建立的stacking預測模型比個體回歸模型性能更優(yōu),可實現(xiàn)藏茶茶多酚含量的準確預測。
圖4 由不同算法選擇的特征波段。GB(a);AdaBoost(b);RF(c);CatBoost(d);LightGBM(e)和XGBoost(f)。
表2 基于全波段的預測結果
圖5 用于茶多酚預測的stacking回歸模型流程
圖6 基于CatBoost + stacking模型的茶多酚預測結果。更換樣本前的預測結果(a)和更換樣本后的預測結果(b)。
作者信息
康志亮,博士,四川農業(yè)大學機電學院教授,博士生導師。
主要研究方向:信號與信息處理、傳感器與檢測技術、自動控制。
Luo, X., Xu, L.j., Huang, P., Wang, Y.c., Liu, J., Hu, Y., Wang, P., & Kang, Z.l. (2021). Nondestructive Testing Model of Tea Polyphenols Based on Hyperspectral Technology Combined with Chemometric Methods. Agriculture, 11:673-687.
https://doi.org/10.3390/agriculture11070673