文章詳情
高光譜成像與NMR技術(shù)融合深度學(xué)習(xí):開啟枸杞產(chǎn)地溯源新篇章(上)
日期:2025-01-22 17:45
瀏覽次數(shù):9
摘要:高光譜成像技術(shù)憑借其強(qiáng)大的空間和光譜信息獲取能力,已成為植物產(chǎn)品地理來(lái)源識(shí)別與質(zhì)量控制的前沿工具。根據(jù)研究,高光譜技術(shù)結(jié)合深度學(xué)習(xí)模型,可以實(shí)現(xiàn)枸杞的地理來(lái)源精準(zhǔn)分類,準(zhǔn)確率高達(dá)95.63%。通過(guò)特征波長(zhǎng)提取,不僅顯著提高了分析效率,還增強(qiáng)了數(shù)據(jù)的科學(xué)解釋性。此外,高光譜與化學(xué)分析(如NMR)的結(jié)合,能夠進(jìn)一步揭示樣品化學(xué)成分與光譜特征的關(guān)聯(lián),為復(fù)雜樣品的快速、非破壞性檢測(cè)提供**解決方案。
高光譜成像技術(shù)憑借其強(qiáng)大的空間和光譜信息獲取能力,已成為植物產(chǎn)品地理來(lái)源識(shí)別與質(zhì)量控制的前沿工具。根據(jù)研究,高光譜技術(shù)結(jié)合深度學(xué)習(xí)模型,可以實(shí)現(xiàn)枸杞的地理來(lái)源精準(zhǔn)分類,準(zhǔn)確率高達(dá)95.63%。通過(guò)特征波長(zhǎng)提取,不僅顯著提高了分析效率,還增強(qiáng)了數(shù)據(jù)的科學(xué)解釋性。此外,高光譜與化學(xué)分析(如NMR)的結(jié)合,能夠進(jìn)一步揭示樣品化學(xué)成分與光譜特征的關(guān)聯(lián),為復(fù)雜樣品的快速、非破壞性檢測(cè)提供**解決方案。
背景
枸杞以其**的營(yíng)養(yǎng)價(jià)值和顯著的藥用功效享譽(yù)全球,尤其是在抗氧化、**調(diào)節(jié)和抗腫瘤等方面表現(xiàn)突出。這些特性與其地理來(lái)源密切相關(guān),地理來(lái)源不僅決定了其化學(xué)成分和藥用效果,還顯著影響市場(chǎng)價(jià)值。因此,快速、準(zhǔn)確地識(shí)別枸杞的地理來(lái)源對(duì)于質(zhì)量控制和市場(chǎng)調(diào)節(jié)至關(guān)重要。傳統(tǒng)的地理來(lái)源識(shí)別方法主要依賴于物理化學(xué)特性或感官評(píng)價(jià),但這些方法通常依賴專家經(jīng)驗(yàn),缺乏客觀性和**。近年來(lái),現(xiàn)代分析技術(shù)(如近紅外光譜、超高光譜成像(HSI)、核磁共振(NMR)和液相色譜-飛行時(shí)間質(zhì)譜)在地理來(lái)源鑒定中顯示出強(qiáng)大優(yōu)勢(shì)。其中,HSI提供了豐富的光譜和空間信息,NMR在成分識(shí)別與定量分析中表現(xiàn)突出。然而,這些方法單獨(dú)使用時(shí)存在一定局限性,如數(shù)據(jù)復(fù)雜性高、維度大,導(dǎo)致傳統(tǒng)機(jī)器學(xué)習(xí)模型難以有效處理。
為克服上述挑戰(zhàn),深度學(xué)習(xí)技術(shù)被引入到分析過(guò)程。這些方法能夠從高維數(shù)據(jù)中自動(dòng)提取特征,能夠有效利用光譜與空間特征,從而顯著提升地理來(lái)源的分類精度。同時(shí),SHAP解釋模型的引入解決了深度學(xué)習(xí)的“黑箱”問題,增強(qiáng)了結(jié)果的可解釋性。因此,該研究通過(guò)將HSI和NMR技術(shù)與深度學(xué)習(xí)技術(shù)相結(jié)合,用于識(shí)別枸杞的地理來(lái)源。具體目標(biāo)包括:(i) 通過(guò)將HSI數(shù)據(jù)與SHAP方法相結(jié)合,改進(jìn)ResNet-34模型,實(shí)現(xiàn)枸杞地理來(lái)源的判定;(ii) 利用NMR技術(shù)識(shí)別枸杞的地理來(lái)源及其特定地理標(biāo)記(GI);(iii) 建立枸杞地理標(biāo)記物與HSI數(shù)據(jù)中提取的特征波長(zhǎng)之間的關(guān)聯(lián)。
實(shí)驗(yàn)設(shè)計(jì)
材料與方法
(1)樣品制備
干燥后的枸杞樣品由中國(guó)寧夏農(nóng)業(yè)產(chǎn)品質(zhì)量標(biāo)準(zhǔn)與檢測(cè)技術(shù)研究所下屬的農(nóng)業(yè)產(chǎn)品質(zhì)量監(jiān)測(cè)中心提供。所有枸杞樣品均采自四個(gè)主要產(chǎn)區(qū)的當(dāng)?shù)剞r(nóng)場(chǎng),包括寧夏同心縣(TX)和寧夏中寧縣(ZN,品種分別為ZN1和ZN2)、青海諾木洪(NMH)以及青海德令哈(DLH)。
寧夏地區(qū)的枸杞樣品于2022年6月下旬至7月上旬采收,青海地區(qū)的樣品則于2022年9月完成采收。不同產(chǎn)地和品種的枸杞均采用人工手工采摘的方式,從每棵枸杞樹的東、南、西、北四個(gè)方向分別采摘,以保證采樣的**性。為確保數(shù)據(jù)分析的一致性并減少潛在偏差,每個(gè)產(chǎn)地的樣品經(jīng)過(guò)嚴(yán)格篩選,盡量保持大小均勻。采摘完成后,枸杞在自然條件下日曬干燥數(shù)日。*終共獲得525份樣品(每個(gè)產(chǎn)地n=105)。樣品的兩面分別標(biāo)記為A面和B面,其RGB圖像如圖1所示。隨后,所有樣品均迅速冷凍保存于-80°C環(huán)境中,以保持其生化和物理特性。
圖1. 不同地理和品種產(chǎn)地的代表性枸杞樣品的RGB圖像
(2)HSI和1H核磁共振(NMR)采集和數(shù)據(jù)預(yù)處理
HSI數(shù)據(jù)采集及光譜預(yù)處理:HSI數(shù)據(jù)在可見光-近紅外(VNIR)高光譜成像系統(tǒng)(GaiaField-V10E)上獲取。該系統(tǒng)由高光譜成像儀(GaiaField-V10E)、透鏡(HSIA-OL23)、光源(HSIA-LS-T-200W)、標(biāo)準(zhǔn)漫射參考板(HSIA-CT-400×400)和安裝有SpecView軟件的計(jì)算機(jī)組成。將枸杞樣品放置在離透鏡35cm的工作臺(tái)上。分別采集枸杞兩側(cè)的HSI數(shù)據(jù),記為A面和B面。然后對(duì)枸杞的高光譜數(shù)據(jù)進(jìn)行黑白校正。為了減少光譜外圍噪聲波動(dòng)的影響,校正后的高光譜圖像中初始6個(gè)波長(zhǎng)被消除。隨后,對(duì)枸杞高光譜數(shù)據(jù)進(jìn)行了準(zhǔn)確的分割處理。每個(gè)枸杞被指定為一個(gè)獨(dú)特的興趣區(qū)域,以方便深入分析。
1H NMR采集及光譜預(yù)處理:在完成所有枸杞樣品的HSI數(shù)據(jù)采集后,從每個(gè)地理產(chǎn)地和品種中隨機(jī)挑選30個(gè)枸杞樣品,迅速在液氮中冷凍,并使用研缽和研杵將其研磨成細(xì)粉。每個(gè)樣品中取100mg的粉末,溶解于甲醇-氯仿-水的混合溶劑中,體積比為4:4:6?;旌弦和ㄟ^(guò)渦旋混合1分鐘以確保充分混勻,然后在冰浴中冷卻15分鐘以促進(jìn)相分離。冷卻后,溶液在4°C條件下離心10分鐘。小心將上清液轉(zhuǎn)移至5 mL的Eppendorf管中,并使用樣品濃縮器蒸發(fā)30分鐘后,進(jìn)行24小時(shí)的冷凍干燥,以去除殘留的甲醇和水。干燥殘?jiān)?00μL的氘化磷酸鹽緩沖液(100mM,pH=5.7)重新溶解,該緩沖液中含有0.05%的TSP(鈉鹽3-(**基硅基)丙酸-2,2,3,3-d4)。混合液再渦旋混合5分鐘后,在10,000g×4 °C條件下離心10分鐘。*后,將550 μL的上清液轉(zhuǎn)移至5mm NMR管中,用于采集1H NMR光譜數(shù)據(jù)。
所有枸杞樣品的1H NMR光譜均使用850 MHz的Bruker AVANCE III核磁共振波譜儀(Bruker公司,德國(guó)卡爾斯魯厄)采集,配備CPTCI探頭,工作頻率為850.32 MHz。1H NMR光譜通過(guò)ZGPR脈沖序列采集,參數(shù)設(shè)定如下:溫度為298K,譜寬為14KHz,數(shù)據(jù)點(diǎn)數(shù)為32K,弛豫延遲為4.0秒,采集時(shí)間為1.9秒,共64次掃描。
所有枸杞樣品的1H NMR光譜數(shù)據(jù)均通過(guò)MestReNova軟件(V14.0.0,Mestrelab Research,西班牙)進(jìn)行預(yù)處理。處理步驟包括傅里葉變換、相位和基線校正,以及利用TSP的單峰信號(hào)(δ0)對(duì)光譜進(jìn)行對(duì)齊。在δ0-10范圍內(nèi),將光譜分割為寬度為0.002 ppm的區(qū)間,并移除殘留甲醇峰(δ3.35-3.37)和水峰(δ4.75-4.90)的干擾信號(hào)。對(duì)TSP峰(δ0)進(jìn)行歸一化處理,使其峰強(qiáng)值為9,便于后續(xù)的定量分析。*終,將積分?jǐn)?shù)據(jù)導(dǎo)入SIMCA 14.1軟件進(jìn)行**的多變量統(tǒng)計(jì)分析。
(3)枸杞的地理來(lái)源鑒定
傳統(tǒng)機(jī)器學(xué)習(xí):采用邏輯回歸(LR)和采用基于徑向基函數(shù)核函數(shù)的非線性支持向量機(jī)(SVM)進(jìn)行枸杞產(chǎn)地的識(shí)別。為了優(yōu)化SVM模型的性能,使用網(wǎng)格搜索方法調(diào)整懲罰因子(C)和核參數(shù)(γ)。具體來(lái)說(shuō),懲罰因子C從20.1變化到250,核參數(shù)γ從2-15調(diào)整到2-10。
改進(jìn)的ResNet-34:與傳統(tǒng)機(jī)器學(xué)習(xí)算法相比,深度學(xué)習(xí)模型在分類任務(wù)中表現(xiàn)出更高的準(zhǔn)確性,這主要?dú)w因于其能夠自動(dòng)從高維數(shù)據(jù)中提取更**的特征。這種優(yōu)勢(shì)在高精度地理來(lái)源識(shí)別中得到了驗(yàn)證。如今,ResNet被廣泛應(yīng)用于各種分類任務(wù)??紤]到HSI數(shù)據(jù)的復(fù)雜性和高維性,以及模型的性能要求,本研究選擇了一種改進(jìn)版的ResNet-34架構(gòu)。
表1展示了改進(jìn)版ResNet-34的架構(gòu),說(shuō)明其由五個(gè)模塊組成,每個(gè)模塊包含36個(gè)卷積層,*終連接至一個(gè)全連接層。與原始ResNet相比,*顯著的區(qū)別在于初始卷積層Conv1_x的修改。傳統(tǒng)的2D卷積層被替換為3D卷積層,以更好地適應(yīng)枸杞HSI數(shù)據(jù)的復(fù)雜性。Conv1_x層包含三個(gè)3D卷積子層和一個(gè)2D卷積子層,各自配備不同尺寸的卷積核:3×3×17、3×3×11、3×3×7(3D卷積)和3×3(2D卷積)。每次卷積操作均應(yīng)用修正線性單元(ReLU)激活函數(shù)。這一架構(gòu)調(diào)整的動(dòng)機(jī)是利用HSI數(shù)據(jù)中固有的多波段圖像特性,這不僅提供了豐富的空間和光譜信息,也顯著增加了數(shù)據(jù)的復(fù)雜性和體量。整個(gè)枸杞HSI數(shù)據(jù)集(包括A面和B面)隨機(jī)分為訓(xùn)練集(占70%)和測(cè)試集(占30%)。訓(xùn)練集用于優(yōu)化改進(jìn)版ResNet-34模型的參數(shù),測(cè)試集則用于評(píng)估模型的預(yù)測(cè)性能。在本研究中,學(xué)習(xí)率、批量大小、訓(xùn)練周期數(shù)、損失函數(shù)和優(yōu)化器分別設(shè)置為0.001、16、200、交叉熵?fù)p失和Adam。這些參數(shù)的選擇旨在有效處理具有64×64像素空間維度和114個(gè)光譜波段的圖像。
特征波長(zhǎng)提取:雖然HSI提供了豐富的光譜和空間信息,但其高維性和共線性以及冗余性對(duì)計(jì)算效率和模型魯棒性構(gòu)成了重大挑戰(zhàn)。此外,深度學(xué)習(xí)模型的“黑箱”性質(zhì)(其特征是缺乏固有的可解釋性)進(jìn)一步使其應(yīng)用復(fù)雜化。為了解決這些問題,有必要對(duì)預(yù)處理后的光譜進(jìn)行特征提取,以盡量減少非相關(guān)變量的影響,消除冗余信息,從而提高模型的計(jì)算效率和性能。
利用SHAP技術(shù)對(duì)模型輸出進(jìn)行解析,提取了400-1040nm光譜范圍內(nèi)的特征波長(zhǎng)。計(jì)算SHAP值,得到各光譜波段各數(shù)據(jù)點(diǎn)的貢獻(xiàn)分?jǐn)?shù),這些SHAP值代表各光譜波段對(duì)模型的重要程度。該方法不僅揭示了HSI數(shù)據(jù)中每個(gè)光譜波段對(duì)全球范圍內(nèi)預(yù)測(cè)結(jié)果的重要性,而且還描繪了其在每個(gè)HSI區(qū)域內(nèi)的影響。在本研究中,迭代選取貢獻(xiàn)率*高的5%以內(nèi)的光譜波段圖像作為模型的訓(xùn)練數(shù)據(jù),每一步遞增5%,直到模型的預(yù)測(cè)精度接近于原始模型。
(4)統(tǒng)計(jì)分析
所有NMR積分?jǐn)?shù)據(jù)隨后通過(guò)SIMCA 14.1軟件進(jìn)行多變量統(tǒng)計(jì)分析。在此之前,數(shù)據(jù)進(jìn)行了單位方差縮放,以突出微量成分的差異。使用偏*小二乘判別分析(PLS-DA)來(lái)揭示不同產(chǎn)地之間的組成差異,隨后應(yīng)用正交偏*小二乘判別分析(OPLS-DA)以識(shí)別枸杞的地理或品種標(biāo)志物。PLS-DA和OPLS-DA模型的性能通過(guò)模型參數(shù)R2X、R2Y和Q2進(jìn)行評(píng)估。此外,為了檢測(cè)潛在的過(guò)擬合,模型進(jìn)行了200次置換檢驗(yàn)。
枸杞中各成分的定量通過(guò)比較每種成分特征峰的積分與內(nèi)標(biāo)物(TSP)的積分實(shí)現(xiàn),濃度以平均值 ± 標(biāo)準(zhǔn)偏差(SD)表示,基于三次重復(fù)實(shí)驗(yàn)獲得。在本研究中,構(gòu)建了一個(gè)四維火山圖以展示倍數(shù)變化、p值、**相關(guān)系數(shù)(r)和投影變量重要性(VIP)。枸杞的地理標(biāo)志(GI)標(biāo)志物基于以下嚴(yán)格標(biāo)準(zhǔn)進(jìn)行識(shí)別:倍數(shù)變化不在0.8–1.2范圍內(nèi),p<0.05,|r|>0.90,且VIP值位于前5%。
為了分析同一枸杞樣品中NMR數(shù)據(jù)與HSI數(shù)據(jù)之間的相關(guān)性,計(jì)算了它們的Pearson相關(guān)系數(shù)。此外,使用精度評(píng)估了LR、SVM和改進(jìn)的ResNet-34模型在識(shí)別枸杞地理起源方面的性能。
結(jié)果與討論
(1)基于HSI數(shù)據(jù)的枸杞產(chǎn)地識(shí)別
圖2顯示了不同地理產(chǎn)地的枸杞樣品A面和B面的平均反射率。不同產(chǎn)地的枸杞樣品中相似的光譜趨勢(shì)表明相似的化學(xué)成分,而光譜強(qiáng)度的差異表明不同成分的濃度不同。同時(shí),圖2a和b顯示了枸杞樣品的A面和B面光譜差異很小,這一發(fā)現(xiàn)意味著從單側(cè)采集HSI數(shù)據(jù)是一種可行的方法,因?yàn)楸M管樣本兩側(cè)的外部和內(nèi)部特征存在潛在變化,但它不會(huì)引入重大誤差。在400-560nm的可見光光譜中,枸杞樣品的光譜反射率明顯較低,曲線重疊,這可能是由于枸杞的紅色表面在該波長(zhǎng)范圍內(nèi)反射的光較少。相反,在560-850nm波長(zhǎng)范圍內(nèi),枸杞表面的反射率逐漸增加,光譜曲線呈現(xiàn)出微小的差異。雖然不同產(chǎn)地的枸杞樣品的反射率曲線開始出現(xiàn)差異,但差異仍然很小。枸杞在922nm和985nm處有小谷,在963nm處有小峰,這些特征表明了O-H拉伸的**和**泛音。
圖2.來(lái)自不同地理和品種產(chǎn)地的枸杞樣品的(a)A面和(b)B面平均反射光譜
盡管不同地理來(lái)源或品種的枸杞在光譜上存在差異,但不能通過(guò)視覺比較來(lái)有效區(qū)分。此外,相似的顏色和形狀增加了視覺區(qū)分的難度。因此,選擇合適的分類策略對(duì)其進(jìn)行準(zhǔn)確分類就變得至關(guān)重要。為了獲得更好的分類結(jié)果,本研究采用了機(jī)器學(xué)習(xí)技術(shù)。表2顯示了線性(LR)和非線性(SVM)模型對(duì)枸杞地理來(lái)源識(shí)別的分類結(jié)果。在A側(cè)和B側(cè)的測(cè)試數(shù)據(jù)集上,LR和SVM模型對(duì)枸杞產(chǎn)地的分類準(zhǔn)確率均未超過(guò)90%,但當(dāng)使用一側(cè)數(shù)據(jù)訓(xùn)練的模型對(duì)枸杞產(chǎn)地進(jìn)行識(shí)別時(shí),LR模型和SVM模型的預(yù)測(cè)準(zhǔn)確率分別達(dá)到95.24%和99.43%??傮w結(jié)果表明,機(jī)器學(xué)習(xí)結(jié)合HSI技術(shù)有效地識(shí)別了枸杞的起源。此外,通過(guò)從枸杞的任何一側(cè)收集HSI數(shù)據(jù),可以實(shí)現(xiàn)可靠的地理來(lái)源追溯。
考慮到LR和SVM模型的分類準(zhǔn)確率不足90%,引入深度學(xué)習(xí)對(duì)高維HSI數(shù)據(jù)進(jìn)行進(jìn)一步分析。正如之前的研究所指出的那樣,深度學(xué)習(xí)模型需要大量的訓(xùn)練數(shù)據(jù)集。因此,我們將來(lái)自枸杞兩側(cè)的HSI數(shù)據(jù)納入了包含730個(gè)樣本的訓(xùn)練數(shù)據(jù)集和包含320個(gè)樣本的測(cè)試數(shù)據(jù)集。為了避免同一枸杞樣品的A面或B面被分配至不同的數(shù)據(jù)集(從而影響驗(yàn)證結(jié)果的完整性),同一樣品的兩面被策略性地分配至相同數(shù)據(jù)集。