一束火花 → 原子發射光譜,用 PCA · PLS · PLS-DA 解讀
LIBS(Laser-Induced Breakdown Spectroscopy)用雷射打出微電漿,
讀取元素的特徵發射譜線 — 免前處理、可現場、可遠距,但訊號雜、維度高,非靠化學計量不可。
Nielsen 食品分析 · <topic>-food-analysis 光譜教學系列 · 數字皆引自公開文獻;動手練習用開放 Képeš LIBS 基準集(CC BY)
一道雷射火花,能分辨咖啡品種嗎?
這瓶橄欖油來自哪個產區? 這罐蜂蜜被玉米糖漿稀釋了幾成?
消化、萃取、ICP/原子吸收 — 慢、耗試劑、破壞樣品。
雷射打一下、免前處理、可現場、可遠距、數秒出譜。
一張譜常有兩萬個數字、訊號還會跳 — 需要化學計量學。
機制:聚焦雷射在表面燒蝕微量樣品 → 形成高溫電漿 → 原子/離子受激後發射各元素特有波長的光 → 光譜儀記錄。
示意 LIBS 發射譜:橫軸=波長(nm)、峰=元素發射線。線位為真實波長(Mg 280、Ca 393/397/423、Na 589、Hα 656、K 766/770、O 777 nm)。
LIBS 的三個本質難題,每一個都把你逼向多變量分析:
單張譜可達數千~兩萬通道,無法逐一比對。
shot-to-shot 電漿條件不穩 → 必須正規化(內標 / 總強度)。
有機基質改變電漿溫度 → 同濃度也得不同強度。
咖啡 LIBS(4 品種、20,937 變數)的真實主成分變異:前 3 個 PC = 93.8%。
數字引自咖啡品種 LIBS 研究(PMC5795337)。
示意 12 類 PCA 得分圖(佈局示意,非真實座標):說明「多類別在前兩個 PC 上的分群」概念。
Scientific Data(Nature)· figshare · CC BY 4.0
138 樣本、12 類、約 6.9 萬條寬頻光譜(532 nm echelle)。
示意「預測 vs 實測」圖:點越貼 1:1 線越準,評估用 RMSE 與 R²(交叉驗證)。
蜂蜜摻假 PMC7143021、米中銅 PMC5876664。
咖啡 4 品種分類:校正集 vs 預測集準確率(真實數字,PMC5795337)。
| 案例 | 任務 | 樣本/類別 | 方法 | 準確率 |
|---|---|---|---|---|
| 橄欖油產地 | 產地鑑別 | 139 / 3 | LDA / 樹模型 | ~100% |
| 蜂蜜產地(多花) | 產地鑑別 | 240 / 6 | SVM | 99.7% |
| 米品質分級 | 品質分類 | 3 類 | PCA + kNN | 94% |
| 新鮮肉品種類 | 肉種分類 | 900 譜 / 6 | LightGBM | 93.7% |
| 蜂蜜產地(洋槐) | 產地鑑別 | 240 / 6 | SVM | 82.6% |
在全部資料上做正規化 / 變數選擇 → 再切 train/test。測試集的資訊已經「洩漏」進前處理,準確率會虛高。
先切 train/test,只用訓練集學前處理參數,再套到測試集。這才是誠實的估計。
data leakage 警告引自 LIBS 食品科學回顧(PMC8401734)。
LIBS 取得寬頻發射光譜。
內標 / 總強度,壓掉 shot-to-shot 變異。
挑發射線或整段譜降維。
看分群、找離群。
定量 / 分類 + 交叉驗證。
哪些元素線在說話?
所以本講的作法:
· 在開放的 Képeš 土壤基準上動手算 PCA / 分類
· 用真實食品案例的公開數字講故事
化學計量流程與訊號來源無關,方法可直接搬到食品 LIBS。
你現在應該能…
Képeš LIBS 基準
figshare c.4768790(CC BY 4.0)
138 樣本 / 12 類 / ~6.9 萬譜
LIBSsa 開源 LIBS 處理軟體
Python scikit-learn
正規化 → PCA → PLS-DA
現場食安篩檢
產地溯源 / 摻假偵測
重金屬與營養元素定量
資料來源:咖啡 PMC5795337、蜂蜜摻假 PMC7143021、米中銅 PMC5876664、橄欖油 PMC7970888、肉品 PMC11241388、米品質 PMC9858346、蜂蜜產地 PMC7181300、回顧 PMC8401734;Képeš LIBS 基準 Scientific Data s41597-020-0396-8(figshare c.4768790, CC BY 4.0)。示意圖已標註,非真實座標。