LIBS·FOOD·CHEMOMETRICS
← → / 空白鍵:翻頁 · F:全螢幕 · 點畫面左右側翻頁
食品分析 × 化學計量學 | FOOD ANALYSIS

雷射誘導擊穿光譜 × 食品鑑別

一束火花 → 原子發射光譜,用 PCA · PLS · PLS-DA 解讀

LIBS(Laser-Induced Breakdown Spectroscopy)用雷射打出微電漿,
讀取元素的特徵發射譜線 — 免前處理、可現場、可遠距,但訊號雜、維度高,非靠化學計量不可。

LIBS
原子發射 / emission
PCA
探索 / explore
PLS
定量 / quantify
PLS-DA
分類 / classify

Nielsen 食品分析 · <topic>-food-analysis 光譜教學系列 · 數字皆引自公開文獻;動手練習用開放 Képeš LIBS 基準集(CC BY)

先問一個問題

一道雷射火花,能分辨咖啡品種嗎?

這瓶橄欖油來自哪個產區? 這罐蜂蜜被玉米糖漿稀釋了幾成?

!傳統作法

消化、萃取、ICP/原子吸收 — 慢、耗試劑、破壞樣品。

LIBS 的承諾

雷射打一下、免前處理、可現場、可遠距、數秒出譜。

?新的難題

一張譜常有兩萬個數字、訊號還會跳 — 需要化學計量學。

LIBS 怎麼看食品

雷射打出電漿,讀它的發射線

高能雷射脈衝 食品樣品 sample 微電漿 plasma 特徵發射譜線 光譜儀

機制:聚焦雷射在表面燒蝕微量樣品 → 形成高溫電漿 → 原子/離子受激後發射各元素特有波長的光 → 光譜儀記錄。

  • 元素組成(發射譜線),可多元素同時
  • 免或極少前處理微破壞、可現場 / 遠距 / 即時
  • 弱點:shot-to-shot 訊號變異基質效應、偵測極限較高
正因為訊號會跳、基質會干擾,LIBS 比誰都更需要多變量化學計量來「穩住」並萃取資訊。
資料長什麼樣 示意 SCHEMATIC

一張譜,兩萬個數字

示意 LIBS 發射譜:橫軸=波長(nm)、峰=元素發射線。線位為真實波長(Mg 280、Ca 393/397/423、Na 589、Hα 656、K 766/770、O 777 nm)。

  • 波長範圍常含 UV–VIS,200–900 nm
  • 咖啡 LIBS 譜:246–880 nm = 20,937 個變數
  • 有機食品的判別力多來自礦物線 Ca、Mg、Na、K
  • Na I 589 nm 是蜂蜜產地最具判別力的一條線
兩萬個高度相關的通道,正是「為什麼需要 PCA」最直白的理由。
為何不能只看一條線

訊號會跳,還有兩萬通道

LIBS 的三個本質難題,每一個都把你逼向多變量分析:

高維 high-dim

單張譜可達數千~兩萬通道,無法逐一比對。

射擊變異

shot-to-shot 電漿條件不穩 → 必須正規化(內標 / 總強度)。

基質效應

有機基質改變電漿溫度 → 同濃度也得不同強度。

三把工具各司其職:PCA → 壓縮 + 探索PLS → 定量PLS-DA → 分類
PCA · 非監督式探索 文獻實測 REAL

先把兩萬通道壓成幾個

咖啡 LIBS(4 品種、20,937 變數)的真實主成分變異:前 3 個 PC = 93.8%

  • PC1 一口氣吃下 81.2% → 兩萬通道其實高度共線,少數幾個方向就講完大半
  • PC2 9.9%、PC3 2.8%,3 個 PC ≈ 94%
  • 把兩萬維壓到 2–3 維,就能畫出 score plot 看品種分群
這就是 PCA 的價值:降維 + 探索。先看資料自己怎麼分,再決定怎麼建模。

數字引自咖啡品種 LIBS 研究(PMC5795337)。

PCA · 動手算 示意佈局 SCHEMATIC

唯一能下載的 LIBS 基準

示意 12 類 PCA 得分圖(佈局示意,非真實座標):說明「多類別在前兩個 PC 上的分群」概念。

Képeš LIBS 基準集

Scientific Data(Nature)· figshare · CC BY 4.0
138 樣本、12 類、約 6.9 萬條寬頻光譜(532 nm echelle)。

唯一真正開放可下載的 LIBS 分類基準。是「土壤」不是食品,但 PCA → 分類的機制完全相同 — 拿來動手算最理想。
EMSLIBS 2019 競賽在這份資料上,最高準確率約 90%
PLS 迴歸 · 定量 示意 SCHEMATIC

算出「摻了幾成」「含多少」

示意「預測 vs 實測」圖:點越貼 1:1 線越準,評估用 RMSE(交叉驗證)。

  • PLS 把整段發射譜 → 連續數值
  • 真實案例:蜂蜜摻高果糖糖漿,PLSR 預測摻假比例(0–100%)RMSE 低至 4.8%(rape honey)
  • 米中銅含量:R² = 0.98、偵測極限約 5 ppm
定量前一定要正規化!LIBS 訊號變異大,內標 / 總強度正規化是 PLS 迴歸成敗的關鍵。

蜂蜜摻假 PMC7143021、米中銅 PMC5876664。

PLS-DA · 監督式分類 文獻實測 REAL

小心!訓練集會騙你

咖啡 4 品種分類:校正集 vs 預測集準確率(真實數字,PMC5795337)。

  • 用全部 20,937 個通道訓練 PLS-DA → 校正集 95.7%,預測集卻只剩 65.1%
  • 這就是過擬合:模型背下了訓練集的雜訊
  • RBFNN、SVM 校正集都到 100%,預測集也只有 82–84%
教訓:永遠看交叉驗證 / 獨立預測集,不要被校正集準確率騙了。配合變數選擇 / 降維能拉近兩者差距。
真實 LIBS 食品案例 · 點欄位可排序

LIBS + 化學計量,做得到什麼?

案例任務樣本/類別方法準確率
橄欖油產地產地鑑別139 / 3LDA / 樹模型~100%
蜂蜜產地(多花)產地鑑別240 / 6SVM99.7%
米品質分級品質分類3 類PCA + kNN94%
新鮮肉品種類肉種分類900 譜 / 6LightGBM93.7%
蜂蜜產地(洋槐)產地鑑別240 / 6SVM82.6%
規律:對比越單純(油 vs 油、多花蜜)越漂亮;類別相似(同為洋槐蜜的不同產地)就掉到 80% 出頭。看的是預測集,不是校正集。
最容易踩的雷

前處理的順序,會灌水準確率

錯誤:先處理,再切分

全部資料上做正規化 / 變數選擇 → 再切 train/test。測試集的資訊已經「洩漏」進前處理,準確率會虛高。

正確:先切分,再處理

先切 train/test,只用訓練集學前處理參數,再套到測試集。這才是誠實的估計。

文獻明確警告:正規化、尺度化、變數選擇必須在 train/test split 之後,否則造成 data leakage(資料洩漏)。
全譜 vs 選線:用整段光譜跑 PLS-DA,常與「手工挑選發射線」表現相當 — 不妨讓化學計量用全部資訊,再回頭看哪些線重要。

data leakage 警告引自 LIBS 食品科學回顧(PMC8401734)。

工作流程

從火花到結論,六步

1

採譜

LIBS 取得寬頻發射光譜。

2

正規化

內標 / 總強度,壓掉 shot-to-shot 變異。

3

選線 / 降維

挑發射線或整段譜降維。

4

PCA 探索

看分群、找離群。

5

PLS / PLS-DA

定量 / 分類 + 交叉驗證。

6

詮釋

哪些元素線在說話?

XRF、FTIR、Raman、NIR 同一條流程 — 換的只是「採譜」與「正規化」的細節。記得:前處理在切分之後
一個誠實的提醒 + 自評

誠實面對資料,也檢查自己

坦白說:公開可下載的食品 LIBS 光譜幾乎不存在 — 多數研究的原始譜是「on request」。

所以本講的作法:
· 在開放的 Képeš 土壤基準上動手算 PCA / 分類
· 用真實食品案例的公開數字講故事
化學計量流程與訊號來源無關,方法可直接搬到食品 LIBS。

你現在應該能…

  • 說明 LIBS 為何訊號變異大、非正規化不可
  • train/test split 之後才做前處理,避免洩漏
  • 交叉驗證 / 預測集識破過擬合
  • 解釋「全譜」與「選線」各自的取捨
下一步 · 換你動手

把一束火花,變成一個判斷

資料

Képeš LIBS 基準
figshare c.4768790(CC BY 4.0)
138 樣本 / 12 類 / ~6.9 萬譜

工具

LIBSsa 開源 LIBS 處理軟體
Python scikit-learn
正規化 → PCA → PLS-DA

延伸

現場食安篩檢
產地溯源 / 摻假偵測
重金屬與營養元素定量

記住這句:LIBS 訊號會跳、維度極高 — 先正規化、先切分、再交叉驗證。化學計量讓火花變判斷。

資料來源:咖啡 PMC5795337、蜂蜜摻假 PMC7143021、米中銅 PMC5876664、橄欖油 PMC7970888、肉品 PMC11241388、米品質 PMC9858346、蜂蜜產地 PMC7181300、回顧 PMC8401734;Képeš LIBS 基準 Scientific Data s41597-020-0396-8(figshare c.4768790, CC BY 4.0)。示意圖已標註,非真實座標。