食品分析 × 化學計量學｜ FOOD ANALYSIS

雷射誘導擊穿光譜 × 食品鑑別

一束火花 → 原子發射光譜，用 PCA · PLS · PLS-DA 解讀

LIBS（Laser-Induced Breakdown Spectroscopy）用雷射打出微電漿，
讀取元素的特徵發射譜線 — 免前處理、可現場、可遠距，但訊號雜、維度高，非靠化學計量不可。

LIBS

原子發射 / emission

PCA

探索 / explore

PLS

定量 / quantify

PLS-DA

分類 / classify

Nielsen 食品分析　·　<topic>-food-analysis 光譜教學系列　·　數字皆引自公開文獻；動手練習用開放 Képeš LIBS 基準集（CC BY）

先問一個問題

一道雷射火花，能分辨咖啡品種嗎？

這瓶橄欖油來自哪個產區？　這罐蜂蜜被玉米糖漿稀釋了幾成？

!傳統作法

消化、萃取、ICP/原子吸收 — 慢、耗試劑、破壞樣品。

⚡LIBS 的承諾

雷射打一下、免前處理、可現場、可遠距、數秒出譜。

?新的難題

一張譜常有兩萬個數字、訊號還會跳 — 需要化學計量學。

LIBS 怎麼看食品

雷射打出電漿，讀它的發射線

機制：聚焦雷射在表面燒蝕微量樣品 → 形成高溫電漿 → 原子/離子受激後發射各元素特有波長的光 → 光譜儀記錄。

測元素組成（發射譜線），可多元素同時
免或極少前處理、微破壞、可現場 / 遠距 / 即時
弱點：shot-to-shot 訊號變異、基質效應、偵測極限較高

正因為訊號會跳、基質會干擾，LIBS 比誰都更需要多變量化學計量來「穩住」並萃取資訊。

資料長什麼樣示意 SCHEMATIC

一張譜，兩萬個數字

示意 LIBS 發射譜：橫軸=波長(nm)、峰=元素發射線。線位為真實波長（Mg 280、Ca 393/397/423、Na 589、Hα 656、K 766/770、O 777 nm）。

波長範圍常含 UV–VIS，200–900 nm
咖啡 LIBS 譜：246–880 nm = 20,937 個變數
有機食品的判別力多來自礦物線 Ca、Mg、Na、K
Na I 589 nm 是蜂蜜產地最具判別力的一條線

兩萬個高度相關的通道，正是「為什麼需要 PCA」最直白的理由。

為何不能只看一條線

訊號會跳，還有兩萬通道

LIBS 的三個本質難題，每一個都把你逼向多變量分析：

⤢高維 high-dim

單張譜可達數千～兩萬通道，無法逐一比對。

↕射擊變異

shot-to-shot 電漿條件不穩 → 必須正規化（內標 / 總強度）。

≈基質效應

有機基質改變電漿溫度 → 同濃度也得不同強度。

三把工具各司其職：PCA → 壓縮 + 探索PLS → 定量PLS-DA → 分類

PCA · 非監督式探索文獻實測 REAL

先把兩萬通道壓成幾個

咖啡 LIBS（4 品種、20,937 變數）的真實主成分變異：前 3 個 PC = 93.8%。

PC1 一口氣吃下 81.2% → 兩萬通道其實高度共線，少數幾個方向就講完大半
PC2 9.9%、PC3 2.8%，3 個 PC ≈ 94%
把兩萬維壓到 2–3 維，就能畫出 score plot 看品種分群

這就是 PCA 的價值：降維 + 探索。先看資料自己怎麼分，再決定怎麼建模。

數字引自咖啡品種 LIBS 研究（PMC5795337）。

PCA · 動手算示意佈局 SCHEMATIC

唯一能下載的 LIBS 基準

示意 12 類 PCA 得分圖（佈局示意，非真實座標）：說明「多類別在前兩個 PC 上的分群」概念。

⬇Képeš LIBS 基準集

Scientific Data（Nature）· figshare · CC BY 4.0
138 樣本、12 類、約 6.9 萬條寬頻光譜（532 nm echelle）。

唯一真正開放可下載的 LIBS 分類基準。是「土壤」不是食品，但 PCA → 分類的機制完全相同 — 拿來動手算最理想。

EMSLIBS 2019 競賽在這份資料上，最高準確率約 90%。

PLS 迴歸 · 定量示意 SCHEMATIC

算出「摻了幾成」「含多少」

示意「預測 vs 實測」圖：點越貼 1:1 線越準，評估用 RMSE 與 R²（交叉驗證）。

PLS 把整段發射譜 → 連續數值
真實案例：蜂蜜摻高果糖糖漿，PLSR 預測摻假比例（0–100%）RMSE 低至 4.8%（rape honey）
米中銅含量：R² = 0.98、偵測極限約 5 ppm

定量前一定要正規化！LIBS 訊號變異大，內標 / 總強度正規化是 PLS 迴歸成敗的關鍵。

蜂蜜摻假 PMC7143021、米中銅 PMC5876664。

PLS-DA · 監督式分類文獻實測 REAL

小心！訓練集會騙你

咖啡 4 品種分類：校正集 vs 預測集準確率（真實數字，PMC5795337）。

用全部 20,937 個通道訓練 PLS-DA → 校正集 95.7%，預測集卻只剩 65.1%
這就是過擬合：模型背下了訓練集的雜訊
RBFNN、SVM 校正集都到 100%，預測集也只有 82–84%

教訓：永遠看交叉驗證 / 獨立預測集，不要被校正集準確率騙了。配合變數選擇 / 降維能拉近兩者差距。

真實 LIBS 食品案例 · 點欄位可排序

LIBS + 化學計量，做得到什麼？

案例	任務	樣本/類別	方法	準確率
橄欖油產地	產地鑑別	139 / 3	LDA / 樹模型	~100%
蜂蜜產地（多花）	產地鑑別	240 / 6	SVM	99.7%
米品質分級	品質分類	3 類	PCA + kNN	94%
新鮮肉品種類	肉種分類	900 譜 / 6	LightGBM	93.7%
蜂蜜產地（洋槐）	產地鑑別	240 / 6	SVM	82.6%

規律：對比越單純（油 vs 油、多花蜜）越漂亮；類別相似（同為洋槐蜜的不同產地）就掉到 80% 出頭。看的是預測集，不是校正集。

最容易踩的雷

前處理的順序，會灌水準確率

✗錯誤：先處理，再切分

在全部資料上做正規化 / 變數選擇 → 再切 train/test。測試集的資訊已經「洩漏」進前處理，準確率會虛高。

✓正確：先切分，再處理

先切 train/test，只用訓練集學前處理參數，再套到測試集。這才是誠實的估計。

文獻明確警告：正規化、尺度化、變數選擇必須在 train/test split 之後，否則造成 data leakage（資料洩漏）。

全譜 vs 選線：用整段光譜跑 PLS-DA，常與「手工挑選發射線」表現相當 — 不妨讓化學計量用全部資訊，再回頭看哪些線重要。

data leakage 警告引自 LIBS 食品科學回顧（PMC8401734）。

工作流程

從火花到結論，六步

1

採譜

LIBS 取得寬頻發射光譜。

2

正規化

內標 / 總強度，壓掉 shot-to-shot 變異。

3

選線 / 降維

挑發射線或整段譜降維。

4

PCA 探索

看分群、找離群。

5

PLS / PLS-DA

定量 / 分類 + 交叉驗證。

6

詮釋

哪些元素線在說話？

與 XRF、FTIR、Raman、NIR 同一條流程 — 換的只是「採譜」與「正規化」的細節。記得：前處理在切分之後。

一個誠實的提醒 + 自評

誠實面對資料，也檢查自己

坦白說：公開可下載的食品 LIBS 光譜幾乎不存在 — 多數研究的原始譜是「on request」。

所以本講的作法：
· 在開放的 Képeš 土壤基準上動手算 PCA / 分類
· 用真實食品案例的公開數字講故事
化學計量流程與訊號來源無關，方法可直接搬到食品 LIBS。

你現在應該能…

說明 LIBS 為何訊號變異大、非正規化不可
在 train/test split 之後才做前處理，避免洩漏
用交叉驗證 / 預測集識破過擬合
解釋「全譜」與「選線」各自的取捨

下一步 · 換你動手

把一束火花，變成一個判斷

⬇資料

Képeš LIBS 基準
figshare c.4768790（CC BY 4.0）
138 樣本 / 12 類 / ~6.9 萬譜

⚙工具

LIBSsa 開源 LIBS 處理軟體
Python scikit-learn
正規化 → PCA → PLS-DA

→延伸

現場食安篩檢
產地溯源 / 摻假偵測
重金屬與營養元素定量

記住這句：LIBS 訊號會跳、維度極高 — 先正規化、先切分、再交叉驗證。化學計量讓火花變判斷。

資料來源：咖啡 PMC5795337、蜂蜜摻假 PMC7143021、米中銅 PMC5876664、橄欖油 PMC7970888、肉品 PMC11241388、米品質 PMC9858346、蜂蜜產地 PMC7181300、回顧 PMC8401734；Képeš LIBS 基準 Scientific Data s41597-020-0396-8（figshare c.4768790, CC BY 4.0）。示意圖已標註，非真實座標。