XRF·FOOD·CHEMOMETRICS
← → / 空白鍵:翻頁 · F:全螢幕 · 點畫面左右側翻頁
食品分析 × 化學計量學 | FOOD ANALYSIS

X 射線螢光 × 食品鑑別

PCA · PLS · PLS-DA 讀懂一張元素指紋

XRF(X-Ray Fluorescence)幾分鐘就能測出食品的元素組成,
但它吐出來的是一堆數字 — 化學計量學(chemometrics)負責把數字變成判斷。

XRF
元素指紋 / fingerprint
PCA
探索 / explore
PLS
定量 / quantify
PLS-DA
分類 / classify

Nielsen 食品分析 · <topic>-food-analysis 光譜教學系列 · 本講以真實開放資料(CC0 蜂蜜元素表)實算 PCA / PLS-DA

先問一個問題

這罐蜂蜜,摻了糖漿嗎?

這辣椒粉真的是 La Vera PDO 嗎? 這條魚來自哪一片海域?

!傳統作法

送實驗室、前處理、耗時、常需破壞樣品。一次一個指標。

XRF 的承諾

數分鐘、免(或極少)前處理、非破壞,一次給你十幾種元素。

?新的難題

一堆元素數字,肉眼看不出真假與產地 — 需要化學計量學

XRF 怎麼看食品

能量 = 元素身分,強度 = 含量

原子 atom 入射 X 射線 逐出內層電子 特徵 X 射線(指紋)

機制:高能 X 射線逐出內層電子 → 外層電子遞補 → 釋放該元素獨有能量的特徵 X 射線。每個元素一組身分證。

  • 測的是元素組成(約 Na → U),含主量與微量元素
  • 免前處理、非破壞、數分鐘出結果
  • 機型:桌上型 ED-XRF手持 pXRF(現場)、TXRF(微量、全能譜)
  • 輸出兩種形式 → 下一頁
為什麼適合化學計量?多元素、低前處理、快速 — 但資料高維又彼此相關,正是 PCA / PLS / PLS-DA 的主場。
資料長什麼樣 示意 SCHEMATIC

一張能譜,或一列元素

示意 XRF 能譜:橫軸=能量(keV)即元素身分,峰高=含量。峰位為真實特徵能量(K 3.31、Ca 3.69、Fe 6.40、Cu 8.05、Zn 8.64、Rb 13.39、Sr 14.16 keV)。

A元素濃度表

每列一個樣品、每欄一個元素 — 最常見的形式。

樣品CaKZnSr
蜂蜜-121.9217ND0.31
糖漿-14.2610.080.02

samples × elements 例:辣椒粉 67×14

B全能譜

整段譜不縮成元素,直接拿每個通道當變數。例:TXRF 海鮮 3025 通道、土壤 XRF 2048 通道

samples × channels

為何不能只看數字

12 個元素,肉眼就投降

一個樣品 = 12 個元素(或 2048 個通道);幾百個樣品疊起來,差異藏在多維空間裡。

高維 high-dim

12~20,000 個變數,無法用一兩張散布圖看完。

共線 collinear

Ca、Mg、Sr 常一起高低 — 變數彼此重複、互相糾纏。

差異微小

不同產地的元素差異常常很細,被雜訊蓋住。

三把工具各司其職:PCA → 壓縮 + 探索PLS → 定量PLS-DA → 分類
PCA · 非監督式探索 真實資料 REAL

先讓資料自己分群

開放蜂蜜元素表(Mendeley tt6pp6pbpk,CC0,429 樣品×12 元素)的真實 PCA 得分圖。

  • PC1(26.8%)≈ 整體礦物含量:Ca、Zn、Sr、Mg 載荷同向為正
  • PC2(13.1%)Ba 主導(載荷 +0.46)→ 糖漿被往上推、與蜂蜜分開
  • 這呼應文獻:蜂蜜礦物多半高於糖漿,唯獨鋇(Ba)例外 — 資料自己講出了這條軸
PC1+PC2 只解釋 39.9%。真實元素資料維度高,沒有「兩個 PC 解決一切」這種事 — 下一頁看 scree。

元素由 ICP-OES 測定;XRF 給的也是元素表,化學計量流程完全相同。

PCA · 實作細節 真實資料 REAL

按下 PCA 之前,先做兩件事

真實 scree plot:各主成分解釋變異%(長條)與累積%(折線)。要 6 個 PC 才到 ~78%。

處理缺值(ND)

「未檢出 not detected」不是 0!本資料 Ba 有 153 筆 ND、Zn 60、Fe 54、B/K 各 45。需先中位數填補或捨棄,當 0 會扭曲 loadings。

自動尺度化(auto-scale)

K、Ca 數值大,不標準化會壟斷 PCA。先做 z-score,每個元素平等發聲。

看 scree 的「手肘」決定保留幾個 PC — 不是越多越好。
PLS 迴歸 · 定量 示意 SCHEMATIC

不只分類,還能算「多少」

示意「預測值 vs 實測值」圖:點越貼近 1:1 線越準。評估用 RMSE(交叉驗證)。

  • PLS(偏最小平方)把元素表/能譜 → 連續數值
  • XRF 經典用途就是定量元素:每個峰面積 ∝ 濃度
  • 用 PLS 可同時校正基質效應、用整段譜預測某元素(如 Ca、Fe、Zn、Cd 含量)或摻假比例
PLS 與 PCA 不同:它同時壓縮 X 並對準 y,比「先 PCA 再迴歸」更聚焦在要預測的量上。

想實算 XRF + PLS 迴歸?開放土壤 XRF 全能譜(2048 通道,CC BY)附有黏粒、有機質、Ca…等連續目標可練。

PLS-DA · 監督式分類 真實資料 REAL

真假蜂蜜,分得出來嗎?

3 類 PLS-DA · 6 成分 · 5 折交叉驗證 → 整體準確率 65.7%

列=真實、欄=預測;對角線為答對數,顏色越深越多。

  • 糖漿 100% 抓得到 — 純糖漿元素組成最不同,最好認
  • 摻假蜂蜜 ↔ 純蜂蜜嚴重混淆:摻假=蜂蜜+糖漿,化學上介於兩者之間
  • 混淆正好落在最關鍵的格子(摻假 vs 純)— 這才是打假的難點
那原論文怎麼有 >93%?他們對每種花蜜各建「稀疏 sPLS-DA」子模型,而非一個全域 3 類模型。問題切得越細、變數選得越準,類別分得越開。
真實 XRF 食品案例 · 點欄位可排序

換成真 XRF,表現如何?

案例技術樣本/類別方法結果
辣椒粉 La Vera PDOED-XRF67 / 3PLS-DA96% 準(100% 靈敏)
牛至(oregano)摻假ED-XRF282 / 3PLS-DA94% 靈敏 / 92% 特異
葡萄酒 PDOED-XRF111 / 20階層 PLS-DA88%(SIMCA 跌到 50%)
海鮮產地TXRF 全能譜 3025ch649 / 4–5PLS-DA4/5 物種 >80%
番茄產地手持 pXRFPLS-DA~99%
規律:越簡單的對比(純 vs 摻)越準;類別越多、產地越相似就越難。務必報交叉驗證,別只報訓練集 — 葡萄酒那欄就是教訓。
一個誠實的提醒

找得到可下載的資料嗎?

坦白說:同時滿足「真的是 XRF食品公開可下載」的資料集,幾乎不存在 — 多數真實 XRF 食品研究的原始資料是「on request」。

能下載:蜂蜜元素表

CC0、429×12、含真假標籤。本講 PCA/PLS-DA 就用它實算。(ICP-OES 測定)

能下載:土壤 XRF 全能譜

CC BY、2048 通道原始能譜+連續目標 — 拿來看真實能譜、練 PLS 迴歸。

只有數字:食品案例

辣椒粉、牛至、葡萄酒、海鮮 — 論文公開準確率,但原始譜要另外索取。

教學策略(也是本講作法):在能下載的開放集上「動手算」PCA/PLS/PLS-DA,用真實食品案例「講故事」。化學計量流程與元素來源(XRF 或 ICP)無關,學到的方法可直接搬到 XRF。
工作流程

從樣品到結論,六步

1

採譜

XRF 取得能譜或元素濃度表。

2

前處理

處理 ND 缺值、正規化、auto-scale(z-score)。

3

PCA 探索

看分群、讀 loadings,找離群值。

4

建模

PLS 定量 / PLS-DA 分類。

5

交叉驗證

別只看訓練集!報 CV 準確率 / RMSE。

6

詮釋

哪些元素在說話?回到化學意義。

這條流程對 XRF、LIBS、FTIR、Raman、NIR 全部適用 — 換的只是「採譜」那一步。
學習成效自評

你現在應該能…

想動手?下一頁有資料與工具 →

下一步 · 換你動手

把元素指紋,變成可判讀的決策

資料

蜂蜜元素表
Mendeley tt6pp6pbpk(CC0)
土壤 XRF 2048ch
Mendeley 88c5kvmgbf(CC BY)

工具

Orange Data Mining
拖拉式 PCA / PLS / PLS-DA
Python scikit-learn
R 亦可

延伸

手持 pXRF 現場篩檢
重金屬定量
產地溯源 / 真偽鑑別

記住這句:XRF 給你元素指紋,化學計量學給你判斷。流程通用,方法可遷移到任何光譜技術。

資料來源:蜂蜜 Liu et al. Food Chemistry 2021, 343:128455(Mendeley tt6pp6pbpk, CC0)。案例:辣椒粉 PMC7729827、牛至 PMC12169713、葡萄酒 PMC11649527、海鮮 TXRF PMC9455438、番茄 pXRF PMC10447457。土壤 XRF:Mendeley 88c5kvmgbf(CC BY 4.0)。本講 PCA/PLS-DA 數字由開放蜂蜜資料即時計算。