用 PCA · PLS · PLS-DA 讀懂一張元素指紋
XRF(X-Ray Fluorescence)幾分鐘就能測出食品的元素組成,
但它吐出來的是一堆數字 — 化學計量學(chemometrics)負責把數字變成判斷。
Nielsen 食品分析 · <topic>-food-analysis 光譜教學系列 · 本講以真實開放資料(CC0 蜂蜜元素表)實算 PCA / PLS-DA
這罐蜂蜜,摻了糖漿嗎?
這辣椒粉真的是 La Vera PDO 嗎? 這條魚來自哪一片海域?
送實驗室、前處理、耗時、常需破壞樣品。一次一個指標。
數分鐘、免(或極少)前處理、非破壞,一次給你十幾種元素。
一堆元素數字,肉眼看不出真假與產地 — 需要化學計量學。
機制:高能 X 射線逐出內層電子 → 外層電子遞補 → 釋放該元素獨有能量的特徵 X 射線。每個元素一組身分證。
示意 XRF 能譜:橫軸=能量(keV)即元素身分,峰高=含量。峰位為真實特徵能量(K 3.31、Ca 3.69、Fe 6.40、Cu 8.05、Zn 8.64、Rb 13.39、Sr 14.16 keV)。
每列一個樣品、每欄一個元素 — 最常見的形式。
| 樣品 | Ca | K | Zn | Sr |
|---|---|---|---|---|
| 蜂蜜-1 | 21.9 | 217 | ND | 0.31 |
| 糖漿-1 | 4.2 | 61 | 0.08 | 0.02 |
samples × elements 例:辣椒粉 67×14
整段譜不縮成元素,直接拿每個通道當變數。例:TXRF 海鮮 3025 通道、土壤 XRF 2048 通道。
samples × channels
一個樣品 = 12 個元素(或 2048 個通道);幾百個樣品疊起來,差異藏在多維空間裡。
12~20,000 個變數,無法用一兩張散布圖看完。
Ca、Mg、Sr 常一起高低 — 變數彼此重複、互相糾纏。
不同產地的元素差異常常很細,被雜訊蓋住。
開放蜂蜜元素表(Mendeley tt6pp6pbpk,CC0,429 樣品×12 元素)的真實 PCA 得分圖。
元素由 ICP-OES 測定;XRF 給的也是元素表,化學計量流程完全相同。
真實 scree plot:各主成分解釋變異%(長條)與累積%(折線)。要 6 個 PC 才到 ~78%。
「未檢出 not detected」不是 0!本資料 Ba 有 153 筆 ND、Zn 60、Fe 54、B/K 各 45。需先中位數填補或捨棄,當 0 會扭曲 loadings。
K、Ca 數值大,不標準化會壟斷 PCA。先做 z-score,每個元素平等發聲。
示意「預測值 vs 實測值」圖:點越貼近 1:1 線越準。評估用 RMSE、R²(交叉驗證)。
想實算 XRF + PLS 迴歸?開放土壤 XRF 全能譜(2048 通道,CC BY)附有黏粒、有機質、Ca…等連續目標可練。
3 類 PLS-DA · 6 成分 · 5 折交叉驗證 → 整體準確率 65.7%
列=真實、欄=預測;對角線為答對數,顏色越深越多。
| 案例 | 技術 | 樣本/類別 | 方法 | 結果 |
|---|---|---|---|---|
| 辣椒粉 La Vera PDO | ED-XRF | 67 / 3 | PLS-DA | 96% 準(100% 靈敏) |
| 牛至(oregano)摻假 | ED-XRF | 282 / 3 | PLS-DA | 94% 靈敏 / 92% 特異 |
| 葡萄酒 PDO | ED-XRF | 111 / 20 | 階層 PLS-DA | 88%(SIMCA 跌到 50%) |
| 海鮮產地 | TXRF 全能譜 3025ch | 649 / 4–5 | PLS-DA | 4/5 物種 >80% |
| 番茄產地 | 手持 pXRF | — | PLS-DA | ~99% |
坦白說:同時滿足「真的是 XRF+食品+公開可下載」的資料集,幾乎不存在 — 多數真實 XRF 食品研究的原始資料是「on request」。
CC0、429×12、含真假標籤。本講 PCA/PLS-DA 就用它實算。(ICP-OES 測定)
CC BY、2048 通道原始能譜+連續目標 — 拿來看真實能譜、練 PLS 迴歸。
辣椒粉、牛至、葡萄酒、海鮮 — 論文公開準確率,但原始譜要另外索取。
XRF 取得能譜或元素濃度表。
處理 ND 缺值、正規化、auto-scale(z-score)。
看分群、讀 loadings,找離群值。
PLS 定量 / PLS-DA 分類。
別只看訓練集!報 CV 準確率 / RMSE。
哪些元素在說話?回到化學意義。
想動手?下一頁有資料與工具 →
蜂蜜元素表
Mendeley tt6pp6pbpk(CC0)
土壤 XRF 2048ch
Mendeley 88c5kvmgbf(CC BY)
Orange Data Mining
拖拉式 PCA / PLS / PLS-DA
Python scikit-learn
R 亦可
手持 pXRF 現場篩檢
重金屬定量
產地溯源 / 真偽鑑別
資料來源:蜂蜜 Liu et al. Food Chemistry 2021, 343:128455(Mendeley tt6pp6pbpk, CC0)。案例:辣椒粉 PMC7729827、牛至 PMC12169713、葡萄酒 PMC11649527、海鮮 TXRF PMC9455438、番茄 pXRF PMC10447457。土壤 XRF:Mendeley 88c5kvmgbf(CC BY 4.0)。本講 PCA/PLS-DA 數字由開放蜂蜜資料即時計算。