← 回投影片
Dataset · 教學資料集

五種機器學習分類法 · 資料集

搭配「以茶葉多重元素判別產地(LDA/Ridge/RF/Boosting/SVM)」投影片。下載即可在電腦上實跑、重現投影片裡的數字。

檔案清單(點即下載)

五種模型一起跑:標準化 + 留一法(LOO-CV),輸出每個模型的 accuracy/precision/recall。投影片數字的來源,可重現。
⬇ 下載 .py
20 個茶樣 × 21 個元素 + 二分標籤(Taiwan/Non-Taiwan)。教學重建資料(見下方說明)。
⬇ 下載 .csv
五模型的實跑結果(投影片長條圖內嵌用)。
⬇ 下載 .json
資料說明、來源與授權標註。
⬇ 下載說明
在 GitHub 瀏覽全部 ↗ 下載整包 ZIP ↗

怎麼跑(初學者也 OK)

先裝好 Python(建議 3.12)與套件,再執行 demo。第一次用 Python?可參考 SpectraView 的「零基礎安裝」步驟(用 winget 裝 git 與 Python 3.12)。

# 1) 安裝套件(只需一次)
pip install scikit-learn pandas numpy

# 2) 進到 dataset 資料夾後執行
python tea_five_models_demo.py

終端機會印出五個模型的正確率/精確率/召回率,並更新 five_models_scores.json

實跑結果(留一法 LOO-CV · 微量元素 T13)

模型accuracyprecisionrecall
LDA95.0%96.2%93.8%
Ridge100.0%100.0%100.0%
Random Forest95.0%96.2%93.8%
Boosting85.0%90.0%81.2%
SVM100.0%100.0%100.0%

反直覺教學點:小資料(n=20)上最「高級」的 Boosting 反而最低,樸素的 Ridge/SVM 滿分——集成樹易過擬合、線性模型反而最穩。

⚠️ 資料性質(請對學生講清楚)tea_origin_teaching.csv教學重建資料——依蔡承祥等(2021)《以元素特徵區別台灣茶葉與國外茶葉之初步研究,台灣農業研究 70(4):231–242》各國平均值與分布以亂數模擬(固定種子、可重現),非原始逐筆量測值,僅供教學實跑、不可當真實數據引用。真實可下載的同構替代資料(紅茶開放資料、蜂蜜 ICP-OES CC0)見 README。
© 葉泰聖(Tai-Sheng Yeh)· 食品分析教學素材 · 回投影片 · 食品科學教學課程入口