Dataset · 教學資料集

五種機器學習分類法 · 資料集

搭配「以茶葉多重元素判別產地（LDA／Ridge／RF／Boosting／SVM）」投影片。下載即可在電腦上實跑、重現投影片裡的數字。

① 檔案清單（點即下載）

tea_five_models_demo.py

五種模型一起跑：標準化＋留一法（LOO-CV），輸出每個模型的 accuracy／precision／recall。投影片數字的來源，可重現。

⬇ 下載 .py

tea_origin_teaching.csv

20 個茶樣 × 21 個元素＋二分標籤（Taiwan／Non-Taiwan）。教學重建資料（見下方說明）。

⬇ 下載 .csv

five_models_scores.json

五模型的實跑結果（投影片長條圖內嵌用）。

⬇ 下載 .json

README.md

資料說明、來源與授權標註。

⬇ 下載說明

在 GitHub 瀏覽全部 ↗ 下載整包 ZIP ↗

② 怎麼跑（初學者也 OK）

先裝好 Python（建議 3.12）與套件，再執行 demo。第一次用 Python？可參考 SpectraView 的「零基礎安裝」步驟（用 winget 裝 git 與 Python 3.12）。

# 1) 安裝套件（只需一次）
pip install scikit-learn pandas numpy

# 2) 進到 dataset 資料夾後執行
python tea_five_models_demo.py

終端機會印出五個模型的正確率／精確率／召回率，並更新 five_models_scores.json。

③ 實跑結果（留一法 LOO-CV · 微量元素 T13）

模型	accuracy	precision	recall
LDA	95.0%	96.2%	93.8%
Ridge	100.0%	100.0%	100.0%
Random Forest	95.0%	96.2%	93.8%
Boosting	85.0%	90.0%	81.2%
SVM	100.0%	100.0%	100.0%

反直覺教學點：小資料（n=20）上最「高級」的 Boosting 反而最低，樸素的 Ridge／SVM 滿分——集成樹易過擬合、線性模型反而最穩。

⚠️ 資料性質（請對學生講清楚）：tea_origin_teaching.csv 為 教學重建資料——依蔡承祥等（2021）《以元素特徵區別台灣茶葉與國外茶葉之初步研究，台灣農業研究 70(4):231–242》各國平均值與分布以亂數模擬（固定種子、可重現），非原始逐筆量測值，僅供教學實跑、不可當真實數據引用。真實可下載的同構替代資料（紅茶開放資料、蜂蜜 ICP-OES CC0）見 README。