← 回投影片
Dataset · 教學資料集
五種機器學習分類法 · 資料集
搭配「以茶葉多重元素判別產地(LDA/Ridge/RF/Boosting/SVM)」投影片。下載即可在電腦上實跑、重現投影片裡的數字。
① 檔案清單(點即下載)
五種模型一起跑:標準化 + 留一法(LOO-CV),輸出每個模型的 accuracy/precision/recall。投影片數字的來源,可重現。
⬇ 下載 .py
20 個茶樣 × 21 個元素 + 二分標籤(Taiwan/Non-Taiwan)。教學重建資料(見下方說明)。
⬇ 下載 .csv
② 怎麼跑(初學者也 OK)
先裝好 Python(建議 3.12)與套件,再執行 demo。第一次用 Python?可參考
SpectraView 的「零基礎安裝」步驟(用 winget 裝 git 與 Python 3.12)。
# 1) 安裝套件(只需一次)
pip install scikit-learn pandas numpy
# 2) 進到 dataset 資料夾後執行
python tea_five_models_demo.py
終端機會印出五個模型的正確率/精確率/召回率,並更新 five_models_scores.json。
③ 實跑結果(留一法 LOO-CV · 微量元素 T13)
| 模型 | accuracy | precision | recall |
| LDA | 95.0% | 96.2% | 93.8% |
| Ridge | 100.0% | 100.0% | 100.0% |
| Random Forest | 95.0% | 96.2% | 93.8% |
| Boosting | 85.0% | 90.0% | 81.2% |
| SVM | 100.0% | 100.0% | 100.0% |
反直覺教學點:小資料(n=20)上最「高級」的 Boosting 反而最低,樸素的 Ridge/SVM 滿分——集成樹易過擬合、線性模型反而最穩。
⚠️ 資料性質(請對學生講清楚):tea_origin_teaching.csv 為
教學重建資料——依蔡承祥等(2021)《以元素特徵區別台灣茶葉與國外茶葉之初步研究,台灣農業研究 70(4):231–242》各國平均值與分布以亂數模擬(固定種子、可重現),非原始逐筆量測值,僅供教學實跑、不可當真實數據引用。真實可下載的同構替代資料(紅茶開放資料、蜂蜜 ICP-OES CC0)見 README。