用 Claude Code Skills 的人一定遇過這種情況:你寫了一個 Skill,開 thinking mode 檢查,發現它根本沒有自動觸發。你只好手動打 /skill-name 或者直接跟它說「用 XX skill」。
如果每次都要你手動指定,那寫 Skill 的意義在哪?
Anthropic 剛更新了官方的 Skill Creator Plugin,直接解決這個問題。而且背後的信號比功能本身更值得注意。
先搞懂根本原因:為什麼自動觸發不準?
Claude 決定要不要用你的 Skill,不是讀完整份 SKILL.md。它只看 title + 大約 100 字的 description,然後決定要不要啟用。
- description 太寬 → 亂觸發,叫 A 它跑了 B
- description 太窄 → 從來不自動觸發,每次都要你手動指定
你確實可以在 thinking mode 裡看到它有沒有觸發。但問題是,你不可能每次用每種問法都手動檢查一遍。
Anthropic 拿自己的 6 個官方文件類 Skills 跑了一次 Trigger Tuning,結果:5 個的觸發準確度都還有提升空間。連官方自己寫的都有優化餘地。
Eval — 幫你的 Skill 寫「考試卷」
這是軟體工程裡「自動化測試」的概念。寫程式有 unit test,現在寫 Skills 也有了。
你定義一組測試 prompt + 預期結果,Skill Creator 自動跑一輪,告訴你每題 pass 還是 fail。不用再一個一個手動試。
最實用的場景:模型更新後,跑一次 Eval 就知道你的 Skill 還能不能用。不用等到出問題才發現。
根據 Anthropic 的測試,PDF 填表 Skill 跑完 Eval 優化後,原本填錯位置的問題全部修好了。
Trigger Tuning — 解決「叫了不來」的問題
如果你有 10 個以上的 Skills,一定遇過觸發打架——想用 Skill A,結果 Claude 跑去用 Skill B。
Trigger Tuning 會分析你目前的 description,用不同的問法反覆測試,自動調整措辭。用 60/40 的 train/test split,每輪跑 3 次取平均,最多迭代 5 輪,找到最佳平衡。
Anthropic 自己測了 6 個官方 Skills,5 個觸發率都有提升。
Benchmark — A/B 對比測試
這個功能超實用:「有 Skill」vs「沒有 Skill」,同時跑,量化給你看。
你會拿到三個關鍵數據:
- Pass Rate — 通過率多少
- Token Usage — 花了多少 token
- Total Time — 跑了多久
甚至可以比較兩個版本的 Skill,看哪個更好。如果「沒有 Skill」反而更好 → 這個 Skill 該退役了。
這次更新背後的信號
Anthropic 願意花資源建 Eval 系統,代表他們把 Skills 當作長期核心功能,不是一個實驗性玩具。
以前所有 AI 的 prompt、workflow 都是「寫完就上,出事再改」。現在 Anthropic 說:不行,你要先測過。
這在 AI 工具圈是第一次——定義輸入 → 定義預期輸出 → 自動跑 → 報告結果。就是軟體工程裡的自動化測試,套用在 AI Skills 上。
Anthropic 自己也講了一句話:「未來只需要用自然語言描述你想要什麼,模型會自己搞定剩下的。」
寫 Skill 的門檻會越來越低,以後人人都會寫。但誰能管好自己的 Skills,誰的 AI 助手才真的可靠。
結論:從「手動檢查」升級為「用數據驗證」
寫完 → 開 thinking mode 看一次 →「這次有觸發」→ 上線
寫完 → Eval 測品質 → Benchmark 對比效果 → Trigger Tuning 優化觸發 → 確認沒問題才上線
Skills 的門檻只會越來越低,但品質管理只會越來越重要。
以後人人都會寫 Skill,差距在誰會管理 Skill。