讓 Skill 自己優化自己:AutoResearch + Binary Eval 實戰指南

每次寫完一個 Skill,是不是都經歷這個循環?

寫好 SKILL.md → 跑一次 → 看輸出 → 覺得不太對 → 改指令 → 再跑 → 還是不太對 → 再改…

整個過程全靠你的「感覺」判斷。改了 10 版,不確定第 10 版是不是真的比第 1 版好。一個 Skill 調到穩定,花幾天很正常。

但如果有一套方法能讓 AI 自己調自己的 Skill 呢?今天分享 AutoResearch 的核心邏輯、Binary Eval 這個關鍵技術、以及怎麼套用到你自己的 Skill 上。

AutoResearch 的核心邏輯

AutoResearch 是用來自動優化 AI 的框架,原本拿來優化 AI 模型。

核心邏輯很簡單:

定義一個指標 → AI 自動跑多種變體 → 評分 → 保留更好的版本 → 淘汰差的 → 循環

這跟我們調 Skill 是一模一樣的道理。差別只在一點:AutoResearch 把「你靠感覺調」變成了「AI 用數據調」。

700 次自動實驗跑完,找到 20 個有效的優化方向,整體提升 11%。聽起來不多,但重點是:這全部是 AI 自己跑的,不需要人盯。

Binary Eval:讓 AI 穩定評分的關鍵

這裡有一個大部分人不知道的坑。

你可能想:「讓 AI 打分不就好了?」

問題是,用 1-7 分讓 AI 評分,同一個輸出它這次給 5 分,下次給 3 分,結果根本不穩定。AI 打分的變異性太大,你根本無法判斷 A 版本是不是真的比 B 版本好。

❌ 錯誤做法

讓 AI 用 1-7 分評分 → 每次結果不同,優化方向亂跑

✅ 正確做法

Binary Eval — 把所有品質標準拆成 yes/no 問題

實際長這樣:

為什麼 Binary Eval 是關鍵?

yes/no 的答案每次都一樣,AI 就能穩定判斷哪個版本更好。沒有穩定的評分,自動優化就是空談。

實際例子:Cold Email Skill

假設你有一個寫 Cold Email 的 Skill。跑出來的信件,有些回覆率高,有些石沉大海。

以前怎麼調?

套用 AutoResearch + Binary Eval 的邏輯

1 把 reply rate 設成核心指標

2 品質標準拆成 10-15 個 yes/no 問題

3 AI 自動跑幾十種變體

4 每輪保留通過率更高的版本

行業平均 cold email reply rate 只有 3.43%,但 top performers 超過 10%。差距就在 Skill 指令的細節裡 — 而這些細節,用 Binary Eval 可以一個一個揪出來。

同樣邏輯可以套用到任何 Skill

結論:從「手動調 Skill」升級為「讓 Skill 自己進化」

舊思維

寫好 Skill → 靠感覺微調 → 花幾天找到「還行」的版本

新思維

定義指標 → 拆成 yes/no → 讓 AI 自動跑實驗 → 幾小時內找到最優版本

重點不在你寫得多好,在於你怎麼定義「好」。定義清楚了,AI 會自己找到怎麼做到好。

HC

Heison Chow

AI 自動化教練 / Hei.AI 創辦人

6 年電商經驗,帶領團隊從 $3M 成長至 $45M USD。現專注於 AI 自動化教學,幫助中小企業和個人創業者用 n8n、Agent Skills 和 Claude Code 打造自動化系統。YouTube 頻道「Hei_Ai 成長日記」12,000+ 訂閱。

想學習更多 AI 自動化技巧?

加入免費 AI 自動化學習中心

免費加入社群