讓 Skill 自己優化自己：AutoResearch + Binary Eval 實戰指南

每次寫完一個 Skill，是不是都經歷這個循環？

寫好 SKILL.md → 跑一次 → 看輸出 → 覺得不太對 → 改指令 → 再跑 → 還是不太對 → 再改…

整個過程全靠你的「感覺」判斷。改了 10 版，不確定第 10 版是不是真的比第 1 版好。一個 Skill 調到穩定，花幾天很正常。

但如果有一套方法能讓 AI 自己調自己的 Skill 呢？今天分享 AutoResearch 的核心邏輯、Binary Eval 這個關鍵技術、以及怎麼套用到你自己的 Skill 上。

AutoResearch 的核心邏輯

AutoResearch 是用來自動優化 AI 的框架，原本拿來優化 AI 模型。

核心邏輯很簡單：

定義一個指標 → AI 自動跑多種變體 → 評分 → 保留更好的版本 → 淘汰差的 → 循環

這跟我們調 Skill 是一模一樣的道理。差別只在一點：AutoResearch 把「你靠感覺調」變成了「AI 用數據調」。

700 次自動實驗跑完，找到 20 個有效的優化方向，整體提升 11%。聽起來不多，但重點是：這全部是 AI 自己跑的，不需要人盯。

Binary Eval：讓 AI 穩定評分的關鍵

這裡有一個大部分人不知道的坑。

你可能想：「讓 AI 打分不就好了？」

問題是，用 1-7 分讓 AI 評分，同一個輸出它這次給 5 分，下次給 3 分，結果根本不穩定。AI 打分的變異性太大，你根本無法判斷 A 版本是不是真的比 B 版本好。

❌ 錯誤做法

讓 AI 用 1-7 分評分 → 每次結果不同，優化方向亂跑

✅ 正確做法

Binary Eval — 把所有品質標準拆成 yes/no 問題

實際長這樣：

「有沒有個人化開場？」→ yes 或 no
「CTA 是否只有一個？」→ yes 或 no
「subject line 少於 10 個字？」→ yes 或 no

為什麼 Binary Eval 是關鍵？

yes/no 的答案每次都一樣，AI 就能穩定判斷哪個版本更好。沒有穩定的評分，自動優化就是空談。

實際例子：Cold Email Skill

假設你有一個寫 Cold Email 的 Skill。跑出來的信件，有些回覆率高，有些石沉大海。

以前怎麼調？

靠感覺：「好像 subject line 太長了」「CTA 不夠明確」
改完再跑，不確定是不是真的變好了

套用 AutoResearch + Binary Eval 的邏輯

1 把 reply rate 設成核心指標

2 品質標準拆成 10-15 個 yes/no 問題

3 AI 自動跑幾十種變體

4 每輪保留通過率更高的版本

行業平均 cold email reply rate 只有 3.43%，但 top performers 超過 10%。差距就在 Skill 指令的細節裡 — 而這些細節，用 Binary Eval 可以一個一個揪出來。

同樣邏輯可以套用到任何 Skill

內容生成 Skill → 指標 = 品質通過率
SEO 文章 Skill → 指標 = 排名或流量
圖片生成 Skill → 指標 = 視覺品質通過率

結論：從「手動調 Skill」升級為「讓 Skill 自己進化」

舊思維

寫好 Skill → 靠感覺微調 → 花幾天找到「還行」的版本

新思維

定義指標 → 拆成 yes/no → 讓 AI 自動跑實驗 → 幾小時內找到最優版本

重點不在你寫得多好，在於你怎麼定義「好」。定義清楚了，AI 會自己找到怎麼做到好。

Heison Chow

AI 自動化教練 / Hei.AI 創辦人

6 年電商經驗，帶領團隊從 $3M 成長至 $45M USD。現專注於 AI 自動化教學，幫助中小企業和個人創業者用 n8n、Agent Skills 和 Claude Code 打造自動化系統。YouTube 頻道「Hei_Ai 成長日記」12,000+ 訂閱。

YouTube LinkedIn Skool 社群 Threads

想學習更多 AI 自動化技巧？

加入免費 AI 自動化學習中心

免費加入社群