每次寫完一個 Skill,是不是都經歷這個循環?
寫好 SKILL.md → 跑一次 → 看輸出 → 覺得不太對 → 改指令 → 再跑 → 還是不太對 → 再改…
整個過程全靠你的「感覺」判斷。改了 10 版,不確定第 10 版是不是真的比第 1 版好。一個 Skill 調到穩定,花幾天很正常。
但如果有一套方法能讓 AI 自己調自己的 Skill 呢?今天分享 AutoResearch 的核心邏輯、Binary Eval 這個關鍵技術、以及怎麼套用到你自己的 Skill 上。
AutoResearch 的核心邏輯
AutoResearch 是用來自動優化 AI 的框架,原本拿來優化 AI 模型。
核心邏輯很簡單:
定義一個指標 → AI 自動跑多種變體 → 評分 → 保留更好的版本 → 淘汰差的 → 循環
這跟我們調 Skill 是一模一樣的道理。差別只在一點:AutoResearch 把「你靠感覺調」變成了「AI 用數據調」。
700 次自動實驗跑完,找到 20 個有效的優化方向,整體提升 11%。聽起來不多,但重點是:這全部是 AI 自己跑的,不需要人盯。
Binary Eval:讓 AI 穩定評分的關鍵
這裡有一個大部分人不知道的坑。
你可能想:「讓 AI 打分不就好了?」
問題是,用 1-7 分讓 AI 評分,同一個輸出它這次給 5 分,下次給 3 分,結果根本不穩定。AI 打分的變異性太大,你根本無法判斷 A 版本是不是真的比 B 版本好。
讓 AI 用 1-7 分評分 → 每次結果不同,優化方向亂跑
Binary Eval — 把所有品質標準拆成 yes/no 問題
實際長這樣:
- 「有沒有個人化開場?」→ yes 或 no
- 「CTA 是否只有一個?」→ yes 或 no
- 「subject line 少於 10 個字?」→ yes 或 no
yes/no 的答案每次都一樣,AI 就能穩定判斷哪個版本更好。沒有穩定的評分,自動優化就是空談。
實際例子:Cold Email Skill
假設你有一個寫 Cold Email 的 Skill。跑出來的信件,有些回覆率高,有些石沉大海。
以前怎麼調?
- 靠感覺:「好像 subject line 太長了」「CTA 不夠明確」
- 改完再跑,不確定是不是真的變好了
套用 AutoResearch + Binary Eval 的邏輯
1 把 reply rate 設成核心指標
2 品質標準拆成 10-15 個 yes/no 問題
3 AI 自動跑幾十種變體
4 每輪保留通過率更高的版本
行業平均 cold email reply rate 只有 3.43%,但 top performers 超過 10%。差距就在 Skill 指令的細節裡 — 而這些細節,用 Binary Eval 可以一個一個揪出來。
同樣邏輯可以套用到任何 Skill
- 內容生成 Skill → 指標 = 品質通過率
- SEO 文章 Skill → 指標 = 排名或流量
- 圖片生成 Skill → 指標 = 視覺品質通過率
結論:從「手動調 Skill」升級為「讓 Skill 自己進化」
寫好 Skill → 靠感覺微調 → 花幾天找到「還行」的版本
定義指標 → 拆成 yes/no → 讓 AI 自動跑實驗 → 幾小時內找到最優版本
重點不在你寫得多好,在於你怎麼定義「好」。定義清楚了,AI 會自己找到怎麼做到好。