你有沒有想過,AI 除了聽你指令做事,還能自己決定要試什麼?
Karpathy(前 OpenAI 共同創辦人)開源了 AutoResearch,大約 8 天拿了超過 30,000 顆 GitHub 星,成為增長最快的開源專案之一。
它做的事聽起來很簡單:你給 AI 一個目標,它自己想方法、自己測試、5 分鐘看結果。進步了就留,退步了就丟,換一個新假設再來。一小時 12 輪,一晚 100 輪。
但這件事的意義遠超過「跑得快」。
為什麼 30,000 顆星:AutoResearch 做對了什麼?
還記得 AutoGPT 嗎?當時也是爆紅,說要讓 AI 自主完成任務。結果大部分人實際用了之後發現:它什麼都想做,什麼都做不好。
AutoResearch 走了完全相反的路。
「AI 能不能什麼都做?」
「AI 能不能只做一件事,但做到極致?」
答案是第二個問題才值得問。
AutoResearch 的設計刻意加了很強的約束:一個 GPU、一個檔案、一個指標、5 分鐘一輪、有效就留沒效就丟。規則越簡單,AI 越強。
- Karpathy 自己跑了兩天 → AI 自動嘗試了 700 次修改 → 篩選出 20 個有效改進 → GPT-2 訓練效率提升 11%
- Shopify CEO 拿去跑一晚 → 用一個 0.8B 的小模型打贏了 1.6B 的大模型。小的比大的強,因為 AI 自動找到了更好的配置
核心邏輯:從「你指揮 AI」到「AI 自己搞定」
之前我們用 AI 的方式是這樣:你想好要做什麼,告訴 AI,它幫你執行。本質上你是腦,它是手。
AutoResearch 反過來:你只告訴它「我要這個數字變好」,AI 自己去想要改什麼、怎麼改、改了有沒有用。
而且它會累積經驗。第 1 次是亂猜,到第 50 次它已經知道什麼方向有效、什麼是死路。你睡一覺起來,它比昨天聰明了。
這才是真正讓開發者興奮的地方。不是「AI 跑得更快」,是「AI 開始自己想了」。
這跟你的工作有什麼關係?
AutoResearch 原版是拿來優化 AI 模型訓練的,需要 GPU。但它背後的邏輯適用於任何有明確數字可以衡量的事。
Eric Siu(廣告公司 Single Grain 的創辦人)已經把同樣的模式搬到行銷上:把「訓練腳本」換成「cold email」,把「模型效能」換成「回覆率」。大部分行銷團隊一年跑 30 個實驗,用這個模式可以一天跑 30 個。
配合 Claude Code,你不需要 GPU,不需要懂程式。用中文告訴它「幫我優化 cold email 的回覆率」,它就幫你建一個自動測試的系統:自動生成不同版本、自動發送、自動比較結果、自動留下最好的。
適用場景:
- Cold email 回覆率
- 廣告點擊率
- Landing page 轉換率
- YouTube 標題 CTR
只要你能量化,就能讓 AI 用同樣的方式自動優化。
這件事的本質
以前是你告訴 AI 做什麼,現在是你告訴 AI 要什麼結果,它自己去搞定。
這不是「AI 幫你做得更快」的故事。這是「AI 開始自己提假設、自己驗證、自己學習」的故事。
值得想一下:你現在花最多時間反覆調整的是什麼?那個東西有沒有一個明確的數字可以衡量?如果有,為什麼還要自己猜哪個版本比較好?
寫文案是手藝,測文案是系統。手藝有天花板,系統沒有。