上週 OpenAI 做了一件很反常的事:幫 Anthropic 的 Claude Code 做了一個官方 plugin。
對,你沒看錯。OpenAI 主動做了一個 plugin,讓你在 Claude Code 裡直接叫 GPT 來審查你的 code。GitHub 上線兩天就 4000+ 顆星。
「為什麼 OpenAI 會幫競爭對手?」答案很簡單:Claude Code 的用戶已經在偷偷用 GPT 做 code review。與其攔不住,不如直接做進去。
核心原則:自己 review 自己 = 看不到盲點
你用 Claude 寫了一段 code,然後叫 Claude 自己檢查。它當然覺得自己寫得很好 — 那是它的邏輯、它的假設、它的盲區。
這跟你寫完報告自己校對一樣,有錯就是看不到。
寫完 code → 叫同一個 AI review → 覺得沒問題 → 上線炸了
寫完 code → 叫另一個 AI 用不同邏輯來挑毛病 → 修好再上線
有研究讓 5 個 AI 模型互相審查同一段 code,bug 偵測率從單一模型的 53% 跳到 80%。最難抓的系統級 bug,偵測率直接 100%。
3 個核心指令
1/codex:review — 標準 code review
最基本的用法。寫完功能後跑一次,Codex 會用 GPT 的邏輯重新審視你的 code,找出 Claude 可能漏掉的問題。適合每次寫完新功能後常規跑一遍。
2/codex:adversarial-review — 對抗式審查
這是最強的一個。它不只是找 bug,而是主動挑戰你的設計決策、質疑你的 tradeoff。
有人用它審查 caching 設計,Codex 直接找出一個 race condition — 並發寫入時會觸發,再晚幾天就會炸在正式環境。
還有人用 Claude Code 寫了一個遊戲,跑起來沒問題。叫 Codex 做 adversarial review,直接抓出兩個致命 bug:一個會讓玩家永久卡關,一個會丟失存檔資料。Claude 自己 review 過,完全沒發現。
3/codex:rescue — 任務委派
整個任務丟給 Codex 處理。調查 bug、嘗試修復、或對一個問題做第二次嘗試。當 Claude 卡住的時候,換個大腦試試。
為什麼 GPT 和 Claude 剛好互補?
GPT 5.4 在大部分 coding benchmark 上贏 Opus 4.6,而且便宜 6 倍。但它不是全面更強。
過度工程、token 消耗大、長時間運行會偏移、review 自己的 code 容易漏掉盲點
規劃能力弱、不太會問問題、創意輸出比較死板
看出來了嗎?一個的弱點剛好是另一個的強項。
Reddit 500+ 開發者的共識也印證了這點:Claude 品質更好(blind test 67% win rate),但限速太快。Codex 邏輯分析、邊界偵測更強。最佳工作流 = Claude 做架構和複雜功能,Codex 做審查和自動化任務。
Claude Code 做架構 + 寫功能 → /codex:adversarial-review 做對抗式審查 → 回到 Claude 修改。一個負責建,一個負責挑錯。
怎麼裝?
打開 Claude Code,兩行指令:
/plugin marketplace add openai/codex-plugin-cc
/plugin install codex@openai-codex
Apache 2.0 開源,完全免費。需要 Node.js 18.18 以上。
結論:從「選最強的」升級為「讓它們互相打架」
花時間研究哪個 AI 最強,然後只用那一個
讓多個 AI 用不同邏輯互相審查,抓出彼此的盲點
OpenAI 自己都在用行動告訴你:一個 AI 不夠用。
2026 年的 AI 開發,不是比誰選對了工具,是比誰會讓工具互相配合。