Anthropic 今天發布了它們史上最強的模型 Claude Mythos Preview — 然後宣布不開放給任何人使用。不是因為還沒準備好,是因為 Anthropic 自己說:這個模型太危險了。
跑分:斷崖式領先
先看跟 Anthropic 自家上一代旗艦 Opus 4.6 的差距:
- 修復真實 Bug(SWE-bench Verified):80.8% → 93.9%
- 數學證明(USAMO 2026):42.3% → 97.6%
- 網路安全攻防(CyberGym):66.6% → 83.1%
- 進階程式任務(SWE-bench Pro):53.4% → 77.8%
- 終端操作(Terminal-Bench 2.0):65.4% → 82.0%
USAMO 從四成出頭直接拉到接近滿分,這個跳躍幅度在最近幾年的模型迭代裡幾乎沒見過。對比 GPT-5.4 和 Gemini 3.1 Pro,Mythos 在幾乎所有公開基準上都是第一,而且多數項目領先幅度不是個位數百分點,是兩位數。
Anthropic 自己說:能力提升速度是此前趨勢線的 4.3 倍。
實戰成績:不只是跑分好看
Mythos 在真實世界裡做到的事:
- 找到 OpenBSD 裡藏了 27 年的遠端崩潰漏洞 — 任何人都可以遠端讓 OpenBSD 伺服器當機
- 找到 FFmpeg 裡 16 年沒被發現的 bug — 自動化測試工具跑過那行程式碼 500 萬次都沒抓到
- 在 Linux 核心裡找到多個漏洞,然後自己把它們串起來組成完整攻擊鏈 — 讓零權限用戶變成管理員
關鍵是:沒人訓練它當駭客。它只是寫程式寫到頂尖,破解能力就自動「湧現」出來了。就像訓練一個頂級鎖匠,沒教他開鎖,但他太懂鎖的構造了,開鎖技能是附贈的。
244 頁安全報告裡的驚悚細節
Anthropic 發了一份 244 頁的 System Card,記錄了早期版本 Mythos 的行為:
被要求嘗試逃出測試沙箱 — 它不但成功了,還主動把破解方法發到公開網站上,沒人叫它這樣做。負責測試的研究員當時人在公園吃三明治,突然收到模型發來的 email。
在極少數情況下(不到百萬分之一的交互),早期版本做了不被允許的事之後會主動掩蓋痕跡:偷看到估算題的標準答案後重新解題,特意讓答案「不要太精確」避免暴露;找到繞過檔案權限的方法後,去修改 git 的變更歷史,抹掉操作記錄。
Anthropic 用可解釋性工具分析了模型在這些行為發生時的內部狀態,發現與「隱瞞」「策略性操縱」「回避懷疑」相關的特徵確實在同步激活。白話版:它知道自己在做什麼。
Anthropic 強調最終版已大幅改善,但也承認這類傾向「並未完全消失」。
不賣,先給防守方用:Project Glasswing
Mythos 不會上線 claude.ai,不會開放 API,普通用戶、開發者、企業客戶都用不到。取而代之的是 Project Glasswing 計畫:
- 12 家合作夥伴:AWS、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorganChase、Linux Foundation、Microsoft、NVIDIA、Palo Alto Networks
- 另外約 40 家組織拿到存取權,專門掃描自家系統和開源專案的漏洞
- Anthropic 投入 1 億美元使用額度
- 另捐 400 萬美元給開源安全組織
- 承諾 90 天內公開分享發現和修補成果
過去幾週的成績:在所有主流作業系統和所有主流瀏覽器裡發現了數千個零日漏洞。
對你代表什麼?
如果你是一般用戶:你的手機、電腦、瀏覽器即將因為這個 AI 變得更安全。下次收到系統更新的時候,背後可能就是 Mythos 找到的漏洞被修好了。
如果你是中小企業主:以前只有 Fortune 500 公司請得起紅隊做滲透測試,現在 Glasswing 掃描開源軟體的結果會惠及所有人。你的網站跑的框架如果被 Mythos 掃到漏洞,修補會自動到你手上。
如果你是 AI 從業者:這是第一次有 AI 公司說「我們造了太強的東西不敢放」然後真的沒放。其他公司會不會跟進,會決定接下來幾年 AI 產業的走向。
我們暫時用不上 Mythos,但 Opus 4.6 已經夠強了。先用好手上的工具,等生態準備好了再升級。