重點摘要
能力躍升、Token 悄悄漲價、護照驗證三件事同時來
SWE-bench Pro 64.3% 超越 GPT-5.4 的 57.7%,文件推理準確率躍升 23 個百分點,新 xhigh 推理層級與 adaptive thinking 機制大幅強化多步任務處理能力。
名義定價不變(輸入 $5、輸出 $25 / 百萬 tokens),但新 tokenizer 使相同輸入的 token 數量最多膨脹 35%,實際費用悄悄上漲,引發社群強烈反彈。
KYC 政策要求提交政府核發證件,由第三方 Persona Identities 處理。API 存取是否受限尚不明朗,企業合規成本與開發者隱私顧慮同步升高。
前情提要
章節一:模型能力突破與基準測試表現
Claude Opus 4.7 於 2026 年 4 月 16 日正式上線,在自主編程基準 SWE-bench Pro 取得 64.3%,相比前代 Opus 4.6 的 53.4% 大幅躍升 10.9 個百分點,也超越 OpenAI GPT-5.4 的 57.7%,成為目前市場「正式可用」旗艦模型中的排名首位。
名詞解釋
SWE-bench Pro:業界廣泛採用的軟體工程基準測試,要求模型在真實 GitHub issue 上自主完成程式碼修改與測試通過任務,得分愈高代表自主編程能力愈強。
影像處理能力同樣有顯著突破:長邊最高支援 2,576 像素(約 3.75 百萬像素),是前代的三倍,直接推動文件推理任務 OfficeQA Pro 準確率從 57.1% 躍升至 80.6%,錯誤率整體下降約 21%。與此同時,Anthropic 引入 xhigh 推理力道層級與 /ultrareview slash command,讓開發者對推理深度有更細粒度的控制,並在公測階段開放 task budgets 功能。
章節二:社群實測回饋——程式碼生成與多步推理
Hacker News 討論串匯集大量第一手測試結果,評價呈現明顯分歧。正面回饋集中在多步 SQL 生成、除錯等需要持續追蹤上下文的場景,部分開發者認為 Opus 4.7 在這類任務的一致性上優於多數競品,Grok Fast 雖也表現不俗,但 Opus 4.7 的穩定性更為突出。
批評聲音主要集中在兩個面向。其一是 adaptive thinking 機制的難度判定問題:系統有時在應推理的情境下選擇跳過推理,需手動調高 effort 參數才能恢復預期表現,且推理摘要預設隱藏,必須額外設定 "display": "summarized" 才能讀取,引發透明度爭議。
其二是性價比問題。GPT-5.3-codex 在快取折扣後成本約為 Opus 4.7 的十分之一,即使不計快取也仍便宜約三到四倍,讓 Opus 4.7 的能力溢價在高吞吐量應用場景顯得特別尷尬。社群討論中對「adaptive thinking 何時真正值得付費」的問題尚無共識。
章節三:實名驗證政策爭議與 API 存取影響
Opus 4.7 發布前兩天,Anthropic 於 4 月 14 日更新政策頁面,宣布針對「特定功能或平台安全稽核情境」推行身分驗證 (KYC) ,要求用戶提交政府核發護照、駕照或身分證,並搭配即時自拍,合作夥伴為第三方服務商 Persona Identities。Anthropic 明確聲明資料存放於 Persona 伺服器而非 Anthropic 本身,且不用於模型訓練。
名詞解釋
KYC(Know Your Customer) :原為金融業反洗錢監管要求,近年被 AI 平台借用,指在提供高風險或高特權功能前,要求用戶提交政府核發身分證件進行實名比對。
即便如此,政策的模糊邊界仍引發廣泛討論。開發者最關心的問題是「哪些功能會觸發 KYC」以及「透過 Poe 等第三方轉接或 API 直接呼叫是否同樣受限」,不確定性促使部分開發者開始評估替代方案。這項政策的出現時機耐人尋味——就在旗艦模型發布的同一週,顯示 Anthropic 在能力擴張的同時,也在同步加強對特定高風險使用場景的管控閘道。
章節四:AI 旗艦模型軍備競賽的最新戰線
Opus 4.7 的發布讓 Anthropic 在「正式可用旗艦模型」的競爭座次上短暫奪回領先位置,但戰局遠未結束。Anthropic 自家的 Claude Mythos Preview 仍以 77.8% 的 SWE-bench Pro 分數遙遙領先,顯示商業版與研究前沿之間仍有 13.5 個百分點的明顯落差。
定價策略是這次發布隱藏的張力所在。名義費率與 Opus 4.6 相同,但新 tokenizer 帶來最多 35% 的 token 數量膨脹,意味著相同輸入在實際計費上悄悄變貴。社群對這種「維持標價但提高用量」方式的批評相當直接,被形容為不透明的漲價手段。
面對 GPT-5.3-codex 在快取折扣後提供的極具競爭力的性價比,Anthropic 選擇以「能力極致」作為旗艦定位策略。隨著推理成本透明度議題、KYC 政策摩擦、以及競品價格持續下行,高端旗艦模型是否能維持其市場溢價,成為業界值得持續觀察的核心張力。
核心技術深挖
Claude Opus 4.7 的技術升級涉及三條並行主軸:tokenizer 架構更新、推理控制精細化,以及影像處理能力擴張。這三條主軸共同支撐了 SWE-bench Pro 10.9 個百分點的躍升與文件推理的大幅改善。
機制 1:新 Tokenizer 與 Token 膨脹效應
Opus 4.7 採用全新 tokenizer,針對程式碼、表格與多語言文本進行效率最佳化。這個改動是雙面刃:更細緻的分詞讓模型對語義邊界有更精準的掌握,有利於多步推理;但相同的文字輸入在新 tokenizer 下可能產生最多 35% 更多的 token,直接推高實際費用。
這種設計讓 Anthropic 得以在名義定價不變的情況下提高每次呼叫的計費量,在社群引發強烈批評——被視為不透明的漲價手段。Token 膨脹幅度因輸入類型而異,純英文程式碼通常低於中文長文或混合格式文件,需依實際 payload 測試。
機制 2:xhigh 推理層級與 adaptive thinking
Opus 4.7 引入四個推理力道層級,最高為 xhigh,搭配 adaptive thinking 機制動態分配推理步驟。理論設計是:低難度任務自動省略推理以節省費用與延遲,高難度任務則投入更多步驟提升準確率。
實際問題在於難度判定演算法目前被普遍批評為過度保守,系統頻繁將非數學、非程式碼任務歸為「低難度」,導致輸出品質下降。推理摘要亦預設隱藏,需額外設定 "display": "summarized" 才能讀取中間推理過程。
白話比喻
想像一位顧問有四個「思考深度模式」,但助理自動幫她決定每次用哪個模式。問題是這個助理常常誤判問題的複雜度,把需要深度分析的策略題當成填表作業來處理。
機制 3:影像解析度提升與文件推理架構
影像輸入的長邊最高支援提升至 2,576 像素(約 3.75 百萬像素),是前代的三倍。這不只是數字提升,更高解析度直接改善了模型對密集表格、小字型 PDF、手寫掃描件的理解能力。
OfficeQA Pro 準確率從 57.1% 躍升至 80.6%,整體錯誤率下降約 21%。主要受益者是需要精確擷取文件資訊的企業工作流程,例如合約審查、財務報表分析,以及多頁簡報的內容摘要。
工程視角
環境需求
透過 Anthropic API 存取需要有效的 API key;Amazon Bedrock、Google Cloud Vertex AI 及 Microsoft Foundry 使用者可透過各自平台直接呼叫。模型識別碼建議確認官方文件的最新版本號。若需啟用推理摘要,需在請求中加入 thinking 參數物件,並指定 "display": "summarized"。
最小 PoC
import anthropic
client = anthropic.Anthropic()
# 啟用 xhigh 推理層級並取得推理摘要
response = client.messages.create(
model="claude-opus-4-7-20260416",
max_tokens=16000,
thinking={
"type": "enabled",
"budget_tokens": 10000,
"effort": "xhigh",
"display": "summarized"
},
messages=[{
"role": "user",
"content": "請分析以下 SQL schema 並提供最佳化查詢方案..."
}]
)
for block in response.content:
if block.type == "thinking":
print("推理摘要:", block.summary)
elif block.type == "text":
print("回答:", block.text)
驗測規劃
升級前建議先建立基準測試集:從現有生產日誌中取樣 100 筆具代表性的請求,涵蓋簡單問答、多步推理、文件解析三類,同時對 Opus 4.6 和 Opus 4.7 各跑一遍。
核心比較指標包括 token 用量差異(量化 tokenizer 膨脹係數)、輸出品質(人工評分或 LLM-as-judge),以及實際費用。特別留意 adaptive thinking 在非數學任務上的表現,若品質下降則先嘗試明確指定 "effort": "xhigh"。
常見陷阱
- adaptive thinking 預設自動判定難度,對「看起來簡單但實際需要深度推理」的任務容易產出低品質結果,建議在 system prompt 加入明確的任務複雜度描述
- 新 tokenizer 的 token 膨脹幅度因輸入類型而異,純英文程式碼通常低於中文長文或混合格式,需依實際 payload 實測而非假設上限 35%
"display": "summarized"只顯示推理摘要;若需完整推理鏈 (chain-of-thought) 用於除錯或可解釋性需求,需改用"display": "full"- task budgets 功能目前仍在公測階段,生產環境使用需評估穩定性風險
上線檢核清單
- 觀測:token 用量(與 Opus 4.6 同輸入比較)、請求延遲(xhigh 模式推理時間顯著增加)、adaptive thinking 觸發率與難度判定準確性
- 成本:以實際 payload 測試 tokenizer 膨脹係數;確認 Bedrock/Vertex 平台定價是否與直接 API 一致;計算快取折扣後的真實競品成本差距
- 風險:確認 KYC 政策是否影響所使用功能範圍;確認第三方 SDK 已更新至支援 Opus 4.7 的版本;評估 task budgets 公測功能的 SLA 保障
商業視角
競爭版圖
- 直接競品:OpenAI GPT-5.4(SWE-bench Pro 57.7%,低於 Opus 4.7 的 64.3%)、Google Gemini 2.5 Ultra(文件處理與多模態場景的強力競爭者)
- 間接競品:GPT-5.3-codex(快取折扣後成本約為 Opus 4.7 的十分之一,對成本敏感場景具壓倒性優勢)、Llama 4 等開源替代方案(私有部署場景吸引力持續上升)
護城河類型
- 工程護城河:SWE-bench Pro 領先地位與 xhigh 推理層級帶來的多步任務處理能力,在自主編程與長時間 agentic 工作流上仍有明顯技術優勢
- 生態護城河:Claude Code 深度整合、Amazon Bedrock 與 Google Cloud Vertex AI 的多雲部署能力,以及 Microsoft Foundry 的企業通路,大幅降低採購摩擦
定價策略
輸入 $5、輸出 $25 / 百萬 tokens,名義上與 Opus 4.6 相同。然而新 tokenizer 帶來最多 35% 的 token 膨脹,實質上構成隱性漲價。
這種策略短期內減少了漲價的輿論壓力,但社群對透明度的批評已相當直接,長期若持續採用類似手法可能損害品牌信任,尤其對仰賴精確成本預測的企業 SaaS 產品衝擊較大。
企業導入阻力
- KYC 政策適用範圍模糊,企業合規部門難以預測哪些使用場景會觸發身分驗證要求,增加法務審查負擔
- adaptive thinking 難度判定不穩定,生產環境輸出品質難以保證一致性,需要額外的品質監控投入
- token 膨脹使成本預測複雜化,影響企業級採購評估時的 TCO(總持有成本)計算準確度
第二序影響
- 若 KYC 政策範圍持續擴大,可能加速部分開發者遷移至無 KYC 要求的競品,或推動企業優先評估私有部署的開源模型
- token 膨脹趨勢若成為業界常態,將促使企業更積極建立 token 用量監控基礎設施,相關可觀測性工具市場可能受益
判決:能力領先但成本透明度存疑(有限場景採用,控制規模)
Opus 4.7 在自主編程與文件推理上的技術進步是真實且可量化的,對需要最高能力上限的企業場景仍有採購理由。但 tokenizer 膨脹的定價方式、KYC 政策邊界模糊,以及 adaptive thinking 的穩定性問題,使得現階段更適合在受控 pilot 環境中測試,而非立即全面遷移生產流量。
數據與對比
SWE-bench Pro 自主編程基準
模型 | 得分 | 備註 |
|---|---|---|
Claude Mythos Preview | 77.8% | Anthropic 研究預覽版,未正式商業發布 |
Claude Opus 4.7 | 64.3% | 正式可用旗艦,較前代 +10.9pp |
OpenAI GPT-5.4 | 57.7% | 目前 OpenAI 正式可用旗艦 |
Claude Opus 4.6 | 53.4% | 前代基準線 |
Opus 4.7 超越 GPT-5.4 但與自家研究預覽版仍有 13.5 個百分點落差,顯示商業化與研究前沿之間的明顯距離。
OfficeQA Pro 文件推理基準
模型 | 準確率 | 變動 |
|---|---|---|
Opus 4.7 | 80.6% | +23.5pp |
Opus 4.6 | 57.1% | 基準線 |
影像解析度從前代的三倍成長是主要驅動力,整體文件推理錯誤率下降約 21%。此改善對密集 PDF 與表格型文件的擷取準確度尤為顯著。
最佳 vs 最差場景
推薦用
- 多步 SQL 查詢生成與除錯:需要跨多步驟追蹤上下文的複雜資料庫任務,Opus 4.7 一致性表現優於多數競品
- 高解析度文件分析:密集 PDF、財務報表、合約審查等需要精確資訊擷取的企業場景
- 長時間 agentic 工作流:需要跨 session 保持上下文一致性的自動化任務,如 Claude Code 整合場景
- 自主編程任務:在 GitHub issue 等真實工程情境中需要模型自主判斷修改方向的 SWE 應用
千萬別用
- 成本敏感的高吞吐量應用:新 tokenizer 最多 35% token 膨脹加上快取折扣後競品的強大性價比,使 Opus 4.7 在大批量場景處於明顯劣勢
- 需要精確推理控制的生產環境:adaptive thinking 目前難度判定不穩定,且無手動全局覆寫選項,品質波動難以預測
- 對推理過程有可解釋性要求的場景:推理摘要預設隱藏,需額外設定才能讀取,且摘要非完整推理鏈
唱反調
SWE-bench Pro 成績雖領先 GPT-5.4,但 Anthropic 自家 Claude Mythos Preview 以 77.8% 遙遙領先,Opus 4.7 更像是「追趕研究前沿的商業版本」,真正的技術突破仍在研究側,未正式對外開放。
新 tokenizer 帶來的 token 膨脹讓名義上不變的定價實質構成漲價;加上 adaptive thinking 透明度不足,開發者無法準確預測實際費用,這對需要精確成本預算的企業生產環境是重大障礙。
社群風向
多步 SQL 生成與除錯方面,Opus 4.7 是目前最可靠的選項之一。Grok Fast 也讓我意外,但 Opus 4.7 在這類任務上的一致性表現特別突出。
我對 4.7 原本很期待,因為它在我的測試中表現確實更好,但推理模式的定價方式真的很奇怪也難以預測。更何況在實際使用中,gpt-5.3-codex 光靠快取折扣就大約便宜十倍。
這種表達數字的方式太糟糕了。我理解他們的意思是最多提升 35%?
我認為 Claude Opus 4.7 的 adaptive thinking 需求在所有 AI 力道路由器常見的缺陷上更為嚴重,而且沒有像 ChatGPT 那樣的手動覆寫選項。它常常把非數學、非程式碼的任務判定為「低難度」,反而產出更差的結果。
Opus 4.7 今天已在 Claude Code 上線。它更具代理能力、更精準,在長時間執行的工作上表現更好。能跨 session 攜帶上下文,處理模糊情境的能力也大幅提升。
炒作指數
行動建議
在 API 測試 `xhigh` 推理層級搭配 `"display": "summarized"` 設定,以現有生產 prompt 對比 Opus 4.6 與 4.7 的 token 用量差異,量化 tokenizer 膨脹對實際費用的影響再決定升級時機。
針對多步文件解析或 SQL 生成場景建立自動化基準測試,同時監控 adaptive thinking 的觸發率——若發現非程式碼任務品質下滑,在 system prompt 加入明確複雜度提示或強制指定 effort 層級。
追蹤 Anthropic KYC 政策的 API 適用範圍公告,以及 adaptive thinking 後續改版是否補上手動覆寫選項;同步觀察 Claude Mythos Preview 的商業化時程。