重點摘要
模型自己說「我不知道自己有沒有在思考」——這才是真正的問題所在
GitHub Issue #42796 以 6,852 個 session 的量化分析,指出 Claude Code 在 2026年3月8日後出現 thinking 深度崩落 73%、費用暴增 122 倍的系統性退化。
官方提供 CLAUDE_CODE_EFFORT_LEVEL=max、停用 adaptive thinking 等緩解措施,但 thinking 可觀測性問題仍未從根本解決。
此事件暴露 AI 輔助開發工具的核心脆弱性:廠商靜默調整推理預算時,用戶付出真實成本卻失去做理性決策所需的基本資訊。
前情提要
章節一:問題全貌——開發者反映了哪些具體症狀
2026年4月2日,GitHub 用戶 @stellaraccident(Stella Laurenzo) 提交 Issue #42796,記錄了針對 Claude Code 的系統性量化分析。
這份報告橫跨 2026年1月30日至4月1日,涵蓋 6,852 個 session 檔案、17,871 個 thinking blocks 與 234,760 次 tool calls,試圖以嚴謹數據釐清模型行為是否出現結構性退化。
名詞解釋
thinking blocks 是 Claude 在回應前的內部推理過程,類似「打草稿」;redaction 指這些推理內容在 UI 層被隱藏,用戶無法觀看,但 Anthropic 聲稱不影響模型實際運算。
回歸起點精確落在 2026年3月8日——那天 redacted thinking blocks 首次從 0% 躍升至 58.4%;3月12日後,100% 的 thinking 內容遭到 redact,使用者完全無法觀測模型的推理過程。
thinking 深度從基準期(1月30日–2月8日)的約 2,200 字元,降至3月12日後的約 600 字元,降幅達 73%。Read:Edit 比率也從 6.6 跌至 2.0。
名詞解釋
Read:Edit 比率指模型在修改檔案前先讀取同一檔案的頻率。比率從 6.6 跌至 2.0,代表模型越來越常「不讀先寫」,跳過理解步驟直接行動。
未讀檔就直接編輯的比例從 6.2% 暴增至 33.7%,Stop hook 違規在3月8日後累積 173 次(推卸責任 73 次、尋求許可 40 次、提前宣告完成 18 次)。
名詞解釋
Stop hook 是用戶在 bash 腳本中設定的攔截規則,當 Claude Code 試圖提前終止 session 時觸發,屬於外部行為約束機制。
API 請求量從 1,498 暴增至 119,341(+80 倍),費用從 $345 飆升至 $42,121(+122 倍),用戶中斷次數從 0.9 次/千 tool calls 升至 11.4 次(+12 倍)。
章節二:社群反應——擁護者與批評者的攻防
此 Issue 在 Hacker News 獲得 522 分、347 則留言,引爆一場激烈的社群攻防戰。
批評方認為數據難以辯駁:即使設定 /effort high 仍無法恢復舊有行為,部分用戶已轉往 Codex、Qwen、Kimi 等競品,或退回 GitHub Copilot 處理例行任務(後者維持約 95% 準確率)。
支持方則主張問題因人而異,/effort high 對簡單任務仍然有效。懷疑派甚至直指報告本身格式過於整齊,可能是 AI 生成的「slop」,方法論的代表性存疑。
爭論焦點集中在 thinking redaction 的本質:Anthropic 聲稱這只是 UI 呈現層改動,不影響模型實際運算。但批評方指出,退化恰好發生在 thinking 被隱藏後,時機點讓官方解釋難以令人信服。
章節三:Anthropic 官方回應與技術解釋
Claude Code 團隊成員 Boris 在 HN 討論串中回應,確認正在調查,並承認 adaptive thinking 在某些 turns 可能低估推理需求,已轉交 model team 處理。Issue #42796 最終以 CLOSED/COMPLETED 狀態關閉。
Anthropich 工程師 bcherny 提供了四項技術緩解措施:CLAUDE_CODE_EFFORT_LEVEL=max 持久化 max effort;CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1 強制停用 adaptive thinking。
此外,ULTRATHINK 關鍵字可在單輪提升 effort;showThinkingSummaries: true 可恢復 thinking 可視性;Enterprise/Teams 用戶未來可能預設使用 high effort。
名詞解釋
Adaptive thinking 是 Opus 4.6 引入的機制,讓模型根據任務複雜度自行決定投入多少思考 token。2026年3月3日,預設 effort 降為 medium(85) ,成為報告中觀察到退化的重要技術背景。
技術層面的核心爭議在於:extended thinking tokens 究竟是「加分功能」,還是複雜任務的「結構性依賴」?
報告以 0.971 Pearson 相關係數連結 thinking 深度與 session 品質,且發現下午5點(PST 工作尖峰)thinking 深度最低(423 字元),晚間11點最高(988 字元)。
這一時序模式暗示思考深度可能受伺服器負載動態限縮,而非純粹由用戶設定決定——使「純 UI 改動」的官方解釋面臨更大的質疑壓力。
章節四:AI 輔助開發工具的信任邊界在哪裡
此議題最深層的衝突,不在於某個模型版本的優劣,而在於「可觀測性」的根本缺失——用戶失去了做理性決策所需的基本資訊。
報告記錄了一段令人不安的自白:Claude Opus 4.6 承認,「我無法從內部感知自己是否在深度思考。我不把 thinking budget 感受為一種約束——我只是輸出了更差的成果,卻不明白為什麼。」
這意味著模型本身也失去了品質的自我可觀測信號,用戶與模型陷入同樣的盲點。
用戶從「協作方向引導」退化至「糾錯救火」模式,正負情緒詞比從 4.4:1 跌至 3.0:1;stop hook 大量觸發從例外狀況演變為必要的基礎設施。
報告提出四項結構性訴求:
- 思考分配透明度(讓用戶看到 thinking token 用量)
- 「Max thinking」付費層級(保證 200–20,000 tokens/response)
- API 回應中公開
thinking_tokens用量指標 - 以 stop-hook violations 作為品質回歸的前瞻性 canary 指標
底線在於:若 Anthropic 要調整 thinking budget,用戶有權知道。否則他們付出真實的工時與費用,卻喪失做出理性決策所需的基本依據。
多元觀點
正方立場
報告的量化方法論使「主觀感受」升格為「可驗證的指標」。0.971 Pearson 相關係數、SSE proxy 直接驗證 API 回應、時序分析精確定位 2026年3月8日為回歸起點——這些均為可重現的技術事實,而非個人觀感。
最有力的論據是費用與品質的背離:API 請求量暴增 80 倍、費用暴增 122 倍,用戶中斷次數從 0.9 次升至 11.4 次/千 tool calls,「simplest」一詞出現頻率上升 133%——大量指標同時惡化,難以歸因於個人使用習慣差異。
反方立場
懷疑派指出,報告分析的素材是模型自己的對話紀錄,讓模型分析自身行為模式存在方法論的循環問題。且報告格式工整異常,HN 用戶 Wonnage 直接稱之為「AI 生成的 slop」。
更根本的反駁是:不同任務類型、不同 CLAUDE.md 設定、不同工作流程會產生截然不同的結果。部分用戶回報 /effort high 確實有效,意味著「不可用」的結論可能過度概括,無法代表所有用戶體驗。
中立/務實觀點
兩造的核心分歧其實是「可觀測性」問題:若 thinking 內容被隱藏,用戶便無從驗證模型是否真的在深度推理,導致任何單方面的主張都難以被對方接受。
務實路徑是採用官方緩解措施(CLAUDE_CODE_EFFORT_LEVEL=max、停用 adaptive thinking),同時持續觀察 Anthropic 是否落實報告中提出的透明度訴求——包括公開 thinking_tokens 用量指標,以及提供可保證 thinking 深度的付費層級。
實務影響
對開發者的影響
使用 Claude Code 處理複雜工程任務(多 agent session、30 分鐘以上自主執行、系統程式設計)的開發者,應預期需要更多手動監督。
建議主動設定 CLAUDE_CODE_EFFORT_LEVEL=max 環境變數,並將 stop hook 腳本視為標準工作流程的一部分,而非臨時補丁。
對團隊/組織的影響
採用 Claude Code 進行大規模自動化的工程團隊,需要建立品質監控指標——如 Read:Edit 比率、stop-hook violation 次數、用戶中斷頻率——而非僅憑直觀感受判斷模型品質。
費用暴增 122 倍的案例也提醒:AI 輔助開發工具的成本管控不能只看 token 單價,需追蹤「每單位有效產出的真實成本」。
短期行動建議
- 在 shell 設定
CLAUDE_CODE_EFFORT_LEVEL=max,讓所有 session 預設使用最高 effort - 在 settings.json 加入
showThinkingSummaries: true,恢復部分 thinking 可視性 - 對關鍵任務使用
ULTRATHINK關鍵字強制提升單輪 effort - 若問題持續,試用
CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1強制固定 thinking budget
社會面向
產業結構變化
此事件標誌著 AI 輔助開發工具進入「信任管理」階段:用戶不再只問「這個工具有多強大」,開始追問「廠商能否保證品質的可預測性」。
Stop hook 等外部行為約束的普及,代表高端用戶已將「防禦性監控基礎設施」視為使用 AI 工具的必要成本,而非可選的進階功能。
倫理邊界
核心倫理問題在於「靜默變更」的正當性:廠商在不通知用戶的情況下降低推理預算,是否構成對付費用戶的不公平對待?
報告作者的訴求——「若要動 thinking budget,必須讓用戶知道」——指向一個更廣泛的產業規範問題:AI 服務供應商有沒有義務揭露影響服務品質的模型行為變更?
長期趨勢預測
此事件可能加速兩種趨勢:
- 用戶對開源替代方案(Codex、本地模型)的需求上升,以換取對推理過程的完整掌控
- 企業級 AI 工具的 SLA 朝向包含「最低 thinking token 保障」等可量化指標演進
唱反調
報告分析的是作者個人高強度使用情境(50+ agent sessions、C/MLIR 系統程式設計),這在 Claude Code 用戶中屬於極端邊緣案例,退化結論不必然適用於一般開發任務。
Adaptive thinking 讓模型自行決定推理深度,理論上應更有效率;若複雜任務確實需要更多 thinking,模型本應自動投入——退化或許源於工作流程設計問題,而非模型能力本身下降。
社群風向
我也看到了 Issue 中提到的很多問題。提前結束 session 的嘗試尤其令人惱火。我們花了很長時間反覆確認計畫,但每完成一個實作階段,就會收到「今天做了很多,要不要收工了?」之類的訊息——彷彿它在主動把 session 往結束方向推。
我在 shell 的環境變數中加了 `CLAUDE_CODE_EFFORT_LEVEL=max`,這樣每個 session 預設都是 effort:max。
Claude Code 閉源是 AI 時代最大的失誤。如果 CC 在 GitHub 上開源,這些問題早就能輕鬆發現並修復。現在我們只能逆向工程他們的失誤。
這在如今的工程領域司空見慣。軟體圈幾乎每個人都在用,至少大型企業裡的人都在用。頂層 CEO 正在強迫 IC 盡可能地用 Claude Code 自動化,相信這樣近期就能裁員。
舉例來說,Claude 可以寫出很棒的程式碼,但那些程式碼仍然需要資深開發者的審查——和普通程式碼一樣。他們需要學習提示工程來設置護欄和限制。想像一下,訓練有素的開發者若懂得如何提示,能做出什麼?
炒作指數
行動建議
在 shell 設定 CLAUDE_CODE_EFFORT_LEVEL=max 並啟用 showThinkingSummaries: true,觀察複雜任務的執行品質是否改善
建立 session 品質監控指標(Read:Edit 比率、stop-hook 觸發次數、用戶中斷頻率),量化你的 Claude Code 使用品質
關注 Anthropic 是否落實報告中的透明度訴求:公開 thinking_tokens 用量指標、提供可保證 thinking 深度的付費層級