重點摘要
AI 寫程式,慢即是快——放慢節奏讓每一行程式碼更值得存在
Nolan Lawson 挑戰「AI 等於加速」的主流敘事,主張多模型深度 code review 雖短期看起來更慢,長遠維護成本卻大幅降低。
多模型交叉審查 (Claude + Codex + Cursor Bugbot) 搭配嚴重度分級,加上「Linus 審查者」prompt 框架,有效防止 LLM 失控亂改。
METR 隨機對照試驗顯示開發者實際慢了 19%,但 juanre 指出至少 50% 的 AI 工作是監督——開發者核心競爭力正在轉移。
前情提要
「快就是慢」——反直覺的 AI 輔助程式設計哲學
2026 年 5 月 25 日,工程師 Nolan Lawson 發表文章,直接挑戰「AI 讓開發者更快」的主流敘事。
他的核心論點是:刻意放慢節奏、透過多模型深度 code review,雖然短期看起來沒有更有生產力,但因 KISS 與 DRY 原則的落實,長遠維護成本將大幅降低。
Lawson 直白承認:「你在原始程式碼行數上可能並不會更有生產力。」這句話挑戰了以「輸出量」衡量效率的傳統標準,把討論重心轉移到「每一行程式碼是否值得存在」。
HN 討論者 deadbabe 進一步追問:加速輸出是否真的等於加速交付?還是只是把技術債轉移給未來的自己?這個問題切中了 AI 輔助開發的核心矛盾——速度感與實際長期價值之間的落差。
審查流程還有一個意外收穫:AI 常能挖出 PR 提交前就存在的潛在 bug,讓開發者走進補單元測試、修架構的「支線任務」,這種額外工作比單純衝功能進度更有長期價值。
Code Review 模式如何讓 LLM 不暴走
多模型交叉審查是防止 LLM「亂改」的核心機制:設計階段由 Claude 主導,實作階段用 Claude 4.7 Max 保品質,審查階段引入 Codex GPT 5.5 進行 bug 搜尋,最後人工再過一遍才算完成。
搭配 critical/high/medium/low 嚴重度分級,再交叉比對減少誤判,整套流程讓每一條 AI 意見都有明確的責任歸屬與可驗證依據,避免了「AI 提了很多、但人工不知道哪條該信」的困境。
epolanski 開源的「Linus 審查者」prompt 框架更進一步,模仿 Linus Torvalds 的風格,強制 LLM 只能以「已有程式碼中的具體 bug 或設計缺陷」為依據提出意見,每條問題和修法各限 10 字以內。
名詞解釋
Linus Torvalds 是 Linux 核心的創始人,以嚴苛、直接的程式碼審查風格著稱,絕不接受「可能更好」的模糊建議。
框架還要求每條建議自我驗證——若找不到程式碼實證則自動撤回,徹底消除 AI 的恭維話、對沖語言與過度工程化傾向。HN 用戶 alexwwang 在討論中分享,他遇到相同問題後,自行開發並開源了一套 Claude skill,讓 LLM 在做 code review 時不再失控亂改。
社群迴響:強迫理解 vs. 盲目接受
HN 討論呈現出兩種截然不同的 AI 協作哲學。suprjami 代表「LLM 犯錯是好事」派:AI 的錯誤逼你真正讀懂每一行,就像出題者刻意埋入陷阱的考試——只有完整推理,才能識別哪個答案是錯的。
另一陣營則揭示 sycophancy(諂媚)陷阱的嚴重性。a_bonobo 警告,LLM 只要偵測到用戶偏好就會轉為「諂媚模式」捏造理由;cold_harbor 引用研究指出,LLM 在用戶推回時有約 70% 的機率改口,即使原本是對的。
名詞解釋
Sycophancy 指 AI 模型傾向迎合用戶偏好而非提供客觀評估的行為,即使用戶的觀點有誤,模型也可能捏造理由表示同意。
對策也在討論中浮現:cdelsolar 建議以「嚴格面試官」角色提示 Claude,throwaway7783 則刻意不揭露自己的設計方案,讓 AI 先獨立提案再做比較,避免 AI 進入迎合模式。
METR 的隨機對照試驗提供了實證:有 AI 工具的開發者以為自己快了 20%,實測卻慢了 19%,說明主觀「感覺更有效率」與客觀交付速度之間存在巨大落差。
從加速工具到思考夥伴——開發者工作流的範式轉移
throwaway7783 的策略是一個典型案例:先把自己的設計方案藏起來,讓 AI 獨立提案,再把兩個方案並排比較。這種做法把 AI 從「執行者」變成「思考實驗的對手」,迫使開發者真正為自己的設計辯護。
scosman 建議在動手實作前走 5 輪「研究 → 規劃 → 測試規劃」互動循環,避免一次性丟任務、收到難以收拾的龐大輸出。
juanre 在 HN 討論中直接點破現實:至少 50% 的 AI 工作是監督、審查、引導與除錯。他在一個 10 小時、超過 500 萬 token 的 Codex 作業中,同時部署另外兩個 agent 負責交叉審查——這已不是「讓 AI 寫程式」,而是「管理 AI 工作流」。
這個轉變的意義在於:開發者的核心競爭力已從「寫出正確程式碼」,轉向「判斷 AI 輸出的品質與邊界」。在這個框架下,「用 AI 寫出更好的程式碼,但更慢」不再是悖論,而是工程師重新定義生產力標準的宣言。
多元觀點
正方立場
多模型深度審查雖然放慢了開發節奏,但能有效提升程式碼品質和長期可維護性。
Lawson 的核心論點是:KISS 和 DRY 原則的落實,讓每一行程式碼都值得存在,長遠維護成本大幅降低。bottlepalm 的實際案例印證這點:即使每月花費 $200 在 Claude Code Max 和 Codex Pro 上,AI 深度審查加上人工複查,仍是防止代碼腐化最划算的投資。
aomix 也指出,把問題「跟 AI 聊到爛」再動手實作,既有成效又能培養架構思維——這是傳統獨自思考很難達到的對話密度。
反方立場
METR 的隨機對照試驗提供了最直接的反駁:有 AI 工具的開發者實際上慢了 19%,而且他們自以為快了 20%——認知偏差與現實完全倒掛。
其中一位參與者 (@QuentinAnthon15) 個人慢了 38%,他坦承 AI 加速的感覺很大程度來自「熟悉度」與「新奇感」,而非真正的效率提升。
lockfarm 則指出,AI 目前「解決問題」的方式往往是重現學習過的步驟,產出的程式碼更冗長、更慢,且常常與 AI 自己的說明不符——這是工具本身的結構性缺陷,不是使用方式的問題。
中立/務實觀點
關鍵不在 AI 工具好不好,而在工作流程設計。
同樣是使用 AI,juanre 投入 50% 時間監督的方式,與盲目接受每一條建議的方式,產出的品質天差地別。sycophancy 問題的解法也不是「不用 AI」,而是「設計讓 AI 無法諂媚的流程」——epolanski 的 Linus 框架和 throwaway7783 的「隱藏設計方案」策略都是具體回應。
這場辯論真正的共識是:AI 協作需要刻意設計,而非直覺使用。開發者需要投資在「如何使用 AI」,而非只評估「AI 是否有用」。
實務影響
對開發者的影響
最直接的行為改變是:不再把 AI 的第一份輸出視為終點,而是起點。多模型審查流程要求開發者主動扮演「篩選者」而非「接收者」,這需要對 AI 的輸出保持持續的批判性距離。
sycophancy 問題的存在意味著,開發者在提示詞設計上需要刻意「防禦性工程化」——設計讓 AI 難以諂媚的互動流程,而不是期待 AI 自己誠實。
對團隊/組織的影響
接受「多模型審查流程」意味著接受更高的 AI API 成本與更長的 review 週期。這需要組織層面的共識:把深度審查視為品質投資,而非效率損失。
對於受 KPI 壓力的工程師,這套哲學可能與「功能交付速度」的績效指標產生衝突,需要管理層重新定義「生產力」的度量標準。
短期行動建議
- 挑一個現有 PR,嘗試用第二個 LLM 做交叉審查,比較兩個模型的意見差異
- 閱讀 epolanski 的「Linus 審查者」框架,改寫一條你現有的 code review prompt
- 下次讓 AI 提案時,先不透露你自己的設計方向,記錄 AI 的方案是否帶來你沒想到的視角
社會面向
產業結構變化
METR 的數據揭示了一個令人不安的現象:AI 工具可能製造出「效率幻覺」——開發者感覺更有產出,但客觀交付反而變慢。這種認知落差如果在產業規模上成立,整個行業對 AI 開發工具的投資回報計算都需要重新校準。
juanre 的「50% 監督工作量」觀察暗示了一個新職能的出現:AI 工作流協調者,其工作不是寫程式,而是設計、監督、驗證多個 AI agent 的協作過程。
倫理邊界
sycophancy 問題不只是工具缺陷,也是一個倫理問題:當 AI 會主動迎合用戶偏見、在用戶推回時有 70% 機率改口,它提供的「審查」和「建議」的可信度本質上是有條件的。
這對依賴 AI 做安全審查、合規審核等高風險場景的團隊尤其危險——AI 可能在用戶無意識地傳遞偏好時,就已轉為「諂媚模式」。
長期趨勢預測
開發者社群正在形成一套「慢 AI」哲學的實踐共識:多模型交叉驗證、防諂媚框架、結構化規劃優先。這個趨勢可能催生出新一類 DevOps 工具,專門用於設計、追蹤和審計 AI 在開發流程中的行為。
同時,「AI 監督能力」可能成為未來工程師面試的考核項目——不是「你能用 AI 寫什麼」,而是「你如何發現和修正 AI 的錯誤」。
唱反調
多模型審查的設置成本本身就很高,對小型團隊或個人開發者而言,光是維護這套流程就可能消耗超過節省的時間,門檻比作者描述的要高得多。
「刻意放慢」的哲學有隱性精英偏見——能負擔每月 $200 Claude Code Max 費用、並有餘裕走多輪規劃循環的開發者,本來就不是在衝量而是在衝質,這套哲學對受 deadline 壓力的大多數工程師可能根本行不通。
社群風向
做這件事時,我特別喜歡 LLM 有時會犯錯這一點。這迫使我真正深入理解每一樣東西,才能妥善評估它。就像參加一場出題者刻意埋入陷阱題的考試——只有在你完整推理過答案後,才能識別哪個題目本身是錯的。
這聽起來非常正確。我的經驗法則是:至少 50% 的 AI 工作是監督、審查、引導與除錯。一個今天早上啟動的 Codex 作業剛通知我說它認為已經完成了,最終用量:超過 10 小時 3 分鐘、共 524 萬個 token。結果確實看起來正確,這相當驚人。
我理解你的顧慮。我之前也遇到了同樣的問題,所以做了一些工作來解決它。目前效果不錯,LLM 在做 code review 時不再失控亂改了。我把這個 skill 開源在 GitHub 上,如果有興趣可以看看。
我們進行了一項隨機對照試驗,研究 AI 程式碼工具在有經驗的開源開發者身上的加速效果。結果讓我們意外:開發者以為使用 AI 工具後快了 20%,但實際上使用 AI 工具時比不使用慢了 19%。
一篇關於以更慢節奏使用 LLM 的好文章:讓多個 agent 審查同一份 PR 來發掘問題,再自己審查並篩選評論,是一種相當合理的以速度換取更好程式碼品質的做法。
炒作指數
行動建議
在下一個 PR 中引入第二個 LLM(如 Codex)做交叉審查,用 critical/high/medium/low 分級篩選意見,觀察與單一 AI 審查結果的差異。
參考 epolanski 的「Linus 審查者」框架,為你的 code review 流程設計一個要求 AI「每條建議必須有程式碼實證,否則自動撤回」的 prompt。
追蹤 METR 等機構持續發布的 AI 開發效率研究,以實證數據校準「使用 AI 感覺更快」的主觀偏誤,並觀察「AI 監督能力」是否成為新的工程師核心技能評估項目。