重點摘要
當安全誓言遇上競爭壓力,Anthropic 選擇了後者
Anthropic 廢除 2023 年 RSP 核心承諾——「除非能事先保證安全措施,否則不訓練更強大 AI」——改以每 3–6 個月發布風險報告取代,社群批評此舉形同自我解除安全護欄。
新政策僅在 Anthropic「領跑 AI 競賽且災難性風險顯著」時才觸發暫停機制,但兩項條件均難以客觀認定,實際上幾乎不可能被啟動。
此決定反映 AI 產業自我監管模式的系統性失敗:在地緣政治壓力、競爭焦慮、監管真空三重夾擊下,安全承諾正逐步讓位於商業與政治現實。
前情提要
Anthropic 於 2023 年推出「負責任擴展政策」 (RSP) ,一度被視為 AI 安全自我監管的黃金標準——其核心承諾是:除非能事先驗證足夠的安全措施,否則公司不會訓練更強大的 AI 模型。然而,2026 年 2 月,Anthropic 宣布廢除這項承諾,改以彈性更大、可執行性更低的風險報告制度取代。這一決定由執行長 Dario Amodei 與董事會全員一致通過,引發 AI 安全社群的強烈質疑。
名詞解釋
RSP(Responsible Scaling Policy,負責任擴展政策)是 Anthropic 於 2023 年自訂的安全承諾框架,規定在特定能力閾值下必須採取對應安全措施,否則不得繼續訓練或部署模型。
起因 1:RSP 承諾的不可執行性
RSP 原本要求 Anthropic 在訓練更強大模型前,必須先行驗證安全措施的充分性。然而,隨著模型能力以難以預測的速度提升,能力風險閾值的認定出現了「模糊地帶」——究竟何種程度的能力需要什麼等級的安全措施,缺乏業界統一標準。首席科學官 Jared Kaplan 坦承,若要嚴格執行 RSP,實際上需要全行業協調,單一公司難以獨力承擔。
起因 2:競爭壓力與地緣政治的雙重夾擊
與此同時,美國反監管政治氣候升溫,Anthropic 面臨來自美國國防部的直接施壓——據報導,國防部長 Hegseth 威脅若 Anthropic 不配合軍事 AI 要求,將把其列入黑名單。在 OpenAI、Google DeepMind 等競爭對手持續推進的背景下,Anthropic 判斷若單方面暫停訓練,不僅無法提升整體安全,反而可能讓安全意識較弱的對手搶先占領市場。
多元觀點
正方立場
Anthropic 及其支持者認為,廢除 RSP 是面對競爭現實的務實選擇。首席科學官 Jared Kaplan 的核心論點是:若 Anthropic 單方面暫停訓練,其他安全意識更薄弱的競爭對手將填補空缺,最終反而造成全球 AI 生態系統更不安全。此外,RSP 的能力閾值認定本就存在模糊地帶,強行維持一個難以執行的承諾可能比公開廢除更具欺騙性。新政策承諾每 3–6 個月發布公開風險報告,理論上提供更即時的透明度。
反方立場
AI 安全研究者與社群批評者的核心質疑是:新政策的觸發條件——「Anthropic 領跑 AI 競賽且災難性風險顯著」——幾乎是不可能同時滿足的雙重條件。METR 政策主任 Chris Painter 指出,這種轉變意味著社會尚未準備好應對潛在的 AI 災難性風險,而新框架可能在不觸發任何明確警示閾值的情況下,讓風險逐步累積升高。安全研究員 @RyanPGreenblatt 更進一步揭露,Anthropic 在宣布廢除 RSP 前數天,已悄悄降低 ASL-3 的模型安全要求,顯示這是一連串退縮動作的終點。前 Anthropic 員工在 HN 上描述,公司面試流程強調安全文化,但實際決策始終以商業利益優先,安全承諾從未真正影響核心決策。
名詞解釋
ASL-3(AI Safety Level 3) 是 Anthropic RSP 框架中的能力等級劃分,對應具備更高潛在危害能力的模型,需要對應更嚴格的安全緩解措施方可訓練與部署。
中立/務實觀點
一個較為客觀的評估框架是:RSP 的問題從來不只是承諾本身,而是整個 AI 自我監管模式的結構性缺陷。單一公司的自願承諾,在缺乏法律約束力、缺乏第三方稽核、缺乏業界統一標準的情況下,本就依賴創辦人的個人道德意志——而個人意志在商業壓力和地緣政治脅迫面前顯然脆弱。廢除 RSP 的真正意義,或許不在於 Anthropic 做了什麼,而在於整個行業的自我監管敘事已然破產,外部監管成為唯一可信的替代路徑。
實務影響
對開發者的影響
使用 Anthropic API 構建產品的開發者,應重新評估供應商選擇的依據:過去基於「Anthropic 有最嚴格安全承諾」的選擇邏輯已不再成立。更重要的是,開發者需建立自己的模型行為監控機制,不能僅依賴廠商的安全聲明。對於構建高風險應用(醫療、法律、金融決策輔助)的開發者,供應商的安全政策變化應納入產品風險管理流程。
對團隊/組織的影響
企業採購 AI 服務時,供應商的安全治理架構正成為採購評估的新維度。此次事件提醒各組織:在合約層面要求廠商承擔明確的安全義務,而非僅憑公開政策宣示作為評估依據。對於重視 AI 倫理的組織,此事可能影響其對 Anthropic 的品牌信任度,進而影響技術選型決策。
短期行動建議
- 審查現有 Anthropic API 合約,確認其中是否有基於 RSP 承諾的條款需要更新
- 建立多供應商備援策略,避免過度集中依賴單一 AI 廠商的安全治理框架
- 訂閱 Anthropic 未來發布的「前沿安全路線圖」,作為持續評估供應商安全承諾的依據
社會面向
產業結構變化
RSP 的廢除標誌著 AI 產業「自律監管時代」的終結。從 2023 年各大 AI 實驗室爭相發表安全承諾,到 2026 年率先者公開撤回,AI 安全治理的重心正在從企業自願承諾轉向兩個方向:一是政府強制監管(儘管當前美國政治環境使其遙遙無期),二是市場機制(企業客戶、投資人、保險公司對安全行為的經濟獎懲)。這種轉變對 AI 安全研究人才的職業選擇也產生影響——以「在體制內推動安全」為信念進入大型 AI 實驗室的研究者,正面臨理念與現實的根本衝突。
倫理邊界
此次事件的核心倫理張力在於:當安全承諾本身成為競爭劣勢,企業是否有道德義務繼續承擔?Anthropic 的論點(「單方面停下反而讓世界更危險」)在邏輯上並非沒有依據,但它同時也是一個可以無限延伸的藉口——任何企業都可以用相同邏輯為任何安全退讓辯護。更深層的問題是:在 AI 競賽的背景下,「負責任」的含義究竟是什麼?是維持可能無法執行的硬性承諾,還是轉向更靈活但可信度更低的透明報告機制?
長期趨勢預測
短期來看,其他 AI 實驗室可能以「對齊承諾要求一致」為由,陸續弱化各自的安全政策。中期來看,AI 安全治理的主戰場將從企業自律轉向國際協議與標準化機構——類似核不擴散條約或金融業 Basel 協議的框架討論可能提速。長期來看,若無強制性外部監管,AI 安全承諾將逐步演變為純粹的公關工具,而真正影響模型安全性的決策將在不透明的內部流程中完成。
唱反調
RSP 原始框架確實存在設計缺陷——若閾值無法客觀量化,則「事先驗證安全」的承諾本就難以兌現,廢除一個無法執行的承諾或許比維持表面合規更為誠實。
Anthropic 改採每 3–6 個月發布公開風險報告的做法,若確實執行,可能比靜態的 RSP 承諾提供更即時、更具透明度的安全資訊給公眾與監管機構。
社群風向
我不認為在不信任領導層的組織內部保持影響力,一定比透過外部壓力推動改變更有效。這種想法或許很天真,但也正是許多 Anthropic 早期員工加入的動機。也許這種邏輯在小規模時成立,但當公司規模變大後就開始崩解。
一切都是為了錢。我想以符合道德的方式賺錢。但如果這不可能,道德是可以商量的,賺錢不行。
對,這是關於訓練的問題,跟國防部的要求無關。當然,我信你。
9 天前,Anthropic 修改了 RSP,使 ASL-3 不再要求對試圖竊取模型權重的員工具備足夠的防禦能力(只要該員工能存取「處理模型權重的系統」即可豁免)。這可能大幅降低了所要求的安全等級。
這是關於 Anthropic RSP 最後一刻重大改動的深思熟慮討論——他們很可能已經擁有 ASL-3 模型,卻發現自己沒有足夠的緩解措施來達到原定標準。令人遺憾的是,這些修改是在威脅模型的基礎上完成的。
炒作指數
行動建議
追蹤 Anthropic 未來每季發布的「前沿安全路線圖」,評估其透明度與可執行性是否真正優於廢除的 RSP,作為持續評估供應商安全承諾的依據。
觀察其他 AI 實驗室(OpenAI、Google DeepMind)是否跟進廢除或弱化類似安全承諾,判斷產業自我監管是否正全面潰退,以及外部監管立法是否提速。
若你的組織使用 Anthropic API,建立獨立的供應商風險評估流程,不再完全依賴廠商的安全承諾,而是自行追蹤模型行為變化並制定多供應商備援策略。