重點摘要
OpenAI 用「接近旗艦性能」與「2 倍速度」重新定義小型模型——但 3-4 倍的漲價讓開發者必須在能力與成本間做出艱難抉擇
GPT-5.4 mini 在 SWE-Bench Pro 達 54.4%、OSWorld 達 72.1%,僅落後完整版 3 個百分點,執行速度快 2 倍以上;nano 則以最小規模支撐子代理工作負載
mini 定價 $0.75/$4.50(輸入/輸出每百萬 tokens),較前代漲 3 倍;nano 為 $0.20/$1.25,漲 4 倍——快取輸入提供 90% 折扣緩解重複查詢成本
nano 可用 $52 處理 76,000 張圖片描述,成為視覺任務成本領導者;mini 則定位為多代理系統的主力子代理,取代需要深度推理但不需旗艦級能力的場景
前情提要
OpenAI 於 2026 年 3 月 17 日發布 GPT-5.4 mini 與 GPT-5.4 nano,延續其「小型模型接近旗艦性能」的產品策略。
mini 在軟體工程基準 SWE-Bench Pro 達 54.4%,僅落後完整版 GPT-5.4 的 57.7% 約 3.3 個百分點;在電腦操作基準 OSWorld-Verified 達 72.1%,落後完整版的 75.0% 約 2.9 個百分點。
執行速度比前代 GPT-5 mini 快 2 倍以上,這種「速度與能力的平衡」讓 mini 成為生產環境的首選。nano 則更激進地削減規模,在 SWE-Bench Pro 達 52.4%、OSWorld 達 39.0%,將目標鎖定在「能跑就好」的子代理場景。
然而定價策略大幅調整:mini 為 $0.75/$4.50(輸入/輸出,每百萬 tokens),較前代漲價 3 倍與 2.25 倍;nano 為 $0.20/$1.25,較前代漲價 4 倍與 3.125 倍。
章節一:GPT-5.4 mini 與 nano 的規格與產品定位
GPT-5.4 mini 在 SWE-Bench Pro 僅落後完整版 3.3 個百分點,在 OSWorld-Verified 落後 2.9 個百分點,但執行速度快 2 倍以上。
這種「速度與能力的平衡」讓 mini 成為生產環境的首選:當開發者不需要完整版的極致推理能力,但又不能接受前代小型模型在編碼與工具使用上的妥協時,mini 填補了這個市場空缺。
nano 則更激進地削減規模,將目標鎖定在「能跑就好」的子代理場景:分類、資料提取、排序等不需深度推理的任務,以最小的成本支撐大規模並發工作負載。OpenAI 明確推薦 nano 用於「簡單支援任務的編碼子代理」 (coding subagents that handle simpler supporting tasks) ,顯示其產品策略已從「單一模型解決所有問題」轉向「多層級模型組合」。
名詞解釋
SWE-Bench Pro 是軟體工程基準測試,評估模型解決真實 GitHub issue 與程式碼修復的能力;OSWorld-Verified 則是電腦操作基準,測試模型執行作業系統層級任務(如檔案管理、應用程式控制)的表現。
章節二:編碼、工具使用與多模態推理的優化策略
OpenAI 強調 GPT-5.4 mini「顯著超越」前代的四大面向——編碼、推理、多模態理解、工具使用——恰好對應現代 AI 應用的核心需求。
軟體工程基準 SWE-Bench Pro 驗證編碼能力,OSWorld-Verified 檢驗工具操作與電腦控制,而 Simon Willison 的視覺描述實測則證明多模態理解的實用性。Simon Willison 以 GPT-5.4 nano 處理博物館照片描述,消耗 2,751 輸入 tokens 與 112 輸出 tokens,成本約 0.069 美分(不到十分之一美分)。
推算處理 76,000 張圖片集合約需 $52.44,這種成本效益在 GPT-5 時代難以想像。nano 在 SWE-Bench Pro 達 52.4%,雖不及 mini 與完整版,但相較前代 GPT-5 nano 仍是「significant upgrade」。
顯示 OpenAI 在小型模型上的架構優化已滲透到最底層:即使是最小規模的 nano,也能在編碼子代理任務中達到實用水準。
章節三:高量級 API 與子代理工作負載的實戰場景
OpenAI 在官方公告中明確將「high-volume API and sub-agent workloads」列為核心優化目標,nano 的定價策略 ($0.20/$1.25) 與「coding subagents that handle simpler supporting tasks」的推薦用途,直指多代理系統 (multi-agent systems) 的經濟瓶頸。
當主代理需要數十個子代理並發執行簡單任務(如程式碼檢查、資料提取、分類標籤),nano 的低成本與快速回應成為關鍵。Simon Willison 的 76,000 張圖片案例 ($52.44) 更具象化「大規模批次處理」的實戰經濟效益。
在多代理架構中,主代理通常負責規劃與協調,而子代理處理具體執行——nano 恰好滿足「不需深度推理但需要大量並發」的子代理場景。例如在程式碼審查工作流程中,主代理(可能是 GPT-5.4 或 Claude Opus)負責理解需求與架構決策,而數十個 nano 子代理並發檢查程式碼風格、提取文件註解、分類 issue 標籤。
OpenAI 提供的快取輸入 90% 折扣進一步優化這種場景:當子代理重複處理相似結構的輸入(如相同的程式碼檢查規則),快取機制大幅降低成本。
名詞解釋
多代理系統 (multi-agent systems) 是指由多個 AI 代理協同完成複雜任務的架構,通常包含一個主代理負責規劃,以及多個子代理負責具體執行。
章節四:輕量模型競賽:與 Claude Haiku、Gemini Flash 的橫向比較
在 2026 年 3 月的小型模型市場,三家廠商的定價策略呈現明顯分化:Claude Haiku 4.5($1/$5) 維持「速度與編碼任務」的中階定位,Gemini 3.1 Flash-Lite($0.25/$1.50) 以極低價格攻佔高量級場景,而 GPT-5.4 nano($0.20/$1.25) 則在輸入成本上略勝 Gemini,成為「視覺任務的成本領導者」。
然而,GPT-5.4 mini 的價格策略 ($0.75/$4.50) 相較前代漲幅高達 3 倍,雖然性能接近完整版 GPT-5.4,但已與 Claude Haiku 4.5 拉開差距。OpenAI 的賭注在於「接近旗艦性能」的溢價是否能說服開發者放棄更便宜的競品。
The Decoder 分析指出,雖然價格上漲「up to 4x pricier」,但「GPT-5.4 mini nearly matches the full model's performance」,在電腦控制任務從 GPT-5 mini 的 42.0% 跳升至 72.1%,代表「substantial capability improvements」。快取輸入的 90% 折扣是三家共通的優化手段,但在基礎定價已分化的前提下,開發者將依「任務複雜度 vs. 成本敏感度」選邊站。
對於需要深度編碼能力與工具使用的場景,mini 的溢價可能合理;但對於純粹的高量級批次處理,Gemini Flash-Lite 或 nano 更具吸引力。
核心技術深挖
OpenAI 此次發布的 GPT-5.4 mini 與 nano 延續其「小型模型接近旗艦性能」的技術路線,透過三大機制實現「速度與能力的平衡」。
這種平衡讓 mini 在 SWE-Bench Pro 僅落後完整版 3.3 個百分點,執行速度卻快 2 倍以上,成為生產環境的首選;nano 則以最小規模支撐子代理工作負載,在成本敏感場景提供實用性能。
機制 1:架構縮減與推理優化
GPT-5.4 mini 與 nano 透過「選擇性參數保留」與「推理路徑簡化」實現小型化。
mini 在 SWE-Bench Pro 達 54.4%(vs. 完整版 57.7%),在 OSWorld-Verified 達 72.1%(vs. 完整版 75.0%),顯示其保留了完整版約 94% 的軟體工程能力與 96% 的電腦操作能力。nano 則進一步削減至 SWE-Bench Pro 52.4%、OSWorld 39.0%,犧牲深度推理換取極致成本效益。
OpenAI 強調 mini「顯著超越」前代 GPT-5 mini 的四大面向(編碼、推理、多模態理解、工具使用),暗示其架構優化不僅是參數縮減,更包含推理效率的提升。
機制 2:多模態整合與工具使用
GPT-5.4 mini 與 nano 在多模態理解上的優化,讓視覺任務成為其核心賣點之一。
Simon Willison 實測 nano 處理博物館照片描述,單張照片消耗約 0.069 美分(不到十分之一美分),推算處理 76,000 張圖片集合約需 $52.44。這種成本效益讓 nano 成為「視覺任務的成本領導者」 (cost-leader for vision-based tasks) ,價格低於 Google Gemini 3.1 Flash-Lite($0.25/$1.50 per MTok) 。
工具使用能力則體現在 OSWorld-Verified 基準:mini 達 72.1%,相較前代 GPT-5 mini 的 42.0% 大幅提升 30.1 個百分點,顯示其在電腦操作與工具調用上的架構改進。
機制 3:快取輸入折扣機制
OpenAI 為所有三個等級(完整版、mini、nano)提供快取輸入 90% 折扣,大幅優化重複查詢的經濟效益。
在多代理系統中,子代理通常重複處理相似結構的輸入(如相同的程式碼檢查規則、相同的資料提取模板),快取機制讓輸入成本從 $0.20(nano) 降至 $0.02,從 $0.75(mini) 降至 $0.075。這種折扣在高量級 API 工作負載中尤為關鍵:當處理數十萬次請求時,快取可節省高達 90% 的輸入成本。
然而快取機制要求輸入結構高度一致,對於動態生成的 prompt 或每次請求差異大的場景,折扣效果有限。
白話比喻
想像你要複製一份很長的文件給很多人看。傳統方式是每次都重新列印整份文件,成本很高。快取輸入折扣就像「影印機」:第一次列印需要全額成本,但後續只要複印就好,成本降到原本的 10%。但前提是你要複印的「版本」必須完全一樣——如果每次都改一點內容,就得重新列印。
工程視角
環境需求
GPT-5.4 mini 與 nano 透過 OpenAI API 提供,支援所有標準 SDK(Python、Node.js、Go、Ruby)。
mini 已向 ChatGPT 免費用戶開放(透過「Thinking」功能)、API 與 Codex 可用;nano 僅透過 API 提供。開發者需要 OpenAI API key(免費帳號有速率限制,付費帳號依用量計費)。
快取輸入功能需要在 API 請求中明確啟用(參數 cache: true),且輸入結構必須高度一致才能享受 90% 折扣。多代理系統建議使用 LangChain 或 AutoGen 等框架管理子代理調度與快取策略。
最小 PoC
from openai import OpenAI
client = OpenAI(api_key="your-api-key")
# GPT-5.4 mini 範例:程式碼審查子代理
response = client.chat.completions.create(
model="gpt-5.4-mini",
messages=[
{"role": "system", "content": "你是程式碼審查子代理,檢查 Python 程式碼風格與常見錯誤。"},
{"role": "user", "content": "請審查以下程式碼:\n\ndef calc(x,y):\n return x+y"}
],
cache=True # 啟用快取輸入折扣
)
print(response.choices[0].message.content)
# GPT-5.4 nano 範例:圖片描述批次處理
response = client.chat.completions.create(
model="gpt-5.4-nano",
messages=[
{"role": "user", "content": [
{"type": "text", "text": "請用一句話描述這張圖片的主要內容。"},
{"type": "image_url", "image_url": {"url": "https://example.com/photo.jpg"}}
]}
]
)
print(response.choices[0].message.content)
驗測規劃
建立基準測試集,比較 mini/nano 與完整版 GPT-5.4 在實際工作負載的表現。
測試面向包括:
- 準確率(程式碼審查的誤報率、圖片描述的相關性)
- 回應時間(P50/P95/P99 延遲)
- 成本(每千次請求的總費用,含快取折扣)
建議在 staging 環境先跑 1,000-10,000 次請求,記錄 token 用量與快取命中率。
快取測試需要確認輸入結構一致性:若 prompt 模板每次微調,快取命中率會大幅下降。
常見陷阱
- 過度依賴 nano 的深度推理能力:nano 在 SWE-Bench Pro 僅 52.4%,不適合複雜的架構決策或演算法優化,應限縮於簡單子代理任務
- 快取策略設計不當:若 prompt 每次都動態生成(如包含時間戳、隨機 ID),快取折扣無法生效;應將靜態部分(系統指令、規則)與動態部分(具體輸入)分離
- 成本估算失準:未考慮輸出 token 成本——mini 輸出為 $4.50/MTok(是輸入的 6 倍),若輸出較長(如程式碼生成),總成本可能高於預期
- 忽略速率限制:免費帳號的 API 速率限制可能阻礙高量級工作負載,需升級至付費方案或使用 batch API
上線檢核清單
- 觀測:API 延遲 (P95/P99) 、快取命中率、token 用量(輸入/輸出分別追蹤)、錯誤率 (4xx/5xx) 、成本趨勢(每日/每週)
- 成本:設定預算上限(OpenAI Dashboard 可設定月度預算警報)、監控單次請求成本異常(如輸出 token 暴增)、定期檢視快取效益(實際節省 vs. 預期 90%)
- 風險:建立 fallback 機制(mini 失敗時降級至 nano 或升級至完整版)、處理速率限制(實作 exponential backoff 與重試邏輯)、防範 prompt injection(尤其在處理使用者上傳的圖片或程式碼時)、定期檢視 OpenAI 服務狀態(訂閱 status.openai.com)
商業視角
競爭版圖
- 直接競品:Claude Haiku 4.5($1/$5,速度與編碼任務中階定位)、Google Gemini 3.1 Flash-Lite($0.25/$1.50,極低價格攻佔高量級場景)、Mistral Small(歐洲市場替代方案)
- 間接競品:開源小型模型(Llama 4 8B、Qwen 2.5 7B,可本地部署但需自建基礎設施)、專用 API(如 Replicate、Hugging Face Inference API,提供開源模型託管)
護城河類型
- 工程護城河:GPT-5.4 mini 在 SWE-Bench Pro 與 OSWorld-Verified 的領先優勢(54.4% 與 72.1%),顯示 OpenAI 在「小型模型保留旗艦能力」的架構優化上仍領先競品;快取輸入 90% 折扣機制需要後端基礎設施支撐,非所有競品都能提供
- 生態護城河:OpenAI API 的開發者生態系(LangChain、AutoGen、大量教學資源)、ChatGPT 整合(免費用戶可透過「Thinking」功能使用 mini)、Codex 整合(GitHub Copilot 等工具的底層支撐)
定價策略
OpenAI 此次採取「能力溢價」策略:mini 價格 ($0.75/$4.50) 較前代漲 3 倍,nano($0.20/$1.25) 漲 4 倍,賭注在於「接近旗艦性能」的價值主張。
相較競品,mini 比 Claude Haiku 4.5 便宜 25%(輸入)與 10%(輸出),但比 Gemini Flash-Lite 貴 3 倍(輸入)與 2 倍(輸出)。nano 則在輸入成本上略勝 Gemini Flash-Lite,成為視覺任務的成本領導者。
快取輸入 90% 折扣是關鍵差異化:在高量級重複查詢場景,OpenAI 的實際成本可能低於表面定價。然而這要求開發者重構 prompt 設計以最大化快取命中率,提高遷移門檻。
企業導入阻力
- 成本不確定性:漲價 3-4 倍讓既有使用者面臨預算重新評估,尤其在輸出 token 較多的場景(如程式碼生成),成本可能倍增
- 快取依賴性:若要享受 90% 折扣,需重構 prompt 設計與工作流程,對既有系統改動較大
- 供應商鎖定:OpenAI 專有 API 與 SDK,遷移至其他廠商需重寫整合邏輯;相較之下開源模型或標準化 API(如 Hugging Face)遷移成本較低
- 合規要求:部分企業要求本地部署或資料主權,OpenAI 雲端 API 無法滿足(需考慮 Azure OpenAI Service 或開源替代方案)
第二序影響
- 多代理系統普及化:nano 的低成本讓「主代理 + 數十個子代理」的架構變得經濟可行,可能加速 AutoGen、LangGraph 等多代理框架的採用
- 視覺應用爆發:$52 處理 76,000 張圖片的成本效益,讓博物館數位化、電商圖片標註、監控影片分析等大規模視覺任務從「太貴不可行」變為「划算可推進」
- 小型模型市場重新洗牌:OpenAI 漲價 3-4 倍可能倒逼 Anthropic 與 Google 跟進調整定價,或反向壓低價格搶佔市占率;開源小型模型(如 Llama 4 8B)的成本優勢更加明顯
- API 優先 vs. 本地部署的分野:對成本敏感但量級不大的團隊,OpenAI API 仍具吸引力;但對超高量級場景(每日數百萬次請求),開源模型本地部署的邊際成本優勢可能超越 API
判決能力溢價成立,但市場將分化(OpenAI 賭對了技術領先,但價格敏感客戶會出走)
GPT-5.4 mini 在 SWE-Bench Pro 與 OSWorld-Verified 接近完整版的表現,證明「小型模型也能逼近旗艦能力」的技術可行性,這是 OpenAI 核心競爭力的延伸。
然而 3-4 倍的漲價策略將市場推向分化:願意為「接近旗艦性能」付溢價的企業(如需要深度編碼能力的開發工具、需要高準確率的客服系統)會留在 OpenAI 生態系;但純粹追求「夠用就好」的高量級場景(如內容審核、資料分類)會出走至 Gemini Flash-Lite 或開源模型。nano 的視覺任務成本領導地位可能吸引新客群(如博物館、電商),但能否抵銷既有客戶的流失,仍需觀察 Q2 財報與市占率數據。
數據與對比
SWE-Bench Pro 軟體工程基準
GPT-5.4 mini 在 SWE-Bench Pro 達 54.4%,僅落後完整版 GPT-5.4 的 57.7% 約 3.3 個百分點。
這個基準測試評估模型解決真實 GitHub issue 與程式碼修復的能力,是軟體工程應用的關鍵指標。nano 則達 52.4%,雖低於 mini,但相較前代小型模型仍是顯著提升。
這個數據顯示 nano 在「簡單支援任務的編碼子代理」場景中具備實用性能,不需要完整版的深度推理能力也能完成程式碼檢查、資料提取等任務。
OSWorld-Verified 電腦操作基準
GPT-5.4 mini 在 OSWorld-Verified 達 72.1%,相較完整版 GPT-5.4 的 75.0% 落後 2.9 個百分點,但相較前代 GPT-5 mini 的 42.0% 大幅提升 30.1 個百分點。
這個基準測試評估模型執行作業系統層級任務(如檔案管理、應用程式控制)的表現,是工具使用能力的關鍵指標。nano 在 OSWorld 達 39.0%,雖低於 mini,但在特定子代理場景(如檔案分類、資料提取)仍具實用價值。
The Decoder 分析指出,mini 在電腦控制任務從前代的 42.0% 跳升至 72.1%,代表「substantial capability improvements」。
視覺任務成本效益
Simon Willison 實測 GPT-5.4 nano 處理博物館照片描述,消耗 2,751 輸入 tokens 與 112 輸出 tokens,成本約 0.069 美分(不到十分之一美分)。
推算處理 76,000 張圖片集合約需 $52.44,相較於前代小型模型動輒數百美元的成本,nano 在視覺任務上的成本效益達到新高度。nano 價格 ($0.20/$1.25) 低於 Google Gemini 3.1 Flash-Lite($0.25/$1.50 per MTok) ,成為「視覺任務的成本領導者」。
這個實測案例展示 nano 在大規模批次處理場景的實戰經濟效益:當需要處理數萬張圖片、影片幀或文件頁面時,nano 的低成本讓原本不可行的應用變得可行。
最佳 vs 最差場景
推薦用
- 多代理系統中的子代理工作負載(程式碼檢查、資料提取、分類標籤)
- 大規模批次處理視覺任務(圖片描述、OCR、影片幀分析)
- 高量級 API 應用(客服機器人、內容審核、資料轉換)
- 編碼輔助工具的即時回應場景(程式碼補全、錯誤檢查、文件生成)
- 重複查詢場景搭配快取輸入折扣(固定模板的資料提取、相同規則的驗證)
千萬別用
- 需要深度推理與複雜規劃的任務(架構設計、演算法優化)——應使用完整版 GPT-5.4 或 Claude Opus
- 低頻次、高複雜度的查詢(每次輸入差異大,無法利用快取折扣)
- 成本敏感但不需要 OpenAI 特定能力的場景——Gemini Flash-Lite 或開源模型更具競爭力
- 需要最新知識的任務——mini 與 nano 的知識截止日期與完整版相同,但推理能力較弱可能影響知識整合
唱反調
漲價 3-4 倍的策略可能讓既有客戶出走至 Gemini Flash-Lite 或開源模型——尤其在「夠用就好」的高量級場景,開發者不會為「接近旗艦性能」的邊際提升付出雙倍成本
快取輸入 90% 折扣雖然誘人,但要求 prompt 結構高度一致——對於動態生成 prompt 的應用(如客製化客服、個人化推薦),快取命中率可能低於預期,實際成本節省遠不及理論值
社群風向
今天 GPT-5.4 mini 與 nano 發布的筆記與鵜鶘——nano 模型看起來可以用 $52 總成本描述我 76,000 張照片庫中的每張圖片
我一直在努力尋找一個價格合理的模型來用於我的玩具 openclaw 實例。Opus 4.6 感覺有點神奇,但太貴了,我不想冒險用我的 max 訂閱。GPT 5.4 mini 是第一個既負擔得起又不錯的替代方案。印象深刻。在 $20 codex 方案下,我覺得我已經準備好了,對我來說價值是存在的。
值得注意的是,所有這些精挑細選的基準測試讓 Claude 看起來很糟糕
OpenAI 發布 GPT-5.4 mini 與 nano,其「迄今最強大的小型模型」
啊好的抱歉,我理解錯了。但是的,我再次檢查了一個案例,我確實明確設定了參數(預設為 medium effort)。但沒有運氣。感覺模型忽略了我告訴它的內容。例如,我傳遞給它一個資料庫集合列表和搜尋它們的工具,問一個顯然可以用它們回答的問題,它卻回應「我還無法從你目前的記錄中判斷」(剛用 GPT 5.4-mini 測試)。
炒作指數
行動建議
實測 GPT-5.4 nano 處理你的視覺任務(圖片描述、OCR、影片幀分析),計算實際成本與 Gemini Flash-Lite 的差異,驗證「視覺任務成本領導者」的宣稱
用 GPT-5.4 mini 重構現有的子代理工作流程(程式碼審查、資料提取、分類標籤),測試快取輸入折扣在實際工作負載的節省效益,並與 Claude Haiku 4.5 做 A/B 測試
追蹤 Anthropic 與 Google 在 Q2 的定價回應策略——OpenAI 漲價 3-4 倍可能觸發競品降價搶市,或反向跟進漲價;同時觀察開源小型模型(Llama 4 8B、Qwen 2.5 7B)的性能演進與託管方案成熟度