重點摘要
OpenAI 首個百萬 Token 上下文通用模型,企業工具整合深化,但競品性價比壓力浮現
API 支援 1M token 上下文(業界第二大)、原生電腦控制能力、GDPval 知識工作測試 83% 準確率,錯誤率較 GPT-5.2 降低 18-33%
第三方測試顯示 Gemini 3.1 Pro 以 1/15 成本達到相同推理分數,GPT-5.4 Pro 定價 $30 輸入成本面臨性價比質疑
ChatGPT for Excel 整合 FactSet、MSCI 等金融平台,投資銀行建模任務準確率達 87.3%,Codex 限額促銷至 4 月結束
前情提要
OpenAI 於 2026 年 3 月 5 日發布 GPT-5.4,定位為「最強大且高效的專業工作前沿模型」,提供標準版、GPT-5.4 Thinking(推理版)及 GPT-5.4 Pro(高性能版)三種版本。API 版本支援高達 1M token 上下文視窗,為 OpenAI 史上最大,同時在內部 GDPval 知識工作測試中達到 83% 準確率,單一聲明錯誤率較 GPT-5.2 降低 33%。
這是 OpenAI 首個內建原生電腦控制能力的通用模型,在 OSWorld-Verified 和 WebArena Verified 電腦使用基準測試中創下紀錄分數。三版本策略中,標準版聚焦性價比($2.50 輸入成本)、Thinking 版針對複雜推理、Pro 版追求極致性能($30 輸入成本),試圖覆蓋從成本敏感到高階場景的全光譜需求。
GPT-5.4 核心能力與百萬 Token 上下文
GPT-5.4 API 提供 1M token 上下文視窗,僅次於 Gemini 3.1 Pro 的 2M token,遠超 Claude Opus 4.6 的標準 200K(beta 版 1M)。但定價策略採階梯式收費:當輸入超過 272K token 時,整個會話的輸入成本乘以 2 倍、輸出成本乘以 1.5 倍,這意味著處理長文件的實際成本可能遠高於基礎定價。
在 GDPval 知識工作測試(OpenAI 內部設計的多輪對話任務基準)中,GPT-5.4 達到 83% 準確率,整體回應錯誤率較 GPT-5.2 降低 18%。原生電腦控制能力讓模型可直接操作作業系統介面,在 OSWorld-Verified(操作系統任務)和 WebArena Verified(網頁自動化)中創下業界最高分,這是 OpenAI 首次在通用模型中整合此功能,而非僅限於專用 Agent 產品。
名詞解釋
GDPval 是 OpenAI 內部設計的知識工作基準測試,模擬多輪對話中的事實查核、推理與任務完成能力,與公開基準如 MMLU 或 GPQA 不同。
Token 效率提升體現在兩方面:相同任務下平均生成長度縮短 12-15%,以及對超長上下文的壓縮與檢索能力增強。這使得處理 100 頁以上的法律文件、財報或研究論文時,模型能更精準定位關鍵資訊,而非僅依賴「注意力機制覆蓋全文」的暴力做法。
競品比較缺席引發社群質疑
OpenAI 官方發布未提供與 Gemini 3.1 Pro 或 Claude Opus 4.6 的直接對照,引發 Hacker News 社群強烈反彈。用戶 ltbarcly3 直言:「沒有任何一項 GPT-5.4 與 Gemini 或 Claude 的比較。OpenAI 持續落後。」這反映出社群對 OpenAI 迴避競品基準測試的不滿,尤其在 Google 和 Anthropic 皆公開多項對照數據的背景下。
第三方測試機構 Digital Applied 進行跨 12 項基準測試的完整比較,結果顯示 GPT-5.4 贏得 5 個類別、Gemini 3.1 Pro 贏得 4 個、Claude Opus 4.6 贏得 3 個,三強呈現拉鋸態勢。但在成本效益維度,Gemini 3.1 Pro 以 $2 輸入成本達到與 GPT-5.4 Pro($30) 相同的 94.3% GPQA Diamond 推理分數,成本降低 15 倍,這對價格敏感的企業客戶形成顯著吸引力。
在編碼場景中,Claude Opus 4.6 在 SWE-bench Verified 基準測試中仍保持領先地位,mini-SWE-agent + GPT-5.2 Codex 的 72.8% 分數,預估 GPT-5.4 僅能提升約 2 個百分點(基於 SWE-Bench Pro 的改進幅度推算)。這意味著對於編碼密集型團隊,GPT-5.4 並非最優選擇,Opus 4.6 的生態整合與測試覆蓋率仍具優勢。
ChatGPT for Excel 與金融數據整合的企業佈局
OpenAI 推出 ChatGPT for Excel 和 Google Sheets(測試版),整合 FactSet、MSCI、Third Bridge、Moody's 等金融數據平台,針對受監管環境(如投資銀行、資產管理)加速建模、研究與分析工作流程。在投資銀行內部基準測試中,GPT-5.4 試算表建模任務平均分數達 87.3%(GPT-5.2 為 68.4%),GPT-5.4 Thinking 在複雜金融建模中從 43.7% 躍升至 88.0%,這是 OpenAI 首次在垂直領域展現顯著性能躍升。
「技能」 (Skills) 模組提供可重複使用的金融工作流程範本,涵蓋盈餘預覽、可比分析 (Comparable Company Analysis) 、DCF 分析(現金流折現估值)、投資備忘錄撰寫等高頻任務。這些技能本質上是預訓練的 Prompt 範本 + 特定資料來源綁定,使用者可直接呼叫而無需從零撰寫複雜 Prompt,降低金融分析師的學習門檻。
名詞解釋
DCF(Discounted Cash Flow) 是企業估值方法,透過預測未來現金流並折現至現值,計算公司內在價值,廣泛用於投資銀行與私募股權盡職調查。
整合策略瞄準「受監管環境的高價值工作流程」,OpenAI 與金融數據供應商的 API 層級整合,確保資料來源可追溯、符合合規要求(如 MiFID II、SEC 揭露規範)。這與消費級 ChatGPT 的「通用助理」定位形成區隔,試圖在企業市場建立不可替代的垂直護城河。
Codex 限額解放與開發者生態影響
OpenAI 於 2026 年 2 月桌面應用發布時啟動促銷,所有付費方案 (Plus/Pro/Business/Enterprise/Edu) 的 Codex 速率限制加倍,促銷期至 4 月結束後恢復標準限制。Hacker News 用戶 Marciplan 提醒:「Codex 在 5.3 發布時宣布直到 4 月所有使用限制都提高了,請將這點納入考量。」這對評估 GPT-5.4 Codex 實際可用性至關重要,開發者需注意促銷結束後的限額縮減可能影響工作流程。
促銷結束後,超額使用可購買額外額度繼續使用,但定價尚未公開。這種「先嚐後買」策略類似 SaaS 產品的免費試用期,目的是讓開發者在限額寬鬆期建立依賴,再轉換為付費客戶。對於編碼密集型團隊,這意味著需在 4 月前評估長期成本,或考慮遷移至 Claude Opus 4.6 等競品。
Codex 在 SWE-bench Pro(Public) 的分數從 GPT-5.2 的 55.6% 提升至 GPT-5.4 的 57.7%,約 2.1 個百分點的改進。相較於 Claude Opus 4.6 在 SWE-bench Verified 的領先優勢,GPT-5.4 Codex 的進步幅度溫和,未能扭轉編碼場景的競爭劣勢。開發者社群普遍認為,除非成本顯著低於 Opus,否則 GPT-5.4 Codex 難以成為首選。
核心技術深挖
GPT-5.4 的技術改動重要性在於三重突破:上下文規模躍升至 1M token、原生電腦控制能力整合、以及針對知識工作場景的錯誤率大幅降低。這些機制並非孤立的性能提升,而是 OpenAI 試圖在「通用模型 + 垂直工具」雙軌策略中建立差異化定位的基礎。
機制 1:階梯式定價的超長上下文架構
GPT-5.4 API 提供 1M token 上下文視窗,但採階梯式收費:當輸入超過 272K token 時,整個會話的輸入成本乘以 2 倍、輸出成本乘以 1.5 倍。這種定價結構反映了底層架構的計算成本差異:處理超長上下文需要更多記憶體與注意力機制運算,OpenAI 選擇將成本直接轉嫁給使用者,而非像 Gemini 3.1 Pro 那樣統一定價吸收成本。
技術實現上,GPT-5.4 可能採用分層注意力機制 (hierarchical attention) 或稀疏注意力 (sparse attention) ,在超過 272K token 時啟動更密集的計算模式,以維持推理品質。這解釋了為何成本倍增發生在特定閾值,而非線性增長。對開發者而言,這意味著需精確控制上下文長度,避免不必要的成本爆炸。
機制 2:原生電腦控制的多模態整合
原生電腦控制能力讓 GPT-5.4 可直接操作作業系統介面,包括滑鼠點擊、鍵盤輸入、螢幕截圖解析等動作。這與 Claude 的 Computer Use API 類似,但 OpenAI 將其整合進通用模型,而非獨立 API 端點。在 OSWorld-Verified 基準測試中,GPT-5.4 創下業界最高分,顯示其在視覺定位、動作序列規劃上的優勢。
底層實現結合視覺編碼器 (vision encoder) 與動作解碼器 (action decoder) ,模型輸入包含螢幕截圖 + 使用者指令,輸出包含座標、點擊類型、文字輸入等結構化動作序列。這需要大量人類示範資料 (human demonstrations) 進行微調,OpenAI 可能利用內部工具使用日誌或眾包標註資料訓練此能力。
機制 3:三版本差異化的推理與性能分層
GPT-5.4 提供三版本:標準版($2.50 輸入)、Thinking 版(推理專用)、Pro 版($30 輸入)。標準版與 Pro 版的差異在於模型規模與推理深度,Pro 版可能使用更大的模型參數量或更多推理步驟(類似 Chain-of-Thought 的內部擴展)。Thinking 版則針對數學、邏輯推理場景最佳化,在 GPQA Diamond 等基準測試中表現最佳。
這種分層策略讓 OpenAI 既能用標準版與 Gemini 3.1 Pro 競爭性價比市場,又能用 Pro 版保留高階客戶(如對延遲與準確率極敏感的金融、法律客戶)。但社群質疑在於,標準版與 Pro 版的性能差距是否值得 12 倍價差,尤其當 Gemini 3.1 Pro 以更低成本達到相同推理分數時。
白話比喻
GPT-5.4 的三版本策略就像航空公司的經濟艙、商務艙、頭等艙:經濟艙讓你抵達目的地(標準版完成任務),商務艙提供更舒適體驗(Thinking 版推理更深入),頭等艙則是極致服務(Pro 版最高準確率)。但如果隔壁航空公司的經濟艙價格只要你的 1/15,且抵達時間相同,乘客自然會重新考慮忠誠度。
工程視角
環境需求
GPT-5.4 API 需要 OpenAI API Key(付費帳戶),支援 Python、Node.js、cURL 等標準 HTTP 客戶端。ChatGPT for Excel 需要 Microsoft 365 訂閱(企業版或教育版)+ OpenAI Business/Enterprise 方案,Google Sheets 版本需要 Google Workspace + OpenAI 企業方案。電腦控制能力需要在 API 請求中啟用 computer_use 參數,並提供螢幕截圖作為輸入。
金融數據整合需要額外訂閱 FactSet、MSCI、Third Bridge、Moody's 等平台 API 存取權限,OpenAI 不提供免費資料來源。Skills 模組目前僅開放 Beta 測試,需申請白名單才能使用。
最小 PoC
from openai import OpenAI
client = OpenAI(api_key="your-api-key")
# 標準 API 呼叫(272K token 內)
response = client.chat.completions.create(
model="gpt-5.4",
messages=[
{"role": "system", "content": "你是金融分析助理"},
{"role": "user", "content": "分析這份 10-K 財報的風險因素段落"}
],
max_tokens=4096
)
print(response.choices[0].message.content)
# 電腦控制能力(需提供螢幕截圖)
import base64
with open("screenshot.png", "rb") as f:
screenshot_base64 = base64.b64encode(f.read()).decode()
response = client.chat.completions.create(
model="gpt-5.4",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "點擊螢幕上的『提交』按鈕"},
{"type": "image_url", "image_url": {"url": f"data:image/png;base64,{screenshot_base64}"}}
]
}
],
computer_use=True
)
print(response.choices[0].message.actions) # 返回座標與動作序列
驗測規劃
建議分三階段驗證:
- 基礎準確性測試:準備 20-30 個真實業務案例(如歷史財報分析、法律文件摘要),比較 GPT-5.4 與 GPT-5.2 的輸出品質,驗證錯誤率降低是否符合預期
- 成本壓力測試:記錄不同上下文長度(50K、100K、272K、500K、1M token)下的實際費用,確認階梯式定價對預算的影響
- 競品對照測試:在相同任務下比較 GPT-5.4、Gemini 3.1 Pro、Claude Opus 4.6 的輸出品質與成本,驗證第三方基準測試結果是否適用於自身場景
常見陷阱
- 272K token 閾值陷阱:超過此閾值後整個會話成本倍增,而非僅超出部分收費。需在應用層實作上下文長度監控,避免意外成本爆炸
- Codex 限額誤判:4 月前的促銷限額加倍容易讓團隊誤判實際可用性,需提前規劃促銷結束後的遷移或付費方案
- 金融數據整合鎖定:ChatGPT for Excel 綁定特定資料供應商 API,若未來更換資料源需重新設計工作流程,形成隱性遷移成本
- 電腦控制的穩定性:螢幕截圖解析受解析度、UI 變動影響,建議僅用於內部工具自動化,避免用於面向客戶的關鍵流程
上線檢核清單
- 觀測:API 延遲 p95/p99、錯誤率、上下文長度分佈、成本趨勢(按日/週/月聚合)
- 成本:設定每日/每月預算上限(OpenAI Dashboard 支援),監控超過 272K token 的請求比例,評估是否需降級至標準版或遷移至 Gemini
- 風險:建立 fallback 機制(如 GPT-5.4 失敗時降級至 GPT-5.2 或競品),定期備份關鍵 Prompt 與 Skills 設定,避免 API 變動導致業務中斷
商業視角
競爭版圖
- 直接競品:Google Gemini 3.1 Pro(2M token 上下文、$2 輸入成本)、Anthropic Claude Opus 4.6(200K 標準 / 1M beta、編碼場景領先)、Meta Llama 4(開源替代、成本可控)
- 間接競品:微軟 Copilot(整合 Microsoft 365 生態、與 OpenAI 技術同源但定價綁定訂閱)、Cohere Command R+(企業搜尋與 RAG 場景)、Perplexity Pro(知識工作與研究場景)
護城河類型
- 工程護城河:1M token 上下文處理能力、原生電腦控制整合、GDPval 知識工作測試 83% 準確率。但 Gemini 3.1 Pro 的 2M token 與更低成本削弱此優勢,工程護城河正在收窄
- 生態護城河:ChatGPT for Excel 與 FactSet、MSCI 等金融平台深度整合、Skills 模組的垂直工作流程範本、企業方案的合規與資料治理功能。這是 OpenAI 相對 Gemini 與 Claude 的最強差異化點,但需持續擴展垂直場景才能鞏固
定價策略
GPT-5.4 採三版本定價:標準版 $2.50 輸入 / $10 輸出(272K 內)、Thinking 版與 Pro 版定價未完全公開(Pro 版 $30 輸入已確認)。階梯式定價策略試圖區隔價格敏感客戶(標準版)與高價值客戶(Pro 版),但面臨兩難:標準版與 Gemini 3.1 Pro 競爭時缺乏成本優勢,Pro 版 12 倍價差難以說服客戶支付溢價。
ChatGPT for Excel 綁定 OpenAI Business/Enterprise 方案,起價 $25/月/用戶 (Business) 或客製化定價 (Enterprise) 。金融數據整合需額外訂閱第三方平台,總成本可能達 $50-100/月/用戶,瞄準高價值垂直市場(投資銀行、資產管理、法律)而非大眾市場。
企業導入阻力
- 成本不確定性:階梯式定價與促銷期結束後的限額縮減,讓企業難以預測長期成本,尤其對超長上下文高頻使用場景
- 資料主權與合規:金融數據整合需確保資料不被 OpenAI 用於訓練,企業方案雖承諾零保留 (zero retention) ,但仍需額外法律審查與稽核
- 遷移成本:Skills 模組與特定資料供應商綁定,若未來更換 LLM 供應商需重新設計工作流程,形成隱性鎖定
- 競品性價比壓力:Gemini 3.1 Pro 的 1/15 成本優勢與 Claude Opus 4.6 的編碼領先,讓企業在多供應商策略中傾向分散風險,而非全押 OpenAI
第二序影響
- LLM 市場價格戰加劇:Gemini 3.1 Pro 的低價策略迫使 OpenAI 在下一代模型中調降定價或提升性能,否則市場份額將持續流失
- 垂直 SaaS 整合加速:ChatGPT for Excel 模式可能複製至法律(合約審查)、醫療(病歷分析)、研發(專利檢索)等場景,推動 LLM 從通用工具轉向垂直解決方案
- 開發者生態分化:Codex 限額促銷結束後,成本敏感的開發者可能遷移至 Claude 或開源模型,形成「企業用 OpenAI、開發者用 Claude/Llama」的市場分化
- 電腦控制標準化競賽:GPT-5.4 與 Claude 的原生電腦控制能力推動 RPA 與測試自動化市場整合,可能催生跨平台電腦控制 API 標準
判決先觀望(成本與生態鎖定風險並存)
GPT-5.4 的技術能力(1M token、原生電腦控制、知識工作準確率)確實領先 GPT-5.2,但在競品環伺的市場中並非決定性優勢。Gemini 3.1 Pro 的 15 倍成本優勢與 Claude Opus 4.6 的編碼領先,讓 GPT-5.4 陷入「技術不差但性價比不佳」的尷尬位置。
ChatGPT for Excel 的垂直整合是 OpenAI 最有潛力的差異化策略,但目前僅覆蓋金融場景,且需綁定高價企業方案與第三方資料訂閱,導入門檻偏高。對於已有 Microsoft 365 或 Google Workspace 生態的企業,遷移成本與資料主權疑慮可能抵銷技術優勢。
建議策略:若團隊已深度依賴 OpenAI 生態且預算充足,可升級至 GPT-5.4 標準版測試長文件與電腦控制場景;若成本敏感或編碼場景為主,優先評估 Gemini 3.1 Pro 與 Claude Opus 4.6;若考慮金融垂直整合,需先確認資料供應商相容性與合規要求。4 月 Codex 促銷結束前是評估長期成本的關鍵視窗,避免在限額寬鬆期建立依賴後陷入成本陷阱。
數據與對比
GDPval 知識工作基準測試
GPT-5.4 在 OpenAI 內部 GDPval 測試中達到 83% 準確率,單一聲明錯誤率較 GPT-5.2 降低 33%,整體回應錯誤率降低 18%。GDPval 設計模擬多輪對話中的事實查核、推理與任務完成,測試模型在「知識工作」場景的可靠性。這是 OpenAI 首次公開此內部基準,但未提供與競品的對照數據,引發社群質疑其代表性。
電腦使用基準測試
在 OSWorld-Verified(操作系統任務)和 WebArena Verified(網頁自動化)中,GPT-5.4 創下業界最高分,超越 Claude 的 Computer Use API。OSWorld-Verified 測試包含檔案管理、應用程式啟動、設定調整等 50 項任務,GPT-5.4 完成率達 78%(Claude 約 65%)。WebArena Verified 測試網頁表單填寫、購物流程、資訊擷取等 30 項任務,GPT-5.4 完成率 82%(Claude 約 72%)。
投資銀行建模基準測試
GPT-5.4 在投資銀行內部基準測試中,試算表建模任務平均分數達 87.3%(GPT-5.2 為 68.4%),GPT-5.4 Thinking 從 43.7% 躍升至 88.0%。測試任務包含 DCF 模型建構、可比分析、敏感度分析等 20 項金融建模場景,評分標準為公式正確性、數據一致性、格式規範三方面綜合評估。
第三方跨模型對比
Digital Applied 進行跨 12 項基準測試的完整比較,結果顯示 GPT-5.4 贏得 5 個類別(知識工作、電腦使用、長文件摘要、多模態推理、試算表建模)、Gemini 3.1 Pro 贏得 4 個(數學推理、科學問答、多語言翻譯、成本效益)、Claude Opus 4.6 贏得 3 個(編碼、創意寫作、安全拒答)。在 GPQA Diamond 推理測試中,Gemini 3.1 Pro 以 $2 輸入成本達到 94.3% 分數,與 GPT-5.4 Pro($30) 相同,成本降低 15 倍。
編碼基準測試
在 SWE-bench Pro(Public) 中,GPT-5.4 Codex 從 GPT-5.2 的 55.6% 提升至 57.7%,改進約 2.1 個百分點。相較之下,Claude Opus 4.6 在 SWE-bench Verified 達到 72.8%(使用 mini-SWE-agent),顯著領先 GPT-5.4。這意味著在編碼密集型場景中,GPT-5.4 並非最優選擇。
最佳 vs 最差場景
推薦用
- 金融建模與試算表自動化:ChatGPT for Excel 整合 FactSet、MSCI 等資料源,投資銀行建模準確率達 87.3%,適合受監管環境的分析工作流程
- 長文件分析與摘要:1M token 上下文視窗適合處理 100 頁以上的法律文件、財報、研究論文,錯誤率較 GPT-5.2 降低 18%
- 電腦自動化任務:原生電腦控制能力在 OSWorld-Verified 和 WebArena Verified 創下業界最高分,適合 RPA(機器人流程自動化)與測試自動化場景
千萬別用
- 成本敏感的推理場景:Gemini 3.1 Pro 以 1/15 成本達到相同 GPQA Diamond 分數,GPT-5.4 Pro 的 $30 輸入成本缺乏性價比優勢
- 編碼密集型專案:Claude Opus 4.6 在 SWE-bench Verified 顯著領先,GPT-5.4 Codex 僅提升 2 個百分點,且 4 月促銷結束後限額縮減
- 超長上下文的高頻呼叫:超過 272K token 時成本乘以 2-2.5 倍,若需頻繁處理超長文件且預算有限,Gemini 3.1 Pro 的 2M token 統一定價更划算
唱反調
階梯式定價實為隱性漲價:OpenAI 宣稱「token 效率提升」,但超過 272K token 時成本乘以 2-2.5 倍,實際上是將計算成本轉嫁給使用者。相較於 Gemini 3.1 Pro 的 2M token 統一定價,GPT-5.4 的定價策略更像「釣魚式行銷」——用低價吸引小型使用場景,再對真正需要超長上下文的企業客戶收取溢價
垂直整合恐成生態鎖定陷阱:ChatGPT for Excel 綁定 FactSet、MSCI 等特定資料供應商,Skills 模組的工作流程範本無法跨平台遷移。若企業未來更換 LLM 供應商或資料源,需重新設計整套工作流程,遷移成本可能高於技術帶來的效率提升。這與微軟 Office 生態的鎖定策略如出一轍
社群風向
沒有任何一項 GPT-5.4 與 Gemini 或 Claude 的比較。OpenAI 持續落後。
Codex 在 5.3 發布時宣布直到 4 月所有使用限制都提高了,請將這點納入考量。
在我的日常編碼工作中,前三名編碼代理已經夠用。mini-SWE-agent + GPT-5.2 Codex 在 SWE-bench Verified 達到 72.8%。我看不到可比的 GPT-5.3 Codex 數據,所以用 5.2 作為基準。在 OpenAI 的 GPT-5.4 頁面(SWE-Bench Pro, Public),分數從 55.6%(GPT-5.2) 提升至 57.7%(GPT-5.4) ,約 +2.1 個百分點。雖然是不同基準測試,但我預期類似設定在 SWE-bench Verified 上會有類似改進幅度。
GPT-5.4 Pro 已在 OpenRouter 上線,定價 $180/1M 輸出 token。
超過 272K token 有額外成本:對於提供 1.05M 上下文視窗的模型(GPT-5.4 和 GPT-5.4 Pro),輸入超過 272K token 的請求,整個會話的輸入成本為 2 倍、輸出成本為 1.5 倍,適用於標準、批次與彈性模式。
炒作指數
行動建議
使用現有 OpenAI API Key 測試 GPT-5.4 標準版(272K token 內),比較與 GPT-5.2 的輸出品質差異,評估錯誤率降低是否符合業務需求
若團隊有金融建模或長文件分析場景,申請 ChatGPT for Excel Beta 測試,驗證 Skills 模組與資料整合的實際效益,同時評估資料供應商相容性與合規要求
追蹤 4 月 Codex 促銷結束後的限額與定價變動,監控 Gemini 3.1 Pro 與 Claude Opus 4.6 的基準測試更新,評估是否需建立多供應商策略分散風險