重點摘要
DeepSeek 把長上下文與近前沿能力拉到低價區,迫使高價閉源陣營重算商業模型。
V4 以 Hybrid Attention、MoE 與雙推理模式,把 1M 上下文變成預設能力,兼顧長任務與工具協作。
Flash 每百萬輸入 0.14 美元、輸出 0.28 美元,Pro 也顯著低於主流閉源對手,價格差已達結構級別。
API 相容 OpenAI 與 Anthropic 格式,且已有雲端供應商先行上線,企業可先做低風險替換與壓測。
前情提要
V4 模型架構與核心能力升級
DeepSeek 在 API 文件公布 V4-Pro 與 V4-Flash,兩者預設即提供 1M token 上下文,並保留 Thinking/Non-Thinking 雙模式。
V4-Pro 以 1.6 兆參數追求上限,V4-Flash 以較小活躍參數換取速度。PPIO 已首批上線預覽版,代表長上下文不只停在規格表。
定價策略:當對手漲價時 DeepSeek 選擇降價
The Decoder 指出,競品在 Agent 浪潮下普遍走向漲價與限量。DeepSeek 卻把 Flash 壓到近乎基礎設施價格,形成明確反向策略。
Pro 的輸出單價也遠低於多數前沿閉源模型。這讓團隊能先用低成本把長流程任務跑通,再決定是否保留高價模型作備援。
開源社群的狂熱反應與本地部署前景
Reddit 的 1su3hdo 與 1su7bnx 討論串顯示,社群一面熱議 Flash/Pro 可用性,一面把 64x64 頭像梗做成迷因,熱度外溢到部署圈。
HN 討論也出現事實查核聲音,提醒華為晶片完全承載仍屬未來部署方向。這種自我校正讓採用評估更接近工程現實,而非情緒追高。
對 AI 產業競爭格局的衝擊
量子位 406791 指出華為雲已先行適配,並在調度、算力與傳輸三端做算子最佳化。這代表低價策略正與在地算力供應鏈綁定。
當模型價格差擴大到數倍以上,買方會把重點從品牌轉向單位任務成本。若此趨勢延續,高價高毛利路線將承受更強壓力。
核心技術深挖
V4 的關鍵不是單一跑分,而是把長上下文成本壓到可商用區間,讓低價與高容量同時成立。
機制 1:Hybrid Attention 壓縮長序列負擔
V4 在長序列交替使用 CSA 與 HCA。官方數據顯示,在 1M token 情境下,推理 FLOPs 與 KV Cache 皆明顯低於前代。
名詞解釋
Hybrid Attention 會按區段切換不同壓縮率,降低長上下文的記憶體與延遲成本。
機制 2:MoE 與 FP4/FP8 混合精度配比
專家層用 FP4,其餘層用 FP8,配合 MoE 只啟動部分專家。這種配比在維持效果的同時,降低推理硬體壓力。
名詞解釋
MoE 是讓模型只喚醒部分子網路的做法,可在不等比增算力下擴大參數規模。
機制 3:Interleaved Thinking 與 DSML 工具呼叫
V4 支援跨工具交錯推理,並以 |DSML| 加 XML Schema 降低字串逸脫錯誤。長流程 Agent 任務可保留跨輪次推理鏈,提高可追蹤性。
白話比喻
這像把高鐵分成快車與區間車,再配智慧號誌。遠距大流量與近站高頻需求,都能用同一套軌道承載。
工程視角
環境需求
需先確認 GPU 記憶體與 KV Cache 預算,再決定 Pro 或 Flash。若既有系統已接 OpenAI/Anthropic 介面,可先以相容層做灰度切換。
最小 PoC
from openai import OpenAI
c=OpenAI(base_url='https://api.deepseek.com',api_key='KEY')
print(c.models.list())
驗測規劃
先跑三組基線:短上下文、256K、1M。同步記錄延遲、每任務成本、工具呼叫錯誤率,並與現行主力模型做 A/B 比較。
常見陷阱
- 直接把 1M 當預設而不做分段檢索,會放大成本與延遲波動。
- 忽略 |DSML| 與 XML Schema 驗證,容易在工具參數解析時出現隱性錯誤。
上線檢核清單
- 觀測:首 token 延遲、整體吞吐、工具成功率、任務完成率。
- 成本:輸入輸出 token 單價、快取命中率、尖峰時段資源占用。
- 風險:幻覺率、長任務漂移、供應商切換回退時間。
商業視角
競爭版圖
- 直接競品:Claude Sonnet 4.6、Gemini 3.1-Pro、GPT-5.5 等高能力 API。
- 間接競品:主打低價推理的開源託管服務與企業自建推理叢集。
護城河類型
- 工程護城河:長上下文壓縮機制與混合精度帶來的成本曲線優勢。
- 生態護城河:MIT 開源權重加雙 API 相容,降低導入與遷移摩擦。
定價策略
DeepSeek 採先搶使用量再擴能力的路線。當對手提高單價並收緊配額時,低價高容量更容易吸走中大型應用流量。
企業導入阻力
- 地緣與合規疑慮仍會影響部分跨國企業的採購流程。
- 超大模型自託管對硬體與維運能力要求高,非所有團隊可立即承接。
第二序影響
- 閉源前沿模型可能被迫推出更細緻分層定價,壓縮高毛利區。
- 雲端與晶片供應商將加速綁定特定模型,形成新的生態聯盟。
判決先搶量再擴利(成本曲線暫時領先)
短期看,DeepSeek 以價格與相容性快速擴張最有勝算。中期勝負仍取決於穩定性、合規信任與持續訓練效率。
數據與對比
能力基準
- SWE-bench Verified:80.6%,接近 Claude Opus 4.6 的 80.8%。
- TerminalBench 2.0:67.9%,僅次於 GPT-5.4-xHigh 的 75.1%。
- MCPAtlas Public:73.6%,顯示工具協作任務已有競爭力。
長上下文壓力
- MRCR 8-needle 在 256K tokens 準確率超過 0.82。
- 拉到 1M tokens 後為 0.59,代表可用但仍需任務分段與檢索輔助。
最佳 vs 最差場景
推薦用
- 長文件稽核與跨章節問答,需一次讀入大量上下文的任務
- 多工具 Agent 流程,特別是需要跨輪次保留推理狀態的自動化工作
千萬別用
- 高風險即時決策場景,且未設人工覆核與回退機制的流程
- 對 1M 全量推理極度敏感的低延遲服務,尚未做成本與快取最佳化前
唱反調
超低價可能來自補貼期,若後續調價或限流,現有成本模型會被重算。
1M 上下文雖亮眼,但在高噪訊任務下未必優於檢索增強與分段推理。
社群風向
這是大消息:DeepSeek V4 很可能在下週發布,而且可能首次讓開源模型不再落後閉源前沿,甚至有機會超車。
我想要能在本地端跑 DeepSeek V4 Pro。
我不確定,但 DeepSeek V4 似乎已經上線了;它在數學與物理上非常快也很聰明,推理輸出速度驚人。
我問 DeepSeek V4 它是什麼模型,結果很好笑;我懷疑是不是我的環境注入了某些提示。
DeepSeek 3.2 的回應風格已經很露骨,V4 似乎更明顯。
炒作指數
行動建議
用 V4-Flash 替換一條現有長文件工作流,量測每任務成本與延遲變化。
建立雙模型路由:預設 Flash,僅在高難度節點升級到 Pro,並保留舊模型回退開關。
持續追蹤 2026-07-24 舊版停用、華為昇騰 950 量產節點與後續定價變化。