重點摘要
標準商用 GPU 跑出 1,200 TPS——速度神話還是定價陷阱?
FP4 選擇性量化、DFlash 投機解碼、TileRT 持久核心三層疊加,在單台 8-GPU 標準節點上首次突破 1T 參數模型的 1,000 TPS 門檻,峰值達 1,200 TPS。
費率為標準 MiMo 的 3 倍,官方主張對應約 10 倍速度提升。試用期申請制、限量名額(06-09 至 06-23),生產部署路徑尚不明確。
開源 FP4-DFlash checkpoint 與部分 TileRT 模組已釋出,具備可驗證性。高 TPS 使多 Agent 並行架構成本大降,但也引發安全社群對濫用場景的疑慮。
前情提要
章節一:小米的技術主張與硬體配置
2026 年 6 月 8 日,小米正式發布 MiMo-V2.5-Pro-UltraSpeed,宣稱以單台標準 8 卡 GPU 商用機(未使用任何訂製晶片),驅動 1 兆參數 MoE 架構模型,突破 1,000 tokens/s 解碼速度門檻,現場 Demo 峰值約達 1,200 tokens/s。
這是業界首次在此量級模型上於非訂製硬體達成這一里程碑。小米將整套系統稱為「極致模型-系統協同設計 (extreme model-system codesign) 」,API 試用期自 2026-06-09 起(申請制、限量名額),費率為標準 MiMo 方案的 3 倍,換算速度效益約為 10 倍。
名詞解釋
MoE(Mixture-of-Experts) :一種稀疏模型架構,每次推理只激活總參數中的一小部分 Expert 層,在維持高參數量的同時降低每次推理的實際計算量。
章節二:千億參數模型高速推理的技術原理
三層協同優化驅動這次突破,缺一不可。單純依賴量化或投機解碼均無法達成此速度,TileRT 的系統層優化才是讓前兩層充分發揮的黏合劑。
FP4(MXFP4) 量化僅針對 MoE Expert 層進行 4-bit 壓縮,非 Expert 層(注意力頭、LayerNorm 等)維持 FP8 或更高精度。搭配 Quantization-Aware Training(QAT) 訓練,量化版本與原始版本在主要 benchmark 上的能力差距可忽略不計,此選擇大幅降低記憶體頻寬需求。
名詞解釋
QAT(Quantization-Aware Training) :在訓練過程中模擬量化誤差,使模型在部署後的低精度環境中仍能維持接近原始精度的能力。
DFlash 投機解碼以 block-level masked 並行預測取代逐 token 順序生成,每輪最多預測 8 個 token。任務接受率因類型而異:程式碼任務 6.30 tokens/輪、數學推理 5.56 tokens/輪、Agent 任務 4.29 tokens/輪。較高的接受率意味著更少的重生成開銷,是投機解碼實際加速比的關鍵決定因素。
TileRT 系統優化採用 persistent GPU kernel 消除逐算子啟動的排程開銷,搭配 warp specialization 讓不同計算特性的算子在同一 GPU 上並行執行,將執行精度壓縮至微秒量級。三層疊加的協同效果使整體吞吐量出現非線性增益。
章節三:社群質疑與技術可行性辯論
HN 社群對商業可行性與技術宣稱均提出質疑。HarHarVeryFunny 直言:「我不認為有很多公司願意為了更快的程式碼生成付 3 倍費用」,主張推理速度並非軟體開發的真正瓶頸。miroljub 則質疑定價敘事,認為前沿模型利潤仍然豐厚。
smith7018 暗指 token 用量預測數字有灌水之嫌,但 nl 援引 arXiv 論文反駁,指出 LLM 在任務估算上確實執行有統計基礎的回歸分析。這場辯論折射出社群對「速度即護城河」商業敘事的結構性懷疑。
更深層的哲學辯論隨之浮現。Terretta 調侃:「我或許真的同意這只是『下一個 token 預測』——如果我能承認我自己也是這樣運作的話。」mediaman 回應:「神經網路是通用函數近似器,它們最根本做的恰恰就是你說它們做不到的事:估計。」這場哲學插曲顯示社群關注點已超越單純的技術指標。
章節四:對本地部署與 AI 基礎設施的產業影響
對照競品速度:GPT-5.5 約 68 TPS、Claude Opus 4.6 約 71 TPS、Claude Haiku 約 98 TPS、Gemini Flash 約 192 TPS,即便使用專用 LPU 硬體的 Cerebras(Llama 405B) 也僅達 969 TPS。小米此次宣稱的 1,200 TPS 峰值在業界比較中確實具有顯著落差。
Reddit r/LocalLLaMA 的 u/TheRealMasonMac 指出 agentic AI 的關鍵含義:1,000+ TPS 的前沿模型,將使多 Agent 並行暴力求解在成本上變得微不足道,對開放性 Agent 框架的濫用風險構成新的安全警示。
u/ravage382 更進一步表達不安:以此速度搭配高智能水平進行並行暴力破解,令人擔憂——他甚至設想若將此技術烘焙進晶片,將催生配備百萬 token 上下文的自主系統。
開源部分的釋出(Hugging Face FP4-DFlash checkpoint + TileRT GitHub 模組)讓社群得以自行驗證技術主張,也為本地部署研究者提供了起點。
kypro(HN) 則提出地緣政治層面的疑問:美國閉源模型廠商面對中國開源替代方案,長期護城河是否還能維持——這一問題隨著小米此次開源策略而更加尖銳。
核心技術深挖
MiMo-V2.5-Pro-UltraSpeed 的速度突破並非來自單一技術改進,而是三層系統協同疊加的結果——任何一層缺失都無法實現最終的 1,000+ TPS。
機制 1:MXFP4 選擇性量化
僅針對 MoE Expert 層進行 4-bit 壓縮,非 Expert 層(注意力頭、LayerNorm 等)維持 FP8 或更高精度。選擇性量化而非全模型量化,是在記憶體頻寬節省與精度保持之間取得平衡的關鍵決策。搭配 QAT 訓練後,量化版本與原始版本在主要 benchmark 上的能力差距可忽略不計。
機制 2:DFlash 投機解碼
以 block-level masked 並行預測取代逐 token 順序生成架構,每輪最多嘗試預測 8 個 token。接受率依任務類型有所差異:程式碼生成 6.30 tokens/輪、數學推理 5.56 tokens/輪、Agent 任務 4.29 tokens/輪。
較高的接受率意味著更少的重生成開銷,是投機解碼實際加速比的關鍵決定因素。程式碼任務接受率最高,代表該場景的實際加速效益最為顯著。
機制 3:TileRT 系統優化
採用 persistent GPU kernel 設計,消除傳統逐算子 (op-by-op) 啟動的排程開銷;搭配 warp specialization 讓不同計算特性的算子在同一 GPU 上並行執行,實現異構管線協作。整體執行精度壓縮至微秒量級,使前兩層的理論加速比能夠在實際硬體上充分兌現。
白話比喻
想像一條高速公路:FP4 量化是「拓寬車道」(更多資料同時通過),DFlash 是「綠燈預測」(提前讓多輛車通行),TileRT 是「消除收費站停頓」(去除每次算子切換的等待時間)。三者同時作用才能讓整條路跑滿。
工程視角
環境需求
API 試用期間(2026-06-09 至 06-23)透過申請制 API 存取,無需自行部署。若考慮本地複現,需要:支援 MXFP4 計算的 GPU(NVIDIA H100/H200 系列)、TileRT 開源模組(GitHub 已部分釋出)、FP4-DFlash checkpoint(Hugging Face 開源)。完整系統複現需等待更完整的技術報告。
最小 PoC
import requests, time
start = time.time()
response = requests.post(
"https://platform.xiaomimimo.com/v1/chat/completions",
headers={"Authorization": "Bearer YOUR_API_KEY"},
json={
"model": "mimo-v2.5-pro-ultraspeed",
"messages": [{"role": "user", "content": "Write a Python quicksort"}],
"stream": True
},
stream=True
)
tokens = 0
for chunk in response.iter_lines():
if chunk:
tokens += 1
print(f"TPS: {tokens / (time.time() - start):.1f}")
# 預期:單請求 ITL < 1ms,吞吐量 > 500 TPS(非峰值)
驗測規劃
重點驗測方向:
- 速度真實性:以 time-to-first-token(TTFT) 和 inter-token latency(ITL) 分別量測,避免被吞吐量峰值遮蔽個別請求延遲
- 精度回歸:同一組 benchmark prompt 同時送標準 MiMo 和 UltraSpeed,對比輸出品質(尤其數學推理與程式碼任務)
- 並發壓力:模擬多 Agent 並行場景,觀察高並發下 TPS 是否維持
常見陷阱
- TPS 峰值是吞吐量指標,不等於單請求延遲——高並發場景下個別請求的 TTFT 可能仍然偏高
- MXFP4 量化的精度損失在數學推理任務上可能比程式碼任務更顯著,需依使用場景單獨驗測
- TileRT 開源部分僅為模組,完整系統複現需等待後續更完整的技術報告
上線檢核清單
- 觀測:TTFT P50/P99、ITL P50/P99、並發下的 TPS 曲線、輸出精度與標準版本的 diff 率
- 成本:UltraSpeed API 費率為標準 MiMo 3×,需計算實際業務場景的 ROI 閾值
- 風險:申請制白名單造成供應可靠性不確定性;量化精度對特定任務的影響需完整驗測後再上線
商業視角
競爭版圖
- 直接競品:OpenAI GPT-5 系列(閉源,~68 TPS)、Anthropic Claude Opus 4.6(閉源,~71 TPS)、Google Gemini Flash(TPU 加速,~192 TPS)、Cerebras Inference(專用 LPU,Llama 405B 達 969 TPS)
- 間接競品:vLLM/SGLang 等開源推理框架(針對既有模型做系統層優化)、Groq LPU 基礎設施
護城河類型
- 工程護城河:TileRT 系統優化技術(已部分開源,但完整實現需大量工程投入);MXFP4 量化配方與 QAT 訓練資產
- 生態護城河:開源策略吸引研究者社群驗證並擴散;小米硬體生態與邊緣部署場景的天然整合可能性
定價策略
UltraSpeed 費率為標準 MiMo 的 3 倍,以「10× 速度換 3× 成本」作為主要行銷敘事。此策略針對高並發、低延遲需求的企業客戶,而非一般對話應用——後者的速度需求通常不超過 100-200 TPS。
HarHarVeryFunny(HN) 直言大多數公司不願為更快的程式碼生成付 3 倍費用,顯示定價接受度在大眾市場仍有疑問。速度溢價的商業邏輯更適用於 agentic workflow 等高並發場景,而非日常對話。
企業導入阻力
- 申請制試用期(06-09 至 06-23)造成可及性不確定性,企業難以規劃生產部署時程
- MXFP4 量化精度需要針對各企業自身任務進行獨立驗測,增加評估成本
- 中國廠商在部分企業採購流程中的合規考量仍是阻力
第二序影響
- 1,000+ TPS 前沿模型使多 Agent 並行架構的成本門檻大幅下降,可能引發新一波 agentic workflow 設計模式
- 開源 checkpoint 與系統模組的釋出為開源社群複現提供基礎,長期可能縮短競爭者的跟進時間
判決:值得關注但需驗證(速度宣稱有技術支撐,商業模式尚待考驗)
速度突破有開源 checkpoint 和部分 TileRT 模組支撐,具備可驗證性。然而定價 3× 且試用申請制的策略,使真正的生產落地評估窗口有限。企業應優先在試用期內完成精度與速度的雙重驗測,再決定是否納入基礎設施規劃。
數據與對比
業界推理速度對比(TPS,API 層)
以下為主流前沿模型的公開推理速度對照,可直觀感受此次突破的幅度:
- GPT-5.5:約 68 TPS(訂製硬體)
- Claude Opus 4.6:約 71 TPS(訂製硬體)
- Claude Haiku:約 98 TPS(訂製硬體)
- Gemini Flash:約 192 TPS(TPU)
- Cerebras(Llama 405B) :約 969 TPS(專用 LPU)
- MiMo-V2.5-Pro-UltraSpeed:約 1,200 TPS 峰值(標準 8-GPU 節點)
注意:上述對比並未控制模型參數量與任務類型,僅提供量級參考。Cerebras 使用專用 LPU 硬體,小米使用標準商用 GPU 節點為此次對比的亮點所在。
DFlash 投機解碼接受率
- 程式碼生成任務:6.30 tokens/輪
- 數學推理任務:5.56 tokens/輪
- Agent 任務:4.29 tokens/輪
接受率越高代表實際加速越顯著;Agent 任務接受率相對較低,程式碼與數學推理場景為最佳適用場景。
最佳 vs 最差場景
推薦用
- 高並發 Agent 工作流:多 Agent 並行調用、暴力搜索策略,1,000+ TPS 大幅降低此類工作流的成本門檻
- 即時程式碼生成:需要極低延遲的使用者互動迴圈,DFlash 在程式碼任務接受率最高(6.30 tokens/輪)
- 大批量離線推理:文件分析、批量程式碼審查等需要高吞吐量而非單請求低延遲的場景
千萬別用
- 對精度高度敏感的醫療、法律、金融決策任務:MXFP4 量化帶來的能力損失仍需針對業務場景獨立驗測
- 尚未進入試用白名單的生產環境:目前仍為申請制限量名額(06-09 至 06-23),供應可靠性不確定
- 以標準 MiMo 費率規劃的預算評估:UltraSpeed 費率為 3×,需重新計算實際場景 ROI
唱反調
峰值 1,200 TPS 為 Demo 環境數字,實際生產環境在高並發、多樣化任務混合下的穩定 TPS 未公開——若個別請求的 TTFT 仍偏高,「千 TPS」的商業價值大打折扣
MXFP4 量化搭配投機解碼的組合精度損失,在安全關鍵場景(醫療診斷、法律分析、金融合規)的可接受性尚未獨立驗證,官方的「可忽略差距」主張需要第三方複現
對大多數對話式應用而言,100-200 TPS 已足夠,速度溢價對普通用戶毫無意義;3× 定價的商業模式能否規模化,高度依賴 agentic 工作流這一仍屬早期的市場
社群風向
這個規模的模型大概可以支應大量對 OpenClaw/Hermes Agent 的濫用情況。
以這種速度擁有如此高的智能水平,用於他們聲明中提到的並行/暴力破解問題求解方式,實在有點令人不安。把這項進展烘焙進晶片,我們就能得到配備 100 萬 token 上下文視窗的終結者。
這些已達前沿水準,他們正在快速迭代。
小米 MiMo-V2.5-Pro-UltraSpeed 如何在僅使用單台標準 8-GPU 節點的情況下,於 1T MoE 模型上達成 1,000 TPS:從推理系統、執行邊界到協同設計的兩次飛躍。
MiMo v2.5 eval card:Pro 版本總參數 1T、激活 42B,Omni 版本(影片/圖像/音訊)總參數 310B、激活 15B,兩者均支援 1M context。以 FP8 訓練,Pro 版使用 27T tokens;採用 6:1 比例的交錯滑動視窗注意力 (SWA) ,視窗大小 128。
炒作指數
行動建議
在 2026-06-09 至 06-23 試用期間申請 API 白名單,針對自身業務任務(程式碼生成或數學推理)實測 TTFT/ITL,並與標準 MiMo 做精度對比
若驗測精度達標,設計小型多 Agent 並行工作流 PoC,測試 1,000+ TPS 在暴力搜索策略(如多路徑規劃、批量程式碼除錯)上的實際 ROI
追蹤 TileRT GitHub 開源進度與社群複現報告——第三方驗測結果將是評估「速度宣稱可信度」的關鍵信號,亦是後續開源替代方案的技術基礎