重點摘要
頻寬決定 Token 速度,算力決定 Prefill,你的瓶頸才是選購關鍵
DGX Spark Prefill 達 1,723 t/s,是 Strix Halo 的 5 倍;但 Token 生成兩者幾乎持平 (38 vs. 34 t/s) ,頻寬瓶頸相同使架構差異消失
Strix Halo($2,300) 以 DGX Spark($4,699) 一半售價達到幾乎相同 Token 生成速度;RTX Pro 6000($8,320+) 效能最強但記憶體上限僅 96GB
Apple Silicon 用戶應換用 MLX 而非 llama.cpp(14B 以下模型快 40–80%);M5 Ultra 預計 2026 年中發布,帶寬可達 1,200+ GB/s,時間允許值得等待
前情提要
四大本地 AI 推論平台的比較在 2026 年社群中引發廣泛關注,核心問題是:同樣 128GB 記憶體、不同架構的平台,到底誰才值得買?Reddit r/LocalLLaMA 的討論串 (reddit-1tfzsd6) 也點出一個常見誤解——llama.cpp 在 Mac 上並非最佳選擇,選框架與選硬體同樣重要。
四大平台硬體規格全面對比
Apple M5 Max MacBook Pro 配備 128GB 統一記憶體,頻寬高達 546 GB/s,是四大平台中帶寬密度最高的選項,售價約 £5,399–£7,199。NVIDIA DGX Spark 搭載 Grace Blackwell 架構,同樣 128GB LPDDR5X,頻寬 273 GB/s,於 2026 年 2 月將售價從 $3,999 調漲至 $4,699,官方理由為記憶體供應緊張。
AMD Strix Halo(Ryzen AI Max+ 395) 配備 128GB LPDDR5X-8000,頻寬約 256 GB/s,售價僅 ~$2,300,是四者性價比最高的選項。NVIDIA RTX Pro 6000 Blackwell 配備 96GB GDDR7,頻寬達 1.8 TB/s(DGX Spark 的 6.6 倍),但售價高達 £8,320–£9,500+,且 96GB 上限讓部分大型量化模型無法完整載入。
名詞解釋
統一記憶體 (Unified Memory):CPU 與 GPU 共用同一塊實體記憶體,消除資料傳輸延遲;Apple Silicon 和 DGX Spark 的 Grace Blackwell 架構均採用此設計,是本地推論的關鍵優勢。
本地 LLM 推論效能實測分析
推論效能分為兩個核心指標:Prefill(提示詞處理速度)與 Token 生成速度。以 gpt-oss 120B MXFP4 MoE 模型為基準,DGX Spark Prefill 達 1,723 t/s,是 Strix Halo(340 t/s) 的五倍以上,也大幅超越 M3 Ultra(863 t/s) 。
u/Miserable-Dare5090 批評許多比較文章省略了 Prefill 數字,讓 DGX Spark 在 RAG、長上下文場景的最大優勢被忽略。這個差距在長文件摘要、頻繁重置上下文的應用中,會直接反映在用戶感受到的首 token 延遲。
然而在 Token 生成上,DGX Spark(38.55 t/s) 與 Strix Halo(34.13 t/s) 幾乎持平——兩者頻寬均約 273 GB/s,頻寬成為共同瓶頸,架構差異的影響幾乎消失。RTX Pro 6000 Token 生成超過 240 t/s,是 DGX Spark 的六至八倍,得益於 GDDR7 的 1.8 TB/s 帶寬。
u/koushd 在討論串開頭直接發問「What's wrong with llama.cpp on mac?」,隨後社群釐清:MLX 才是 Apple Silicon 的最佳推論框架,在 14B 以下模型吞吐量比 llama.cpp 高 40–80%。對 27B 以上模型,兩框架差異幾乎消失,頻寬才是共同瓶頸。
名詞解釋
MLX:Apple 開源的機器學習框架,專為 Apple Silicon 統一記憶體架構設計,是目前在 M 系列晶片上運行本地 LLM 的推薦選項。
性價比與實際可用性評估
Strix Halo 以約 DGX Spark 一半售價 (~$2,300 vs. $4,699) 達到幾乎相同的 Token 生成速度,是預算有限但需要 128GB 容量用戶的最佳選擇。主要劣勢是 AMD ROCm 軟體生態仍不如 CUDA 成熟,部分框架需要額外配置才能發揮 GPU 算力。
DGX Spark 的溢價來自 Blackwell 架構的 Prefill 優勢、開箱即用的 TensorRT-LLM 整合,以及 ConnectX-7 200GbE 網路介面。但供貨緊張是實際障礙,且模型首次載入可長達 100 秒,需關閉 memory mapping 才能縮短至約 22 秒。
M5 Max MacBook Pro 在可攜性上獨樹一幟,546 GB/s 帶寬是 DGX Spark 的兩倍,Token 生成具競爭力。M5 Ultra 預計 2026 年中發布,推估帶寬可達 1,200+ GB/s,若不急著購買,等待評測後再決策更為明智。
社群共識與最佳選購策略
u/Xatter 精準道出社群共識:「The best system is the one you can actually buy and use」。供貨現實、軟體生態、使用場景三者共同決定最佳選擇,而非單一效能數字。
@tinygrad 更直接指出:若能接受 GPU 卡形式,RTX 5090 以 DGX Spark 一半價格提供五倍效能,還可透過 USB 從 Mac 存取。選購邏輯可歸納為三個場景方向:
- 長上下文、RAG 應用(Prefill 速度優先)→ DGX Spark 的 Blackwell 架構是最佳選擇
- 對話式應用(Token 生成速度優先,預算有限)→ Strix Halo 以一半價格達到相近效果
- Apple 生態、需要可攜性 → M5 Max 現在可用,但 M5 Ultra(2026 年中)帶寬翻倍更值得等待
Apple Silicon 用戶應優先評估 MLX 而非直接採用 llama.cpp,在 14B 以下模型場景中效益最顯著,這是 reddit-1tfzsd6 討論串揭露的最具行動價值的結論。
核心技術深挖
本地 LLM 推論的效能由兩個截然不同的因素決定:算力(影響 Prefill)與記憶體頻寬(影響 Token 生成)。理解這個分工,才能正確解讀四大平台的測試數字,避免用錯指標做出錯誤的購買決策。
機制 1:Prefill 效能由算力決定
Prefill 階段需要將整個提示詞一次性送入模型進行矩陣運算,屬於高度平行化的計算工作,算力越強處理越快。DGX Spark 搭載 Grace Blackwell 架構,在 120B 模型測試中 Prefill 達 1,723 t/s,是 AMD Strix Halo(340 t/s) 的五倍、M3 Ultra(863 t/s) 的兩倍。
這個差距在 RAG 管道、長文件摘要、或需要頻繁重置上下文的場景中,會直接反映在用戶等待首個 token 的延遲上。DGX Spark 的溢價主要體現在這類應用場景的體驗差異。
白話比喻
Prefill 就像把整疊考卷一次丟進掃描機——工業掃描機 (DGX Spark) 五秒搞定,辦公室複合機 (Strix Halo) 需要二十五秒。每次對話開始前你都要等這個時間。
機制 2:Token 生成速度受頻寬主導
Token 生成屬於記憶體密集型任務:每生成一個 token,模型必須從記憶體中讀取全部權重。記憶體頻寬越高,生成越快,算力的影響反而有限。DGX Spark 和 Strix Halo 頻寬均約 273 GB/s,Token 生成幾乎持平 (38.55 vs. 34.13 t/s) 。
RTX Pro 6000 以 GDDR7 的 1.8 TB/s 帶寬達到 240+ t/s,是 DGX Spark 的六至八倍。M5 Max 的 546 GB/s 帶寬是 DGX Spark 兩倍,Token 生成具有競爭力;M5 Ultra(預計 2026 年中)帶寬預估可達 1,200+ GB/s。
白話比喻
Token 生成就像從倉庫往外搬貨——搬運通道寬度(記憶體頻寬)決定速度,通道已滿時增加搬運工人(算力)毫無意義。
機制 3:框架選擇影響 Apple Silicon 效能
llama.cpp 是跨平台框架,在 Apple Silicon 上的記憶體存取方式並未針對統一記憶體架構最佳化。MLX 由 Apple 主導開發,直接利用統一記憶體的共享存取優勢,在 14B 以下模型吞吐量比 llama.cpp 高 40–80%。
對 27B 以上模型,頻寬成為共同瓶頸,MLX 與 llama.cpp 的速度差異幾乎消失。這個機制解釋了為何 u/koushd 會在討論串中發問「What's wrong with llama.cpp on mac?」——問題不是框架壞了,而是框架選擇本就影響效能,且差距在小模型最明顯。
工程視角
環境需求
Apple M5 Max 推薦 MLX(pip install mlx-lm) 而非 llama.cpp;NVIDIA DGX Spark 預裝 TensorRT-LLM,CUDA 12.x 生態完整;AMD Strix Halo 需要 ROCm 6.x,各框架相容性需個別確認;RTX Pro 6000 Blackwell 需確認 NVIDIA 驅動版本 ≥ 570。
最小 PoC
# Apple Silicon:改用 MLX 取代 llama.cpp(14B 以下效益顯著)
pip install mlx-lm
python -m mlx_lm.generate --model mlx-community/Qwen2.5-14B-Instruct-4bit \
--prompt "Hello" --max-tokens 200
# DGX Spark:關閉 memory mapping 解決首次載入過慢(100 秒 → ~22 秒)
./llama-cli -m model.gguf --no-mmap -p "Hello" -n 200
驗測規劃
若應用涉及長上下文(RAG、文件分析),必須分別測量 Prefill 速度(首 token 延遲)和 Token 生成速度,而非只看後者。u/Miserable-Dare5090 指出,忽略 Prefill 數字會系統性低估 DGX Spark 在長上下文場景的真實優勢,應在真實工作負載(而非簡單 Hello 測試)下評估兩個指標。
常見陷阱
- Apple Silicon 使用 llama.cpp 未測試 MLX 對比——小模型效能差距高達 40–80%
- DGX Spark 未關閉 memory mapping,導致首次載入等待 100 秒
- 選購 RTX Pro 6000 後才發現 96GB 不足以載入目標量化模型
- AMD Strix Halo 假設所有 CUDA 框架都支援 ROCm——需逐一確認相容性
上線檢核清單
- 觀測:監控 Prefill 延遲(首 token 時間,ms)與 Token 生成速度 (t/s) ,兩者分別對應不同瓶頸
- 成本:DGX Spark $4,699、Strix Halo ~$2,300、RTX Pro 6000 ~$8,320+,選購前評估工作負載的頻寬 vs. 算力需求比重
- 風險:DGX Spark 供貨不穩、AMD ROCm 框架相容性未知、RTX Pro 6000 的 96GB 上限、M5 Ultra 即將發布
商業視角
競爭版圖
- 直接競品:DGX Spark(企業 AI 開發者)、Strix Halo(性價比敏感用戶)、M5 Max(Apple 生態開發者)、RTX Pro 6000(高效能工作站用戶)
- 間接競品:雲端 GPU 租賃(AWS、Lambda Labs)、NVIDIA DGX Station、即將推出的 Apple M5 Ultra(2026 年中)
護城河類型
- NVIDIA 工程護城河:CUDA 生態系與 TensorRT-LLM 是核心優勢,DGX Spark 開箱即用的企業級整合無法被短期複製
- Apple 生態護城河:統一記憶體架構與 MLX 框架的協同效應,加上 MacBook 的可攜性,在個人開發者市場具有獨特地位
- AMD 的挑戰:ROCm 生態成熟度差距是 Strix Halo 最大的商業風險,硬體性價比優勢可能被軟體支援問題部分抵銷
定價策略
NVIDIA 將 DGX Spark 從 $3,999 漲至 $4,699,以記憶體供應緊張為由,但也反映了 Blackwell 架構的市場定價能力。Strix Halo 以 ~$2,300 的競爭性定價進入市場,但 AMD 缺乏 NVIDIA 的品牌溢價能力。RTX Pro 6000 定位高端工作站,£8,320+ 面向有明確效能需求的企業客戶。
企業導入阻力
- DGX Spark 供貨不穩定,採購時程難以預測
- AMD ROCm 的框架相容性問題增加 IT 部門測試與維護成本
- RTX Pro 6000 的 96GB 記憶體上限可能無法滿足未來更大模型需求
第二序影響
- M5 Ultra 發布(預計 2026 年中)將以 1,200+ GB/s 帶寬對 DGX Spark 的個人開發者市場造成壓力
- AMD 若能改善 ROCm 生態,Strix Halo 的性價比優勢可能吸引大量預算敏感型用戶從 NVIDIA 遷移
- 本地推論市場的成熟化,長期來看將壓縮低頻使用者對雲端 GPU 租賃的依賴
判決:Strix Halo 現階段性價比勝出,DGX Spark 有 Prefill 場景護城河(高溢價需要明確工作負載評估正當化,M5 Ultra 即將改變格局)
Strix Halo 以一半價格達到相近 Token 生成速度,是大多數開發者的合理起點。DGX Spark 的 Prefill 優勢在 RAG、長上下文場景確實顯著,但 $2,400 溢價需要有明確工作負載分析支持。M5 Ultra 評測出爐後再做最終決策,是時間允許時的最優策略。
數據與對比
120B MoE 模型效能對比(llama.cpp,gpt-oss 120B MXFP4)
平台 | Prefill(t/s) | Token 生成 (t/s) |
|---|---|---|
DGX Spark | 1,723 | 38.55 |
M3 Ultra 256GB | 863 | 70.79 |
3× RTX 3090 | 1,641 | 124.03 |
AMD Strix Halo | 340 | 34.13 |
記憶體頻寬對比
平台 | 頻寬 |
|---|---|
RTX Pro 6000 Blackwell | 1.8 TB/s |
Apple M5 Max | 546 GB/s |
DGX Spark | 273 GB/s |
AMD Strix Halo | ~256 GB/s |
關鍵觀察
DGX Spark Prefill 壓倒性領先(是 Strix Halo 的 5 倍以上),但 Token 生成速度與 Strix Halo 相差不到 12%。頻寬瓶頸(兩者均 ~273 GB/s)抹平了架構差異——這是理解四平台效能差距的核心結論。
最佳 vs 最差場景
推薦用
- RAG 管道與長文件摘要(DGX Spark 的 Prefill 速度優勢在此最顯著,5 倍差距直接反映在首 token 延遲)
- 需要可攜性的開發者(M5 Max MacBook Pro 帶寬優異且提供桌機以外的選項)
- 預算有限但需要 128GB 容量的用戶(Strix Halo 性價比最高,Token 生成速度與 DGX Spark 幾乎持平)
- 需要最高 Token 吞吐量的生產環境(RTX Pro 6000 在預算充足且 96GB 足夠時首選)
- Apple 生態用戶在 14B 以下模型(應優先評估 MLX 框架,效能比 llama.cpp 高 40–80%)
千萬別用
- 期待 DGX Spark 開箱即用流暢體驗(預設設定首次模型載入可達 100 秒,需手動關閉 memory mapping)
- 在 Apple Silicon 上使用 llama.cpp 跑 14B 以下小模型(應改用 MLX,效能差距高達 40–80%)
- 需要載入超過 96GB 量化模型的用戶選購 RTX Pro 6000(記憶體上限為 96GB)
- 不急著購買卻現在就買 Apple M 系列高端配置(M5 Ultra 預計 2026 年中發布,帶寬翻倍)
- 以 Token 生成速度作為唯一指標對比 DGX Spark 和 Strix Halo(差距不到 12%,Prefill 才是真正的 5 倍差距所在)
唱反調
所有效能測試均以 llama.cpp 為基準,但 DGX Spark 的真正優勢是 TensorRT-LLM——以 llama.cpp 測試可能系統性低估 DGX Spark 在 NVIDIA 原生框架下的真實效能
Strix Halo 的性價比優勢建立在 ROCm 軟體生態能正常運作的前提上,AMD GPU 在主流框架的支援程度是已知風險,實際總擁有成本 (TCO) 可能高於硬體售價差異所呈現的數字
比較本地硬體與雲端推論時,128GB 本地記憶體只有在持續高頻率使用下才能攤銷硬體成本,低頻率使用者直接採用 API 服務可能更具經濟效益
社群風向
Mac 上的 llama.cpp 到底哪裡出了問題?
最好的系統,是你真正能買到並用起來的那個。
你的比較省略了 Prefill 數字……
換句話說,別買 DGX Spark,用一半的錢買 5090 反而有五倍效能。如果能透過 USB 從你的 Mac 使用,這樣會有幫助嗎?
Apple M5 Max vs NVIDIA DGX Spark 跑本地 AI——兩者都在 $3.5–4K 左右,都是 128GB 統一記憶體。M5 Max:614 GB/s 帶寬,適合 70B 推論。DGX Spark:1 PFLOP FP4,完整 CUDA 生態。M5 Max 在帶寬勝出,DGX Spark 在算力勝出——選你的瓶頸吧。
炒作指數
行動建議
Apple Silicon 用戶:用 `pip install mlx-lm` 安裝 MLX,在你的目標模型大小(14B 以下效益最顯著)對比 MLX 與 llama.cpp 的實際吞吐量差異
RAG 管道開發者:在 DGX Spark 和 Strix Halo 上分別測量 Prefill 速度(首 token 延遲),量化長上下文場景的差距後再做採購決策,避免只看 Token 生成速度而低估 DGX Spark 的真正優勢
追蹤 Apple M5 Ultra 發布評測(預計 2026 年中)——若帶寬真的達到 1,200+ GB/s,將大幅改變本地 LLM 推論的性價比版圖,現在的最佳選擇可能在半年後出現強力競爭者