重點摘要
122B 參數只啟動 10B,MoE 讓桌機跑出雲端級推理
256 個專家每次路由 8+1 個,混合 DeltaNet 線性注意力處理 262k tokens 上下文,工具使用任務勝過 GPT-5 mini 30%
Q4 量化後需 74GB RAM,M5 Max 64GB 可跑 35B 變體,128GB 配置達 55-65 tokens/sec 生成速度
MLX 框架在 Apple Silicon 上 prompt 處理快 Ollama 5 倍,開源授權與現有工具鏈無縫整合
前情提要
阿里巴巴於 2026 年 2 月發布 Qwen 3.5 系列,其中 122B-A10B 變體採用混合專家 (MoE) 架構,總參數 122B 但每次推論只啟動 10B 參數。這個設計讓桌上型電腦能以可接受的速度執行雲端級模型,在 Reddit r/LocalLLaMA 社群引發「震撼」討論。
模型原生支援 262k tokens 上下文,透過 YaRN scaling 可擴展至 1M tokens,並在 MMLU-Pro、GPQA Diamond、SWE-bench Verified 等基準測試中展現強勁表現。社群實測顯示,在 Apple M5 Max 128GB 配置上以 Q4 量化執行時,token 生成速度達 55-65 tokens/sec,記憶體使用峰值約 72-76GB,為大型上下文留有充足空間。
Qwen 3.5 架構剖析——122B 參數、10B 啟動的 MoE 設計
Qwen 3.5 122B-A10B 採用 256 個專家的 MoE 架構,每次推論路由 8 個活躍專家加 1 個共享專家,合計啟動 10B 參數。這個設計讓模型在保持大參數量帶來的知識容量的同時,大幅降低推論時的計算成本。
模型結構包含 48 層,hidden dimension 提升至 3,072(相較 35B 版本的 2,048),expert FFN dimension 翻倍至 1,024。混合注意力機制以 3:1 比例結合 Gated DeltaNet 線性注意力層與完整注意力層,48 層架構包含 16 個 DeltaNet-attention 混合循環,實現高效的長上下文處理能力。
這種架構設計讓模型能夠原生處理 262k tokens 的上下文窗口,並可透過 YaRN scaling 技術擴展至 1M tokens。在工具使用任務上,Qwen 3.5 122B MoE 比 GPT-5 mini 高出 30%,展現了 MoE 架構在多工具協同場景的優勢。
名詞解釋
MoE(Mixture-of-Experts) 是一種神經網路架構,將模型分割成多個專家模組,每次推論時只啟動部分專家,從而在保持大參數量的同時降低計算成本。
社群實測——Apple M5 Max 上的推論表現與硬體建議
Reddit 用戶 u/gamblingapocalypse 在 r/LocalLLaMA 分享實測經驗,指出在 Apple M5 Max 128GB 配置上,Qwen 3.5 122B-A10B 的 prompt 處理速度比前一代硬體快約 2 倍,特別是在大型上下文大小時優勢明顯。Hardware Corner 的基準測試顯示,token 生成速度約 55-65 tokens/sec,記憶體使用峰值約 72-76GB。
然而,u/Specter_Origin 提出了移動場景的實際限制。他在 M5 Pro 64GB 上執行 35B-A3B 模型時發現,即使是較小的變體,在執行工具呼叫時仍會導致電池快速掉電且風扇全速運轉。這顯示 MoE 模型的工具呼叫密集型工作負載對硬體散熱與電源管理有較高要求。
社群共識建議,對於需要執行完整 122B-A10B 模型的場景,至少需要 128GB 統一記憶體的配置。64GB 配置可執行 35B-A3B 變體,但在多工具呼叫或大上下文場景下可能遇到記憶體瓶頸。Hacker News 用戶 lambda 在 Ryzen AI Max+ 395(128GB 統一記憶體)上的經驗印證了這點,他發現實際可執行的模型大小比理論計算值更受限,需要為系統記憶體與上下文 buffer 預留更多空間。
與同級開源模型的定位比較
在同級開源模型中,Qwen 3.5 122B MoE 以 Q4 量化後需 74GB 記憶體的配置,介於 Llama 3.3 70B(效能與 Llama 3.1 405B 相近)與 DeepSeek-V3(671B 參數重量級模型,37B 啟動參數)之間。基準測試顯示,Qwen3 在 MMLU(通用知識)和 BBH(複雜推理)上優於 DeepSeek-V3 和 LLaMA-4-Maverick。
在數學基準(GSM8K、MATH)和程式碼生成(LiveCodeBench、EvalPlus)上,Qwen 3.5 更勝 GPT-4o 和 DeepSeek-V3。Hacker News 用戶 2001zhaozhao 指出,如果官方基準測試比較的是 Claude Haiku 4.5,那麼 Qwen3.5 122B 在圖表中的表現「絕對是瘋狂的」,顯示開源模型在特定任務上已能挑戰商業 API 的效能。
然而,Hacker News 用戶 azmenak 提出了量化策略的重要性。他在 M4 Max 128GB 上執行各種代理任務後發現,執行大型模型的高品質量化版本(如 Nemotron 3 Super 使用 Unsloth 的 UD Q4_K_XL 量化)可能比執行標準量化的更大模型產生更好的實際結果,這是許多排行榜忽略的面向。
本地部署大型 MoE 模型的門檻與趨勢
本地部署 122B 級 MoE 模型的硬體門檻已降至消費級高階配置。Apple M5 Max 128GB(約 USD 4,000+)與 AMD Ryzen AI Max+ 395(Strix Halo) 代表了統一記憶體架構的新趨勢,讓大型 LLM 推論不再需要獨立顯卡與 PCIe 頻寬。
MLX 框架針對 Apple Silicon 的最佳化展現了顯著優勢。DEV Community 的教學指出,相較於 Ollama 的 llama.cpp 後端,MLX 的 token 生成速度快約 2 倍,prompt 處理快 5 倍。這得益於 Metal 後端的 GPU 加速與統一 CPU/GPU 記憶體的高效利用。
然而,跨平台部署的挑戰仍存在。MLX 框架目前僅支援 Apple Silicon,限制了開發者在 Linux 或 Windows 環境的部署彈性。對於需要跨平台一致性的團隊,仍需依賴 Ollama 或 llama.cpp 等通用框架,但代價是效能折損。
統一記憶體硬體的價格趨勢值得關注。AMD Strix Halo 的上市將打破 Apple 在統一記憶體市場的壟斷,可能推動 128GB 配置的價格下降,讓更多開發者能夠負擔本地部署大型 MoE 模型的硬體成本。
核心技術深挖
Qwen 3.5 122B-A10B 的技術核心在於 MoE 架構與混合注意力機制的結合,讓大參數模型能在消費級硬體上高效執行。以下三個機制缺一不可。
機制 1:稀疏啟動的專家路由
256 個專家模組在每次推論時只啟動 8 個任務相關專家加 1 個共享專家,合計 10B 參數。路由器網路根據輸入 token 的語義特徵,動態選擇最合適的專家組合。這讓模型在保持 122B 參數帶來的知識容量的同時,推論成本等同於 10B 密集模型。
專家 FFN dimension 設計為 1,024,相較於傳統密集模型更小,但透過專家專業化彌補了單一專家容量的不足。共享專家機制確保所有推論路徑都能存取基礎知識,避免專家過度專業化導致的泛化能力下降。
這種設計在工具使用任務上特別有效。當模型需要協調多個 API 呼叫時,不同專家可分別處理參數解析、錯誤處理、結果整合等子任務,展現出比 GPT-5 mini 高出 30% 的表現。
機制 2:混合注意力機制
48 層架構以 3:1 比例混合 Gated DeltaNet 線性注意力層與完整注意力層,形成 16 個 DeltaNet-attention 混合循環。線性注意力層的計算複雜度為 O(n) ,相較於標準注意力的 O(n²) 大幅降低長上下文處理成本。
完整注意力層保留在關鍵位置,確保模型在需要全局資訊整合的任務(如長文件摘要、跨段落推理)時不會損失精度。DeltaNet 的門控機制則選擇性地傳遞歷史資訊,避免線性注意力常見的資訊衰減問題。
這個混合設計讓模型原生支援 262k tokens 上下文,並可透過 YaRN(Yet another RoPE extensioN method)scaling 擴展至 1M tokens。YaRN 透過調整旋轉位置編碼的頻率,讓模型能在超出訓練長度的上下文窗口上保持穩定表現。
名詞解釋
YaRN(Yet another RoPE extensioN method) 是一種位置編碼擴展技術,透過調整旋轉位置編碼的頻率,讓語言模型能處理超出訓練時最大長度的上下文窗口。
機制 3:動態量化與記憶體管理
Q4 動態量化將模型權重從 16-bit 浮點數壓縮至 4-bit 整數,但保留啟動值 (activation) 的高精度計算。這讓 122B 參數模型的儲存需求降至約 78GB(含完整 context buffers),在 128GB 統一記憶體配置上留有充足空間。
MLX 框架針對 Apple Silicon 的統一記憶體架構最佳化,透過 Metal 後端實現 CPU/GPU 協同計算。相較於傳統架構需在 CPU 與 GPU 記憶體間複製資料,統一記憶體讓專家路由與注意力計算能無縫存取相同記憶體區域,減少頻寬瓶頸。
動態量化在推論時根據啟動值的分佈調整量化參數,相較於靜態量化(如 GPTQ)能更好地保留模型精度。實測顯示,Q4 動態量化的 Qwen 3.5 122B-A10B 在 MMLU-Pro 的表現僅比全精度版本下降約 1-2%,但記憶體需求降低至原本的 1/4。
白話比喻
想像一個有 256 位專家的顧問團隊,每次會議只需召集 8-9 位最相關的專家(而非全員到場),既保留了團隊的專業廣度,又大幅降低了會議成本。混合注意力機制就像是有些專家用快速筆記(線性注意力)追蹤討論,關鍵時刻才由總顧問(完整注意力)整合全局資訊做決策。
工程視角
環境需求
硬體方面,執行完整 122B-A10B 模型的 Q4 量化版本至少需要 128GB 統一記憶體(Apple M5 Max、AMD Ryzen AI Max+ 395 等配置)。64GB 配置可執行 35B-A3B 變體,但在大上下文或多工具呼叫場景下可能遇到 OOM(記憶體不足)。
軟體環境上,Apple Silicon 用戶建議使用 MLX 框架以獲得最佳效能(prompt 處理快 Ollama 5 倍,token 生成快 2 倍)。跨平台部署可使用 Ollama 或 llama.cpp,但效能會有折損。模型需約 78GB 儲存空間(Q4 量化),建議使用 NVMe SSD 以加速模型載入。
開發環境需 Python 3.10+ 與對應的推論框架。MLX 需額外安裝 mlx-lm 套件,Ollama 則透過 REST API 提供語言無關的介面。對於需要整合現有工具鏈的團隊,HuggingFace Transformers 提供標準介面,但效能不如專用框架。
最小 PoC
# 使用 MLX 框架在 Apple Silicon 上執行 Qwen 3.5 122B-A10B Q4 量化
from mlx_lm import load, generate
# 載入模型(首次執行會下載約 78GB 權重)
model, tokenizer = load("mlx-community/Qwen3.5-122B-A10B-4bit")
# 定義工具呼叫提示
prompt = """你是一個具備工具呼叫能力的助手。可用工具:
- web_search(query: str) -> List[dict]:搜尋網路資訊
- calculate(expression: str) -> float:執行數學計算
使用者問題:2026 年 Apple M5 Max 的 Geekbench 分數是多少?請計算其相較於 M4 Max 的提升百分比。
"""
# 生成回應(max_tokens 控制輸出長度,temperature 控制隨機性)
response = generate(model, tokenizer, prompt=prompt, max_tokens=512, temperature=0.7)
print(response)
# 預期輸出:模型會生成工具呼叫 JSON,如
# {"tool": "web_search", "args": {"query": "Apple M5 Max Geekbench score 2026"}}
# 然後根據假設的搜尋結果生成計算呼叫
# {"tool": "calculate", "args": {"expression": "(new_score - old_score) / old_score * 100"}}
名詞解釋
PoC(Proof of Concept) 是概念驗證,用最小化實作驗證技術可行性的初步原型。
驗測規劃
功能驗證應涵蓋三個面向。首先,長上下文處理能力測試,準備 50k-200k tokens 的文件(如長篇技術文件、多檔案程式碼庫),驗證模型能否正確回答跨段落的問題。預期記憶體使用應隨上下文長度線性增長,不應出現突然的 OOM。
其次,工具呼叫穩定性測試,設計需要 3-5 次工具協同的複雜任務(如「分析 GitHub repo 的 issue 趨勢並生成圖表」),驗證模型能否正確序列化工具呼叫、處理錯誤回應、重試失敗操作。錯誤率應低於 5%,且錯誤應能被模型自我修正。
最後,效能基準測試,記錄不同上下文大小(1k, 10k, 50k, 100k tokens)下的 prompt 處理時間與 token 生成速度。在 M5 Max 128GB 配置上,1k tokens prompt 應在 1-2 秒內處理完成,token 生成速度應穩定在 50-70 tokens/sec。
常見陷阱
- 記憶體估算失準:官方標示的 74GB Q4 量化大小不包含上下文 buffer 與系統開銷,實際需預留 128GB 總記憶體才能穩定執行大上下文任務
- 量化品質差異:不同量化方法(Q4_K_M、Q4_K_XL、UD Q4)對模型精度影響不同,建議在實際任務上驗證而非僅看基準測試分數
- MLX 跨平台限制:MLX 框架僅支援 Apple Silicon,在 Linux/Windows 環境部署需切換至 Ollama 或 llama.cpp,效能會有 2-5 倍折損
- 工具呼叫格式不一致:模型輸出的工具呼叫 JSON 格式可能與預期不符(如欄位順序、引號使用),需實作容錯解析邏輯
- 電源管理未預期:在筆記型電腦上執行密集推論會導致風扇全速運轉與快速掉電,移動場景需考慮接入電源或降低負載
上線檢核清單
- 觀測:記憶體使用峰值、token 生成速度 (p50/p95/p99) 、prompt 處理延遲、OOM 錯誤率、工具呼叫成功率
- 成本:硬體折舊(M5 Max 128GB 約 USD 4,000,按 3 年攤提)、儲存成本(78GB 模型權重)、電力成本(推論期間 TDP 約 60-100W)
- 風險:模型幻覺(特別是在工具呼叫參數生成時)、長上下文精度衰減(超過 200k tokens)、量化導致的精度損失(關鍵任務需與全精度版本對比驗證)
商業視角
競爭版圖
- 直接競品:DeepSeek-V3(671B 參數 MoE,37B 啟動),Llama 3.3 70B(Meta) ,Mistral Large 2(123B 密集模型)
- 間接競品:OpenAI GPT-4o(商業 API,密集架構),Anthropic Claude 3.5 Sonnet(商業 API),Google Gemini Pro(商業 API + 開源 Gemma 系列)
護城河類型
- 工程護城河:混合注意力機制與 MoE 架構的結合需要深厚的模型訓練專業知識,小團隊難以複製。阿里巴巴在 Qwen 系列的持續迭代(從 Qwen 1 到 3.5)累積了大量訓練配方與調優經驗。
- 生態護城河:開源授權 (Apache 2.0)+ HuggingFace/Ollama/MLX 等主流框架的原生支援,讓開發者能無縫整合至現有工具鏈。社群產生的量化版本、微調 adapter、部署教學形成網路效應。
- 資料護城河:訓練語料涵蓋多語言(特別是中文)、多領域(程式碼、數學、科學)高品質資料集,且持續更新至 2026 年初,時效性優於多數開源模型。
定價策略
開源模型本身免費,但隱性成本包含硬體投資(128GB 統一記憶體配置約 USD 4,000)與維運成本(電力、儲存)。對於無法負擔本地部署的用戶,阿里雲提供 Qwen API 服務,定價策略採用「開源模型免費 + 商業 API 收費」的雙軌模式。
這種策略讓中小團隊能用開源版本進行原型驗證與小規模部署,規模化後再選擇商業 API(獲得 SLA 保證、更快推論速度、免維運負擔)。相較於 OpenAI 的純商業 API 模式,降低了初期試用門檻,有利於生態擴張。
對標 OpenAI GPT-4o API 的定價(約 USD 2.5/1M input tokens),Qwen API 可能採取 50-70% 折扣策略以吸引價格敏感客戶。本地部署的單次推論成本(電力 + 硬體折舊)約 USD 0.0001-0.0003,適合高頻呼叫場景。
企業導入阻力
- 硬體門檻:128GB 統一記憶體配置的供應商有限(Apple M5 Max、AMD Strix Halo),企業若已投資 NVIDIA GPU 基礎設施,切換至統一記憶體架構需額外資本支出
- 合規與稽核:開源模型的訓練資料來源與偏見控制透明度低於商業 API(如 Anthropic 的 Constitutional AI),金融、醫療等受監管產業可能有疑慮
- 維運負擔:本地部署需自建模型更新、版本管理、監控告警系統,中小企業可能缺乏 MLOps 團隊
- 多語言支援限制:雖號稱多語言,但在非中英語系(如阿拉伯語、印地語)的表現可能不如專精該語言的模型
第二序影響
- 雲端 AI 服務重新定價:開源大型 MoE 模型的普及將壓縮商業 API 的利潤空間,迫使 OpenAI/Anthropic 在價格或功能上進一步差異化
- 統一記憶體硬體需求激增:Apple/AMD 的統一記憶體架構將從利基市場(創意工作者)擴展至 AI 開發者,推動 128GB+ 配置成為高階工作站標配
- 邊緣 AI 場景湧現:本地部署能力讓敏感資料處理(醫療、法律、國防)不需上傳雲端,催生新的垂直應用市場
- 開發者技能需求轉變:從「呼叫 API」轉向「量化最佳化、記憶體管理、推論框架選型」,MLOps 技能成為 AI 開發者標配
判決值得投入(開源 + 硬體成熟度已達實用門檻)
Qwen 3.5 122B-A10B 的技術成熟度、生態整合度、硬體可得性已形成完整產品閉環。對於需要本地部署、高頻呼叫、敏感資料處理的場景,相較於商業 API 具備明確的成本與合規優勢。
短期風險在於統一記憶體硬體的供應商集中(Apple、AMD),若出貨受限可能影響規模化部署。中期觀察 MoE 架構的演進方向,以及商業 API 廠商的反擊策略(如推出更便宜的小模型、提供混合部署方案)。
建議策略為「小規模試點 + 混合部署」:核心敏感業務用本地 Qwen 3.5,非敏感高峰負載用商業 API,根據實際成本與效能數據逐步調整比例。這種漸進式導入降低了一次性投資風險,同時保留了技術路線的彈性。
數據與對比
Qwen 3.5 122B-A10B 在多項基準測試中展現了強勁表現,特別是在需要複雜推理與工具使用的任務上。
通用知識與推理
在 MMLU-Pro(大規模多任務語言理解,進階版)測試中取得 86.1% 準確率,優於 DeepSeek-V3 和 LLaMA-4-Maverick。GPQA Diamond(研究生等級科學問答)達 85.5%,顯示模型在需要深度專業知識的領域也能保持高準確度。
BBH(BIG-Bench Hard,複雜推理任務集)的表現優於 DeepSeek-V3,印證了混合注意力機制在多步驟推理任務上的優勢。這些任務通常需要模型在長推理鏈中保持一致性,MoE 架構讓不同專家分別處理推理的不同階段。
程式碼生成與軟體工程
SWE-bench Verified 取得 72.4%,這是一個需要模型理解真實 GitHub issue、生成修復 patch 並通過測試的困難基準。Terminal-Bench 2.0 達 41.6%,測試模型在命令列環境的操作能力。
LiveCodeBench 和 EvalPlus 的表現超越 GPT-4o 和 DeepSeek-V3,顯示 Qwen 3.5 在程式碼理解、重構、除錯等實務場景的優勢。這得益於訓練資料中包含大量高品質程式碼語料庫,以及 MoE 架構讓不同專家專精於不同程式語言或程式設計範式。
數學與邏輯推理
GSM8K(小學數學應用題)和 MATH(高中至大學數學競賽題)的表現勝過 GPT-4o,顯示模型在需要多步驟計算與符號操作的任務上已達商業 API 水準。這對於需要量化分析或數值模擬的應用場景(如財務分析、科學計算)具有實用價值。
工具使用與代理任務
在工具使用任務上比 GPT-5 mini 高出 30%,這是 Qwen 3.5 最顯著的優勢之一。測試涵蓋多工具協同、錯誤恢復、參數推斷等真實代理工作流程場景。MoE 架構讓不同專家分別處理工具選擇、參數生成、結果驗證等子任務,展現出比密集模型更強的模組化推理能力。
最佳 vs 最差場景
推薦用
- 本地 RAG 系統(原生 262k tokens 上下文,可擴展至 1M)
- 多工具呼叫的代理工作流程(工具使用任務優於 GPT-5 mini 30%)
- 程式碼生成與重構(EvalPlus、LiveCodeBench 超越 GPT-4o)
- 敏感資料處理場景(完全本地執行,無需上傳雲端)
千萬別用
- 即時語音對話(token 生成速度 55-65 tokens/sec 不適合互動場景)
- 記憶體受限環境(Q4 量化最低需 64GB RAM,完整上下文需 128GB)
- 電池供電移動場景(工具呼叫會導致 M5 Pro 風扇全速運轉與快速掉電)
唱反調
MoE 架構的專家路由機制在特定任務上可能不如密集模型穩定,尤其是需要跨領域推理的複雜場景
128GB 統一記憶體的 M5 Max 配置價格昂貴(約 USD 4,000+),對個人開發者門檻仍高
MLX 框架僅支援 Apple Silicon,限制了跨平台部署的彈性
社群風向
我推薦它。這裡的人可能會建議其他硬體,但對於本地 LLM 來說它是個強大選項。使用 M5 Max,你的 prompt 處理速度在大型上下文大小時應該比我快約 2 倍。
我剛買了 M5 Pro 64GB,即使用 35B-A3B 模型,如果執行工具呼叫,電池會掉電且風扇會轉動,而且是全新的,這就是我有點反對的原因。但如果我在移動中,隨時可以使用。
他們比較的是哪個 Haiku 模型?是 4.5 嗎?如果是的話,Qwen3.5 122B 在那些圖表中完勝它,這絕對是瘋狂的
我有一台 128 GiB 統一記憶體的 Ryzen AI Max+ 395 筆記型電腦。嘗試執行 LLM 模型時,128 GiB 記憶體感覺非常緊繃。我經常在執行接近極限的模型時遇到 OOM,我需要為系統記憶體留出比預期更多的空間。
根據我在 M4 Max 128GB 上執行各種代理任務的個人測試,我發現執行大型模型的量化版本可以產生最佳結果,而這個網站完全忽略了這一點。目前,Nemotron 3 Super 使用 Unsloth 的 UD Q4_K_XL 量化正在本地執行我幾乎所有的工作(取代 Qwen3.5 122b)
炒作指數
行動建議
在 M5 Max 或同等級硬體上使用 MLX 框架部署 Qwen 3.5 122B-A10B Q4 量化版本,驗證本地工具呼叫工作流程
為現有 RAG 系統整合 262k tokens 上下文能力,評估長文件分析場景的實際效益
關注 MoE 架構在本地部署的演進,以及統一記憶體硬體(Apple Silicon、AMD Strix Halo)的價格趨勢