重點摘要
Google 最強開源模型首度採用 Apache 2.0 授權,但社群實測指出未能超越中國對手 GLM-5
四種尺寸 (E2B/E4B/26B MoE/31B Dense) 皆支援多模態輸入與函數呼叫,採用交替注意力機制與 Shared KV Cache 技術
31B 模型 4-bit 量化需 20GB RAM,適合消費級 GPU;26B MoE 推理僅啟動 4B 參數,大幅降低延遲
首日支援 Hugging Face、llama.cpp、Ollama、Unsloth 等主流框架,但 Reddit 社群反饋指出實測表現未優於 GLM-5
前情提要
Google 於 2026 年 4 月 2 日發布 Gemma 4 模型家族,這是該公司迄今最強大的開源模型系列。此次發布的最大亮點在於首次採用 Apache 2.0 授權,取代了先前版本的自訂授權條款,這對商業應用具有重要意義。
Gemma 4 提供四種尺寸變體,涵蓋從裝置端到雲端的不同需求場景。所有模型皆支援多模態輸入(圖像、音訊、視訊)、函數呼叫與延伸思考能力,顯示 Google 試圖在開源領域建立完整的產品線。
Gemma 4 模型規格與架構亮點
Gemma 4 的四種尺寸各有定位。E2B(2.3B 有效參數 / 5.1B 含嵌入層)與 E4B(4.5B 有效參數 / 8B 含嵌入層)設計為「近零延遲」的離線裝置端模型,上下文窗口支援 128k tokens。
26B MoE 採用混合專家架構,總參數 26B 但推理時僅啟動 4B 活躍參數(約佔 15%),在效能與成本間取得平衡。31B Dense 則是密集架構,追求最高品質輸出,上下文窗口擴展至 256k tokens。
架構創新方面,Gemma 4 採用交替式注意力機制,結合局部滑動窗口與全域完整上下文注意力層。Per-Layer Embeddings (PLE) 技術為每個 token 在每層提供專屬向量,透過較低維度的條件路徑進行調變,提升模型表達能力。
Shared KV Cache 是另一項效率優化,最後 N 層重用早期層的鍵值張量,減少推理時的運算與記憶體需求。多模態編碼器支援可變長寬比的視覺輸入,token 預算可配置為 70/140/280/560/1120 tokens;音訊編碼器則採用 USM-style conformer 架構。
社群實測反饋——GLM-5 的意外對手
Gemma 4 發布後,Reddit r/LocalLLaMA 社群的反應出現明顯分歧。一位用戶的評論「Narrator: it was not better than GLM-5」成為討論串的焦點,直指 Gemma 4 在實測中未能超越中國對手 GLM-5 的現實。
這個反饋與 Google 官方宣傳形成落差。31B 模型在 Arena AI 文字排行榜達到 1452 分,成為全球排名第三的開源模型;在 MMLU-Pro 達到 85.2%、AIME 2026 數學競賽達到 89.2%。然而,benchmark 分數與實際使用體驗之間的鴻溝,再次引發社群對於評測標準的質疑。
Hacker News 上也出現技術障礙的回報。有用戶反映在 llama.cpp 中無法關閉思考模式,常用的 --reasoning-budget 0 參數未能生效,顯示早期整合仍有待完善。
另一方面,Unsloth 團隊對小參數模型的評價相當正面,稱 E2B 與 E4B「表現超出預期」。這些小模型在裝置端部署的潛力,可能是 Gemma 4 更具競爭力的戰場。
31B 參數的策略考量與 Apple 裝置整合猜測
Reddit 用戶 u/sininspira 提出一個有趣的觀點:若 31B 模型已達排行榜所示水準,Google 暫時無需發布更大參數的版本。這反映出開源模型競爭的策略轉變——並非一味追求參數規模,而是在效能、成本與部署便利性之間尋找最佳平衡點。
31B 模型在 4-bit 量化下需要 20GB RAM,8-bit 量化下需要 34GB RAM,恰好適合在 24GB VRAM 的消費級 GPU(如 RTX 4090)上運行。這個記憶體需求的精心設計,顯示 Google 對社群硬體環境的深刻理解。
更大膽的猜測來自 u/putrasherni,他認為 Gemma 小模型 (E2B/E4B) 可能整合進 Apple 裝置,包括 iPhone。這些模型參數量適中(80-90GB 以內),且 Google 與 Apple 在 AI 領域的合作關係正在升溫。
若此猜測成真,Gemma 4 將成為首個大規模部署於數億台裝置的開源模型。這將徹底改變裝置端 AI 的競爭格局,也為 Google 在行動生態系中開闢新的影響力通道。
開源小模型戰場的競爭格局
Gemma 4 的發布時機正值開源小模型競爭白熱化。Hacker News 用戶 synergy20 的提問「這比 Qwen 3.5 好嗎?我該切換過去嗎?」反映出開發者面臨的選擇困境。
Qwen 3.5、GLM-5、Gemma 4 三者在 5B-30B 參數區間形成三足鼎立。中國模型在多語言支援與成本效益上具有優勢,而 Gemma 4 的賣點在於 Google 生態系整合與 Apache 2.0 授權的法律明確性。
框架支援速度成為競爭的關鍵戰場。Gemma 4 首日即支援 Hugging Face Transformers、llama.cpp、MLX、Ollama、LM Studio、NVIDIA NIM/NeMo、vLLM、TRL、Unsloth 等主流框架,Unsloth 更立即提供 GGUF 量化版本。這種整合速度反映出 Google 在開源社群的動員能力。
VentureBeat 報導指出,Apache 2.0 授權的變更可能是比技術規格更重要的訊號。先前 Gemma 系列的自訂授權條款讓企業法務部門猶豫不決,而標準化的開源授權掃除了商業應用的最後障礙。
然而,授權優勢能否轉化為市場佔有率,仍取決於實測表現。Reddit 社群的冷淡反應提醒我們,開源模型的成敗最終由社群驗證,而非公司宣傳。
核心技術深挖
Gemma 4 的核心技術創新聚焦於效率優化與多模態整合,試圖在開源領域建立新的架構標準。
機制 1:交替式注意力機制
Gemma 4 採用交替式注意力機制,結合局部滑動窗口 (local sliding-window) 與全域完整上下文 (global full-context) 注意力層。局部注意力層只關注鄰近的 tokens,降低運算複雜度;全域注意力層則保留長距離依賴關係的捕捉能力。
這種設計在效率與表達力之間取得平衡。對於長文本處理,局部注意力層的 O(n) 複雜度顯著優於標準自注意力的 O(n²) ,而全域注意力層則確保模型不會遺失重要的上下文資訊。
機制 2:Per-Layer Embeddings (PLE) 技術
PLE 技術為每個 token 在每層都提供專屬的向量表示,透過較低維度的條件路徑進行調變。傳統 Transformer 只在輸入層進行嵌入,而 PLE 讓模型在每一層都能調整 token 的語義表示。
這個設計提升了模型的表達能力,特別是在處理多義詞與上下文相關語義時。但代價是增加了模型的參數量與記憶體需求,這也是為何 Gemma 4 需要採用下一個機制來平衡。
機制 3:Shared KV Cache 記憶體優化
Shared KV Cache 讓模型的最後 N 層重用早期層的鍵值 (Key-Value) 張量,而非為每一層單獨計算並儲存。這在推理時大幅減少記憶體需求,特別是處理長上下文時效果顯著。
26B MoE 模型的混合專家架構也是效率優化的一環。推理時僅啟動 4B 參數(約佔總參數 15%),讓模型在保持表達力的同時,降低延遲與資源消耗。這對於需要快速回應的應用場景至關重要。
白話比喻
想像一個圖書館的智慧檢索系統。交替式注意力機制就像「先快速掃描書架標籤(局部注意力),再調閱完整目錄(全域注意力)」;PLE 技術則像「每讀一章就更新對書籍主題的理解」;Shared KV Cache 則是「後面章節直接引用前面章節的摘要,不用重新整理」。
名詞解釋
混合專家架構(Mixture of Experts, MoE):模型內部包含多個「專家」子網路,每次推理時根據輸入內容只啟動部分專家,而非所有參數都參與計算,藉此降低運算成本。
工程視角
環境需求
E2B/E4B 小模型可在 8GB RAM 的裝置上運行(4-bit 量化),適合整合進行動應用或邊緣裝置。26B MoE 模型建議 16GB VRAM 以上的 GPU,31B Dense 模型在 4-bit 量化下需要 24GB VRAM(如 RTX 4090)或 20GB 系統 RAM(CPU 推理)。
開發環境建議使用 Python 3.10 以上版本,搭配 PyTorch 2.5 或 JAX 0.4.35。Hugging Face Transformers 需更新至 4.48 以上版本以支援 Gemma 4。
最小 PoC
以下範例展示如何使用 Hugging Face Transformers 載入 Gemma 4 E4B 模型並進行推理:
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
# 載入模型與 tokenizer
model_id = "google/gemma-4-e4b-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
load_in_4bit=True # 4-bit 量化
)
# 準備輸入
messages = [
{"role": "user", "content": "解釋什麼是 Shared KV Cache"}
]
input_ids = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
return_tensors="pt"
).to(model.device)
# 生成回應
outputs = model.generate(
input_ids,
max_new_tokens=512,
do_sample=True,
temperature=0.7,
top_p=0.9
)
response = tokenizer.decode(
outputs[0][input_ids.shape[-1]:],
skip_special_tokens=True
)
print(response)
驗測規劃
部署前建議進行以下驗測。首先,在代表性資料集上進行對照實驗,與 GLM-5 或 Qwen 3.5 比較實際表現,而非僅依賴 benchmark 分數。
其次,測試思考模式 (extended thinking) 的控制能力。在 llama.cpp 環境中,確認 --reasoning-budget 參數是否正常運作,避免生成過長的推理過程。
記憶體峰值監控也很重要。在長文本處理場景 (128k-256k tokens) 下,觀察 KV Cache 的記憶體增長曲線,確認是否符合官方宣稱的優化效果。
常見陷阱
- 權重綁定 (weight tying) 導致的微調限制:Gemma 4 共用嵌入/去嵌入矩陣,若需微調輸出層,可能影響輸入層表現
- 多模態輸入的 token 預算配置:視覺編碼器的 token 預算 (70-1120) 需根據應用場景調整,預設值可能不適合所有情境
- 量化精度損失:4-bit 量化在數學推理任務上可能出現顯著效能下降,建議先用 8-bit 量化驗證
- 框架版本相容性:早期版本的 llama.cpp 與 Ollama 可能存在思考模式無法關閉的問題,需更新至最新版本
上線檢核清單
- 觀測:推理延遲 (p50/p95/p99) 、記憶體峰值、GPU 利用率、KV Cache 命中率
- 成本:每 1M tokens 的運算成本、GPU 租用費用(若使用雲端)、量化後的儲存空間需求
- 風險:模型輸出的事實正確性(與 benchmark 對照)、多語言場景的表現穩定性、Apache 2.0 授權的法律合規性確認
商業視角
競爭版圖
- 直接競品:GLM-5(智譜 AI,5B-30B 參數)、Qwen 3.5(阿里巴巴,7B-72B 參數)、Llama 3.3(Meta,70B 參數)、Mistral Small(24B 參數)
- 間接競品:閉源 API 服務(OpenAI GPT-4o、Anthropic Claude 3.7)、裝置端 AI 晶片方案(Apple Neural Engine、Qualcomm Hexagon NPU)
護城河類型
- 工程護城河:Google 在分散式訓練基礎設施 (TPU v6) 與多模態編碼器的技術積累,短期內難以複製;Shared KV Cache 與 PLE 技術的專利佈局
- 生態護城河:首日支援主流框架(Hugging Face、llama.cpp、Ollama、Unsloth)的整合速度,反映出 Google 在開源社群的動員能力;與 NVIDIA、Arm、Apple 的硬體合作關係
定價策略
Gemma 4 採用完全開源的策略,不收取授權費用或 API 使用費。商業模式聚焦於間接變現。首先,透過 Google Cloud Vertex AI 提供託管服務,收取運算資源費用。
其次,Gemma 4 的廣泛部署將增加對 Google Cloud TPU 與 GPU 實例的需求,強化 Google 在雲端 AI 基礎設施的市場地位。第三,裝置端模型 (E2B/E4B) 可能整合進 Android 生態系,提升 Google Assistant 與其他服務的競爭力。
Apache 2.0 授權的變更是定價策略的關鍵調整。先前 Gemma 系列的自訂授權條款讓企業法務部門猶豫不決,而標準化開源授權掃除了商業應用的最後障礙,降低了企業導入的決策成本。
企業導入阻力
- 實測表現與宣傳落差:Reddit 社群反饋指出 Gemma 4 未能超越 GLM-5,企業需自行驗證是否符合需求,增加評估成本
- 記憶體需求門檻:31B 模型即使 4-bit 量化仍需 20GB RAM,限制了中小型企業的硬體選擇範圍
- 遷移成本:若企業已部署 GPT-4 或 Claude API,切換至自託管 Gemma 4 需重新調整 prompt、評測流程與監控系統
- 多語言支援疑慮:相較於專注於多語言訓練的中國模型(Qwen、GLM),Gemma 4 在非英語語言的表現可能不及預期
第二序影響
- 裝置端 AI 市場加速整合:若 Gemma E2B/E4B 整合進 Apple 裝置,將推動行動裝置製造商(Samsung、小米)加速自家 AI 晶片與模型的開發
- 開源模型授權標準化:Apache 2.0 的採用可能促使其他廠商(Meta、Mistral)重新檢視自家開源模型的授權條款,降低企業法律風險
- 雲端 AI 基礎設施需求增長:Gemma 4 的廣泛部署將增加對 TPU、GPU 租用服務的需求,利好 Google Cloud、AWS、Azure 的 AI 基礎設施業務
- 中國模型的國際市場挑戰:GLM-5 與 Qwen 3.5 在技術上已不輸 Gemma 4,但缺乏 Google 的生態系整合與品牌信任,國際擴張面臨障礙
判決謹慎樂觀(Apache 2.0 授權與生態系整合是亮點,但實測表現需驗證)
Gemma 4 的競爭力不在於技術領先(社群反饋指出未能超越 GLM-5),而在於生態系整合的深度與廣度。Apache 2.0 授權掃除了企業導入的法律障礙,首日支援主流框架的速度反映出 Google 的動員能力。
裝置端模型 (E2B/E4B) 若能整合進 Android 與(可能的)Apple 裝置,將開啟數億台裝置的市場。然而,這需要 Google 在硬體合作與商業談判上的持續投入,而非僅是技術發布。
短期內,Gemma 4 的商業價值在於降低企業自託管 AI 的門檻,而非取代閉源 API。中長期來看,裝置端 AI 的市場潛力遠大於雲端部署,這是 Google 與 Apple、Qualcomm 等硬體廠商的真正戰場。
數據與對比
MMLU-Pro(多任務語言理解進階版)
Gemma 4 31B 模型在 MMLU-Pro 達到 85.2%,這是衡量模型跨領域知識理解能力的標準測試。相較於先前的 Gemma 3 27B(78.3%) ,提升了 6.9 個百分點。
AIME 2026(美國數學邀請賽)
31B 模型在 AIME 2026 數學競賽達到 89.2%,顯示其在多步驟推理與數學證明方面的能力。這個成績接近 GPT-4o 的水準(約 91%),但仍落後於 Claude 3.7 Sonnet(93%) 。
GPQA Diamond(研究生級科學問答)
在 GPQA Diamond 測試中,31B 模型達到 84.3%。這個測試涵蓋物理、化學、生物等領域的研究生級問題,是衡量模型專業知識深度的指標。
Arena AI 文字排行榜
31B 模型在 Arena AI 文字排行榜上達到 1452 分,成為全球排名第三的開源模型。然而,Reddit 社群的實測反饋指出,這個排名與實際使用體驗存在落差,特別是在與 GLM-5 的對照實驗中。
推理速度與記憶體需求
26B MoE 模型在 NVIDIA RTX 4090(24GB VRAM) 上的推理速度約為 30 tokens/秒(8-bit 量化),31B Dense 模型在相同硬體上約為 18 tokens/秒(4-bit 量化)。E2B/E4B 小模型在裝置端的延遲低於 100ms,適合即時互動應用。
最佳 vs 最差場景
推薦用
- 裝置端 AI 應用(E2B/E4B 適合):離線語音助理、本地文件摘要、隱私敏感的資料處理
- 多模態內容分析:結合圖像、音訊、文字的整合式應用,如視訊字幕生成、多媒體搜尋
- 函數呼叫與 Agent 應用:需要與外部工具整合的智慧助理、自動化工作流程
- 預算受限的雲端部署:26B MoE 模型在推理成本與效能間取得平衡,適合中型企業
千萬別用
- 需要最高準確度的關鍵任務:社群反饋指出實測表現未優於 GLM-5,高風險場景應先驗證
- 極低延遲需求的即時應用:31B 模型在消費級硬體上的推理速度仍不及專用 API(如 GPT-4o Turbo)
- 多語言複雜場景:中文、日文等非英語語言的表現可能不及專注於多語言訓練的模型(如 Qwen 3.5)
唱反調
Benchmark 分數與實際使用體驗脫節,社群實測指出 Gemma 4 未能超越 GLM-5,質疑 Google 評測方法的代表性
31B 模型記憶體需求 (20-34GB) 仍然偏高,限制了消費級硬體的應用範圍,與「democratizing AI」的口號形成落差
社群風向
旁白:它並沒有比 GLM-5 更好
如果 31B 模型真如開源模型排行榜所示那樣優秀,Google 目前其實不需要發布更大參數的版本
我認為這些模型將被整合進 Apple 裝置,它們的參數量都很小,總共不超過 80-90GB,Gemma 小模型可能在 iPhone 內運行——Google 與 Apple 的合作關係將迎來瘋狂的時代
非常高興看到 Google 今天以 Apache 2.0 授權發布 Gemma 4,讓你能在本地獲得前沿能力。你可以立即在所有喜愛的開源 agent 平台使用它,只需將模型切換為本地 Gemma 4
Gemma 4 使用權重綁定 (weight tying) ,共用嵌入/去嵌入矩陣。我的印象是這在除了非常小的模型之外相當罕見,好奇為何他們選擇這個設計
炒作指數
行動建議
在 Hugging Face 或 Ollama 上部署 E2B/E4B 小模型,評估裝置端推理的可行性(記憶體需求低、延遲近零)
使用 Unsloth 提供的 GGUF 量化版本,在 24GB VRAM GPU 上測試 31B 模型的實際效能,與 GLM-5 進行對照實驗
追蹤 llama.cpp 與 MLX 的整合進度,關注思考模式 (extended thinking) 控制問題的修復狀況