重點摘要
終端機原生、完全開源、隱私優先——AI 編碼助手不再是商業工具的專利
開源 LLM 在編碼任務上已匹敵專有模型,Qwen 3.5、GLM-4.7、Kimi K2.5 在 HumanEval 等基準測試達前沿水準
RTX 3060 12GB 即可運行 Qwen 3.5 35B-A3B,速度約 25-30 tokens/sec,M4 Mac 可達 15 tokens/sec
OpenCode/Crush 提供完全開源的替代方案 (MIT License) ,與 Cursor、Claude Code 形成互補生態
前情提要
章節一:OpenCode 是什麼?終端機原生的開源程式助手
OpenCode 是一款終端機原生的開源 AI 編碼助手,在 2025 年 9 月歸檔前累積 11.4k GitHub stars。該專案由 Go 語言開發,透過 Bubble Tea 框架提供互動式終端使用者介面,支援多種 AI 提供者,包括 OpenAI、Anthropic Claude、Google Gemini、AWS Bedrock、Groq、Azure OpenAI 和 OpenRouter。
開發已於 2025 年 7 月轉移至 Crush 專案,由原作者與 Charm 團隊繼續維護。Crush 保留了 OpenCode 的核心特色:終端機原生、多模型支援、LSP(Language Server Protocol) 整合,並在 2026.3 版本中實現 40% 的重構時間縮減。
與商業工具不同,Crush 採用 MIT 開源授權,預設不將程式碼傳送至遠端伺服器。開發者可完全控制使用哪個模型提供者以及共享的資料範圍,這是隱私優先設計的核心價值。
名詞解釋
LSP(Language Server Protocol) 是微軟制定的語言伺服器協定,讓編輯器能夠獲得程式碼補全、跳轉定義、重構等智慧功能,OpenCode 透過整合 LSP 理解專案程式碼結構。
章節二:硬體門檻實測:3060 12GB 就能跑的 AI Coding
Reddit 社群實測顯示,RTX 3060 12GB 運行 Qwen 3.5 35B-A3B(Q6 量化)時,速度約 25-30 tokens/sec。在 RTX 3090 上可達 60-100+ tokens/sec,而 MacBook Air M4 24GB 可達約 15 tokens/sec。
Qwen 3.5 35B-A3B 的架構創新在於:總參數 35B,但僅激活 3B 參數,卻超越前代 6 倍規模的模型。採用 Gated Delta Networks 結合稀疏混合專家架構,256 個專家中僅激活 8 個路由加 1 個共享專家,實現高效推理。
編碼性能方面,27B dense 模型在 SWE-bench Verified 達 72.4 分,匹敵 GPT-5 mini。社群使用者建議:「最小化初始提示,不要有任何不必要的工具或 MCPs。很多工具是為前沿 AI 的 1M 上下文最佳化的,本地開源只需要 edit 和 bash 工具。」
名詞解釋
SWE-bench Verified 是軟體工程基準測試,評估 AI 模型解決真實 GitHub issue 的能力,分數越高代表實際編碼能力越強。
章節三:社群激辯:與 Cursor、Claude Code 的差異化定位
2026 年 AI 編碼工具戰場形成三大陣營。Cursor 提供最佳 IDE 體驗,Supermaven 自動補全延遲低於 100ms,適合偏好 VS Code 生態系的開發者。
Claude Code 是終端機原生 AI agent,Opus 4.5 在 SWE-bench 達 80.9%,上下文規模標準版 200K tokens、beta 版 1M tokens。單次提示可分析約 30,000 行程式碼,適合大規模重構。
OpenCode/Crush 是唯一完全開源的工具,採用 MIT License,隱私優先、模型選擇自由。值得注意的是,OpenCode 早期版本曾偽造 Claude Code 的 HTTP headers 存取 Claude 模型,後續提交已移除 Claude OAuth 支援,改用 OpenAI Codex、GitHub、GitLab 等替代提供者。
多數重度使用者採用混合策略:Cursor 處理日常視覺化 IDE 工作,Claude Code 處理深度多檔案任務,OpenCode 則提供隱私優先的本地方案。
章節四:開源 LLM × Coding 的成熟度拐點
2026 年開源 LLM 排行榜反映出該領域已戲劇性成熟。S-tier 模型如 GLM-4.7(HumanEval 94.2) 、Kimi K2.5(HumanEval 99.0) 、MiniMax M2.5 在特定基準測試上匹敵或超越專有模型。
MiMo-V2-Flash 在軟體工程基準測試超越 DeepSeek-V3.2 和 Kimi-K2,參數量僅約 1/2 到 1/3,甚至與領先的閉源模型競爭。Kimi-Dev-72B、Qwen3-Coder-480B-A35B-Instruct、DeepSeek-V3 成為 2026 年首選,突破開源 AI 邊界。
這些模型已明確針對 agentic 和工具呼叫工作流程訓練,涵蓋程式碼除錯、終端機操作、Web 開發和通用工具使用。透過在本機運行模型,開發者獲得隱私保護、消除 API 成本、解鎖深度客製化。
在 2025 年,本地運行強大的編碼 AI 不再是夢想——而是實際可行的現實。
核心技術深挖
OpenCode/Crush 的核心價值在於「終端機原生 + 多模型支援 + 隱私優先」三位一體的設計哲學,與商業工具形成差異化定位。
機制 1:終端機原生的 TUI 互動設計
Crush 使用 Go 語言搭配 Bubble Tea 框架構建互動式終端使用者介面。與傳統 IDE 外掛不同,終端機原生設計讓開發者保持在 shell 工作流中,無需切換視窗或啟動重量級 IDE。
LSP 整合讓 Crush 能夠理解專案程式碼結構,提供程式碼補全、跳轉定義、重構等智慧功能。2026.3 版本實現 40% 的重構時間縮減,證明終端機介面也能達到高效互動。
機制 2:多模型提供者抽象層
Crush 支援 OpenAI、Anthropic Claude、Google Gemini、AWS Bedrock、Groq、Azure OpenAI、OpenRouter 等多種提供者。開發者可以在設定檔中切換模型,甚至為不同任務使用不同模型(如用 GPT-4 做程式碼審查、用本地 Qwen 做快速補全)。
這種抽象層設計避免了供應商鎖定,也讓開發者能夠根據成本、隱私、速度需求自由選擇。早期 OpenCode 曾嘗試未授權存取 Claude API,後續移除 OAuth 支援,改為鼓勵使用者自行提供 API 金鑰。
機制 3:隱私優先的本地運行模式
Crush 預設不將程式碼傳送至遠端伺服器,所有處理可在本地完成。當使用開源 LLM(如 Qwen 3.5 35B-A3B)時,程式碼完全不離開開發者的機器。
這對於處理敏感專案(如企業內部工具、未公開專利程式碼)至關重要。商業工具如 Cursor、Claude Code 需要將程式碼上傳至雲端進行分析,即使有資料保護承諾,仍存在潛在風險。
白話比喻
Crush 就像是一位住在你家地下室的程式助手——你不需要把程式碼寄給遠方的專家,而是在自己的地盤上就能獲得協助。雖然速度可能不如雲端專家即時,但你完全掌控誰能看到你的程式碼。
名詞解釋
MCP(Model Context Protocol) 是 Anthropic 提出的協定,讓 AI 工具能夠存取外部工具和資料來源。本地開源工具通常只需基本的 edit 和 bash 工具,不需要複雜的 MCP 設定。
工程視角
環境需求
硬體方面,最低門檻為 RTX 3060 12GB(Qwen 3.5 35B-A3B Q6 量化約 25-30 tokens/sec),推薦 RTX 3090 24GB(60-100+ tokens/sec) 或 Apple M4 24GB(約 15 tokens/sec)。
軟體方面,需要 Go 1.21+ 編譯 Crush,或直接下載預編譯二進位檔。本地 LLM 推理可使用 Ollama、llama.cpp 或 vLLM 作為後端,透過 OpenAI 相容 API 介面與 Crush 整合。
整合步驟
- 安裝 Crush:
go install github.com/charmbracelet/crush@latest或下載 release binary - 設定 API 金鑰或本地模型端點:編輯
~/.config/crush/config.yaml,指定提供者(如provider: openai)和 API endpoint(如http://localhost:11434/v1for Ollama) - 驗證整合:執行
crush chat "解釋這段程式碼",確認模型回應正常 - LSP 整合:在專案目錄執行
crush init,Crush 會掃描程式碼結構並建立索引
驗測規劃
測試基本功能:程式碼解釋、除錯建議、測試生成、重構建議。比較不同模型(如 Qwen vs GPT-4)在相同任務上的表現,評估速度與品質權衡。
監控推理延遲(time to first token、tokens per second)和記憶體使用量(GPU VRAM、系統 RAM)。設定合理的 timeout 和 retry 邏輯,避免模型卡住。
常見陷阱
- 上下文視窗管理不當:本地模型上下文通常小於雲端(Qwen 3.5 35B-A3B 支援 262K,但實際可用受限於 VRAM),需要主動精簡提示
- 工具和 MCP 過載:如 u/Connect_Nerve_6499 所述,本地開源只需 edit 和 bash 工具,過多工具會拖慢推理速度
- 量化品質損失:Q6 量化在速度與品質間取得平衡,但 Q4 以下可能顯著降低編碼準確度
上線檢核清單
- 觀測:推理延遲 (p50/p95/p99) 、GPU 使用率、記憶體峰值、錯誤率
- 成本:硬體採購攤提(RTX 3060 約 $300-400 二手)、電力成本 (TDP 170W)
- 風險:模型輸出品質監控(定期與雲端 API 對比)、安全性(避免執行未審查的生成程式碼)
商業視角
競爭版圖
- 直接競品:Cursor($20/月,最佳 IDE 體驗)、Claude Code(包含在 Claude Pro $20/月)、Windsurf(新興競爭者)
- 間接競品:GitHub Copilot($10/月,程式碼補全為主)、Tabnine(企業自託管方案)、JetBrains AI Assistant
護城河類型
- 工程護城河:終端機原生設計的使用者體驗最佳化,多模型抽象層的穩定性,LSP 整合的深度
- 生態護城河:MIT 開源授權吸引貢獻者,Charm 團隊的終端機工具生態(Bubble Tea、Gum、Soft Serve)形成工具鏈互補
開源採用動力
免費使用、無供應商鎖定、隱私優先是核心吸引力。開發者社群對「不將程式碼上傳雲端」的需求持續存在,尤其在企業內部工具、政府專案、敏感研究領域。
但開源工具的挑戰在於:功能追趕速度慢於商業競品、使用者體驗較碎片化、缺乏統一的支援和 SLA 保證。
生態整合阻力
- 硬體門檻:雖然 RTX 3060 12GB 可用,但對筆電使用者或無 GPU 環境仍是障礙
- 設定複雜度:需要手動配置 API 金鑰、模型端點、LSP 整合,不如 Cursor 的「開箱即用」
- 社群分裂:OpenCode 歷史上的 Claude OAuth 爭議、專案歸檔後轉移至 Crush,造成使用者混淆
第二序影響
- 開源 LLM 編碼能力的提升,降低了雲端 API 的定價權,迫使 OpenAI、Anthropic 提供更有競爭力的價格
- 終端機原生工具的復興,推動更多開發者重新審視 IDE 以外的工作流選擇
- 隱私優先設計成為差異化競爭點,可能催生更多企業自託管 AI 編碼助手方案
判決值得關注(但非主流首選)
Crush/OpenCode 在隱私、成本、模型選擇自由上有明確優勢,適合特定使用場景(隱私敏感、終端機重度使用者、多模型實驗)。但對於多數開發者,Cursor 的 IDE 整合和 Claude Code 的深度分析能力仍是更成熟的選擇。
社群實測顯示,混合策略是最佳實踐:Cursor 處理日常 IDE 工作,Claude Code 處理深度多檔案任務,Crush 處理隱私敏感專案。開源生態的價值在於提供「可選的自由」,而非「唯一的答案」。
數據與對比
工具生態比較
Cursor 在 IDE 整合度、自動補全延遲、多檔案理解上領先,適合需要視覺化介面和即時回饋的開發者。Claude Code 在深度程式碼分析、大規模重構、複雜問題拆解上表現出色,Opus 4.5 在 SWE-bench 達 80.9%。
Crush 在隱私保護、模型選擇自由、終端機工作流整合上獨樹一幟,但功能成熟度仍在追趕。社群實測顯示,多數重度使用者採用混合策略,而非單一工具通吃。
開源 LLM 編碼能力排行
2026 年 HumanEval 排行榜顯示:Kimi K2.5(99.0) 、GLM-4.7(94.2) 、MiMo-V2-Flash 已匹敵或超越專有模型。Qwen 3.5 35B-A3B 在 SWE-bench Verified 達 72.4 分,證明開源模型不再是「堪用」,而是「優秀」。
最佳 vs 最差場景
推薦用
- 隱私敏感專案(企業內部工具、未公開專利程式碼)需要完全本地處理
- 終端機重度使用者(習慣 vim/tmux 工作流)偏好不離開 shell
- 多模型實驗需求(想比較不同 LLM 的編碼能力,避免供應商鎖定)
- 成本控制需求(使用本地開源 LLM 避免 API 費用累積)
千萬別用
- 需要極致速度和即時回應(本地模型推理速度仍慢於雲端 API)
- 重度依賴 IDE 視覺化功能(如 inline diff preview、圖形化重構工具)
- 團隊協作需要統一工具鏈(Crush 的設定和使用體驗較個人化)
- 缺乏 GPU 硬體資源(CPU 推理速度過慢,無法實用)
唱反調
本地模型速度仍慢於雲端 API:即使 RTX 3090 達 100 tokens/sec,仍遠低於 Claude API 的即時回應,對時間敏感的開發工作流可能不適合
開源工具功能仍在追趕:OpenCode/Crush 的 IDE 整合、多檔案理解、自動補全等功能尚未達到 Cursor 或 Claude Code 的成熟度
隱私優先的代價:完全本地運行意味著無法享受雲端模型的即時更新、更大的上下文視窗(如 Claude 的 1M tokens),需要在隱私與功能間權衡
社群風向
如果你有時間、金錢、空間,至少買一張 12GB 的 3060。然後你就可以用 Q6 量化跑 qwen3.5 35b-a3b,大約 30 tokens/sec,對專業人士來說可能太慢,但足夠入門了。
最小化初始提示,不要有任何不必要的工具或 MCPs。很多工具是為前沿 AI 的 1M 上下文最佳化的,本地開源只需要 edit 和 bash 工具。你可以加入安全外掛來獲得一些安全性,或者預設就是 YoLo 模式。
我其實已經習慣了。在 cursor v0.5 時代,我可以等 10 分鐘以上才開始處理我的提示。
沒錯。這就是為什麼像 @code 或 @opencode 這樣的開放框架,加上像 zen 或 @GitHubCopilot 這樣的訂閱服務(讓你存取來自不同提供者的各種模型),是比任何 LLM 供應商套裝方案更好的組合。
對 #opencode 中 Big Pickle LLM 生成的測試案例品質感到驚訝。對於一個免費的編碼 LLM 來說已經相當不錯了。
炒作指數
行動建議
在 RTX 3060/3090 或 M4 Mac 上運行 Qwen 3.5 35B-A3B + Crush,實測本地 AI 編碼助手的實用性
根據自己的隱私需求和工具偏好,建立混合工作流(Cursor 日常 + Claude Code 深度任務 + OpenCode 隱私敏感專案)
追蹤 Crush 專案更新、開源編碼 LLM 排行榜、社群實測報告