重點摘要
中國 AI 開源路線的代價:梁文鋒以百億美元賭注換取 AGI 信念
700 億人民幣(約 103 億美元),DeepSeek 歷史首輪外部融資,目標估值 450 億美元,中國國家 AI 基金擬領投,騰訊與 IDG Capital 跟進洽談。
V4-Pro(1.6 兆參數)與 V4-Flash 已針對國產晶片優化;DeepSeek Code 以「Model + Harness」架構對標 Claude Code,由 ACM 六屆金牌崔添翼領銜。
梁文鋒以「AGI 優先、短期商業化靠後」定位,透過開源策略換取全球開發者信任,與 OpenAI 的商業化路線形成鮮明對比。
前情提要
百億美元融資的戰略佈局
DeepSeek 正式宣告 700 億人民幣(約 103 億美元)融資輪,這是這家由量化基金幻方科技孵化的 AI 實驗室首次向外部資本開門。此前,DeepSeek 完全由梁文鋒創辦的高頻量化基金自籌資金運作,整個組織以超乎業界的低調著稱。
然而,隨著模型規模與研發投入的幾何級攀升,外部資金已成必要——量化基金的盈利能力再強,也無法無限期支撐 AGI 級別的研發燃燒率。本輪融資的最低外部目標僅 3 億美元,長期規模可能擴大至 70 億美元以上。潛在投資方包括中國國家人工智慧產業投資基金(計劃注資 100 億人民幣)、騰訊、IDG Capital 與 Monolith Capital。
堅持開源而非短期變現的邏輯
梁文鋒在投資者會議上承諾,公司將把「基礎 AI 研究與 AGI 的實現置於短期獲利之前」,並承諾持續開源。這不只是技術信仰的宣示,更是一種精心設計的競爭策略。
開源模型讓 DeepSeek 在全球開發者社群累積了遠超估值的品牌資本——每一個在本地跑 R1 的工程師、每一個整合 V4-Flash 的中小型企業,都成為這個生態的推手。在監管環境日益複雜的背景下,開源策略也是 DeepSeek 繞過地緣政治壁壘、觸及全球用戶的最有效途徑。
值得注意的是,本輪融資的最初設計可能只是象徵性的 3 億美元——主要目的是讓公司得以發放員工股權,防止字節跳動、小米等企業挖角研究人員。融資規模的急速膨脹,反映的是外部投資人的熱情遠超梁文鋒的預期。
社群反應與技術實力評估
Reddit 社群對 DeepSeek 的成本說法一向持懷疑態度。u/Bakoro 澄清了廣泛流傳的「560 萬美元訓練成本」迷思:那個數字只反映了訓練過程中最表層的 GPU 算力費用,不包含研發、人力與基礎設施等完整成本。
名詞解釋
「GPU 算力費用」指訓練期間直接運行 GPU 叢集的電費與折舊成本,不含模型設計、資料清洗、工程人力等間接投入。
然而,對成本透明度的質疑並不能掩蓋 DeepSeek 的技術實力。量子位的報導顯示,DeepSeek 正以「Model + Harness = Agent」架構加速推進代號 DeepSeek Code 的 Agentic 工程產品,直接對標 Claude Code 與 OpenAI Codex。
領銜此專案的崔添翼擁有六屆 ACM 國際大學生程式競賽金牌與 Jane Street 九年量化交易背景,2026 年 3 月加入後,相關職缺已於 5 月中旬密集釋出,顯示產品進入實質研發階段。HN 社群的實際使用回饋則顯示,V4-Flash 在 Agentic 工作流中已展現出「最便宜且可接受準確率」的定位,多名開發者表示其為生產環境的可靠主力模型。
全球 AI 競爭格局的新變數
DeepSeek 的 450 億美元估值與 OpenAI、Anthropic 雙雙逼近兆美元的規模相比仍有顯著差距,但這個數字本身正在重塑市場認知。2025 年 1 月,R1 模型發布當日即令 Nvidia 市值蒸發約 6,000 億美元——這是一次對「算力即護城河」假設的強力修正。
DeepSeek 針對華為昇騰與寒武紀處理器進行深度優化,同時支援 Nvidia 硬體,實際上已構建了一套在晶片制裁下仍能持續迭代的技術路線。中國國家 AI 投資基金的直接入局,更將這家實驗室納入國家戰略資產的範疇。
其後續的開源承諾能否持續兌現,將成為全球開發者社群持續觀察的焦點——這也是 DeepSeek 在全球 AI 競賽中構築獨特中國路徑的核心變數。
團隊與技術實力
核心團隊
梁文鋒是量化交易出身的創業者,創辦幻方科技 (High-Flyer Quant) 並以量化基金盈利為 DeepSeek 提供早期資金,維持研究獨立性。DeepSeek Code 由崔添翼領銜——北大計算機系畢業、六屆 ACM 國際大學生程式競賽金牌、曾在 Jane Street 任職九年,2026 年 3 月加入。
五月中旬起密集釋出的相關職缺(Agent Harness 產品經理、演算法研究員、資料策略工程師)顯示產品已進入實質研發衝刺階段。
技術壁壘
DeepSeek 的核心優勢在於以相對有限的算力預算實現高水準模型性能。V4-Pro(1.6 兆參數 MoE 架構)與 V4-Flash(2,840 億參數)進一步驗證了其規模化訓練的工程能力。
名詞解釋
MoE(Mixture of Experts) 是稀疏神經網路架構,每次推理只激活部分「專家」子網路,在大參數量下維持較低運算成本。
更關鍵的是,DeepSeek 已針對國產 AI 晶片(華為昇騰、寒武紀)進行深度優化,在出口管制環境下構建了自主算力基礎,有效繞過晶片制裁限制。
技術成熟度
DeepSeek 的核心模型(V3、R1、V4 系列)已正式開源並可商業使用,進入 GA(正式可用)階段。DeepSeek Code 的 Agentic 產品尚在密集研發中,以崔添翼加入的時間推算,公開測試版本最快可能於 2026 年下半年出現。
融資結構分析
融資結構
- 輪次:首輪外部融資(具體輪次標籤未公開)
- 目標總額:700 億人民幣(約 103 億美元)
- 最低外部目標:3 億美元,長期可能擴大至 70 億美元以上
- 擬領投:中國國家人工智慧產業投資基金(計劃注資 100 億人民幣)
- 擬跟投:騰訊、IDG Capital、Monolith Capital(均在洽談中)
- 目標估值:約 450 億美元
估值邏輯
450 億美元對比 OpenAI 的兆美元估值,折讓幅度超過 20 倍。然而 DeepSeek 並非追求與 OpenAI 相同的 SaaS 商業模式——其開源策略使得直接以 ARR 倍數評估並不適用。
市場對其估值的支撐邏輯更接近「技術聲望 + 國家戰略資產溢價 + 開源生態潛力」的複合框架。若與 Meta 的開源策略對比,DeepSeek 在模型品質聲望上已可類比,但規模與資源仍有數量級差距。
資金用途
梁文鋒明確表示:資金將優先用於基礎 AI 研究與 AGI 目標,而非短期商業化。具體用途涵蓋:
- 擴大算力基礎設施(含國產晶片叢集建設)
- 招募頂尖研究與工程人才(如 ACM 競賽背景的工程師)
- 加速 DeepSeek Code 等 Agentic 產品的研發投入
競爭版圖
競爭版圖
- 直接競品:OpenAI(GPT-4o / Codex,估值逾萬億美元)、Anthropic(Claude Code,Series G 融資後估值 700 億美元)、Google DeepMind(Gemini 系列)。DeepSeek 在估值上仍有 20 倍以上差距,但在技術聲望上已是同等量級。
- 間接競品:Meta(開源 LLaMA 系列)——DeepSeek 的開源策略與 Meta 形成最直接的生態重疊,但二者商業動機不同。Meta 以廣告業務交叉補貼 AI;DeepSeek 以量化基金利潤維持研究獨立性。
市場規模
全球生成式 AI 基礎設施市場預估 2030 年超過 1,300 億美元,其中 Agentic AI 子市場(程式碼生成、自動化工作流)是當前增速最快的細分領域。DeepSeek Code 若成功推出,將直接切入競爭最激烈的工程 AI 賽道。
差異化定位
DeepSeek 的核心差異化在於「研究驅動的開源策略」——既非 API 商業化(OpenAI 路徑),也非廣告補貼(Meta 路徑),而是以 AGI 研究聲望換取全球工程師社群的信任,再以此信任構建護城河。在地緣政治分裂加劇的格局下,這種定位使 DeepSeek 成為非美系 AI 的主要選項。
風險與挑戰
技術風險
DeepSeek Code 對標 Claude Code 與 OpenAI Codex,但後兩者已有龐大的工具鏈生態與用戶基礎。若 Agentic 產品延誤上市或品質不達預期,外部投資者的信任將面臨考驗。此外,MoE 架構在長上下文與推理一致性方面仍有已知缺陷,需要持續工程投入。
市場風險
梁文鋒「AGI 優先、不追求短期商業化」的承諾,在引入中國國家 AI 基金後面臨結構性張力——國家資本通常期待戰略回報,而非純粹的研究貢獻。若商業化壓力升溫,開源承諾的可持續性將成為最大的市場不確定因素。
執行風險
出口制裁限制了 DeepSeek 取得最先進 Nvidia 晶片的能力。儘管已針對昇騰與寒武紀處理器進行優化,但國產晶片在訓練效率上的系統性落差,可能在下一代模型競賽中逐漸拉大。同時,頂尖研究人才的爭奪(字節跳動、小米等巨頭也在積極挖角)將持續考驗 DeepSeek 的留才能力。
唱反調
「開源 + AGI 優先」的承諾在外部資本(尤其是國家主導基金)進入後,存在商業化壓力升溫的系統性風險——沒有哪個國家背景投資在不要求戰略回報的情況下長期存在。
560 萬美元的成本神話雖然失真,但其行銷效益已遠超實際成本;若後續模型效率提升放緩,「以小搏大」的核心敘事將面臨市場的嚴峻考驗。
社群風向
DeepSeek V3 的訓練成本遠不止 560 萬美元,那個數字只是訓練過程中最表層的 GPU 算力費用。他們確實在相對有限的預算下做到了很多,但絕對不只是 560 萬美元。
他們不擔心個人用戶。他們的目標是那些用模型取代 API 的中小型企業——個人 API 用量根本不在他們的關注範圍,對他們來說只是九牛一毛。
在最新報告中,他們提到「我們正在為模型加入多模態能力」。即便面臨晶片制裁的重重限制,他們依然持續交付。
梁文鋒原本並不打算募集 70 億美元。DeepSeek 的首次融資設計上只是象徵性的——3 億美元、估值 100 億,主要目的是讓員工得以持股,阻止字節跳動和小米把研究員挖走。是外部投資人的熱情,把這輪融資推到了現在的規模。
DeepSeek V4-Flash 讓我印象深刻。我們正在開發一個 Agent 系統——包含子代理、RAG、動態意圖識別,以及根據任務切換模型。在測試中,V4-Flash 是成本最低且準確率可接受的模型,幻覺出現次數少,又能找到正確資訊。
炒作指數
行動建議
下載 DeepSeek V4-Flash 並在本地 Agentic 工作流中測試其成本效益比,與 Claude Sonnet 4.6 或 GPT-4o-mini 進行並排評估,記錄幻覺率與推理延遲。
若產品目標市場包含中大型企業,考慮將 DeepSeek API 納入多模型 fallback 架構——其開源授權使本地部署具備可行性,可降低供應商鎖定風險。
追蹤 DeepSeek Code 的公開招募動態與首個 beta 版本發布,這將是判斷其 Agentic 能力能否實質挑戰 Claude Code 的關鍵信號。