重點摘要
AI 首次自主走上反證路徑,顛覆了近 80 年無人突破的幾何猜想
OpenAI 內部通用推理模型以代數數論工具(無限類域塔 + Golod–Shafarevich 理論)自主構造反例,n 個點可產生 n^(1+δ) 對單位距離,突破傳統格點上界。
整個反證由模型獨立完成,無人工逐步引導,但外部工程師目前無法存取此內部模型;社群對「真正原創」還是「高階文獻串連」仍有爭議。
Tim Gowers(Fields Medal) 、Noga Alon、Melanie Wood 等頂尖數學家已背書認可,但短期內此結果難以直接轉化為商業工具,宜追蹤整體趨勢。
前情提要
離散幾何的世紀猜想與 AI 的反證
1946 年,匈牙利數學家 Paul Erdős 提出「平面單位距離問題」:在平面上放 n 個點,最多能有多少對點之間的距離恰好為 1?近 80 年來,數學界普遍相信正方格點陣列 (square grid) 是最優構造,沒有任何方法能突破其上界。
2026 年 5 月 20 日,OpenAI 宣布旗下一個內部通用推理模型自主反證了這一猜想,找到一族全新構造,使得 n 個點可產生至少 n^(1+δ) (δ 為某固定正指數)對單位距離,遠遠超越傳統格點上界。此結果通過外部同行評審,Noga Alon、Melanie Wood、Thomas Bloom 等頂尖數學家均公開背書認可。
值得一提的歷史背景:2025 年 10 月,OpenAI 前 VP Kevin Weil 曾誤稱 GPT-5 解決了 10 道 Erdős 開放問題,遭 Yann LeCun、Demis Hassabis 等人批評後刪文。而這次背書認可的數學家,正是當初提出批評的那些人,這讓本次結果的可信度格外突出。
o3-mini 如何找到反例:技術細節拆解
模型突破的核心在於放棄傳統的高斯整數 (Gaussian integers) 框架,轉而採用代數數論的複雜數域推廣。傳統做法在高斯整數環內尋找具有特定單位距離性質的點集,但其對稱性不足,難以突破線性上界。
模型採用的關鍵工具是無限類域塔 (infinite class field towers):透過構造一系列巢狀的數域擴張,讓底層代數結構具備更豐富的對稱性,從而製造出遠多於格點的單位長度差值對。
第二個核心工具是Golod–Shafarevich 理論,用以嚴格保證所需的無限類域塔確實存在,為整個反證提供數學嚴格性。整個解題過程由模型獨立完成:問題敘述由人工輸入,但無任何逐步引導或半完成草稿,模型直接產出可供人工閱讀的完整論文。
數學家 trostaft(HN,數學博士後)評述:這個證明確實受文獻既有結果啟發,但其中的調整是不平凡的 (non-trivial) 。
名詞解釋
高斯整數:複數平面上實部與虛部皆為整數的數(如 3+4i),是數論中研究整除性的基本代數結構,也是傳統單位距離問題的標準代數背景。
數學界的反應:興奮與質疑並存
Fields Medal 得主 Tim Gowers 將此成果稱為「AI 數學領域的一個里程碑」,數論學家 Arul Shankar 指出此結果證明 AI 能夠「產生真正原創的想法」。
Thomas Bloom 則進一步指出,這一發現暗示「深層數論可能對離散幾何中若干未解問題提供解答」,為後續研究開拓了新方向。
然而,Hacker News 討論串中的質疑同樣清晰。用戶 mooreat 認為這本質上是「找到一個反例」而非「發展新的深層數學」,模型執行的可能是「把現有想法串連起來的高階搜尋」。
用戶 isotypic 擔憂數學家未來將淪為「讀取存在於 LLM 權重中的幽靈教科書的讀者」,數學實踐退化為提示詞工程。對於「自 2023 年以來 AI 推理品質提升都只靠更多算力」的懷疑,社群也並未完全打消。
AI 輔助數學研究的未來走向
此次成果最重要的意義,可能不在於「AI 解決了難題」,而在於AI 採取了逆向路徑——大多數人類數學家把研究資源投入在正面構造,而模型卻獨立走向了反證方向,並從代數數論中找到了支撐工具。
HN 用戶 horhay 提供了較為平衡的視角:這件事確實了不起,但並不超出 AI 近期在數學領域成功模式的範圍,不需要敲響警報——真正的份量在於結果本身的事實重量,而非對 AI 能力的誇大解讀。
這一框架提示我們:AI 輔助數學研究可能最先在「反例搜尋」和「跨領域工具遷移」兩個場景中發揮作用,而不是在「從零構建全新理論」上。
核心技術深挖
OpenAI 這次反證的核心技術突破,在於模型主動跨越了近 80 年數學研究的「思維定式」——放棄高斯整數框架,轉向代數數論的複雜數域推廣。傳統方法礙於高斯整數的對稱性限制,無法突破格點上界;而新方法透過構造具有更豐富代數結構的數域,讓「製造單位距離對」這件事在更深層的代數空間中得以實現。
機制 1:用複雜數域取代高斯整數
高斯整數(形如 a+bi 的複數)是傳統單位距離問題的標準代數背景,其對稱群相對簡單。模型選擇的替代方案是代數數域的推廣:在這些更複雜的數域中,同一個「長度為 1」的條件對應到更多不同的代數元素對,從而能構造出密度更高的單位距離點集。
機制 2:無限類域塔提供可無限擴張的代數結構
無限類域塔是一系列巢狀的數域擴張鏈,每個擴張都在前一層基礎上添加新的代數對稱性。模型利用這個工具,在每一層數域中都能找到更多滿足單位距離條件的點對,累積效應使整體點對數突破了傳統格點的多項式上界,達到 n^(1+δ) 。
名詞解釋
無限類域塔:代數數論中一種特殊的數域擴張序列,由 Golod 與 Shafarevich 在 1964 年證明其存在,最初用於解決 Burnside 問題的一般情形。
機制 3:Golod–Shafarevich 理論嚴格保證存在性
即使找到了一個構造方向,數學嚴格性要求必須證明這樣的無限類域塔確實存在。Golod–Shafarevich 定理(1964 年)在代數 K 理論框架下,以群展示的生成元與關係子數量關係,嚴格確保某類數域上的無限類域塔存在性,為整個反證提供最後的保障。
白話比喻
想像傳統數學家在一個 8×8 棋盤上找「距離恰好 1」的棋子對,而模型在一個「多層棋盤疊加體」上操作——每層棋盤之間有規律的代數對應關係,讓「距離 1」的對數在每層累積,最終突破了只在單一棋盤上能達到的上限。
工程視角
環境需求
此次成果屬於 OpenAI 內部通用推理模型,外部工程師目前無法直接存取。最接近的公開可用工具是 o3、o4-mini(OpenAI) 或 Claude Opus(Anthropic) 等推理型模型;若需形式化驗證,可搭配 Lean 4 或 Coq。
最小 PoC
import anthropic
client = anthropic.Anthropic()
resp = client.messages.create(
model="claude-opus-4-7",
max_tokens=8192,
messages=[{
"role": "user",
"content": "Explore algebraic number theory to disprove the unit distance conjecture. Focus on number fields beyond Gaussian integers."
}]
)
print(resp.content[0].text)
驗測規劃
對 AI 數學研究輔助工具的評估,應聚焦於「模型能否識別正確的研究方向」,而非直接驗證數學命題的正確性。建議先提供一個已知有反例的簡單組合問題,觀察模型是否能自主找到反例路徑。
常見陷阱
- 模型可能產生「看似合理但實際錯誤」的數學論述,所有代數推導需人工或形式化工具驗證
- 大型語言模型在符號計算上容易出錯,不可直接信任數值或代數推導結果
上線檢核清單
- 觀測:產出論證是否有完整的前提假設鏈;引用文獻是否真實存在(防止幻覺)
- 成本:數學研究輔助屬高 token 消耗場景,搭配 extended thinking 的 API 呼叫費用可能顯著,需評估批次處理策略
- 風險:未經同行評審的 AI 數學輸出不得直接發表或引用,必須透過外部數學家驗證
商業視角
競爭版圖
- 直接競品:DeepMind AlphaProof(專注形式化數學)、Wolfram Alpha(符號計算)、Lean/Coq 形式化驗證工具
- 間接競品:通用推理模型(Gemini 2.5、Claude Opus)在數學助理場景的應用
護城河類型
- 工程護城河:OpenAI 此次使用的是內部通用推理模型而非特化數學模型,暗示其基礎推理能力已延伸至數學基礎研究,形成差距
- 生態護城河:與 Tim Gowers、Thomas Bloom 等頂尖數學家建立的公信力合作關係,為未來 AI 數學研究背書提供可信度基礎
定價策略
目前 OpenAI 未宣布針對數學研究的專屬產品定價,成果以技術論文形式公開發布。但此類突破性成果是強力品牌資產,可支撐 o-series 推理模型在高端研究場景的定價溢價。
企業導入阻力
- 外部無法存取此次使用的內部模型,難以直接複現效果
- 數學研究界的信任建立需要長期積累,單一成果不足以改變研究機構的工作流程
第二序影響
- 若 AI 能系統性解決開放猜想,學術發表流程和同行評審機制將面臨根本性重構
- 數學訓練資料和教育體系可能被倒逼重新設計,「找到反例」類型問題的研究方法論將改變
判決里程碑確立(但短期難以複現與商業化)
AI 在數學基礎研究的里程碑意義已確立,但距離系統性輔助工具的商業成熟仍有相當距離。對大多數組織而言,正確態度是持續追蹤整體趨勢,而非立即投入資源部署。
數據與對比
與既有 AI 數學成果對比
過去 AI 在數學上的突破多屬於「已知答案的搜尋最佳化」(如 AlphaProof 在 IMO 問題上的表現)或「形式化驗證輔助」。此次反證的特殊之處在於:問題已開放近 80 年,且此前數學界在正面方向投入大量研究卻未能突破,AI 卻從反方向自主找到路徑。
若以「獨立性」和「問題年齡」衡量,此次成果是迄今為止 AI 在基礎數學研究中最具分量的單一結果,優於 2025 年 AlphaProof 在 IMO 競賽題上的表現——後者為有明確答案的競賽題,而非持續 80 年的開放猜想。
最佳 vs 最差場景
推薦用
- AI 輔助數學反例搜尋:對已有長期未被反證的猜想,使用推理模型從代數和組合角度探索反例構造路徑
- 跨領域工具識別:讓 AI 掃描不同數學分支(如代數數論、組合幾何)中可遷移的工具,發現人類研究者通常不會主動尋找的跨領域連接
- 數學文獻綜述與假設生成:在確定研究方向前,用推理模型系統性整理現有文獻並生成新假設路徑
千萬別用
- 需要全新定理構建的深層理論突破:目前 AI 仍依賴既有文獻工具,無法從零構建全新的數學框架
- 對可靠性要求極高的工業應用數學:AI 數學輸出仍需外部同行評審,不可直接用於工程或安全關鍵計算
唱反調
模型執行的可能是高階文獻串連搜尋,而非真正的數學直覺創造——此次反證所用的代數工具 (Golod–Shafarevich) 早已存在文獻中,模型是否「理解」了數學,還是只是把既有工具以統計方式組合在一起,仍是未解的哲學問題。
外部無法驗證此次使用的內部模型能力,OpenAI 有商業動機誇大 AI 的獨立性貢獻——在 2025 年 Kevin Weil 烏龍事件的陰影下,即使頂尖數學家背書,整個敘事框架仍由 OpenAI 掌控,難以完全排除公關操作的成分。
社群風向
這件事很了不起,它並不超出 AI 近期在數學領域成功模式的範圍,但正因如此,人們不應敲響警報——這個成果的分量在於事實本身的重量,而非誇大解讀。
自 2023 年以來,我們沒有看到大型語言模型的輸出品質有顯著提升,除非是投入更多算力的結果。AI「推理」不過是遞迴迭代自身輸出,每次改進都在遞減。
一個通用(沒有特殊化)的 OpenAI 內部模型解決了離散幾何中最著名的未解問題之一。這個解法涉及的決策數量遠超出任何人類可行的探索範圍。
我不會感到驚訝,如果他們只是在付錢給數學天才做研究,然後把功勞歸給 AI 模型。
如果真的有人懷疑這是 OpenAI 暗中資助數學研究再偽裝成 AI 成果的陰謀,他們等於是在說 OpenAI 說服了多位頂尖數學家一起造假——這個解釋比「AI 確實解了題」更難讓人相信。
炒作指數
行動建議
用 o3、o4-mini 或 Claude Opus 向模型提出你所在領域的一個已知開放問題,觀察它是否能自主識別反證方向或跨領域工具
設計「AI 生成猜測路徑 + Lean 4 形式化驗證」的混合流程,探索在你的研究或工程問題中自動化反例搜尋
追蹤 Tim Gowers 的後續評論、OpenAI 是否開放此次使用的推理模型,以及 DeepMind AlphaProof 的對標進展