重點摘要
Fields 獎得主親測:LLM 已能在兩小時內獨立完成博士級數論研究
ChatGPT 5.5 Pro 在 17 分鐘內將 Nathanson 的指數界改良為多項式界,核心技術組合被 MIT 研究員認定「完全原創」,具備真實研究突破的技術含量。
模型消耗 token 速度極快,高訂閱成本已形成研究資源不平等——高價 AI 的可及性正成為影響研究能力的新學術門檻。
學術界對 AI 貢獻的著作權與學術信用認定尚無共識,加上進階領域仍存在能力邊界,目前適合「AI 輔助研究」模式而非完全自主替代。
前情提要
章節一:Timothy Gowers 的實驗設計——讓 LLM 挑戰開放數學問題
Timothy Gowers 是 1998 年 Fields 獎得主、法蘭西公學院組合數學講席教授,以對 Ramsey 理論與 Banach 空間問題的貢獻著稱於學界。2026 年 5 月 8 日,他在個人部落格記錄了一次罕見的第一手實驗:以數論學家 Mel Nathanson 在 arXiv:2603.15556 中提出的開放問題為起點,讓 ChatGPT 5.5 Pro 在幾乎零人工介入的條件下嘗試解題。
Gowers 刻意不給模型任何數學提示,自述「連提示詞也沒有做任何聰明的事」,並坦承個人數學貢獻「歸零」。這種極簡設計讓實驗成為盡可能乾淨的基準測試:若成果成立,功勞幾乎完全屬於模型本身,而非人機協作的合力產物。
章節二:「博士級」成果的具體內容與學界反應
研究對象是 N(h,k)——使 k 元素集合能實現所有 h 重和集大小所需最小「直徑」的界。Nathanson 原有指數界,模型在 17 分 5 秒內將其改良為最優二次多項式界;隨後延伸至 MIT 研究員 Isaac Rajagopal 的廣義問題,最終完成多項式界 N(h,k) ≤ O(k^(10h³)) 。
名詞解釋
N(h,k) :數論中衡量「k 元素集合需要跨越多大的數值範圍,才能涵蓋所有 h 重和集大小」的組合量。從指數界縮小到多項式界,是複雜度意義上的本質性改善,而非邊際調整。
模型採用的核心技術組合頗為罕見:h²-dissociated set、Singer(1938) 及 Bose-Chowla(1963) 的有限域方法,以「反直覺」方式將幾何級數的指數增長壓縮進多項式大小區間。Rajagopal 稱這個核心想法「完全原創」,換成人類數學家需要數週才可能得出。Gowers 最終評定成果達「博士論文章節等級」。
名詞解釋
h²-dissociated set:組合數學構造,具特殊加法獨立性質——集合中任意 h² 個不同元素的線性組合均不重疊,使多重和集大小的精確估計成為可能。
章節三:數學研究的 AI 輔助——從計算工具到研究夥伴的質變
過去,AI 在數學領域的角色主要是符號計算(如 Mathematica)或形式驗證(如 Lean)。ChatGPT 5.5 Pro 在此實驗中展現的是截然不同的能力:從問題理解、策略選擇到證明構造,模型全程主動推進研究議程,而非被動執行人類指令。
The Decoder 報導指出更宏觀的背景:2026 年初以來,已有 15 道 Erdős 懸案從「開放」轉為「已解決」,其中 11 道明確由 AI 模型協助完成。多位數學家預測,2026 年將是 AI 貢獻首次通過主流數學期刊同儕審查的元年,標誌著 AI 數學工具從「加速計算」到「推進知識邊界」的質變。
章節四:LLM 數學推理能力的邊界與未來展望
樂觀情緒之外,社群也提出幾個值得關注的邊界。其一是成本:模型「以瘋狂速度消耗 token」,高成本使大規模多 agent 數學研究仍面臨現實門檻。其二是能力邊界:有物理學家指出,LLM 在 Clifford 代數等進階領域仍常犯「概念性錯誤」,宜視為「需要導師的高效學生」而非自主研究者。
Gowers 也特別點出資源不平等隱憂:能否取用高價 AI 模型,已成為影響研究能力的新門檻。更深層的學術倫理問題隨之浮現:若數學家在「與 LLM 的長時間對話」中扮演引導角色,其成果是否仍算個人學術貢獻?傳統數學中「透過親自解題獲得洞察」的核心價值將如何重新定義?
核心技術深挖
ChatGPT 5.5 Pro 在 Gowers 實驗中展現的數學突破,源自三種技術機制的協同運作:問題自主分解能力、跨時代文獻知識整合、以及「反直覺」組合策略的生成。
機制 1:問題的自主分解與層次化推進
模型收到 Nathanson 的開放問題後,主動識別問題結構——將 N(h,k) 的界分成「小和集」和「大和集」兩個子問題分別處理。這種層次化分解是人類數學家的慣用策略,但模型在零提示的條件下自主應用,顯示出對問題拓撲的隱性理解,而非簡單的模式匹配。
機制 2:跨時代文獻知識的有機整合
模型自主調用 Singer(1938) 和 Bose-Chowla(1963) 的有限域構造方法,並與 h²-dissociated set 的現代組合工具結合。這種橫跨 80 年數學文獻的整合,在人類研究者中需要廣博的文獻積累;模型將其壓縮為推理過程中的即時調用,且應用脈絡被領域專家認定為合理而非生硬套用。
機制 3:「反直覺」策略——將指數增長壓縮進多項式框架
最關鍵的技術突破在於:模型找到以等差數列控制小和集、以幾何級數類比 G/H 控制大和集,並透過跨多區間的參數變化策略,將原本指數級的增長壓縮進多項式大小區間,同時保留必要的組合性質。Rajagopal 稱這個核心想法「完全原創」,換成人類數學家需要數週才可能得出。
白話比喻
想像你要用繩子圍出一個形狀,原本只知道需要「指數多」的材料,但模型找到了一種精巧的摺疊方式,讓同樣的效果只需要「多項式多」的材料——這不是近似,而是精確的數學等價,且方法本身是全新的。
工程視角
環境需求
ChatGPT 5.5 Pro 目前僅透過 OpenAI 付費訂閱存取,無開源替代方案。API 層面需特別注意 token 消耗速度極快,建議在批次數學研究任務前設置 token budget 上限,並監控每輪對話費用累積。
最小 PoC
import openai
client = openai.OpenAI()
response = client.chat.completions.create(
model="gpt-5.5-pro",
messages=[{
"role": "user",
"content": "[在此貼入問題陳述] Please find an improved bound, showing all steps."
}],
max_tokens=8192
)
print(response.choices[0].message.content)
驗測規劃
數學輸出的驗測需要領域專家逐步審查:
- 確認每個推理步驟的邏輯正確性(不可僅依賴模型自我宣稱)
- 驗證關鍵引理引用的準確性(Singer 1938、Bose-Chowla 1963 等)
- 以形式化工具(如 Lean 4)對核心斷言進行機器驗證
常見陷阱
- 模型可能以高度自信的語氣輸出含有微妙錯誤的證明,難以直接察覺
- 長對話 token 消耗快速攀升,建議按研究子問題切割對話階段
- 在 Clifford 代數等進階領域,模型已知有概念性錯誤的紀錄
上線檢核清單
- 觀測:每輪對話 token 用量、推理完成時間
- 成本:API 費用監控,建議設置每日/每任務上限
- 風險:所有數學斷言經人工或形式化工具驗證後才可引用於正式文件
商業視角
競爭版圖
- 直接競品:Google Gemini Ultra(數學推理)、Anthropic Claude Opus(長上下文推理)、DeepSeek-R1(開源數學推理,可本地部署)
- 間接競品:Wolfram Alpha(符號計算)、Lean/Coq(形式化驗證)、Mathematica(數值與符號計算)
護城河類型
- 工程護城河:GPT-5.5 Pro 在 Gowers 實驗中展現的跨時代文獻整合與「反直覺」組合策略生成,目前尚無可對比的公開基準
- 生態護城河:Fields 獎得主背書的傳播效應快速累積學術社群信任,形成話語權優勢
定價策略
ChatGPT 5.5 Pro 採高端訂閱模式。在數學研究場景下,若兩小時「博士級」研究的成本低於招募一位博士後研究員的日薪,性價比論述即成立。然而 Gowers 特別提醒,高昂成本已形成研究資源不平等——能否取用高價 AI 模型,正成為新的學術能力門檻。
企業導入阻力
- 學術界對 AI 貢獻的著作權與學術信用認定仍無共識,投稿規範尚在制定中
- 數學期刊同儕審查流程尚未建立 AI 輔助內容的驗證標準
第二序影響
- 數學研究生態可能向「有高端 AI 取用能力的機構」集中,加劇南北半球和貧富院校間的研究資源差距
- 傳統數學訓練體系——「透過親自解題獲得洞察」——的核心價值主張面臨重新定義
判決:短期顛覆性顯著(但邊界與學術倫理仍待釐清)
ChatGPT 5.5 Pro 在 Gowers 實驗中的表現已超越「輔助工具」範疇,開始觸及「研究夥伴」的定義邊界。成本門檻、能力邊界(進階領域的概念性錯誤)、以及學術信用認定體系的滯後,使其尚未成為所有數學研究者的標配。2026 下半年同儕審查的實際通過率,將是判斷這波能力躍升能否固化為研究標準流程的關鍵指標。
數據與對比
時間基準(Gowers 實驗完整時間軸)
- 初始問題(Nathanson 指數界 → 最優多項式界):17 分 5 秒
- 第一份 LaTeX 預印本生成:2 分 23 秒
- Rajagopal 廣義問題首輪改良:16 分 41 秒
- 第二份預印本生成:47 分 39 秒
- 最終多項式界預印本完成:31 分 40 秒
成果量級
改良路徑:Nathanson 指數界 → 指數 k^(1/2+ε) (第一步)→ 最終多項式界 O(k^(10h³)) (第二步)。從指數到多項式是複雜度理論中的本質性跨越。全部成果在兩小時內完成,Gowers 評定達「博士論文章節等級」。
最佳 vs 最差場景
推薦用
- 探索有明確形式化問題陳述的開放數學問題,特別是組合數論領域
- 加速文獻整合——讓模型識別跨時代文獻的潛在技術連結
- 快速生成 LaTeX 預印本草稿供領域專家人工審查
千萬別用
- 高度抽象或需要幾何直覺的進階領域(如 Clifford 代數),模型已知有概念性錯誤紀錄
- 直接引用模型輸出作為正式發表依據——所有數學斷言仍需逐步人工驗證
唱反調
Gowers 選擇的問題是否本就在 ChatGPT 訓練資料的「可解範圍」內?若 Nathanson 的論文已在訓練截止日前公開,模型可能是在「辨識模式」而非「真正創造」——兩者的認知意義截然不同。
「博士級」的評定來自同一位實驗設計者,缺乏獨立同儕審查支撐。在數學界,一個看似正確的論證可能在細節審查中崩潰,目前尚無第三方數論專家完整驗證模型每個推理步驟。
社群風向
即便這些結果如此令人印象深刻,我仍從中感受到莫拉維克悖論的影子
我已使用 GPT-5.5 數週。這是一次巨大的飛躍。但奇怪的是:對 99% 的用戶來說,這可能並不重要。而且有一個讓人非常沮喪的重大退步。
這樣說可能不太受歡迎——但我覺得電力更令人印象深刻。
OpenAI 顯然不得不在 Chat GPT 5.5 上加了個限制器,懇請它不要提到地精或小精靈——因為自 5.1 起它一直在不請自來地提起地精。如果今年有什麼是我所需要的,那就是讓地精成為 ChatGPT 模型崩潰的先兆。
這是對抗性的經濟環境。在工作中使用 LLM 並不意味著工作本身具有挑戰性。很多工作都是「狗屁工作」。人們使用 LLM 是因為它給他們省下了時間——如果他們不用,同事就會用,讓他們顯得落後。
炒作指數
行動建議
用 ChatGPT 5.5 Pro 挑戰自己研究領域的一道開放問題,觀察模型在零提示條件下的推理策略與技術組合
設計「AI 輔助研究流程」:問題形式化 → 模型推理 → 人工逐步驗證 → Lean 形式化確認,建立可重複的研究管線
追蹤 2026 年首批通過主流數學期刊同儕審查的 AI 輔助論文,以及學術界對 AI 貢獻著作權的規範共識進展