重點摘要
不是禁 AI,是禁不負責任地使用 AI
arXiv 對含明確 LLM 未查核錯誤(偽造引文、殘留元指令)的作者實施 1 年禁令,禁期後須通過同行評審才能再次投稿。
禁令門檻設在「不可辯駁的證據」,只鎖定最惡劣疏失,並非全面禁止 AI 輔助寫作;作者對論文全文負完全責任。
幻覺引文三年暴增 10 倍,cs.LG 每日 100–300 篇論文讓人工篩查幾乎不可行,此政策是學術出版系統性管控 AI 的重要轉折。
前情提要
新規全貌:什麼行為會觸發禁令
2026 年 5 月 15 日,arXiv 電腦科學分區主席 Thomas G. Dietterich 在 X 上宣布,對提交含有「不可辯駁的 LLM 未查核輸出」的論文作者,實施 1 年禁止投稿。這項政策明確區分了「使用 AI 工具」與「不負責任地使用 AI 工具」——前者不在管制範圍,後者才是禁令的目標。
觸發禁令的具體行為包括三類:偽造引文(論文中引用現實中不存在的文獻)、論文中殘留的 LLM 元指令文字,以及含佔位文字的假數據表格。
殘留元指令的典型例子包括「here is a 200-word summary; would you like me to make any changes?」或「fill it in with the real numbers from your experiments」——這些文字的出現,直接證明作者將 LLM 原始輸出貼入論文而未進行任何核查。
Dietterich 的邏輯直指責任歸屬:arXiv 行為準則明定,無論內容由誰(或什麼工具)產生,作者對論文全文負完全責任。禁期屆滿後,被禁作者的所有新投稿必須先獲得同行評審期刊接受,才能再次上傳至 arXiv,形成兩階段的分層管控機制。
學術界的 LLM 濫用現況
幻覺引文的問題並非新鮮事,但近三年的增長速度令人警覺。自 2023 年以來,arXiv 上的幻覺引文數量暴增 10 倍;到 2026 年初,每 277 篇論文就有 1 篇含有虛假引用,問題已達到系統性規模。
名詞解釋
幻覺引文 (hallucinated references) :指 LLM 自行「發明」出來的文獻引用,包含真實存在的作者名稱卻對應不存在的論文,或完全虛構的引文資訊,無法靠閱讀文章本身發現,只能逐一查驗每條引用。
cs.LG(機器學習)這個子分類每天有 100–300 篇新論文上傳,相當於每年超過 5 萬篇。這樣的投稿量讓人工審核幾乎不可行,自動偵測機制因此成為必要手段。arXiv 早在此次禁令宣布的 6 個月前,已對 CS 綜述類論文要求同行評審,此次政策是更大執法趨勢的延伸。
評論者將這波 AI 生成論文潮比作對學術生態的「DDoS 攻擊」——大量低品質論文稀釋了信噪比,讓真正有價值的研究更難被發現,也讓引文索引資料庫逐漸被虛假資訊污染。
社群激辯:該禁的是工具還是態度
支持者的核心論點是:未查核的 LLM 輸出在道德上等同於偽造數據。HN 討論中有評論者直接指出:「生成虛假引文意味著你謊稱讀過某些你根本沒讀過的文獻——那就是詐欺,沒有任何商量餘地。」這個立場在學術界有歷史先例支撐:偽造引文在傳統期刊中可能導致終身禁止發表。
批評者則集中在兩個面向。第一是執法準確性:若以 AI 偵測工具來判斷 AI 使用並執行禁令,可能誤傷無辜的研究者。第二是連帶責任問題:禁期屆滿後的同行評審前置要求形成 Catch-22 困境——許多期刊投稿本身就要求先有 arXiv 預印本,對因導師濫用 AI 而受牽連的年輕研究者尤其不公平。
爭議的核心不在「是否應該管」,而在「如何精準管」。支持者認為大規模疏失才是當前主要威脅,少數邊緣案例不應成為不作為的理由;批評者則主張政策設計應區分「故意欺騙」與「疏忽大意」,避免株連效應。
學術出版 AI 治理的下一步
此次禁令創造了一個值得關注的治理模型:分層管控,而非全面禁止。第一層是明確行為紅線(不可辯駁的未查核 LLM 輸出),第二層是嚴重後果(1 年禁令),第三層是禁後的額外前置審查要求。這個框架比全面禁止 AI 更精準,但執行難度也更高。
政策宣布的方式本身也是一個信號:Dietterich 先在 X 發文,比 arXiv 官方政策頁面的更新更早。這顯示學術機構的治理速度正在嘗試追趕 AI 技術的擴散速度,但正式制度化仍需時間落地。
arXiv 同時也在應對另一個問題:有人在預印本中嵌入隱藏提示,試圖操控 AI 評審員 (prompt injection in papers) 。這顯示學術出版的 AI 治理戰場遠不止於引文核查,如何維持預印本開放精神並遏制 AI 濫用,將是未來幾年的核心張力。
政策法規細節
核心條款
禁令的觸發條件設定在「不可辯駁的 LLM 未查核輸出」,具體包含:偽造引文 (hallucinated references) 、殘留的 LLM 元指令文字,以及含佔位文字的假數據表格。「不可辯駁」這個標準是關鍵——政策刻意排除模糊情況,只鎖定最明顯的疏失案例。
禁令結構分為兩個階段:第一階段是 1 年禁止投稿;第二階段是禁期屆滿後,所有新投稿必須先獲得同行評審期刊接受,才能上傳至 arXiv。違規的後果因此不只是 1 年,而是可能長期改變作者的學術發表路徑。
適用範圍
政策由 arXiv CS 分區主席 Thomas G. Dietterich 宣布,主要適用於電腦科學相關分區 (cs.*) 。禁令並非針對 AI 工具的使用本身,而是針對不負責任的使用行為——即作者對 LLM 輸出完全未進行核查的情況。
截至 2026 年 5 月 16 日,政策細節尚未出現在 arXiv 官方政策頁面,顯示部分執行細則仍在落地中,申訴程序等具體機制尚待官方說明。
執法機制
arXiv 依賴社群舉報與內部審核雙軌機制偵測違規。「不可辯駁的證據」門檻意味著需要明確的書面證據(如殘留的 LLM 指令文字),而非僅憑 AI 偵測工具的輸出結果。arXiv 早在 6 個月前已對 CS 綜述類論文要求同行評審,此次是執法收緊趨勢的延伸。
合規實作影響
工程改造需求
研究者需要建立標準化的引文核查流程:
- 每條引文都需獨立查驗(Google Scholar、Semantic Scholar 或 CrossRef 手動確認)
- 提交前的最終稿件需系統性搜尋殘留 LLM 指令文字
- 建議使用引文管理工具(如 Zotero、Mendeley)從源頭確保引文真實性,而非依賴 LLM 生成參考列表
合規成本估計
每篇論文的引文核查時間成本視引用數量而定。一篇平均含 40 條引文的 CS 論文,逐條查驗約需 2–4 小時。
對大量依賴 LLM 加速寫作流程的研究團隊而言,這將增加顯著的人力成本。中長期可能出現商業化引文核查服務(類似 Turnitin 對原創性核查的市場定位),形成新的合規支出項目。
最小合規路徑
- 從不使用 LLM 直接生成參考文獻列表,改用引文管理工具
- 提交前使用全文搜尋掃描常見 LLM 殘留指令關鍵字(如 "fill in"、"would you like"、"summary")
- 建立 pre-submission checklist,包含引文真實性確認步驟
- 若使用 LLM 協助撰寫,保留輔助記錄以備申訴之用
產業衝擊
直接影響者
arXiv cs.* 分區的研究者是首當其衝的群體,尤其是機器學習 (cs.LG) 領域的高產作者。依賴 arXiv 快速傳播研究成果的博士生、學術創業者,以及跨機構合作論文的第一作者,都面臨更高的合規壓力。
間接波及者
大型語言模型工具提供者(如 ChatGPT、Claude、Gemini)可能面臨學術界的使用限制或工作流程調整壓力。引文資料庫和學術搜尋引擎(Google Scholar、Semantic Scholar)的可信度也間接受益——若 arXiv 的干預有效,這些平台的數據品質將隨之提升。
評論者已預言,引文核查服務(類似 Turnitin 對原創性核查的市場定位)將因此成為新興商機,形成一個由學術合規需求驅動的細分市場。
成本轉嫁效應
短期內,合規成本由研究者吸收;中期可能催生商業化引文核查服務市場,形成額外的發表成本。對資源有限的獨立研究者或來自資源不足機構的研究者,合規成本相對更重,可能加劇學術資源的不平等。
時程與展望
arXiv CS 分區主席 Thomas G. Dietterich 在 X 上宣布一年禁令政策,比官方政策頁面更新更早
政策尚未出現在 arXiv 官方政策頁面,執行細節與申訴機制仍待落地說明
arXiv 官方政策頁面正式更新,執法程序與申訴機制公開;研究社群開始調整投稿工作流程
首批違規案例處理完畢,禁令實際執行情形明朗化;引文核查工具與商業服務陸續出現
觀察分層管控模型是否擴展至其他 arXiv 分區(物理、數學等),以及同行評審期刊是否跟進類似政策
唱反調
AI 偵測工具本身存在誤判率,若以機器判斷機器並執行一年禁令,被錯誤標記的無辜研究者恐難自證清白,政策可靠性存疑。
禁後同行評審前置要求形成 Catch-22 困境:許多期刊要求投稿時提供 arXiv ID,被禁者無法先上傳 arXiv,將陷入永久封閉的循環,形同實質終身禁令。
政策由 CS 分區主席在 X 上宣布、而非先更新官方頁面,顯示制度化不完整——學術治理不應依靠社群媒體貼文作為主要政策傳播管道。
社群風向
我認為,未查核的 LLM 使用與偽造數據無異——LLM 很可能幻覺出根本不存在的實驗結果,進而讓整篇論文的可信度蕩然無存。在傳統期刊中,這種行為會讓第一作者遭到終身禁止所有科學活動,共同作者也將持續受到額外審查。
cs.LG 這個子分類每天就有 100–300 篇新機器學習論文上傳到 arXiv。用 DDoS 攻擊來比喻,再貼切不過。
早就該這樣了。我已經看膩了那些引用完全虛假的論文,和那些明顯由 AI 生成、佔位文字還留在裡面的表格。
⚠️ 使用 arXiv 的研究者請注意!不要錯過這條關於 LLM 生成論文的重要政策聲明:「禁令期為 1 年,禁期屆滿後,後續投稿必須先在具信譽的同行評審期刊獲得接受,才能上傳預印本。」
震驚——預印本平台 arXiv 宣布,若作者提交含有幻覺引文的論文,將被禁止投稿一年。
炒作指數
行動建議
提交論文前,用全文搜尋掃描常見 LLM 殘留關鍵字(如 "fill in"、"would you like"、"as an AI"),並使用 Semantic Scholar 或 CrossRef 逐條核查每筆引文的真實性。
為研究團隊建立 pre-submission checklist,包含引文查驗步驟與 LLM 使用記錄,並改用 Zotero 等引文管理工具從源頭確保引文品質,降低連帶責任風險。
追蹤 arXiv 官方政策頁面的正式更新,以及首批禁令案例的處理結果,觀察「不可辯駁的證據」在實際執法中的認定標準,以及禁令是否擴展至其他分區。