陶哲軒敲警鐘!谷歌DeepMind聯(lián)手五大神殿,用AI向世紀難題宣戰(zhàn)
今天,谷歌DeepMind重磅發(fā)起「AI賦能數學計劃」,集結了全球五大頂尖機構。
他們將用上谷歌最強數學AI,去探索發(fā)現新的疆域。

這其中,有奪下IMO金牌的Gemini Deep Think,有算法發(fā)現AI智能體AlphaEvolve,還有形式化證明自動補全AlphaProof。
目前,首批合作機構陣容,堪稱豪華:
- 倫敦帝國學院
- 普林斯頓高等研究院(IAS)
- 法國高等科學研究所(IHES)
- 西蒙斯計算理論研究所(加州大學伯克利分校)
- 塔塔基礎科學研究所(TIFR)
這五大機構有著一個共同的使命,發(fā)掘可以被AI點亮的數學難題,加速科學發(fā)現。
然而,陶哲軒擔憂的是,「當前AI在數學研究中應用加深,除了負責任的使用,AI濫用的案例也屢見不鮮」。
因此他認為,現在正是時候,啟動關于如何最佳融入AI、透明披露其作用,并緩解風險的討論。

或許,這不僅能守護數學研究的嚴謹性,還將為AI+數學融合鋪就道路。
五大頂尖機構,聯(lián)手強攻數學難題
數學,是宇宙最基礎的語言。
在谷歌DeepMind看來,AI可以作為強大工具,與數學家合作,激發(fā)其創(chuàng)造力。
「AI賦能數學計劃」的誕生,就是為了:
發(fā)掘有望借助AI獲得深刻見解的新一代數學難題;
構建支持這些前沿探索所需的基礎設施與工具;
最終加速科學發(fā)現的步伐。
這項計劃,將由Google.org提供資金支持,以及谷歌DeepMind的頂尖技術。
幾個月來,谷歌DeepMind自身的研究,取得了飛速進步。
2024年,AlphaGeometry和AlphaProof在IMO競賽中,拿下了銀牌。

而搭載Deep Think的最新Gemini模型,更是在今年IMO中取得了金牌水平的表現,完美破解5題拿下35分。

今年5月,谷歌DeepMind又發(fā)布的AlphaEvolve,堪稱最強通用AI智能體。

在數學分析、幾何學、組合數學和數論領域50個公開難題上,20%題目中,AlphaEvolve取得了最優(yōu)解。
而且,在數學與算法發(fā)現領域,它發(fā)明了一種全新的、更高效的矩陣乘法方法。

具體來說,在4x4矩陣乘法這一特定問題上,它發(fā)現了僅需48次標量乘法的算法。
這一結果,打破了1969年由Strassen算法,創(chuàng)下長達50年的歷史紀錄。
不僅如此,在計算機科學領域,AlphaEvolve協(xié)助研究員發(fā)現了全新的數學結構。
同時,它還發(fā)現了有些復雜問題的求解難度,其實比人們過去想的還要高,這讓研究者對計算邊界看得更清楚、更精準,為未來的研究探明方向。

以上這些進展,都是當前AI模型快速發(fā)展的有力證明。
對于AI的全部潛力,還有它怎么搞定思考最深奧的科學問題,人類的理解才剛剛開始。
AI+數學,邊界在哪?
一直以來,陶哲軒是「AI+數學」領域應用的看好者,也是最佳實踐者。
他曾多次聯(lián)手GPT-5 Pro等頂尖AI,破解了許多數學領域的難題,大大提升了效率。

毋庸置疑,在數學領域,LLM和證明助手等AI工具,正悄然改變研究范式。
最近,一些頂尖論文開始融合AI,推動了從形式化證明到復雜計算的創(chuàng)新。

論文地址:https://borisalexeev.com/pdf/erdos707.pdf
然而,隨著AI的深度介入,也引發(fā)了一個關鍵問題:
如何確保這些工具的使用,不損害論文的嚴謹性和價值?
陶哲軒獻策
借此契機,陶哲軒在公開平臺上發(fā)起了討論,在長帖中,他提出了三大建議。

以下,AI一詞,它不僅涵蓋LLM,也包括神經網絡、可滿足性求解器、證明助手以及任何其他復雜的工具。
1 AI使用聲明
論文中,所有對AI實質性的使用,超出其基礎功能,比如自動補全、拼寫檢查,或搜索引擎AI摘要,都必須明確聲明。
2 AI風險討論與緩解措施
論文中,應討論所用AI工具可能帶來的一般性風險,并說明為緩解這些風險已采取的措施。
以下將舉例說明:
2.1. 內容虛構,出現了「幻覺」
AI可能會編造參考文獻、證明過程或文本,導致事實錯誤。
建議不要在論文正文中,使用AI生成的文本;若必須使用AI輸出,則用不同字體或標記清晰標注。
2.2. 缺乏可復現性
專有AI或高計算成本的結果難以復現。解決方案是,開源提示詞、工作流程、認證數據等,讓他人能低成本驗證。
2.3. 缺乏可解釋性
AI輸出往往晦澀,其解釋可能站不住腳。建議為每個AI輸出配以人類撰寫的、可讀性強的對應內容。
比如,一個定理可以同時包含一個由人類撰寫、易于閱讀的非形式化證明,以及一個由AI生成但不易閱讀的形式化證明。
2.4. 缺乏可驗證性
AI易藏細微錯誤,檢查耗時。
形式化驗證,一致性檢查,都有助于緩解這一問題,并采用多層次方法。
關鍵是標注驗證范圍,在定理旁加「校驗標記」,未驗證部分則明確說明。

2.5. 目標形式化不當
AI可能精確解決「錯位」目標,即形式化后的命題偏離作者意圖。為此,應從獨立來源獲取形式化目標,或由人類深入審視形式化過程。
2.6. 可能利用漏洞達成目標
與上一問題相關聯(lián),AI可能會鉆形式化表述的空子,如添加任意公理「證明」命題。
應對方法是,列出已知漏洞,并討論排除機制確保過程嚴謹。
2.7. AI生成代碼有Bug
AI生成代碼bug更加隱蔽,難以用傳統(tǒng)標準方法來檢測修復。
為此,建議采用大量單元測試、外部驗證,或將AI使用限于簡單場景,復雜任務需由人類修改適配。
3 責任歸屬
最終,論文的所有作者,必須為AI貢獻內容承擔責任,包括任何不準確、疏漏或虛假陳述。
除非明確標記為「未經核實」,否則作者不能推卸。
以上這些,僅是陶哲軒的拋磚引玉,他希望加入更多的討論,和業(yè)界研究人員進一步完善這份清單。
評論下方,一位研究者John Dvorak直戳痛點——
除非我們能跨過臨界點,讓所有數學證明都用Lean做形式化驗證,成為學界的標配,否則這個問題基本無解。
說到底,在Lean普及之前,這些法子雖然治標不治本。

對此,陶哲軒拋出了最近看到的一個觀點,即用AI審稿質量是可以的,但它并非是主要的篩選工具質之一。
否則就會觸發(fā)「古德哈特定律」(Goodhart's law),AI工具就會找到漏洞,用一些異常、分布之外的文本字符串就能繞開審核。
說白了,AI評估器頂多給人類審核當個輔助,而不能完全取代人類評估者。






































