偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

陶哲軒敲警鐘!谷歌DeepMind聯(lián)手五大神殿,用AI向世紀難題宣戰(zhàn)

人工智能 新聞
谷歌DeepMind再出重拳,集結全球五大頂尖機構,以AI之力直指數學界圣杯!同時,陶哲軒也發(fā)出冷靜警示:須警惕AI濫用帶來的潛在風險。

今天,谷歌DeepMind重磅發(fā)起「AI賦能數學計劃」,集結了全球五大頂尖機構。

他們將用上谷歌最強數學AI,去探索發(fā)現新的疆域。

這其中,有奪下IMO金牌的Gemini Deep Think,有算法發(fā)現AI智能體AlphaEvolve,還有形式化證明自動補全AlphaProof。

目前,首批合作機構陣容,堪稱豪華:

  • 倫敦帝國學院
  • 普林斯頓高等研究院(IAS)
  • 法國高等科學研究所(IHES)
  • 西蒙斯計算理論研究所(加州大學伯克利分校)
  • 塔塔基礎科學研究所(TIFR)

這五大機構有著一個共同的使命,發(fā)掘可以被AI點亮的數學難題,加速科學發(fā)現。

然而,陶哲軒擔憂的是,「當前AI在數學研究中應用加深,除了負責任的使用,AI濫用的案例也屢見不鮮」。

因此他認為,現在正是時候,啟動關于如何最佳融入AI、透明披露其作用,并緩解風險的討論。

或許,這不僅能守護數學研究的嚴謹性,還將為AI+數學融合鋪就道路。

五大頂尖機構,聯(lián)手強攻數學難題

數學,是宇宙最基礎的語言。

在谷歌DeepMind看來,AI可以作為強大工具,與數學家合作,激發(fā)其創(chuàng)造力。

「AI賦能數學計劃」的誕生,就是為了:

發(fā)掘有望借助AI獲得深刻見解的新一代數學難題;  

構建支持這些前沿探索所需的基礎設施與工具;  

最終加速科學發(fā)現的步伐。

這項計劃,將由Google.org提供資金支持,以及谷歌DeepMind的頂尖技術。

幾個月來,谷歌DeepMind自身的研究,取得了飛速進步。

2024年,AlphaGeometry和AlphaProof在IMO競賽中,拿下了銀牌。

而搭載Deep Think的最新Gemini模型,更是在今年IMO中取得了金牌水平的表現,完美破解5題拿下35分。

今年5月,谷歌DeepMind又發(fā)布的AlphaEvolve,堪稱最強通用AI智能體。

在數學分析、幾何學、組合數學和數論領域50個公開難題上,20%題目中,AlphaEvolve取得了最優(yōu)解。

而且,在數學與算法發(fā)現領域,它發(fā)明了一種全新的、更高效的矩陣乘法方法。

具體來說,在4x4矩陣乘法這一特定問題上,它發(fā)現了僅需48次標量乘法的算法。

這一結果,打破了1969年由Strassen算法,創(chuàng)下長達50年的歷史紀錄。

不僅如此,在計算機科學領域,AlphaEvolve協(xié)助研究員發(fā)現了全新的數學結構。

同時,它還發(fā)現了有些復雜問題的求解難度,其實比人們過去想的還要高,這讓研究者對計算邊界看得更清楚、更精準,為未來的研究探明方向。

以上這些進展,都是當前AI模型快速發(fā)展的有力證明。

對于AI的全部潛力,還有它怎么搞定思考最深奧的科學問題,人類的理解才剛剛開始。

AI+數學,邊界在哪?

一直以來,陶哲軒是「AI+數學」領域應用的看好者,也是最佳實踐者。

他曾多次聯(lián)手GPT-5 Pro等頂尖AI,破解了許多數學領域的難題,大大提升了效率。

毋庸置疑,在數學領域,LLM和證明助手等AI工具,正悄然改變研究范式。

最近,一些頂尖論文開始融合AI,推動了從形式化證明到復雜計算的創(chuàng)新。

論文地址:https://borisalexeev.com/pdf/erdos707.pdf

然而,隨著AI的深度介入,也引發(fā)了一個關鍵問題:

如何確保這些工具的使用,不損害論文的嚴謹性和價值?

陶哲軒獻策

借此契機,陶哲軒在公開平臺上發(fā)起了討論,在長帖中,他提出了三大建議。

以下,AI一詞,它不僅涵蓋LLM,也包括神經網絡、可滿足性求解器、證明助手以及任何其他復雜的工具。

1 AI使用聲明

論文中,所有對AI實質性的使用,超出其基礎功能,比如自動補全、拼寫檢查,或搜索引擎AI摘要,都必須明確聲明。

2 AI風險討論與緩解措施

論文中,應討論所用AI工具可能帶來的一般性風險,并說明為緩解這些風險已采取的措施。

以下將舉例說明:

2.1. 內容虛構,出現了「幻覺」

AI可能會編造參考文獻、證明過程或文本,導致事實錯誤。

建議不要在論文正文中,使用AI生成的文本;若必須使用AI輸出,則用不同字體或標記清晰標注。

2.2. 缺乏可復現性

專有AI或高計算成本的結果難以復現。解決方案是,開源提示詞、工作流程、認證數據等,讓他人能低成本驗證。

2.3. 缺乏可解釋性

AI輸出往往晦澀,其解釋可能站不住腳。建議為每個AI輸出配以人類撰寫的、可讀性強的對應內容。

比如,一個定理可以同時包含一個由人類撰寫、易于閱讀的非形式化證明,以及一個由AI生成但不易閱讀的形式化證明。

2.4. 缺乏可驗證性

AI易藏細微錯誤,檢查耗時。

形式化驗證,一致性檢查,都有助于緩解這一問題,并采用多層次方法。

關鍵是標注驗證范圍,在定理旁加「校驗標記」,未驗證部分則明確說明。

2.5. 目標形式化不當

AI可能精確解決「錯位」目標,即形式化后的命題偏離作者意圖。為此,應從獨立來源獲取形式化目標,或由人類深入審視形式化過程。

2.6. 可能利用漏洞達成目標

與上一問題相關聯(lián),AI可能會鉆形式化表述的空子,如添加任意公理「證明」命題。

應對方法是,列出已知漏洞,并討論排除機制確保過程嚴謹。

2.7. AI生成代碼有Bug

AI生成代碼bug更加隱蔽,難以用傳統(tǒng)標準方法來檢測修復。

為此,建議采用大量單元測試、外部驗證,或將AI使用限于簡單場景,復雜任務需由人類修改適配。

3 責任歸屬

最終,論文的所有作者,必須為AI貢獻內容承擔責任,包括任何不準確、疏漏或虛假陳述。

除非明確標記為「未經核實」,否則作者不能推卸。

以上這些,僅是陶哲軒的拋磚引玉,他希望加入更多的討論,和業(yè)界研究人員進一步完善這份清單。

評論下方,一位研究者John Dvorak直戳痛點——

除非我們能跨過臨界點,讓所有數學證明都用Lean做形式化驗證,成為學界的標配,否則這個問題基本無解。  

說到底,在Lean普及之前,這些法子雖然治標不治本。

對此,陶哲軒拋出了最近看到的一個觀點,即用AI審稿質量是可以的,但它并非是主要的篩選工具質之一。

否則就會觸發(fā)「古德哈特定律」(Goodhart's law),AI工具就會找到漏洞,用一些異常、分布之外的文本字符串就能繞開審核。

說白了,AI評估器頂多給人類審核當個輔助,而不能完全取代人類評估者。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-05-22 09:08:40

2025-06-03 08:15:00

2025-06-12 14:20:35

谷歌DeepMindAI

2025-10-08 09:49:06

2024-07-29 13:28:52

2024-10-14 14:31:36

2024-07-29 08:49:00

AI數學

2024-08-08 13:40:00

2023-12-16 09:42:12

2024-10-12 12:30:04

2024-08-07 14:59:00

2025-05-15 11:01:58

谷歌DeepMind模型

2023-10-28 13:18:05

AI工具

2023-10-04 08:07:06

CopilotGitHub

2024-12-09 09:35:00

AI數據訓練

2025-09-04 09:04:13

2023-09-02 11:21:54

代碼ChatGPT

2025-05-19 09:02:00

2023-12-16 12:47:59

2023-10-10 13:51:46

GPT-4GitHubAI
點贊
收藏

51CTO技術棧公眾號