大模型幫陶哲軒解題、證明數(shù)學(xué)定理：數(shù)學(xué)真要成為首個(gè)借助AI實(shí)現(xiàn)突破的學(xué)科了？

作者：機(jī)器之心 2023-06-30 13:42:44

數(shù)學(xué)將成為第一門(mén)借助AI實(shí)現(xiàn)重大突破的學(xué)科？

去年 2 月份，DeepMind 發(fā)布了編程輔助利器 AlphaCode。它使用人工智能技術(shù)來(lái)幫助程序員更快地編寫(xiě)代碼，可以自動(dòng)完成代碼、提供代碼建議并檢查錯(cuò)誤，從而提高編程效率。AlphaCode 的問(wèn)世意味著 AI 在解決現(xiàn)實(shí)世界問(wèn)題的道路上又邁出了一大步。

巧合的是，在同一天，OpenAI 也展示了一項(xiàng)重要成果：他們開(kāi)發(fā)的神經(jīng)定理證明器成功解出了兩道國(guó)際奧數(shù)題。這一成果是在微軟打磨了多年的數(shù)學(xué) AI——Lean 的基礎(chǔ)上完成的。Lean 于 2013 年推出，數(shù)學(xué)家可以把數(shù)學(xué)公式轉(zhuǎn)換成代碼，再輸入到 Lean 中，讓程序來(lái)驗(yàn)證定理是否正確。OpenAI 的成功表明，AI 不僅可以用于解決編程等應(yīng)用學(xué)科的問(wèn)題，還能用來(lái)攻克數(shù)學(xué)等自然學(xué)科。

圖片

值得注意的是，這并不是 AI 研究者的「一廂情愿」。就像快速接受 AlphaCode 的軟件工程師一樣，數(shù)學(xué)家也在越來(lái)越頻繁地使用 AI，比如獲得過(guò)菲爾茨獎(jiǎng)的陶哲軒。他甚至預(yù)言，到 2026 年，AI 將成為數(shù)學(xué)研究領(lǐng)域可信賴(lài)的合著者（co-author）。

與此同時(shí)，主攻數(shù)學(xué)問(wèn)題的 AI 也在不斷發(fā)展壯大：一個(gè)名為 LeanDojo 的開(kāi)放平臺(tái)提供了一套基于大型語(yǔ)言模型的開(kāi)源定理證明器，消除了在機(jī)器學(xué)習(xí)方法用于定理證明時(shí)存在的私有代碼、數(shù)據(jù)和大量計(jì)算需求等障礙，為機(jī)器學(xué)習(xí)方法在定理證明領(lǐng)域的研究提供了便利。

「我相信，數(shù)學(xué)將成為第一門(mén)通過(guò)人工智能實(shí)現(xiàn)重大突破的學(xué)科?！乖诳吹竭@些進(jìn)展之后，英偉達(dá)高級(jí) AI 研究科學(xué)家 Jim Fan 在一篇推特中預(yù)言說(shuō)。

除了以上種種進(jìn)展，Jim Fan 還列出了以下推斷依據(jù)：

數(shù)學(xué)可以被方便地轉(zhuǎn)化為編碼問(wèn)題，字符串在其中具有重要地位，這使得數(shù)學(xué)問(wèn)題可以通過(guò)人工智能工具進(jìn)行處理和分析；
與依賴(lài)實(shí)證結(jié)果的學(xué)科不同，數(shù)學(xué)可以通過(guò)定理證明器（如 Lean）進(jìn)行嚴(yán)格驗(yàn)證；
與需要依賴(lài)物理實(shí)驗(yàn)的學(xué)科（如生物學(xué)和醫(yī)學(xué)）不同，數(shù)學(xué)不需要進(jìn)行物理實(shí)驗(yàn)，無(wú)需依賴(lài)尚未完全成熟的機(jī)器人技術(shù)或?qū)嶒?yàn)設(shè)備。

在數(shù)學(xué)與 AI 的這場(chǎng)交叉之旅中，數(shù)學(xué)家和 AI 研究科學(xué)家在共同探索更多可能性?；蛟S，陶哲軒和 Jim Fan 的預(yù)言都將加速實(shí)現(xiàn)。

在陶哲軒手里，AI 成了數(shù)學(xué)家的得力助手

「我預(yù)計(jì)，如果使用得當(dāng)，到 2026 年，AI 將成為數(shù)學(xué)研究和許多其他領(lǐng)域值得信賴(lài)的合著者。」數(shù)學(xué)家陶哲軒在前不久的一篇博客中說(shuō)道。

在眾多知名數(shù)學(xué)家中，陶哲軒是較早接受并發(fā)現(xiàn) ChatGPT 這類(lèi) AI 大模型數(shù)學(xué)價(jià)值的一個(gè)。早在今年 3 月份 ChatGPT 連雞兔同籠問(wèn)題都搞不定的時(shí)候，陶哲軒就給予了它肯定的態(tài)度，認(rèn)為這類(lèi)大模型完全可以勝任一些輔助性質(zhì)的工作，比如幫數(shù)學(xué)研究者進(jìn)行語(yǔ)義搜索、生成一些提示。

圖片

在這個(gè)例子中，陶哲軒提出的問(wèn)題是：「我在尋找一個(gè)關(guān)于 xx 的公式。我想這是一個(gè)經(jīng)典的定理，但我不記得名字了。你有什么印象嗎？」在這輪問(wèn)答中，雖然 ChatGPT 沒(méi)能給出正確答案（庫(kù)默爾定理），但根據(jù)它給出的近似答案（Legendre 公式），我們可以結(jié)合傳統(tǒng)搜索引擎輕松找到正確答案。

沒(méi)過(guò)多久，OpenAI 就發(fā)布了數(shù)學(xué)能力顯著提升的 GPT-4。陶哲軒也一直在嘗試解鎖這一強(qiáng)大的 AI 工具。

在使用過(guò)程中，他總結(jié)出了一些經(jīng)驗(yàn)：不要試圖讓 AI 直接回答數(shù)學(xué)問(wèn)題（這樣得到的答案八成是廢話(huà)），而是讓它扮演合作者的角色，要求它提供策略建議。

按照這種提示方法，陶哲軒在 GPT-4 的幫助下成功解決了一個(gè)數(shù)學(xué)證明題（GPT4 提出了 8 種方法，其中 1 種成功解決了問(wèn)題）。

圖片

陶哲軒利用 GPT-4 解決的問(wèn)題。

陶哲軒為了解決上述證明題提供給 GPT-4 的 Prompt：「你好，我是一名數(shù)學(xué)教授，我希望你能扮演一位善于提出解題技巧的數(shù)學(xué)專(zhuān)家合作者。我正試圖回答 MathOverflow 中的以下問(wèn)題……」

GPT-4 給出的部分建議。

當(dāng)然，除了這個(gè)證明題外，陶哲軒也在用 GPT-4 完成其他一些工作，包括但不限于：

提出問(wèn)題：他將最近一些數(shù)學(xué)預(yù)印本論文的前幾頁(yè)輸入給 GPT-4，并讓其生成一些與該論文相關(guān)的問(wèn)題，就像同行提出的問(wèn)題一樣。這可以幫助他更好地進(jìn)行演講準(zhǔn)備。
回答問(wèn)題：他現(xiàn)在經(jīng)常使用 GPT-4 來(lái)回答隨意和模糊的問(wèn)題，以前他可能會(huì)通過(guò)精心準(zhǔn)備的搜索引擎查詢(xún)來(lái)嘗試回答這些問(wèn)題；
輔助寫(xiě)作：他曾經(jīng)讓 GPT-4 給復(fù)雜文檔提供初稿建議，以輔助寫(xiě)作。

不過(guò)，陶哲軒也指出，AI 在數(shù)學(xué)等學(xué)術(shù)領(lǐng)域的廣泛應(yīng)用對(duì)出版界和教育界來(lái)說(shuō)都是一個(gè)考驗(yàn)：當(dāng)人工智能指導(dǎo)的研究生入門(mén)級(jí)數(shù)學(xué)論文可以在不到一天的時(shí)間內(nèi)生成時(shí)，研究期刊將如何改變其出版和引用機(jī)制？我們的研究生教育方式將如何改變？我們會(huì)積極鼓勵(lì)和訓(xùn)練學(xué)生使用這些工具嗎？對(duì)于這些問(wèn)題，陶哲軒并沒(méi)有給出答案。

拿下數(shù)學(xué)定理證明，這項(xiàng)研究或讓陶哲軒預(yù)言早日成真

一直以來(lái)，形式化的定理證明都是機(jī)器學(xué)習(xí)的重要挑戰(zhàn)。形式化證明本質(zhì)上是一種計(jì)算機(jī)程序，但與 C++ 或 Python 中的傳統(tǒng)程序不同，證明的正確性可以用證明助手（如開(kāi)頭提到的 Lean）來(lái)驗(yàn)證。定理證明是代碼生成的一種特殊形式，在評(píng)估上非常嚴(yán)格，沒(méi)有讓模型產(chǎn)生幻覺(jué)的空間。

這對(duì)目前的大型語(yǔ)言模型（LLM）來(lái)說(shuō)是有挑戰(zhàn)性的，盡管 LLM 在代碼生成方面表現(xiàn)出了優(yōu)秀的能力，但在事實(shí)性和幻覺(jué)性方面還有缺陷。

以往，對(duì)于用于定理證明的 LLM 研究面臨著許多障礙：比如，現(xiàn)有的基于 LLM 的證明器沒(méi)有一個(gè)是開(kāi)源的；它們都使用私有的預(yù)訓(xùn)練數(shù)據(jù)，而且計(jì)算要求可以達(dá)到數(shù)千個(gè) GPU 時(shí)；此外，有些基礎(chǔ)設(shè)施是依賴(lài)于為分布式訓(xùn)練和與證明助手的互動(dòng)而定制的，如果沒(méi)有開(kāi)源代碼，這兩者是不可能完全復(fù)現(xiàn)的。

在最近的一項(xiàng)研究中，來(lái)自加州理工學(xué)院、英偉達(dá)等機(jī)構(gòu)的研究者在該命題的解決進(jìn)程上走出了重要一步，提出了開(kāi)放平臺(tái) LeanDojo。

圖片

論文鏈接：https://arxiv.org/pdf/2306.15626.pdf

項(xiàng)目主頁(yè)：https://leandojo.org/

總體來(lái)說(shuō)，該研究有如下貢獻(xiàn)：

首先，介紹了從 Lean 中提取數(shù)據(jù)并與之交互的工具；
第二，開(kāi)發(fā)了第一個(gè)用于定理證明的檢索增強(qiáng)的語(yǔ)言模型 ReProver；
第三，為基于學(xué)習(xí)的定理證明構(gòu)建了一個(gè)具有挑戰(zhàn)性的基準(zhǔn)，并利用它來(lái)驗(yàn)證 ReProver 的有效性；
最后，公開(kāi)發(fā)布數(shù)據(jù)、模型和代碼，推動(dòng)了對(duì)定理證明的 LLM 的研究。

LeanDojo 的誕生有望改變當(dāng)前現(xiàn)狀：從開(kāi)源工具包、模型到基準(zhǔn)，LeanDojo 讓研究人員能夠以適度的計(jì)算成本獲得最先進(jìn)的基于 LLM 的證明器。ReProver 不依賴(lài)私人數(shù)據(jù)集，并且可以在一周內(nèi)在單個(gè) GPU 上完成訓(xùn)練。

研究細(xì)節(jié)

Lean 是一種編程語(yǔ)言，既可以寫(xiě)傳統(tǒng)的程序，也可以寫(xiě)定理和證明。它提供了兩個(gè)機(jī)制：首先，基于具有依賴(lài)類(lèi)型的函數(shù)式編程，Lean 為定義程序、數(shù)學(xué)對(duì)象、定理和證明提供了一種統(tǒng)一的語(yǔ)言；第二，Lean 提供了一個(gè)策略系統(tǒng)（tactic system），用于半自動(dòng)地構(gòu)建機(jī)器可檢查的證明。

圖 2 展示了一個(gè)簡(jiǎn)單的例子，以說(shuō)明定理是如何在 Lean 中被形式化和證明的：

圖片

策略（tactic）的語(yǔ)法是相當(dāng)靈活的，可以接受參數(shù)，也可以組合成復(fù)合策略。策略可以看作是特定領(lǐng)域語(yǔ)言（DSL）中的程序。用戶(hù)可以通過(guò)定義新的策略來(lái)擴(kuò)展 DSL。這種離散的、組合的和無(wú)界的行為空間使得定理證明對(duì)機(jī)器學(xué)習(xí)具有挑戰(zhàn)性。

另一個(gè)挑戰(zhàn)是前提的選擇。前提是對(duì)證明一個(gè)定理有用的現(xiàn)有公理或定義，被用作策略的論據(jù)。證明不能使用尚未定義的前提，也不能使用未導(dǎo)入當(dāng)前文件的前提。通常，前提是來(lái)自一個(gè)包含數(shù)十萬(wàn)個(gè)現(xiàn)有定義和定理的大型數(shù)學(xué)庫(kù)，這使得人類(lèi)和機(jī)器都很難在生成策略時(shí)選擇正確的前提。這是定理證明中的一個(gè)關(guān)鍵瓶頸，也是研究者希望通過(guò)檢索增強(qiáng)的 LLM 來(lái)解決的。

LeanDojo Benchmark

研究者使用 LeanDojo 構(gòu)建了一個(gè)包含 96,962 條從 mathlib 提取的定理 / 證明的基準(zhǔn)。該基準(zhǔn)是目前最大的以數(shù)學(xué)為重點(diǎn)的定理證明數(shù)據(jù)集之一，涵蓋了不同的主題，如分析、代數(shù)和幾何。

與現(xiàn)有的 Lean 數(shù)據(jù)集不同，LeanDojo Benchmark 還包含了 128,163 個(gè)前提的定義，不僅包括定理，還包括可以作為前提的其他定義，例如圖 2 中的 gcd。此外，該數(shù)據(jù)集有 212,787 個(gè)策略，其中 126,058 個(gè)策略至少有一個(gè)前提。在有前提的策略中，前提的平均數(shù)量為 2.12。

LeanDojo Benchmark 解決了兩項(xiàng)關(guān)鍵問(wèn)題：

前提信息

Lean repos（例如，mathlib 或 lean-liquid）包含人寫(xiě)定理 / 證明的源代碼。然而，原始代碼并不適合用于訓(xùn)練驗(yàn)證器，它缺乏人類(lèi)在使用 Lean 時(shí)可以獲得的運(yùn)行時(shí)信息，例如證明步驟之間的中間狀態(tài)。

而 LeanDojo 可以從 Lean 的任何 GitHub repo 中提取數(shù)據(jù)，這些數(shù)據(jù)包含在原始 Lean 代碼中無(wú)法直接看到的豐富信息，包括文件依賴(lài)關(guān)系、抽象語(yǔ)法樹(shù)（AST）、證明狀態(tài)、策略和前提。LeanDojo Benchmark 包含細(xì)粒度的前提注釋?zhuān)ㄋ鼈冊(cè)谧C明中使用的位置和在庫(kù)中定義的位置），為前提選擇提供有價(jià)值的數(shù)據(jù)，也是定理證明的關(guān)鍵瓶頸。

具有挑戰(zhàn)性的數(shù)據(jù)分割

研究者發(fā)現(xiàn)，將定理隨機(jī)分成訓(xùn)練 / 測(cè)試的常見(jiàn)做法導(dǎo)致了之前論文中高估了性能。LLM 只需在訓(xùn)練期間記住類(lèi)似定理的證明，就能證明看似困難的定理。

在人類(lèi)編寫(xiě)的 Lean 代碼中，一個(gè)常見(jiàn)的慣用語(yǔ)法是為同一數(shù)學(xué)概念的略微不同的屬性設(shè)置了一個(gè)類(lèi)似的定理 / 證明塊。例如，在圖 3 中，最后兩個(gè)定理不僅看起來(lái)相似，而且有相同的證明。如果其中一個(gè)在訓(xùn)練中，模型可以通過(guò)記憶輕松證明另一個(gè)。這種捷徑使模型能夠證明看似不簡(jiǎn)單的定理，包括那些需要前提才能證明的定理。

圖片

在 LeanDojo Benchmark 中，研究者通過(guò)設(shè)計(jì)具有挑戰(zhàn)性的數(shù)據(jù)分割 novel_premises 來(lái)緩解這個(gè)問(wèn)題，它需要測(cè)試證明以使用至少一個(gè)從未在訓(xùn)練中使用過(guò)的前提。

例如，圖 3 中的最后兩個(gè)定理都使用了前提 conj_mul。如果一個(gè)定理在 novel_premises 分割的訓(xùn)練集中，另一個(gè)也必須在訓(xùn)練中。

以編程方式與 Lean 交互

LeanDojo 的另一個(gè)重要功能是以編程方式與 Lean 交互。它把 Lean 變成了一個(gè)類(lèi)似健身房的環(huán)境，在這個(gè)環(huán)境中，證明器可以觀察證明狀態(tài)，運(yùn)行策略來(lái)改變狀態(tài)，并接收錯(cuò)誤或證明完成的反饋。這個(gè)環(huán)境對(duì)于評(píng)估 / 部署驗(yàn)證器或通過(guò) RL 訓(xùn)練證明器是不可缺少的。

下面是 LeanDojo 的主要形式，用于通過(guò)策略與 Lean 交互。Lean 同樣支持不基于策略的其他證明風(fēng)格，不過(guò) LeanDojo 只支持策略風(fēng)格的證明。但只要有足夠的通用性，任何證明都可以轉(zhuǎn)換為策略風(fēng)格的證明。

圖片

ReProver

隨后，研究者使用 LeanDojo Benchmark 來(lái)訓(xùn)練和評(píng)估了 ReProver。其核心是一個(gè)由檢索增強(qiáng)的策略生成器（圖 1 底部）。

圖片

根據(jù)當(dāng)前的證明狀態(tài)，它可以檢索出少數(shù)可能有用的前提，并根據(jù)狀態(tài)和檢索出的前提的連接情況生成一個(gè)策略。在證明定理時(shí)，該模型在每一步都會(huì)生成多個(gè)策略候選者，這些候選者被用于標(biāo)準(zhǔn)的最優(yōu)搜索算法來(lái)尋找證明。

值得注意的是，ReProver 的訓(xùn)練只需要在單 GPU 上花費(fèi)五天時(shí)間（120 個(gè) GPU 時(shí)），所需的計(jì)算量大大低于之前的方法（1000 小時(shí)以上）。

此前的基于 LLM 的證明器都在數(shù)學(xué)和編碼的特定數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練，計(jì)算成本很高而且數(shù)據(jù)集是保密的。相比之下，ReProver 避免特定領(lǐng)域的預(yù)訓(xùn)練，建立在「google/byt5-small」之上，這是一個(gè)通用的、公開(kāi)可用的、相對(duì)較小的模型檢查點(diǎn)。

此外，ReProver 只在人類(lèi)寫(xiě)的策略上進(jìn)行了微調(diào)，沒(méi)有輔助數(shù)據(jù)或通過(guò)與 Lean 在線(xiàn)互動(dòng)收集的數(shù)據(jù)。雖然這些正交方向是有價(jià)值的，但會(huì)大大增加方法的復(fù)雜性和計(jì)算要求。

在評(píng)估實(shí)驗(yàn)中，ReProver 可以證明 51.4% 的定理，優(yōu)于直接生成策略而不進(jìn)行檢索的 baseline（47.5%）和另一個(gè)使用 GPT-4 以零樣本方式生成策略的 baseline（28.8%）。

圖片

研究者還在 MiniF2F 和 ProofNet 兩個(gè)數(shù)據(jù)集上測(cè)試了 ReProver。它可以在 MiniF2F 中證明 26.5% 的定理，在 ProofNet 中證明 13.8% 的定理，這幾乎能夠媲美強(qiáng)化學(xué)習(xí)的 SOTA 方法，且訓(xùn)練時(shí)使用的資源少得多。

此外，許多定理在 Lean 中沒(méi)有 ground- truth 證明。而 ReProver 能夠證明 65 個(gè)目前在 Lean 中沒(méi)有得到證明的定理，其中 MiniF2F 發(fā)現(xiàn)了 33 條證明，ProofNet 中發(fā)現(xiàn)了 39 條。研究者表示，ReProver 也可以作為一個(gè)有效的工具來(lái)增強(qiáng) Lean 中現(xiàn)有的數(shù)學(xué)庫(kù)。

ChatGPT 插件

研究者還構(gòu)建了一個(gè) LeanDojo ChatGPT 插件，使 ChatGPT 能夠通過(guò)與 Lean 交互來(lái)證明定理。與專(zhuān)門(mén)針對(duì)定理證明進(jìn)行微調(diào)的 LLM（例如 ReProver）相比，ChatGPT 可以將非形式化數(shù)學(xué)與形式化證明步驟交織在一起，類(lèi)似于人類(lèi)與證明助手的交互方式。它可以解釋來(lái)自 Lean 的錯(cuò)誤消息，并且比專(zhuān)門(mén)的證明器更容易操縱。然而，由于搜索和規(guī)劃方面的弱點(diǎn)，在大多數(shù)情況下很難找到正確的證明。

示例如下：

a + b + c = a + c + b

Stirling’s formula

Gauss' summation formula

團(tuán)隊(duì)信息

最后來(lái)認(rèn)識(shí)一下這篇文章的作者們：

論文一作楊凱峪目前是加州理工學(xué)院計(jì)算和數(shù)學(xué)科學(xué) (CMS) 系的博士后研究員，此前在普林斯頓大學(xué)獲得博士學(xué)位。

Alex Gu 是麻省理工學(xué)院的一名博士生，導(dǎo)師為 Armando Solar-Lezama。此前，他在麻省理工學(xué)院獲得了學(xué)士和碩士學(xué)位，擁有 Meta AI Research、Jane Street 和 pony.ai 多家公司的實(shí)習(xí)經(jīng)歷。

Peiyang Song 目前是加州大學(xué)圣巴巴拉分校（UCSB）創(chuàng)意研究學(xué)院（CCS）的計(jì)算機(jī)科學(xué)本科生。他的研究工作主要集中在兩個(gè)方向：1）神經(jīng)定理證明和自動(dòng)推理，結(jié)合大型語(yǔ)言模型（LLMs）和交互式定理證明器（ITPs）；2）用于能源效率機(jī)器學(xué)習(xí)推理的時(shí)間邏輯。

Shixing Yu 目前是美國(guó)康奈爾大學(xué)計(jì)算機(jī)科學(xué)專(zhuān)業(yè)博士生，此前在德州大學(xué)奧斯汀分校獲碩士學(xué)位，本科就讀于北京大學(xué)信息科學(xué)技術(shù)學(xué)院。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心