AlphaEvolve: 谷歌DeepMind邁向通用人工智能(AGI)的突破性一步 原創(chuàng)
谷歌DeepMind推出的AlphaEvolve旨在自主發(fā)現(xiàn)算法和科學(xué)解決方案。它基于進(jìn)化計(jì)算原理,通過LLM驅(qū)動(dòng)的獨(dú)立進(jìn)化流程,不斷優(yōu)化代碼。AlphaEvolve不僅超越人類專家設(shè)計(jì)的算法,還在數(shù)學(xué)和谷歌基礎(chǔ)設(shè)施優(yōu)化上取得突破。其自主創(chuàng)造力和持續(xù)自我改進(jìn)能力,為邁向通用人工智能(AGI)和超級(jí)人工智能(ASI)提供了新方向。
谷歌DeepMind最近發(fā)布了??AlphaEvolve???,這是一種進(jìn)化式編碼代理,旨在自主發(fā)現(xiàn)新算法和科學(xué)解決方案。在主題為《??AlphaEvolve:用于科學(xué)和算法發(fā)現(xiàn)的編碼代理??》的論文中,這項(xiàng)研究代表了向通用人工智能(AGI)甚至?超級(jí)人工智能(ASI)??邁出了突破性的一步。AlphaEvolve沒有依賴于靜態(tài)微調(diào)或人類標(biāo)記的數(shù)據(jù)集,而是走上了一條以自主創(chuàng)造力、算法創(chuàng)新和持續(xù)自我改進(jìn)為核心的完全不同的道路。?
AlphaEvolve的核心是一個(gè)由大型語言模型(LLM)驅(qū)動(dòng)的自我進(jìn)化流程。該流程不僅僅生成輸出,還能夠跨代對(duì)代碼進(jìn)行變異、評(píng)估、選擇和改進(jìn)。AlphaEvolve從一個(gè)初始程序開始,通過引入精心設(shè)計(jì)的變更進(jìn)行迭代優(yōu)化。
這些變更以LLM生成差異的形式呈現(xiàn)——由LLM根據(jù)先前的示例和明確的指令給出代碼修改的建議。軟件工程中的“差異”是指文件的兩個(gè)版本之間的差異,通常會(huì)突出顯示要?jiǎng)h除或替換的行以及要添加的新行。在AlphaEvolve中,LLM通過分析當(dāng)前程序,并根據(jù)包括性能指標(biāo)和以往成功編輯的提示提出一系列微調(diào)建議(例如添加函數(shù)、優(yōu)化循環(huán)或更改超參數(shù))來生成這些差異。
然后,使用針對(duì)任務(wù)定制的自動(dòng)評(píng)估器對(duì)每個(gè)修改后的程序進(jìn)行測(cè)試。最有效的候選程序會(huì)被存儲(chǔ)、引用,并作為未來迭代的靈感來源進(jìn)行重組。隨著時(shí)間的推移,這個(gè)進(jìn)化循環(huán)會(huì)催生出越來越復(fù)雜的算法,而這些算法往往超越了人類專家精心設(shè)計(jì)的算法。
了解AlphaEvolve背后的科學(xué)?
AlphaEvolve的核心是建立在進(jìn)化計(jì)算原理的基礎(chǔ)上,進(jìn)化計(jì)算是受到生物進(jìn)化啟發(fā)的人工智能的一個(gè)子領(lǐng)域。該系統(tǒng)從代碼的基本實(shí)現(xiàn)開始,將其視為初始的“有機(jī)體”。 在歷經(jīng)多代的迭代進(jìn)化過程中,AlphaEvolve修改了這段代碼(引入變異或“突變”),并使用定義良好的評(píng)分函數(shù)評(píng)估每個(gè)變異的適用性。性能最好的變體能夠存活下來,并作為下一代的模板。
這種進(jìn)化循環(huán)通過以下方式協(xié)調(diào):
- 提示采樣:AlphaEvolve通過選擇和嵌入以往表現(xiàn)卓越的代碼示例、性能指標(biāo)和特定任務(wù)的指令來構(gòu)建提示。
- 代碼突變和建議:該系統(tǒng)使用強(qiáng)大的LLM(Gemini 2.0 Flash和Pro)的組合,以差異的形式對(duì)當(dāng)前代碼庫進(jìn)行特定的修改。
- 評(píng)估機(jī)制:自動(dòng)評(píng)估功能通過執(zhí)行并返回標(biāo)量分?jǐn)?shù)來評(píng)估每個(gè)候選程序的表現(xiàn)。
- 數(shù)據(jù)庫和控制器:分布式控制器協(xié)調(diào)這個(gè)循環(huán),將結(jié)果存儲(chǔ)在進(jìn)化數(shù)據(jù)庫中,并通過MAP-Elites等機(jī)制平衡探索和利用。
這種反饋豐富、自動(dòng)化的進(jìn)化過程與標(biāo)準(zhǔn)的微調(diào)技術(shù)截然不同。它使AlphaEvolve能夠生成新穎、高性能、有時(shí)甚至違反直覺的解決方案,從而突破了機(jī)器學(xué)習(xí)自主實(shí)現(xiàn)的界限。
AlphaEvolve與RLHF的比較?
為了了解AlphaEvolve的創(chuàng)新之處,將其與人類反饋強(qiáng)化學(xué)習(xí)(RLHF)進(jìn)行比較至關(guān)重要,RLHF是一種用于微調(diào)大型語言模型的主要方法。
在RLHF中,人類的偏好被用來訓(xùn)練獎(jiǎng)勵(lì)模型,該模型通過像??近端策略優(yōu)化(PPO)??這樣的強(qiáng)化學(xué)習(xí)算法來指導(dǎo)LLM的學(xué)習(xí)過程。RLHF提高了模型的一致性和實(shí)用性,但它需要大量的人工參與來生成反饋數(shù)據(jù),并且通常在靜態(tài)的、一次性的微調(diào)機(jī)制中運(yùn)行。?
相比之下,AlphaEvolve可以:
- 從進(jìn)化循環(huán)中刪除人類反饋,以支持機(jī)器可執(zhí)行的評(píng)估器。
- 通過進(jìn)化選擇支持持續(xù)學(xué)習(xí)。
- 由于隨機(jī)突變和異步執(zhí)行,探索更廣泛的解決方案空間。
- 可以生成不僅一致,而且新穎且具有科學(xué)意義的解決方案。
在RLHF微調(diào)行為的地方,AlphaEvolve被發(fā)現(xiàn)并發(fā)明。在考慮AGI的未來發(fā)展軌跡時(shí),這種區(qū)別至關(guān)重要:AlphaEvolve不僅能做出更好的預(yù)測(cè),還能找到通往真理的新途徑。
應(yīng)用與突破?
1.算法發(fā)現(xiàn)和數(shù)學(xué)進(jìn)展
AlphaEvolve已經(jīng)證明了它在核心算法問題上有突破性發(fā)現(xiàn)的能力。最值得關(guān)注的是,它發(fā)現(xiàn)了一種僅使用48次標(biāo)量乘法即可將兩個(gè)4×4復(fù)值矩陣相乘的新算法——超過了德國數(shù)學(xué)家Volker Strassen在1969年得出的49次乘法的結(jié)果,打破了56年來的理論上限。AlphaEvolve通過先進(jìn)的張量分解技術(shù)實(shí)現(xiàn)了這一點(diǎn),該技術(shù)經(jīng)過多次迭代進(jìn)化,優(yōu)于幾種最先進(jìn)的方法。
除了矩陣乘法之外,AlphaEvolve還在數(shù)學(xué)研究方面做出了重大貢獻(xiàn)。它在組合數(shù)學(xué)、數(shù)論和幾何學(xué)等領(lǐng)域的50多個(gè)開放問題上進(jìn)行了評(píng)估。在大約75%的案例中,它達(dá)到了已知的最佳結(jié)果,并在大約20%的案例下超越了這些結(jié)果。這些成功包括對(duì)Erd?s最小重疊問題的改進(jìn)、11維接吻數(shù)問題的更密集解決方案以及更高效的幾何填充配置。這些結(jié)果凸顯了其作為自主數(shù)學(xué)探索者的能力——在沒有人為干預(yù)的情況下改進(jìn)、迭代和進(jìn)化越來越優(yōu)化的解決方案。
2.谷歌計(jì)算堆棧的優(yōu)化
AlphaEvolve還在谷歌公司的基礎(chǔ)設(shè)施上帶來了顯著的性能提升:
- 在數(shù)據(jù)中心調(diào)度方面,它發(fā)現(xiàn)了一種新的啟發(fā)式方法,可以改善作業(yè)安排,回收了之前閑置的0.7%計(jì)算資源。
- 對(duì)于Gemini的訓(xùn)練內(nèi)核,AlphaEvolve為矩陣乘法設(shè)計(jì)了更好的平鋪策略,使內(nèi)核加速了23%,訓(xùn)練時(shí)間減少了1%。
- 在TPU電路設(shè)計(jì)中,它確定了RTL(寄存器傳輸級(jí))算術(shù)邏輯的簡(jiǎn)化,經(jīng)過工程師驗(yàn)證,并包含在下一代TPU芯片中。
- 它還通過編輯XLA中間表示優(yōu)化了編譯器生成的FlashAttention代碼,將GPU上的推理時(shí)間縮短了32%。
總之,這些結(jié)果驗(yàn)證了AlphaEvolve在多個(gè)抽象級(jí)別(從符號(hào)數(shù)學(xué)到低級(jí)硬件優(yōu)化)上運(yùn)行的能力,并實(shí)現(xiàn)了性能提升。
- 進(jìn)化編程:這是一種使用變異、選擇和繼承來迭代改進(jìn)解決方案的人工智能范式。
- 代碼超級(jí)優(yōu)化:自動(dòng)搜索功能的最有效實(shí)現(xiàn)方式——通常產(chǎn)生令人驚訝的,違反直覺的改進(jìn)。
- 元提示進(jìn)化:AlphaEvolve不僅僅是進(jìn)化代碼;它還發(fā)展了如何將指令傳遞給LLM,從而實(shí)現(xiàn)了編碼過程的自我完善。
- 離散化損失:這是一個(gè)正則化術(shù)語,鼓勵(lì)輸出與半整數(shù)或整數(shù)值對(duì)齊,這對(duì)數(shù)學(xué)和符號(hào)的清晰度至關(guān)重要。
- 幻覺損失:這是一種將隨機(jī)性注入中間解決方案的機(jī)制,鼓勵(lì)探索并避免局部最小值。
- MAP-Elites算法:這是一種質(zhì)量多樣性算法,可在特征維度上保持高性能解決方案的多樣性,從而實(shí)現(xiàn)穩(wěn)健的創(chuàng)新。
3.對(duì)AGI和ASI的影響
AlphaEvolve不僅僅是一個(gè)優(yōu)化器——它是對(duì)未來智能代理可以展示自主創(chuàng)造性的一個(gè)窗口。該系統(tǒng)能夠制定抽象問題并設(shè)計(jì)自己的解決方法,這是朝著通用人工智能(AGI)邁出的重要一步。這超越了數(shù)據(jù)預(yù)測(cè):它涉及結(jié)構(gòu)化推理、策略形成和適應(yīng)反饋——這是智能行為的標(biāo)志。
其迭代生成和改進(jìn)假設(shè)的能力也標(biāo)志著機(jī)器學(xué)習(xí)方式的一種進(jìn)化。與需要大量監(jiān)督訓(xùn)練的模型不同,AlphaEvolve通過實(shí)驗(yàn)和評(píng)估的循環(huán)來改進(jìn)自己。這種動(dòng)態(tài)形式的智能使其能夠在沒有直接人類監(jiān)督的情況下導(dǎo)航復(fù)雜的問題空間、丟棄性能不佳的解決方案,并強(qiáng)化那些表現(xiàn)優(yōu)異的方案。
通過執(zhí)行和驗(yàn)證自己的想法,AlphaEvolve同時(shí)充當(dāng)了理論家和實(shí)驗(yàn)家的角色。它超越了執(zhí)行預(yù)定義的任務(wù),進(jìn)入了發(fā)現(xiàn)的領(lǐng)域,模擬了自主的科學(xué)過程。每個(gè)擬議的改進(jìn)都經(jīng)過測(cè)試、基準(zhǔn)測(cè)試和重新整合,從而可以根據(jù)實(shí)際結(jié)果而不是靜態(tài)目標(biāo)進(jìn)行持續(xù)改進(jìn)。
也許最值得關(guān)注的是,AlphaEvolve是遞歸自我改進(jìn)的早期實(shí)例——人工智能系統(tǒng)不僅學(xué)習(xí),還增強(qiáng)了自身的組件。在一些實(shí)例中,AlphaEvolve改進(jìn)了支持其基礎(chǔ)模型的訓(xùn)練基礎(chǔ)設(shè)施。盡管仍受當(dāng)前架構(gòu)的限制,但這種能力開創(chuàng)了先例。隨著可評(píng)估環(huán)境中出現(xiàn)更多問題,AlphaEvolve可能會(huì)朝著越來越復(fù)雜和自我優(yōu)化的行為發(fā)展——這是超級(jí)人工智能(ASI)的一個(gè)基本特征。
AlphaEvolve的局限性和未來發(fā)展
AlphaEvolve目前的局限性是它對(duì)自動(dòng)評(píng)估函數(shù)的依賴。這就限制了它的應(yīng)用范圍,使其僅限于可以用數(shù)學(xué)或算法形式化的問題。它還不能在需要默契的人類理解、主觀判斷或物理實(shí)驗(yàn)的領(lǐng)域中有意義地運(yùn)作。
然而,未AlphaEvolve來的發(fā)展方向包括:
- 混合評(píng)估的整合:將符號(hào)推理與人類偏好和自然語言批評(píng)相結(jié)合。
- 在模擬環(huán)境中部署,實(shí)現(xiàn)具體的科學(xué)實(shí)驗(yàn)。
- 將進(jìn)化的輸出蒸餾到基本LLM中,創(chuàng)建功能更強(qiáng)、樣本效率更高的基礎(chǔ)模型。
這些發(fā)展趨勢(shì)指向越來越多能夠自主解決高風(fēng)險(xiǎn)問題的代理系統(tǒng)。
結(jié)論
AlphaEvolve是一個(gè)重大的進(jìn)步——不僅在人工智能工具方面,而且在人們對(duì)機(jī)器智能本身的理解方面。通過將進(jìn)化搜索與LLM推理和反饋相結(jié)合,它重新定義了機(jī)器能夠自主發(fā)現(xiàn)的內(nèi)容。這是一個(gè)早期但重要的信號(hào),表明具有真正科學(xué)思維能力的自我改進(jìn)系統(tǒng)已不再是理論性的。
展望未來,支撐AlphaEvolve的架構(gòu)可能會(huì)遞歸地應(yīng)用于其自身:進(jìn)化其自身的評(píng)估器、改進(jìn)變異邏輯、改進(jìn)評(píng)分函數(shù),并針對(duì)其依賴的模型優(yōu)化底層訓(xùn)練管道。這種遞歸優(yōu)化循環(huán)代表了一種邁向AGI的技術(shù)機(jī)制,在這種機(jī)制下,AlphaEvolve不僅僅完成任務(wù),還改進(jìn)了使其能夠?qū)W習(xí)和推理的基礎(chǔ)設(shè)施。
隨著時(shí)間的推移,AlphaEvolve在更復(fù)雜和抽象的領(lǐng)域擴(kuò)展,以及人類對(duì)這一過程的干預(yù)減少,它可能會(huì)表現(xiàn)出加速的智能提升。這種自我強(qiáng)化的迭代改進(jìn)循環(huán)不僅適用于外部問題,也適用于其自身的算法結(jié)構(gòu),是AGI及其可以為社會(huì)帶來的所有好處的關(guān)鍵理論組成部分。憑借其創(chuàng)造力、自主性和遞歸性,AlphaEvolve不僅僅是??DeepMind??旗下的一款產(chǎn)品,而且可能是第一個(gè)真正意義上通用并且具備自我進(jìn)化能力的人工智能的藍(lán)圖。?
原文標(biāo)題:?AlphaEvolve: Google DeepMind’s Groundbreaking Step Toward AGI??,作者:Antoine Tardif
