AI版三個(gè)臭皮匠!ChatGPT/Gemini/DeepSeek合體拿下AGI測(cè)試最高分
ChatGPT的對(duì)話流暢性、Gemini的多模態(tài)能力、DeepSeek的長(zhǎng)上下文分析……
能不能讓它們強(qiáng)強(qiáng)聯(lián)合,共同解決問(wèn)題呢?
那個(gè)由Transformer作者之一Llion Jones創(chuàng)立的明星AI公司Sakana AI,提出了新方法AB-MCTS,核心思想是:
最偉大的成就往往源于不同思想的協(xié)作,我們相信這一原則同樣適用于人工智能。
AB-MCTS,全稱為自適應(yīng)分支蒙特卡洛樹搜索(Adaptive Branching Monte Carlo Tree Search),是一種使多個(gè)人工智能模型同時(shí)處理問(wèn)題的算法。模型之間交換并完善建議,協(xié)同工作,就像人類團(tuán)隊(duì)一樣。

在具有挑戰(zhàn)性的ARC-AGI-2基準(zhǔn)測(cè)試中,多LLM AB-MCTS解決的問(wèn)題比單獨(dú)工作的任何單個(gè)模型(Single-LLM AB-MCTS)都多。
有幾種情況下,只有不同模型的組合才能得出正確答案。

Sakana AI已將該算法以TreeQuest的名稱開源,鏈接可見文末。
兩種搜索策略

AB-MCTS結(jié)合了兩種不同的搜索策略:它可以完善現(xiàn)有解決方案(深度搜索),也可以嘗試全新的方法(廣度搜索)。
主要的技術(shù)挑戰(zhàn)是將無(wú)界分支引入MCTS。
標(biāo)準(zhǔn)MCTS僅選擇并擴(kuò)展葉節(jié)點(diǎn)(即每個(gè)節(jié)點(diǎn)最多被擴(kuò)展一次),且擴(kuò)展會(huì)添加固定數(shù)量的子節(jié)點(diǎn)。然而,由于在非零溫度下對(duì)LLM的每個(gè)查詢都可能從相同提示中產(chǎn)生不同的輸出,分支因子理論上無(wú)限。
為了充分利用MCTS的無(wú)界分支的潛在性能提升,AB-MCTS允許那些已經(jīng)擴(kuò)展過(guò)一次的節(jié)點(diǎn)再次被擴(kuò)展并進(jìn)一步分支,并引入GEN節(jié)點(diǎn)來(lái)明確表示生成新子節(jié)點(diǎn)的動(dòng)作。
在AB-MCTS的搜索樹中,每個(gè)節(jié)點(diǎn)N均附帶一個(gè)GEN子節(jié)點(diǎn)。選中帶有GEN節(jié)點(diǎn)的父節(jié)點(diǎn)時(shí),會(huì)從N生成一個(gè)新子節(jié)點(diǎn)。

與傳統(tǒng)的MCTS不同,AB-MCTS不會(huì)將寬度作為靜態(tài)超參數(shù)固定。
相反,在搜索樹的每個(gè)節(jié)點(diǎn)上,AB-MCTS會(huì)自適應(yīng)地決定是探索(“變寬”)通過(guò)生成新的候選響應(yīng),還是利用(“變深”)通過(guò)改進(jìn)現(xiàn)有的響應(yīng),利用外部反饋信號(hào)。
在底層,AB-MCTS通過(guò)貝葉斯后驗(yàn)預(yù)測(cè)分布估計(jì)節(jié)點(diǎn)潛力,并用Thompson采樣選擇動(dòng)作,以確保每次擴(kuò)展都以原則性的方式平衡探索和利用。
這種設(shè)計(jì)自然地?cái)U(kuò)展了多次采樣,使AB-MCTS能夠在必要時(shí)利用LLMs多樣化且龐大的輸出空間。
在以上基礎(chǔ)上,Sakana AI還提出了兩個(gè)變體:AB-MCTS-M和AB-MCTS-A。
簡(jiǎn)單地說(shuō):
- AB-MCTS-M:更分層。使用混合效應(yīng)模型共享子樹間的統(tǒng)計(jì)信息,通過(guò)分層貝葉斯推斷平衡全局與局部探索。
- AB-MCTS-A:更輕量。通過(guò)CONT節(jié)點(diǎn)顯式分離“生成”與“優(yōu)化”動(dòng)作,并基于共軛先驗(yàn)實(shí)現(xiàn)高效后驗(yàn)更新,簡(jiǎn)化計(jì)算。

其利斷金

對(duì)AB-MCTS進(jìn)行基準(zhǔn)測(cè)試,結(jié)果顯示,AB-MCTS在各種基準(zhǔn)測(cè)試和LLMs中始終表現(xiàn)出色,獲得的平均排名最高并優(yōu)于既定基線。
這種持續(xù)的成功源于AB-MCTS獨(dú)特的動(dòng)態(tài)調(diào)整搜索策略的能力,它通過(guò)精確平衡探索和利用來(lái)適應(yīng)每個(gè)問(wèn)題的不同需求,而基線方法中幾乎缺乏這種適應(yīng)性。

LiveCodeBench和CodeContest
上圖左側(cè)和中部報(bào)告了GPT-4o在LiveCodeBench和CodeContest上的成功率與生成預(yù)算的關(guān)系,可以看到,所有方法在計(jì)算預(yù)算增加時(shí)都表現(xiàn)出性能提升。在這兩個(gè)基準(zhǔn)測(cè)試中,AB-MCTS算法通常優(yōu)于基線方法。
在LiveCodeBench,即使預(yù)算很小,AB-MCTS也開始超越基線方法;在CodeContest,預(yù)算為32及以上時(shí),AB-MCTS表現(xiàn)出優(yōu)于基線的性能。
ARC-AGI
上圖右側(cè)展示了GPT-4o在ARC-AGI這一特別具有挑戰(zhàn)性的基準(zhǔn)測(cè)試上的性能表現(xiàn)??梢钥吹?,重復(fù)采樣在該設(shè)置中證明是一種強(qiáng)大的基線,這表明對(duì)于這項(xiàng)任務(wù),廣泛的探索非常重要
雖然標(biāo)準(zhǔn)MCTS在預(yù)算增加時(shí)只能帶來(lái)微小的改進(jìn),但AB-MCTS框架實(shí)現(xiàn)了與重復(fù)采樣相當(dāng)?shù)男阅堋_@表明AB-MCTS能夠通過(guò)在有利時(shí)動(dòng)態(tài)擴(kuò)展其搜索范圍來(lái)有效地探索潛在解。

MLE-Bench
上表展示了使用GPT-4o在MLE-Bench三個(gè)競(jìng)賽中的性能表現(xiàn)。由于MLE-Bench在訓(xùn)練和評(píng)估機(jī)器學(xué)習(xí)模型時(shí)需要大量的GPU資源,研究團(tuán)隊(duì)僅使用了GPT-4o,并專注于基線方法和AB-MCTS-M。
結(jié)果顯示,最佳性能的基線方法在不同競(jìng)賽中有所不同,這再次強(qiáng)調(diào)了不同任務(wù)受益于不同的探索-利用權(quán)衡。
相比之下,AB-MCTS-M在這些任務(wù)中始終表現(xiàn)出色。
這種在不同競(jìng)賽中的一致成功突顯了AB-MCTS-M在有效適應(yīng)其搜索策略以應(yīng)對(duì)不同問(wèn)題結(jié)構(gòu)方面的內(nèi)在優(yōu)勢(shì)。

為了定量分析AB-MCTS如何平衡探索與利用,論文的研究團(tuán)隊(duì)還考察了生成的搜索樹在每個(gè)深度的平均深度和平均寬度。
如上圖顯示,與標(biāo)準(zhǔn)MCTS相比,AB-MCTS方法傾向于生成更寬的樹。這是因?yàn)锳B-MCTS可以從任何現(xiàn)有節(jié)點(diǎn)自適應(yīng)地決定探索更寬(選擇GEN節(jié)點(diǎn)),而標(biāo)準(zhǔn)MCTS則不能。這種機(jī)制使得在不同樹深度上能夠進(jìn)行更靈活的探索。
除了探索寬度的靈活性之外,AB-MCTS在順序優(yōu)化表現(xiàn)優(yōu)異的基準(zhǔn)測(cè)試中也取得了優(yōu)異的性能,這表明AB-MCTS通過(guò)選擇現(xiàn)有子節(jié)點(diǎn)進(jìn)行優(yōu)化,能夠有效地識(shí)別并利用了有潛力的分支。這種自適應(yīng)特性使其能夠結(jié)合探索與利用的優(yōu)勢(shì),在多種基準(zhǔn)測(cè)試中表現(xiàn)出強(qiáng)大的性能。

為了研究AB-MCTS的擴(kuò)展特性,使用DeepSeek-V3對(duì)ARC-AGI的實(shí)驗(yàn)進(jìn)行了擴(kuò)展,將生成預(yù)算增加到512。如上圖所示,隨著預(yù)算從200增加到500,AB-MCTS的性能繼續(xù)顯著提高,而重復(fù)采樣的改進(jìn)率開始趨于平穩(wěn)。
標(biāo)準(zhǔn)MCTS在增加預(yù)算后也繼續(xù)改進(jìn),但與AB-MCTS方法相比,其成功率顯著較低。這種性能差距表明,AB-MCTS在大型計(jì)算規(guī)模下更有效地將搜索導(dǎo)向搜索樹中更有希望的分支。

上圖展示了由AB-MCTS-M和標(biāo)準(zhǔn)MCTS生成的搜索樹示例。這些可視化展示了AB-MCTS-M相比標(biāo)準(zhǔn)MCTS具有更強(qiáng)的自適應(yīng)分支特性。
這種自適應(yīng)性表明,AB-MCTS-M在整個(gè)搜索過(guò)程中靈活地平衡探索與利用,能夠動(dòng)態(tài)分配預(yù)算以探索多樣化的新候選者(“拓展寬度”)和優(yōu)化有潛力的候選者(“深入挖掘”)。
以上結(jié)果表明,即使考慮到重復(fù)采樣的固有優(yōu)勢(shì),AB-MCTS仍是一種有前景的方法,能夠高效利用生成預(yù)算在各種場(chǎng)景中取得更優(yōu)結(jié)果。

在具有挑戰(zhàn)性的ARC-AGI-2基準(zhǔn)測(cè)試中,AB-MCTS結(jié)合ChatGPT、Gemini和DeepSeek解決了30%的ARC-AGI-2謎題,而頂尖的獨(dú)立模型僅解決了23%。
結(jié)果顯示,有幾種情況下,只有不同模型的組合才能得出正確答案。
自然啟發(fā)與創(chuàng)新之路

上述關(guān)于AB-MCTS的研究并非憑空產(chǎn)生,它基于Sakana AI 2024年在進(jìn)化模型融合方面的工作,該團(tuán)隊(duì)將重點(diǎn)從“混合以創(chuàng)造”轉(zhuǎn)向“混合以使用”現(xiàn)有的強(qiáng)大AI。
他們是這樣說(shuō)的:
在Sakana AI,我們始終致力于通過(guò)應(yīng)用受自然啟發(fā)的原則(如進(jìn)化和集體智能)來(lái)開創(chuàng)新型AI系統(tǒng)。
他們也確實(shí)這樣做了:
不僅僅是2024年的進(jìn)化合并模型,就在今年5月,Sakana AI還和哥倫比亞大學(xué)的科研人員共同開發(fā)了達(dá)爾文-哥德爾機(jī)(DGM)——這是一個(gè)旨在自我進(jìn)化的AI框架,并非針對(duì)固定目標(biāo)進(jìn)行優(yōu)化,而是從生物進(jìn)化與科學(xué)發(fā)現(xiàn)中汲取靈感,通過(guò)開放式搜索和持續(xù)的自我修改來(lái)生成新的解決方案。

而前段時(shí)間,有兩位物理學(xué)家以生物系統(tǒng)自我組裝的過(guò)程為參考,揭示了擴(kuò)散模型“創(chuàng)造力”的本質(zhì)……
這些發(fā)現(xiàn)和創(chuàng)造都是“自然式啟發(fā)”的體現(xiàn)。






























