谷歌揭秘:Multi-Agent 推理時(shí)擴(kuò)展才是未來(lái)
嘿,大家好!這里是一個(gè)專注于前沿AI和智能體的頻道~
谷歌 DeepMind 和 MIT 聯(lián)合發(fā)了一篇論文,名叫 TUMIX(Tool-Use Mixture)。
大概就是說(shuō),Multi-Agent 才是 test-time- scaling的終極打開方式,可以以一半的成本,在HLE上,準(zhǔn)確率從 21.6% 飆升到 34.1%,超越 Gemini-2.5-Pro Deep Research。
除此之外,他們還做了一個(gè)彩蛋,讓Agent設(shè)計(jì)Agent,效果比人工設(shè)計(jì)的更牛~
圖片
一個(gè)反常識(shí)
Agent多樣性 > 瘋狂采樣
目前主流的推理時(shí)擴(kuò)展方法是什么?
重復(fù)采樣同一個(gè)最強(qiáng)模型,然后用多數(shù)投票選答案。
感覺也沒(méi)毛病,但谷歌驗(yàn)證后,說(shuō):錯(cuò)了。
他們做了個(gè)實(shí)驗(yàn):
- 單Agent重復(fù)15次 vs 15個(gè)不同Agent各推理1次
- 在相同的推理成本下,15個(gè)不同Agent的準(zhǔn)確率和覆蓋率都明顯更高
為什么呢?
因?yàn)椴煌珹gent采用不同的工具使用策略(純文本推理、代碼執(zhí)行、網(wǎng)頁(yè)搜索、雙工具混合等),能探索更廣闊的解空間。而單Agent重復(fù)采樣,本質(zhì)上還是在同一個(gè)思維框架里打轉(zhuǎn)。
圖片
他們還對(duì)比了三種工具組合:
- Code_Text(只能用代碼,不能搜索)
- Search_Text(只能搜索,不能用代碼)
- Code_Search_Text(兩者都能用)
結(jié)果,雙工具Agent組的覆蓋率和準(zhǔn)確率都顯著高于單工具組。
這說(shuō)明什么?Code Interpreter 和 Search 不是互相替代的關(guān)系,而是互補(bǔ)的。
文本推理擅長(zhǎng)語(yǔ)義和常識(shí),代碼擅長(zhǎng)精確計(jì)算,搜索擅長(zhǎng)獲取最新知識(shí)。只有三者混合,才能發(fā)揮LLM的全部潛力。
TUMIX的核心機(jī)制
TUMIX的架構(gòu)其實(shí)不復(fù)雜,核心就三步:
第一輪
15個(gè)不同Agent并行推理。
每個(gè)Agent有自己的工具使用策略(CoT、純代碼、搜索優(yōu)先、代碼搜索混合、引導(dǎo)式雙工具等)
每個(gè)Agent最多可以調(diào)用工具5次,生成15個(gè)初步答案
第二輪及之后
答案共享 + 迭代優(yōu)化:
把上一輪所有Agent的答案拼接到原問(wèn)題后面,每個(gè)Agent基于原問(wèn)題+其他Agent的答案生成新答案。
重復(fù)這個(gè)過(guò)程,直到LLM判斷答案已收斂。
終止
LLM-as-Judge,用LLM自動(dòng)判斷何時(shí)停止迭代(最少2輪),最終通過(guò)多數(shù)投票選出答案
圖片
這個(gè)設(shè)計(jì)既保留了多樣性探索,又通過(guò)迭代優(yōu)化提升了答案質(zhì)量。
他們還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:隨著迭代輪次增加,覆蓋率(至少有一個(gè)Agent答對(duì))會(huì)下降,但平均準(zhǔn)確率會(huì)上升。
這說(shuō)明Agent們?cè)诨ハ鄬W(xué)習(xí)的過(guò)程中逐漸趨同,但也會(huì)誤刪掉一些正確答案。
所以,關(guān)鍵是找到那個(gè)點(diǎn)——既充分迭代優(yōu)化,又不過(guò)度收斂。
最后
來(lái)看看TUMIX的實(shí)戰(zhàn)表現(xiàn):
在Gemini-2.5-Pro上,HLE從21.6%提升到32.3%,GPQA從84.6%提升到87.9%, AIME 24&25,從87.3%提升到96.7%。
對(duì)比其他Test-time Scaling方法(Self-MoA、Symbolic-MoE、DEI、SciMaster、GSA),TUMIX在相同推理成本下,平均準(zhǔn)確率都有明顯優(yōu)勢(shì)。
圖片
LLM可以自動(dòng)設(shè)計(jì)更強(qiáng)的Agent?
論文里還有個(gè)彩蛋:他們嘗試讓 Gemini-2.5-Pro 自己設(shè)計(jì)新的Agent。
做法很簡(jiǎn)單:
- 給LLM看現(xiàn)有的15個(gè)人工設(shè)計(jì)的Agent
- 讓它生成更多樣、更高質(zhì)量的Agent
- 從生成的25個(gè)新Agent中篩選出表現(xiàn)最好的15個(gè)
結(jié)果呢?
混合了人工設(shè)計(jì)和LLM生成的Agent組,性能比純?nèi)斯ぴO(shè)計(jì)的還要高1.2%。
LLM生成的Agent長(zhǎng)什么樣?比如:
- Plan-Verify-Refine:先規(guī)劃、再執(zhí)行(代碼或搜索)、然后驗(yàn)證并優(yōu)化
- SearchThenCode:強(qiáng)制先搜索、再用代碼
- Debate-CrossExam:模擬提議者和懷疑者辯論,引導(dǎo)工具使用
這些策略和人工設(shè)計(jì)的完全不同,說(shuō)明LLM已經(jīng)具備了一定的Meta-Agent設(shè)計(jì)能力。
最后
OpenAI o1 和 DeepSeek R1 的路線是讓單個(gè)模型深度思考,本質(zhì)上還是在同一個(gè)推理框架內(nèi)擴(kuò)展。
TUMIX告訴我們,通過(guò)多樣化的Agent和工具混合,可以用更低的成本達(dá)到更好的效果。
同時(shí),LLM可以設(shè)計(jì)更強(qiáng)的Agent架構(gòu),這意味著,未來(lái)的AI系統(tǒng)可能會(huì)自己優(yōu)化自己的工作流,而不需要人工調(diào)參。






























