偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

谷歌揭秘:Multi-Agent 推理時(shí)擴(kuò)展才是未來(lái)

人工智能
OpenAI o1 和 DeepSeek R1 的路線是讓單個(gè)模型深度思考,本質(zhì)上還是在同一個(gè)推理框架內(nèi)擴(kuò)展。TUMIX告訴我們,通過(guò)多樣化的Agent和工具混合,可以用更低的成本達(dá)到更好的效果。

嘿,大家好!這里是一個(gè)專注于前沿AI和智能體的頻道~

谷歌 DeepMind 和 MIT 聯(lián)合發(fā)了一篇論文,名叫 TUMIX(Tool-Use Mixture)。

大概就是說(shuō),Multi-Agent 才是 test-time- scaling的終極打開方式,可以以一半的成本,在HLE上,準(zhǔn)確率從 21.6% 飆升到 34.1%,超越 Gemini-2.5-Pro Deep Research。

除此之外,他們還做了一個(gè)彩蛋,讓Agent設(shè)計(jì)Agent,效果比人工設(shè)計(jì)的更牛~

圖片圖片

一個(gè)反常識(shí)

Agent多樣性 > 瘋狂采樣

目前主流的推理時(shí)擴(kuò)展方法是什么?

重復(fù)采樣同一個(gè)最強(qiáng)模型,然后用多數(shù)投票選答案。

感覺也沒(méi)毛病,但谷歌驗(yàn)證后,說(shuō):錯(cuò)了。

他們做了個(gè)實(shí)驗(yàn):

  • 單Agent重復(fù)15次 vs 15個(gè)不同Agent各推理1次
  • 在相同的推理成本下,15個(gè)不同Agent的準(zhǔn)確率和覆蓋率都明顯更高

為什么呢?

因?yàn)椴煌珹gent采用不同的工具使用策略(純文本推理、代碼執(zhí)行、網(wǎng)頁(yè)搜索、雙工具混合等),能探索更廣闊的解空間。而單Agent重復(fù)采樣,本質(zhì)上還是在同一個(gè)思維框架里打轉(zhuǎn)。

圖片圖片

他們還對(duì)比了三種工具組合:

  • Code_Text(只能用代碼,不能搜索)
  • Search_Text(只能搜索,不能用代碼)
  • Code_Search_Text(兩者都能用)

結(jié)果,雙工具Agent組的覆蓋率和準(zhǔn)確率都顯著高于單工具組。

這說(shuō)明什么?Code Interpreter 和 Search 不是互相替代的關(guān)系,而是互補(bǔ)的。

文本推理擅長(zhǎng)語(yǔ)義和常識(shí),代碼擅長(zhǎng)精確計(jì)算,搜索擅長(zhǎng)獲取最新知識(shí)。只有三者混合,才能發(fā)揮LLM的全部潛力。

TUMIX的核心機(jī)制

TUMIX的架構(gòu)其實(shí)不復(fù)雜,核心就三步:

第一輪

15個(gè)不同Agent并行推理。

每個(gè)Agent有自己的工具使用策略(CoT、純代碼、搜索優(yōu)先、代碼搜索混合、引導(dǎo)式雙工具等)

每個(gè)Agent最多可以調(diào)用工具5次,生成15個(gè)初步答案

第二輪及之后

答案共享 + 迭代優(yōu)化:

把上一輪所有Agent的答案拼接到原問(wèn)題后面,每個(gè)Agent基于原問(wèn)題+其他Agent的答案生成新答案。

重復(fù)這個(gè)過(guò)程,直到LLM判斷答案已收斂。

終止

LLM-as-Judge,用LLM自動(dòng)判斷何時(shí)停止迭代(最少2輪),最終通過(guò)多數(shù)投票選出答案

圖片圖片

這個(gè)設(shè)計(jì)既保留了多樣性探索,又通過(guò)迭代優(yōu)化提升了答案質(zhì)量。

他們還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:隨著迭代輪次增加,覆蓋率(至少有一個(gè)Agent答對(duì))會(huì)下降,但平均準(zhǔn)確率會(huì)上升。

這說(shuō)明Agent們?cè)诨ハ鄬W(xué)習(xí)的過(guò)程中逐漸趨同,但也會(huì)誤刪掉一些正確答案。

所以,關(guān)鍵是找到那個(gè)點(diǎn)——既充分迭代優(yōu)化,又不過(guò)度收斂。

最后

來(lái)看看TUMIX的實(shí)戰(zhàn)表現(xiàn):

在Gemini-2.5-Pro上,HLE從21.6%提升到32.3%,GPQA從84.6%提升到87.9%, AIME 24&25,從87.3%提升到96.7%。

對(duì)比其他Test-time Scaling方法(Self-MoA、Symbolic-MoE、DEI、SciMaster、GSA),TUMIX在相同推理成本下,平均準(zhǔn)確率都有明顯優(yōu)勢(shì)。

圖片圖片

LLM可以自動(dòng)設(shè)計(jì)更強(qiáng)的Agent?

論文里還有個(gè)彩蛋:他們嘗試讓 Gemini-2.5-Pro 自己設(shè)計(jì)新的Agent。

做法很簡(jiǎn)單:

  1. 給LLM看現(xiàn)有的15個(gè)人工設(shè)計(jì)的Agent
  2. 讓它生成更多樣、更高質(zhì)量的Agent
  3. 從生成的25個(gè)新Agent中篩選出表現(xiàn)最好的15個(gè)

結(jié)果呢?

混合了人工設(shè)計(jì)和LLM生成的Agent組,性能比純?nèi)斯ぴO(shè)計(jì)的還要高1.2%。

LLM生成的Agent長(zhǎng)什么樣?比如:

  • Plan-Verify-Refine:先規(guī)劃、再執(zhí)行(代碼或搜索)、然后驗(yàn)證并優(yōu)化
  • SearchThenCode:強(qiáng)制先搜索、再用代碼
  • Debate-CrossExam:模擬提議者和懷疑者辯論,引導(dǎo)工具使用

這些策略和人工設(shè)計(jì)的完全不同,說(shuō)明LLM已經(jīng)具備了一定的Meta-Agent設(shè)計(jì)能力。

最后

OpenAI o1 和 DeepSeek R1 的路線是讓單個(gè)模型深度思考,本質(zhì)上還是在同一個(gè)推理框架內(nèi)擴(kuò)展。

TUMIX告訴我們,通過(guò)多樣化的Agent和工具混合,可以用更低的成本達(dá)到更好的效果。

同時(shí),LLM可以設(shè)計(jì)更強(qiáng)的Agent架構(gòu),這意味著,未來(lái)的AI系統(tǒng)可能會(huì)自己優(yōu)化自己的工作流,而不需要人工調(diào)參。

責(zé)任編輯:武曉燕 來(lái)源: 探索AGI
相關(guān)推薦

2024-07-01 12:30:09

2025-05-12 00:05:00

2025-07-23 01:00:00

2025-04-29 08:00:00

Rowboat多智能體人工智能

2013-05-22 15:43:39

谷歌web組件web開發(fā)

2020-05-21 09:33:06

Reactive編程模型

2023-01-06 13:48:21

自然語(yǔ)言推理算法

2024-10-22 20:00:00

2025-08-19 09:20:02

2015-10-13 10:19:02

數(shù)據(jù)中心谷歌

2012-08-14 09:44:02

谷歌團(tuán)隊(duì)

2013-01-18 17:20:45

2016-12-16 19:06:02

擴(kuò)展數(shù)據(jù)庫(kù)架構(gòu)

2019-03-25 13:20:51

Android 谷歌系統(tǒng)

2025-03-03 13:26:39

2025-04-08 09:16:00

推理模型AI

2015-05-13 15:36:19

虛擬現(xiàn)實(shí)環(huán)繞計(jì)算

2015-10-19 11:28:49

WebAPP未來(lái)

2025-04-29 09:16:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)