偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tfoot id="m5ztw"></tfoot>

<u id="m5ztw"><big id="m5ztw"></big></u>

<abbr id="m5ztw"><rt id="m5ztw"></rt></abbr>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

谷歌揭秘：Multi-Agent 推理時(shí)擴(kuò)展才是未來(lái)

作者：獼猴桃 2025-10-15 02:11:00

OpenAI o1 和 DeepSeek R1 的路線是讓單個(gè)模型深度思考，本質(zhì)上還是在同一個(gè)推理框架內(nèi)擴(kuò)展。TUMIX告訴我們，通過(guò)多樣化的Agent和工具混合，可以用更低的成本達(dá)到更好的效果。

嘿，大家好！這里是一個(gè)專注于前沿AI和智能體的頻道~

谷歌 DeepMind 和 MIT 聯(lián)合發(fā)了一篇論文，名叫 TUMIX（Tool-Use Mixture）。

大概就是說(shuō)，Multi-Agent 才是 test-time- scaling的終極打開方式，可以以一半的成本，在HLE上，準(zhǔn)確率從 21.6% 飆升到 34.1%，超越 Gemini-2.5-Pro Deep Research。

除此之外，他們還做了一個(gè)彩蛋，讓Agent設(shè)計(jì)Agent，效果比人工設(shè)計(jì)的更牛~

圖片

一個(gè)反常識(shí)

Agent多樣性 > 瘋狂采樣

目前主流的推理時(shí)擴(kuò)展方法是什么？

重復(fù)采樣同一個(gè)最強(qiáng)模型，然后用多數(shù)投票選答案。

感覺也沒(méi)毛病，但谷歌驗(yàn)證后，說(shuō)：錯(cuò)了。

他們做了個(gè)實(shí)驗(yàn)：

單Agent重復(fù)15次 vs 15個(gè)不同Agent各推理1次
在相同的推理成本下，15個(gè)不同Agent的準(zhǔn)確率和覆蓋率都明顯更高

為什么呢？

因?yàn)椴煌珹gent采用不同的工具使用策略（純文本推理、代碼執(zhí)行、網(wǎng)頁(yè)搜索、雙工具混合等），能探索更廣闊的解空間。而單Agent重復(fù)采樣，本質(zhì)上還是在同一個(gè)思維框架里打轉(zhuǎn)。

圖片

他們還對(duì)比了三種工具組合：

Code_Text（只能用代碼，不能搜索）
Search_Text（只能搜索，不能用代碼）
Code_Search_Text（兩者都能用）

結(jié)果，雙工具Agent組的覆蓋率和準(zhǔn)確率都顯著高于單工具組。

這說(shuō)明什么？Code Interpreter 和 Search 不是互相替代的關(guān)系，而是互補(bǔ)的。

文本推理擅長(zhǎng)語(yǔ)義和常識(shí)，代碼擅長(zhǎng)精確計(jì)算，搜索擅長(zhǎng)獲取最新知識(shí)。只有三者混合，才能發(fā)揮LLM的全部潛力。

TUMIX的核心機(jī)制

TUMIX的架構(gòu)其實(shí)不復(fù)雜，核心就三步：

第一輪

15個(gè)不同Agent并行推理。

每個(gè)Agent有自己的工具使用策略（CoT、純代碼、搜索優(yōu)先、代碼搜索混合、引導(dǎo)式雙工具等）

每個(gè)Agent最多可以調(diào)用工具5次，生成15個(gè)初步答案

第二輪及之后

答案共享 + 迭代優(yōu)化：

把上一輪所有Agent的答案拼接到原問(wèn)題后面，每個(gè)Agent基于原問(wèn)題+其他Agent的答案生成新答案。

重復(fù)這個(gè)過(guò)程，直到LLM判斷答案已收斂。

終止

LLM-as-Judge，用LLM自動(dòng)判斷何時(shí)停止迭代（最少2輪），最終通過(guò)多數(shù)投票選出答案

圖片

這個(gè)設(shè)計(jì)既保留了多樣性探索，又通過(guò)迭代優(yōu)化提升了答案質(zhì)量。

他們還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象：隨著迭代輪次增加，覆蓋率（至少有一個(gè)Agent答對(duì)）會(huì)下降，但平均準(zhǔn)確率會(huì)上升。

這說(shuō)明Agent們?cè)诨ハ鄬W(xué)習(xí)的過(guò)程中逐漸趨同，但也會(huì)誤刪掉一些正確答案。

所以，關(guān)鍵是找到那個(gè)點(diǎn)——既充分迭代優(yōu)化，又不過(guò)度收斂。

最后

來(lái)看看TUMIX的實(shí)戰(zhàn)表現(xiàn)：

在Gemini-2.5-Pro上，HLE從21.6%提升到32.3%，GPQA從84.6%提升到87.9%， AIME 24&25，從87.3%提升到96.7%。

對(duì)比其他Test-time Scaling方法（Self-MoA、Symbolic-MoE、DEI、SciMaster、GSA），TUMIX在相同推理成本下，平均準(zhǔn)確率都有明顯優(yōu)勢(shì)。

圖片

LLM可以自動(dòng)設(shè)計(jì)更強(qiáng)的Agent？

論文里還有個(gè)彩蛋：他們嘗試讓 Gemini-2.5-Pro 自己設(shè)計(jì)新的Agent。

做法很簡(jiǎn)單：

給LLM看現(xiàn)有的15個(gè)人工設(shè)計(jì)的Agent
讓它生成更多樣、更高質(zhì)量的Agent
從生成的25個(gè)新Agent中篩選出表現(xiàn)最好的15個(gè)

結(jié)果呢？

混合了人工設(shè)計(jì)和LLM生成的Agent組，性能比純?nèi)斯ぴO(shè)計(jì)的還要高1.2%。

LLM生成的Agent長(zhǎng)什么樣？比如：

Plan-Verify-Refine：先規(guī)劃、再執(zhí)行（代碼或搜索）、然后驗(yàn)證并優(yōu)化
SearchThenCode：強(qiáng)制先搜索、再用代碼
Debate-CrossExam：模擬提議者和懷疑者辯論，引導(dǎo)工具使用

這些策略和人工設(shè)計(jì)的完全不同，說(shuō)明LLM已經(jīng)具備了一定的Meta-Agent設(shè)計(jì)能力。

最后

OpenAI o1 和 DeepSeek R1 的路線是讓單個(gè)模型深度思考，本質(zhì)上還是在同一個(gè)推理框架內(nèi)擴(kuò)展。

TUMIX告訴我們，通過(guò)多樣化的Agent和工具混合，可以用更低的成本達(dá)到更好的效果。

同時(shí)，LLM可以設(shè)計(jì)更強(qiáng)的Agent架構(gòu)，這意味著，未來(lái)的AI系統(tǒng)可能會(huì)自己優(yōu)化自己的工作流，而不需要人工調(diào)參。

責(zé)任編輯：武曉燕來(lái)源：探索AGI

谷歌 Agent 架構(gòu)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)