谷歌TUMIX:通過多Agent工具混合提升大模型推理能力
谷歌的論文(TUMIX: Multi-Agent Test-Time Scaling with Tool-Use Mixture)提出了工具使用混合(TUMIX),利用多樣化的工具使用策略來改進(jìn)推理能力。論文展示了如何通過并行運行一系列多樣化的agent(純文本、代碼、搜索等)并讓它們在幾輪中共享筆記,從而從大語言模型中獲得更好的推理能力。它不是暴力地增加更多樣本,而是混合策略,在有信心時停止,最終既更準(zhǔn)確又更便宜。
圖片
混合不同的agent,而不僅僅是更多同一種agent:他們運行了15種不同的agent風(fēng)格(思維鏈、代碼執(zhí)行、網(wǎng)絡(luò)搜索、引導(dǎo)變體等)。每個agent都能看到問題和其他agent過去的答案,然后再次嘗試。這種來回交互使群體比任何單個agent都更聰明。
圖片
提前停止,節(jié)省成本:更多輪次并不總是有幫助。過度優(yōu)化可能會扼殺多樣性。他們使用LLM判斷器來決定何時停止。這既保持了高準(zhǔn)確率,又將成本削減了近一半。
圖片
優(yōu)于現(xiàn)有方法:與其他工具增強的擴(kuò)展技巧相比,TUMIX在困難的推理基準(zhǔn)測試(HLE、GPQA-Diamond、AIME)上始終得分更高。對于Gemini-2.5 Pro,它將HLE推高至34.1%,這是一個顯著的提升。
圖片
多樣性是秘密武器:結(jié)合文本、代碼和搜索agent優(yōu)于重復(fù)采樣最佳單一agent。更多樣化的工具使用=更多機會找到正確的推理路徑。
自動agent設(shè)計:他們甚至讓LLM生成新的agent類型并將其混合進(jìn)去,這進(jìn)一步提升了結(jié)果。最佳組合點約為12-15種不同的agent風(fēng)格。
本文轉(zhuǎn)載自????AI帝國????,作者:無影寺


















