偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

谷歌TUMIX:通過多Agent工具混合提升大模型推理能力

發(fā)布于 2025-10-10 06:12
瀏覽
0收藏

谷歌的論文(TUMIX: Multi-Agent Test-Time Scaling with Tool-Use Mixture)提出了工具使用混合(TUMIX),利用多樣化的工具使用策略來改進(jìn)推理能力。論文展示了如何通過并行運行一系列多樣化的agent(純文本、代碼、搜索等)并讓它們在幾輪中共享筆記,從而從大語言模型中獲得更好的推理能力。它不是暴力地增加更多樣本,而是混合策略,在有信心時停止,最終既更準(zhǔn)確又更便宜。


谷歌TUMIX:通過多Agent工具混合提升大模型推理能力-AI.x社區(qū)圖片

混合不同的agent,而不僅僅是更多同一種agent:他們運行了15種不同的agent風(fēng)格(思維鏈、代碼執(zhí)行、網(wǎng)絡(luò)搜索、引導(dǎo)變體等)。每個agent都能看到問題和其他agent過去的答案,然后再次嘗試。這種來回交互使群體比任何單個agent都更聰明。


谷歌TUMIX:通過多Agent工具混合提升大模型推理能力-AI.x社區(qū)圖片

提前停止,節(jié)省成本:更多輪次并不總是有幫助。過度優(yōu)化可能會扼殺多樣性。他們使用LLM判斷器來決定何時停止。這既保持了高準(zhǔn)確率,又將成本削減了近一半。


谷歌TUMIX:通過多Agent工具混合提升大模型推理能力-AI.x社區(qū)圖片

優(yōu)于現(xiàn)有方法:與其他工具增強的擴(kuò)展技巧相比,TUMIX在困難的推理基準(zhǔn)測試(HLE、GPQA-Diamond、AIME)上始終得分更高。對于Gemini-2.5 Pro,它將HLE推高至34.1%,這是一個顯著的提升。


谷歌TUMIX:通過多Agent工具混合提升大模型推理能力-AI.x社區(qū)圖片

多樣性是秘密武器:結(jié)合文本、代碼和搜索agent優(yōu)于重復(fù)采樣最佳單一agent。更多樣化的工具使用=更多機會找到正確的推理路徑。

自動agent設(shè)計:他們甚至讓LLM生成新的agent類型并將其混合進(jìn)去,這進(jìn)一步提升了結(jié)果。最佳組合點約為12-15種不同的agent風(fēng)格。

本文轉(zhuǎn)載自????AI帝國????,作者:無影寺

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦