偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

谷歌TUMIX：通過多Agent工具混合提升大模型推理能力

發(fā)布于 2025-10-10 06:12

瀏覽

0收藏

谷歌的論文(TUMIX: Multi-Agent Test-Time Scaling with Tool-Use Mixture)提出了工具使用混合（TUMIX），利用多樣化的工具使用策略來改進(jìn)推理能力。論文展示了如何通過并行運行一系列多樣化的agent（純文本、代碼、搜索等）并讓它們在幾輪中共享筆記，從而從大語言模型中獲得更好的推理能力。它不是暴力地增加更多樣本，而是混合策略，在有信心時停止，最終既更準(zhǔn)確又更便宜。

谷歌TUMIX：通過多Agent工具混合提升大模型推理能力-AI.x社區(qū) 圖片

混合不同的agent，而不僅僅是更多同一種agent：他們運行了15種不同的agent風(fēng)格（思維鏈、代碼執(zhí)行、網(wǎng)絡(luò)搜索、引導(dǎo)變體等）。每個agent都能看到問題和其他agent過去的答案，然后再次嘗試。這種來回交互使群體比任何單個agent都更聰明。

谷歌TUMIX：通過多Agent工具混合提升大模型推理能力-AI.x社區(qū) 圖片

提前停止，節(jié)省成本：更多輪次并不總是有幫助。過度優(yōu)化可能會扼殺多樣性。他們使用LLM判斷器來決定何時停止。這既保持了高準(zhǔn)確率，又將成本削減了近一半。

谷歌TUMIX：通過多Agent工具混合提升大模型推理能力-AI.x社區(qū) 圖片

優(yōu)于現(xiàn)有方法：與其他工具增強的擴(kuò)展技巧相比，TUMIX在困難的推理基準(zhǔn)測試（HLE、GPQA-Diamond、AIME）上始終得分更高。對于Gemini-2.5 Pro，它將HLE推高至34.1%，這是一個顯著的提升。

谷歌TUMIX：通過多Agent工具混合提升大模型推理能力-AI.x社區(qū) 圖片

多樣性是秘密武器：結(jié)合文本、代碼和搜索agent優(yōu)于重復(fù)采樣最佳單一agent。更多樣化的工具使用=更多機會找到正確的推理路徑。

自動agent設(shè)計：他們甚至讓LLM生成新的agent類型并將其混合進(jìn)去，這進(jìn)一步提升了結(jié)果。最佳組合點約為12-15種不同的agent風(fēng)格。

本文轉(zhuǎn)載自????AI帝國????，作者：無影寺

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

簡單卻有效的Agent推理框架：通過預(yù)測未來大幅提升智能體的規(guī)劃能力

zhangyannni ? 6208瀏覽 ? 0回復(fù)
ODA：通過全局觀察增強大模型集成知識圖譜推理能力的新型Agent框架

PaperAgent ? 4614瀏覽 ? 0回復(fù)
通過多樣本學(xué)習(xí)加速LLM應(yīng)用開發(fā)

51CTO內(nèi)容精選 ? 3839瀏覽 ? 0回復(fù)
自我一致性提升大模型中的思維鏈推理能力

AIRoobt ? 7945瀏覽 ? 0回復(fù)
Take a Step Back：通過抽象激發(fā)大模型推理能力（ICLR2024）

AIRoobt ? 5109瀏覽 ? 0回復(fù)
OpenAI o1模型推理能力大幅提升的背后：重復(fù)采樣如何提升AI推理能力

Syrupup ? 5114瀏覽 ? 0回復(fù)
麻省理工研究團(tuán)隊革新科學(xué)研究方式,通過多智能體智能圖推理實現(xiàn)科學(xué)發(fā)現(xiàn)自動化

xuxiangda ? 6323瀏覽 ? 0回復(fù)
StaR ｜用少量推理數(shù)據(jù)讓模型學(xué)會通用推理能力，顯著提升模型復(fù)雜推理

arnoldzhw ? 5209瀏覽 ? 0回復(fù)
使用MCTS顯著提升LLM在復(fù)雜任務(wù)的推理能力

arnoldzhw ? 9418瀏覽 ? 0回復(fù)
混合RAG系統(tǒng)，提升復(fù)雜推理任務(wù)表現(xiàn)

大模型自然語言處理 ? 3907瀏覽 ? 0回復(fù)
多Agent思想顯著提升小模型工具調(diào)用能力

arnoldzhw ? 4902瀏覽 ? 0回復(fù)
多模態(tài)大模型Reyes增加batch推理方式，提升推理速度

大模型自然語言處理 ? 3447瀏覽 ? 0回復(fù)
WebWalker：通過Multi Agent提升RAG在開放域QA的性能

大語言模型論文跟蹤 ? 3304瀏覽 ? 0回復(fù)
全球首個混合推理模型Claude 3.7 Sonnet發(fā)布，編碼能力直接起飛！

AI博物院 ? 3906瀏覽 ? 0回復(fù)
X-CLR：通過新型對比損失函數(shù)提升圖像識別能力

51CTO內(nèi)容精選 ? 3423瀏覽 ? 0回復(fù)
大模型推理能力的局限性

JavaEdge1 ? 2696瀏覽 ? 0回復(fù)
ReTool：AI工具使用的突破性進(jìn)展，推理能力顯著提升

sbf_2000 ? 2297瀏覽 ? 0回復(fù)
谷歌提出遞歸混合模型（MoR）：通過參數(shù)共享和自適應(yīng)計算提升Transformer效率

柏企閱文 ? 2993瀏覽 ? 0回復(fù)
混合智能體（MoA）框架：通過多智能體協(xié)作提升大語言模型性能

PyTorch研習(xí)社 ? 2791瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

OpenAI 開源了推理安全模型-gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 3天前發(fā)布
HedgeSpec：比EAGLE3推理速度快2倍的LLM推測解碼 3天前發(fā)布

熱門推薦

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

別再怪AI“聽不懂人話”了，90%的返工和錯誤，都錯在你下達(dá)指令的第一句話 0回復(fù)

Deepseek發(fā)布最新OCR模型在實測中展現(xiàn)出驚人效率，僅用15秒便將百頁PDF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

關(guān)于RAG系統(tǒng)在多輪對話中的問題改寫(優(yōu)化)方法—使用歷史記錄改寫問題 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對比，你的選擇是？ 0回復(fù)

上一篇：大模型推理的"慢思考"：訓(xùn)練數(shù)據(jù)如何決定模型的思維深度

下一篇：如何使用 Unsloth & Docker 訓(xùn)練大語言模型

社區(qū)精華內(nèi)容

目錄

<tfoot id="jd794"></tfoot>