阿里智能體多輪推理超越GPT-4o,開源模型也能做Deep Research
能夠完成多步信息檢索任務(wù),涵蓋多輪推理與連續(xù)動(dòng)作執(zhí)行的智能體來了。
通義實(shí)驗(yàn)室推出WebWalker(ACL2025)續(xù)作自主信息檢索智能體WebDancer。
WebDancer 通過系統(tǒng)化的訓(xùn)練范式——涵蓋從數(shù)據(jù)構(gòu)建到算法設(shè)計(jì)的全流程——為構(gòu)建具備長期信息檢索能力的智能體提供了明確路徑。
同時(shí),該框架也為在開源模型上復(fù)現(xiàn)Deep Research系統(tǒng)提供了可行的指導(dǎo)。團(tuán)隊(duì)將進(jìn)一步在更開放的環(huán)境中、結(jié)合更多工具,持續(xù)拓展和集成Agentic能力,推動(dòng)通用智能體的落地與演進(jìn)。
一、背景:信息檢索的新需求與挑戰(zhàn)
在信息爆炸的時(shí)代,傳統(tǒng)的搜索引擎已難以滿足用戶對深層次、多步驟信息獲取的需求。從醫(yī)學(xué)研究到科技創(chuàng)新,從商業(yè)決策到學(xué)術(shù)探索,復(fù)雜問題的解決需要深入的信息挖掘和多步推理能力。這催生了對能夠自主思考、自主決策的智能體的需求。
然而,構(gòu)建這樣的智能體面臨諸多挑戰(zhàn):
- 理解復(fù)雜網(wǎng)頁內(nèi)容:智能體需要具備解析和理解多樣化網(wǎng)頁結(jié)構(gòu)和內(nèi)容的能力。
- 多步?jīng)Q策與推理:能夠進(jìn)行任務(wù)分解、知識回溯和反復(fù)驗(yàn)證,完成復(fù)雜的信息檢索任務(wù)。
- 適應(yīng)開放動(dòng)態(tài)環(huán)境:面對不斷變化的網(wǎng)絡(luò)環(huán)境,智能體需要具備強(qiáng)大的適應(yīng)能力。
- 自主行動(dòng):智能體應(yīng)能自主采取行動(dòng)并進(jìn)行自我修正。
二、突破訓(xùn)練數(shù)據(jù)難獲得問題
在自主信息檢索領(lǐng)域,高質(zhì)量的訓(xùn)練數(shù)據(jù)至關(guān)重要。然而,現(xiàn)有的數(shù)據(jù)集如2WIKI,HotpotQA多為淺層次問題,難以支持復(fù)雜多步推理的訓(xùn)練需求。
為解決數(shù)據(jù)稀缺問題,WebDancer提出了兩種創(chuàng)新的數(shù)據(jù)合成方法:
- CRAWLQA:通過模擬人類瀏覽行為,從權(quán)威網(wǎng)站(如arXiv、GitHub、Wikipedia等)中爬取網(wǎng)頁信息,生成復(fù)雜的問答對,確保數(shù)據(jù)的多樣性和真實(shí)性。這一技術(shù)方案與中稿在ACL2025的WebWalker類似。
- E2HQA:采用“由簡到難”的策略,從簡單問題出發(fā),逐步增加問題的復(fù)雜度,構(gòu)建多步推理的問答對,促進(jìn)智能體能力的逐步進(jìn)化。為了保證QA對的合法驗(yàn)證保持答案不變,對問題進(jìn)行改寫。
ReAct框架與思維鏈蒸餾
ReAct框架是WebDancer 的基礎(chǔ)。一個(gè)ReAct軌跡包含多個(gè)思考-行動(dòng)-觀察 (Thought-Action-Observation) 循環(huán)。智能體生成Thought(自由形式的思考),Action(結(jié)構(gòu)化的行動(dòng),用于與環(huán)境工具互動(dòng)),并接收Observation(來自環(huán)境的反饋)。這個(gè)過程迭代進(jìn)行,直到任務(wù)完成,最終行動(dòng)是 answer??赡艿男袆?dòng)包括search,visit和answer。
思考鏈 (Chain-of-Thought, CoT) 對于智能體的執(zhí)行至關(guān)重要,它使得高層工作流規(guī)劃、自我反思、信息提取和行動(dòng)規(guī)劃成為可能。
論文探索了構(gòu)建短CoT和長CoT的方法。對于短CoT,直接使用強(qiáng)大的模型(如 GPT-4o)在ReAct框架下生成軌跡。對于長CoT,則順序地向推理模型 (LRM) 提供歷史行動(dòng)和觀察,讓其自主決定下一步行動(dòng),并記錄其中間推理過程作為當(dāng)前的Thought。
在獲得問答對后,WebDancer利用ReAct框架,結(jié)合閉源的GPT-4o和開源的QwQ模型,進(jìn)行長短思維鏈的蒸餾,生成高質(zhì)量的agentic數(shù)據(jù)。這種方式簡潔高效,滿足了對Agentic Model的需求。
數(shù)據(jù)過濾與質(zhì)量提升
為了確保數(shù)據(jù)質(zhì)量,WebDancer采用了多階段的數(shù)據(jù)過濾策略:
- 有效性控制:剔除不符合指令的數(shù)據(jù)。
- 正確性驗(yàn)證:僅保留結(jié)果正確的數(shù)據(jù)。
- 質(zhì)量評估:通過規(guī)則過濾掉出現(xiàn)嚴(yán)重repetition或思考冗余的數(shù)據(jù),確保數(shù)據(jù)的多樣性和邏輯性。
這些嚴(yán)格的過濾策略,確保了訓(xùn)練數(shù)據(jù)的高質(zhì)量,為智能體的高效學(xué)習(xí)提供了保障。
三、解決開放網(wǎng)絡(luò)環(huán)境難訓(xùn)練
在開放環(huán)境中訓(xùn)練智能體是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。網(wǎng)絡(luò)環(huán)境的動(dòng)態(tài)變化和部分可觀測性,使得智能體需要具備強(qiáng)大的適應(yīng)能力和泛化能力。
為應(yīng)對這些挑戰(zhàn),WebDancer采用了兩階段的訓(xùn)練策略:
- 監(jiān)督微調(diào)(SFT)在高質(zhì)量軌跡數(shù)據(jù)上進(jìn)行微調(diào),使智能體快速適應(yīng)任務(wù)需求,掌握在復(fù)雜環(huán)境中進(jìn)行推理和決策的能力。為了避免外部反饋(Observation)的干擾,損失函數(shù)會(huì)屏蔽掉 Observation 的貢獻(xiàn),只計(jì)算智能體自主決策步驟(Thought 和 Action)的損失。這已被證明能提高性能和魯棒性。
- 強(qiáng)化學(xué)習(xí)(RL)通過與環(huán)境的交互,智能體不斷試錯(cuò),學(xué)習(xí)在復(fù)雜多變的環(huán)境中做出最優(yōu)決策。WebDancer采用了先進(jìn)的DAPO算法,動(dòng)態(tài)采樣未被充分利用的數(shù)據(jù)對,提高數(shù)據(jù)效率和策略的魯棒性。DAPO 通過最大化一個(gè)目標(biāo)函數(shù)來進(jìn)行策略更新,該目標(biāo)函數(shù)考慮了候選軌跡的獎(jiǎng)勵(lì)和優(yōu)勢項(xiàng)。優(yōu)勢項(xiàng)基于批次內(nèi)的原始獎(jiǎng)勵(lì)值進(jìn)行歸一化計(jì)算。
WebDancer通過動(dòng)態(tài)采樣機(jī)制,優(yōu)先采樣那些未被充分利用的數(shù)據(jù)對,確保數(shù)據(jù)的高效利用,增強(qiáng)了智能體的泛化能力。
強(qiáng)化學(xué)習(xí)階段的高計(jì)算成本和時(shí)間開銷一直是開放環(huán)境訓(xùn)練的一大難題。WebDancer通過優(yōu)化算法和硬件資源的高效利用,顯著降低了強(qiáng)化學(xué)習(xí)的成本。
四、實(shí)驗(yàn)與結(jié)果
WebDancer的創(chuàng)新策略在多個(gè)信息檢索基準(zhǔn)測試中得到了充分驗(yàn)證。
GAIA 數(shù)據(jù)集
GAIA數(shù)據(jù)集旨在評估通用人工智能助手在復(fù)雜信息檢索任務(wù)上的表現(xiàn)。WebDancer在GAIA數(shù)據(jù)集上的表現(xiàn)尤為突出,在不同難度的任務(wù)中均取得了高分,展現(xiàn)了其強(qiáng)大的泛化能力。
WebWalkerQA 數(shù)據(jù)集
WebWalkerQA數(shù)據(jù)集專注于深度網(wǎng)絡(luò)信息檢索。WebDancer在該數(shù)據(jù)集上的表現(xiàn)同樣出色,尤其是在中等難度和高難度任務(wù)中,其性能提升更為明顯。
表現(xiàn)最佳的模型在GAIA基準(zhǔn)測試中達(dá)到了61.1%的Pass@3分?jǐn)?shù),在WebWalkerQA基準(zhǔn)測試中達(dá)到了54.6%的Pass@3分?jǐn)?shù)。
BrowseComp 數(shù)據(jù)集
在更具挑戰(zhàn)性的BrowseComp(英文)和BrowseComp-zh(中文)數(shù)據(jù)集上,WebDancer同樣展現(xiàn)出了強(qiáng)大的性能,進(jìn)一步證明了其在處理復(fù)雜信息檢索任務(wù)方面的魯棒性和有效性。
五、深入分析:Agent模型的訓(xùn)練
實(shí)驗(yàn)一分析:
強(qiáng)化學(xué)習(xí)(RL)在提升普通指令模型(Instruction Model)性能方面表現(xiàn)顯著,尤其在提升Pass@1采樣準(zhǔn)確率方面效果突出,其效果甚至可接近Pass@3。
然而,對于如QwQ這類以推理為核心的模型,RL的提升效果相對有限,主要體現(xiàn)在采樣結(jié)果的穩(wěn)定性上。這一差異可能與agentic 任務(wù)中決策軌跡較長、推理過程更復(fù)雜有關(guān)。
實(shí)驗(yàn)二分析:
Agentic數(shù)據(jù)的質(zhì)量遠(yuǎn)比數(shù)量更為關(guān)鍵。
團(tuán)隊(duì)在QwQ模型上僅使用約6000條高質(zhì)量、具備長思維鏈的訓(xùn)練數(shù)據(jù),就在GAIA任務(wù)中取得了優(yōu)異的效果,表明精細(xì)構(gòu)造的思維軌跡在復(fù)雜任務(wù)中的價(jià)值遠(yuǎn)高于海量但粗糙的數(shù)據(jù)。
實(shí)驗(yàn)三分析:
長短思維鏈的模式在不同類型模型之間并不具備良好的可遷移性。
盡管長思維鏈對指令模型和推理模型均能帶來性能提升,但其同時(shí)也顯著增加了非法生成(如重復(fù)內(nèi)容)的概率,尤其在參數(shù)規(guī)模較小的模型上更為嚴(yán)重。這表明在設(shè)計(jì)長思維鏈訓(xùn)練數(shù)據(jù)時(shí),需要在有效性與體驗(yàn)感之間做好平衡。
六、未來展望
更多工具的集成
目前,WebDancer僅集成了兩種基本的信息檢索工具,未來計(jì)劃引入更多復(fù)雜的工具,如瀏覽器建模和Python沙盒環(huán)境,使智能體能夠執(zhí)行更復(fù)雜的任務(wù)。
任務(wù)泛化與基準(zhǔn)擴(kuò)展
目前的實(shí)驗(yàn)主要集中在短答案信息檢索任務(wù)上,未來WebDancer將擴(kuò)展到開放域的長文本寫作任務(wù),對智能體的推理能力和生成能力提出更高的要求。
在本研究中,致力于從頭訓(xùn)練一個(gè)具備強(qiáng)大Agent能力的模型,重點(diǎn)探索如何在開源體系中構(gòu)建高效的Agentic模型架構(gòu)。這不僅有助于推動(dòng)智能體模型的開源進(jìn)程,也對于理解智能體在開放環(huán)境中如何涌現(xiàn)與擴(kuò)展(scale)其能力具有基礎(chǔ)性意義。
采用原生的ReAct框架,強(qiáng)調(diào)簡潔性與通用性,體現(xiàn)了“大道至簡”的工程理念。所謂Agentic模型,指的是那些天生支持推理、決策及多步工具調(diào)用的基礎(chǔ)模型(foundation models)。能夠僅憑任務(wù)描述提示,即可展現(xiàn)出如規(guī)劃、自我反思、行動(dòng)執(zhí)行等一系列突現(xiàn)能力(emergent capabilities),從而在交互式環(huán)境中表現(xiàn)出近似智能體的行為。
近年來,系統(tǒng)如DeepSearch和DeepResearch顯示出強(qiáng)大底層模型如何作為智能體核心,通過其原生支持的工具調(diào)用與迭代式推理,完成自主的網(wǎng)絡(luò)環(huán)境交互。然而,考慮到網(wǎng)絡(luò)環(huán)境的動(dòng)態(tài)性與部分可觀測性,強(qiáng)化學(xué)習(xí)(RL)在提升智能體的適應(yīng)性與魯棒性方面起到了關(guān)鍵作用。
因此,團(tuán)隊(duì)的目標(biāo)是通過針對性的后訓(xùn)練(post-training),在開源基礎(chǔ)模型中激發(fā)出更具通用性與自主性的Agent能力,從而為構(gòu)建可持續(xù)、可控的智能體生態(tài)奠定基礎(chǔ)。
論文鏈接:https://arxiv.org/pdf/2505.22648
代碼鏈接:https://github.com/Alibaba-NLP/WebAgent