DeepReaserch智能體突破:阿里WebDancer原生Agentic Model讓AI自己「上網(wǎng)找答案」
作者介紹:本文作者來(lái)自通義實(shí)驗(yàn)室RAG團(tuán)隊(duì),致力于面向下一代RAG技術(shù)進(jìn)行基礎(chǔ)研究。該團(tuán)隊(duì)的WebWalker工作也被ACL2025 main conference錄用。
在當(dāng)今信息爆炸的時(shí)代,如何高效地從海量的網(wǎng)絡(luò)數(shù)據(jù)中獲取有價(jià)值的信息,成為了人們面臨的一大挑戰(zhàn)。傳統(tǒng)的搜索引擎雖然能夠提供大量的信息,但在處理復(fù)雜的多步推理任務(wù)時(shí)往往顯得力不從心。來(lái)自阿里巴巴通義實(shí)驗(yàn)室的研究員提供了WebDancer,一個(gè)原生的信息檢索的Agentic Model,使之能夠像完成類DeepResearch的自主瀏覽網(wǎng)頁(yè)、思考和決策,為我們解決復(fù)雜的網(wǎng)絡(luò)信息檢索問(wèn)題提供了新的思路。
我們解讀最新技術(shù),文末有相關(guān)信息。
以下是一些運(yùn)行的case:
我們可以看到WebDancer可以完成多步的信息檢索,包含多步思考和action執(zhí)行,在運(yùn)行過(guò)程中進(jìn)行完成自主的任務(wù)拆解、知識(shí)回溯和反復(fù)驗(yàn)證。
一、背景
在現(xiàn)實(shí)生活中,我們常常需要解決各種復(fù)雜的多步推理問(wèn)題,這些問(wèn)題往往需要從多個(gè)網(wǎng)頁(yè)中獲取信息,并進(jìn)行綜合分析和推理才能得出答案。例如,當(dāng)我們想要了解某個(gè)歷史事件的詳細(xì)經(jīng)過(guò)時(shí),可能需要查閱多個(gè)不同來(lái)源的網(wǎng)頁(yè),對(duì)比和分析其中的信息,才能還原事件的全貌。這種復(fù)雜的信息檢索任務(wù),對(duì)于傳統(tǒng)的搜索引擎來(lái)說(shuō)是非常困難的,因?yàn)樗鼈兺ǔV荒芴峁﹩尾降乃阉鹘Y(jié)果,而無(wú)法像人類一樣進(jìn)行多步的推理和決策。
近年來(lái),隨著大型語(yǔ)言模型(LLMs)和大型推理模型(LRMs)的發(fā)展,人們開始嘗試將這些模型應(yīng)用于信息檢索任務(wù)中。然而,這些模型在處理復(fù)雜的多步推理任務(wù)時(shí),仍然存在一些局限性。例如,直接利用提示工程技術(shù)來(lái)引導(dǎo)這些模型執(zhí)行復(fù)雜任務(wù),往往無(wú)法充分利用模型的推理能力;而將搜索或?yàn)g覽能力整合到智能體中,雖然可以通過(guò)監(jiān)督微調(diào)(SFT)或強(qiáng)化學(xué)習(xí)(RL)來(lái)訓(xùn)練,但現(xiàn)有的訓(xùn)練數(shù)據(jù)集相對(duì)簡(jiǎn)單,無(wú)法涵蓋現(xiàn)實(shí)世界中的復(fù)雜挑戰(zhàn)。
為了解決這些問(wèn)題,WebDancer應(yīng)運(yùn)而生。它基于ReAct框架,通過(guò)一種數(shù)據(jù)驅(qū)動(dòng)和分階段訓(xùn)練的方法,構(gòu)建了一個(gè)能夠自主進(jìn)行多步信息檢索的智能體。WebDancer的出現(xiàn),標(biāo)志著我們?cè)谧灾髦悄荏w領(lǐng)域,訓(xùn)練類DeepResearch的模型邁出了重要的一步。
二、WebDancer的核心技術(shù)
WebDancer的核心創(chuàng)新體現(xiàn)在三個(gè)層面:
- 數(shù)據(jù)合成的層次化設(shè)計(jì):通過(guò)兩種方法來(lái)合成數(shù)據(jù)集實(shí)現(xiàn)了兼顧“廣度覆蓋”與“深度升級(jí)”的數(shù)據(jù)集體系,解決了傳統(tǒng)數(shù)據(jù)集規(guī)模小、場(chǎng)景單一的問(wèn)題。實(shí)驗(yàn)表明,混合使用兩類數(shù)據(jù)集可使模型在GAIA基準(zhǔn)的Pass@1指標(biāo)顯著提升。
- 長(zhǎng)短推理鏈的協(xié)同訓(xùn)練:提出將LLM生成的短推理鏈與LRM生成的長(zhǎng)推理鏈結(jié)合,通過(guò)拒絕采樣機(jī)制融合不同粒度的推理模式。消融實(shí)驗(yàn)顯示,長(zhǎng)推理鏈對(duì)復(fù)雜問(wèn)題(GAIA Level 3)的解決率有顯著貢獻(xiàn),驗(yàn)證了多尺度推理的必要性。
- 動(dòng)態(tài)采樣的強(qiáng)化學(xué)習(xí)策略:DAPO算法通過(guò)過(guò)濾準(zhǔn)確率極端的樣本(0或1),聚焦難樣本的迭代優(yōu)化,使RL階段的數(shù)據(jù)利用效率顯著提升。
具體來(lái)說(shuō),WebDancer的構(gòu)建過(guò)程可以分為四個(gè)關(guān)鍵階段:瀏覽數(shù)據(jù)構(gòu)建、軌跡采樣、監(jiān)督微調(diào)以及強(qiáng)化學(xué)習(xí)。
(一)瀏覽數(shù)據(jù)構(gòu)建
為了訓(xùn)練WebDancer,首先需要構(gòu)建高質(zhì)量的瀏覽數(shù)據(jù)。這些數(shù)據(jù)需要反映多樣化的用戶意圖和豐富的交互上下文。WebDancer采用了兩種方法來(lái)合成數(shù)據(jù)集:CRAWLQA和E2HQA。
CRAWLQA通過(guò)爬取網(wǎng)頁(yè)來(lái)構(gòu)建基于網(wǎng)頁(yè)信息的問(wèn)答對(duì)。它從一些富含知識(shí)的網(wǎng)站(如arxiv、github、wiki等)的source頁(yè)面開始,模擬人類的瀏覽行為,遞歸地導(dǎo)航到子頁(yè)面,并收集頁(yè)面上的信息。然后,利用GPT-4o等大型語(yǔ)言模型,根據(jù)收集到的信息生成合成的問(wèn)答對(duì)。這些問(wèn)答對(duì)涵蓋了多種類型的問(wèn)題,如計(jì)數(shù)問(wèn)題、多跳問(wèn)題和交集問(wèn)題等,能夠有效地激發(fā)模型的多步推理能力。
E2HQA則采用了一種從簡(jiǎn)單到復(fù)雜的問(wèn)答對(duì)合成方法。它從簡(jiǎn)單的問(wèn)答對(duì)開始,通過(guò)逐步增加問(wèn)題的復(fù)雜性,將簡(jiǎn)單的問(wèn)題轉(zhuǎn)化為復(fù)雜的多步問(wèn)題。具體來(lái)說(shuō),它首先從簡(jiǎn)單的問(wèn)題中選擇一個(gè)實(shí)體,然后利用搜索引擎獲取與該實(shí)體相關(guān)的信息,并根據(jù)這些信息重新構(gòu)造問(wèn)題。通過(guò)這種方式,可以逐步將一個(gè)簡(jiǎn)單的問(wèn)題轉(zhuǎn)化為一個(gè)需要多步推理才能解決的復(fù)雜問(wèn)題。
(二)軌跡采樣
在構(gòu)建了高質(zhì)量的問(wèn)答對(duì)之后,WebDancer需要采樣出高質(zhì)量的軌跡來(lái)指導(dǎo)智能體的學(xué)習(xí)過(guò)程。軌跡采樣采用了拒絕采樣方法,結(jié)合了短鏈思考(Short-CoT)和長(zhǎng)鏈思考(Long-CoT)兩種策略。
短鏈思考軌跡是通過(guò)直接利用ReAct框架,使用強(qiáng)大的模型(如GPT-4o)來(lái)收集的。而長(zhǎng)鏈思考軌跡則是通過(guò)逐步提供歷史動(dòng)作和觀察結(jié)果給推理模型(如QwQ-Plus),讓模型自主決定下一步的動(dòng)作。在采樣過(guò)程中,會(huì)進(jìn)行多次拒絕采樣,以確保生成的軌跡的質(zhì)量和連貫性。
(三)監(jiān)督微調(diào)
監(jiān)督微調(diào)階段的目的是讓模型適應(yīng)智能體任務(wù)的格式和環(huán)境。在這個(gè)階段,WebDancer利用前面采樣得到的高質(zhì)量軌跡,對(duì)模型進(jìn)行微調(diào)。通過(guò)這種方式,模型能夠?qū)W習(xí)到如何在智能體任務(wù)中交替進(jìn)行推理和行動(dòng),從而更好地完成多步信息檢索任務(wù)。
(四)強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)階段的目標(biāo)是將智能體能力內(nèi)化到推理模型中,增強(qiáng)模型在多步、多工具使用場(chǎng)景下的能力。WebDancer采用了Decoupled Clip and Dynamic Sampling Policy Optimization(DAPO)算法來(lái)進(jìn)行強(qiáng)化學(xué)習(xí)。DAPO算法通過(guò)動(dòng)態(tài)采樣機(jī)制,有效地利用了在監(jiān)督微調(diào)階段未充分利用的問(wèn)答對(duì),提高了數(shù)據(jù)效率和策略的魯棒性。
三、WebDancer的實(shí)驗(yàn)結(jié)果
WebDancer在兩個(gè)具有挑戰(zhàn)性的信息檢索基準(zhǔn)測(cè)試——GAIA和WebWalkerQA上進(jìn)行了實(shí)驗(yàn)評(píng)估。實(shí)驗(yàn)結(jié)果表明,WebDancer在這些基準(zhǔn)測(cè)試中取得了顯著的性能提升,證明了其訓(xùn)練范式的有效性。 我們表現(xiàn)最佳的模型在GAIA基準(zhǔn)測(cè)試中達(dá)到了61.1%的Pass@3分?jǐn)?shù),在WebWalkerQA基準(zhǔn)測(cè)試中達(dá)到了54.6%的Pass@3分?jǐn)?shù)。
四、未來(lái)展望:WebDancer 的新征程
盡管 WebDancer 已經(jīng)取得了令人矚目的成就,但它的發(fā)展之路還遠(yuǎn)未結(jié)束。未來(lái),WebDancer 將在多個(gè)方向上繼續(xù)探索和創(chuàng)新。
(一)更多工具的集成
目前,WebDancer 僅集成了兩種基本的信息檢索工具,未來(lái)計(jì)劃引入更多復(fù)雜的工具,如瀏覽器建模和 Python 沙盒環(huán)境。這些工具將使智能體能夠執(zhí)行更復(fù)雜的任務(wù),如網(wǎng)頁(yè)瀏覽、數(shù)據(jù)抓取、API 調(diào)用等,從而拓展智能體的能力邊界,使其能夠應(yīng)對(duì)更廣泛的挑戰(zhàn)。
(二)任務(wù)泛化與基準(zhǔn)擴(kuò)展
目前的實(shí)驗(yàn)主要集中在短答案信息檢索任務(wù)上,未來(lái) WebDancer 將擴(kuò)展到開放域的長(zhǎng)文本寫作任務(wù)。這將對(duì)智能體的推理能力和生成能力提出更高的要求,需要設(shè)計(jì)更可靠和更有效的獎(jiǎng)勵(lì)信號(hào)。同時(shí),WebDancer 也將參與更多基準(zhǔn)測(cè)試,以驗(yàn)證其在不同任務(wù)類型和領(lǐng)域中的泛化能力。
五、討論:Post-train Agentic Models
相比于一些驅(qū)動(dòng)于強(qiáng)大的具有很強(qiáng)的agentic能力的閉源模型,例如gpt-o4,claude的promtpting工程框架,本研究的側(cè)重點(diǎn)在從頭訓(xùn)練一個(gè)具有強(qiáng)大agent能力的模型,這對(duì)于實(shí)現(xiàn)agent model的開源以及推進(jìn)我們對(duì)agent在開放系統(tǒng)中如何產(chǎn)生和scale的基本理解至關(guān)重要。我們使用的的原生ReAct框架秉持著簡(jiǎn)潔性,體現(xiàn)了大道至簡(jiǎn)的原則。 Agentic models是指那些在交互式環(huán)境中,天生支持推理、決策以及多步驟工具使用的foundation models。這些模型僅通過(guò)任務(wù)描述的提示,就能展現(xiàn)出諸如規(guī)劃、自我反思以及行動(dòng)執(zhí)行等突發(fā)性能力(emergent capabilities)。 近期的 DeepSearch 和 Deep Research 等系統(tǒng),展示了強(qiáng)大的底層模型如何作為智能體的核心,通過(guò)其對(duì)工具調(diào)用和迭代推理的天然支持,實(shí)現(xiàn)自主的網(wǎng)絡(luò)交互。然而,由于網(wǎng)絡(luò)環(huán)境本質(zhì)上是動(dòng)態(tài)的且部分可觀察的,強(qiáng)化學(xué)習(xí)在提升智能體的適應(yīng)性和魯棒性方面發(fā)揮了關(guān)鍵作用。在本研究中,我們的目標(biāo)是通過(guò)有針對(duì)性的后訓(xùn)練(post-training),在開源模型中激發(fā)自主智能體的能力。
六、WebDancer的意義與展望
WebDancer的出現(xiàn),不僅為解決復(fù)雜的多步信息檢索問(wèn)題提供了一種新的方法,也為自主智能體的研究和發(fā)展提供了重要的啟示。通過(guò)數(shù)據(jù)驅(qū)動(dòng)和分階段訓(xùn)練的方法,WebDancer成功地構(gòu)建了一個(gè)能夠自主進(jìn)行多步信息檢索的智能體,為未來(lái)智能體的發(fā)展提供了新的思路和方向。
WebDancer與Deep Research在目標(biāo)上具有一致性,如果通過(guò)更系統(tǒng)化的方法來(lái)構(gòu)建和訓(xùn)練智能體,使其能夠更好地適應(yīng)復(fù)雜的網(wǎng)絡(luò)環(huán)境仍是一個(gè)開放并且具有挑戰(zhàn)的課題。
總之,WebDancer的出現(xiàn)為我們解決復(fù)雜的網(wǎng)絡(luò)信息檢索問(wèn)題提供了一種新的可能性。隨著技術(shù)的不斷發(fā)展和完善,我們有理由相信,未來(lái)的自主智能體將在更多的領(lǐng)域發(fā)揮重要作用,為我們的生活和工作帶來(lái)更多的便利和創(chuàng)新。
參考資料
- 《WebDancer: Towards Autonomous Information Seeking Agency》,Jialong Wu, Baixuan Li, Runnan Fang, Wenbiao Yin, Liwen Zhang, Zhengwei Tao, Dingchu Zhang, Zekun Xi, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou,阿里巴巴通義實(shí)驗(yàn)室,https://arxiv.org/pdf/2505.22648
- 《ReAct: Synergizing Reasoning and Acting in Language Models》,Shunyu Yao等,普林斯頓大學(xué),https://arxiv.org/abs/2210.03629
- 《GAIA: A Benchmark for General AI Assistants》,Grégoire Mialon等,Meta AI,https://arxiv.org/abs/2311.12983
本文轉(zhuǎn)載自??旺知識(shí)??,作者:旺知識(shí)
