WebSailor 突破邊界:助力開(kāi)源智能體跨越復(fù)雜推理 “天花板”
大家好,我是肆〇柒,自從互聯(lián)網(wǎng)時(shí)代開(kāi)啟以來(lái),人類(lèi)社會(huì)經(jīng)歷了多次信息技術(shù)變革,而互聯(lián)網(wǎng)猶如一把雙刃劍。一方面,它以每?jī)赡陻?shù)據(jù)量翻一番的驚人速度,為人類(lèi)打開(kāi)了通往海量知識(shí)的大門(mén);另一方面,也向我們的認(rèn)知能力發(fā)起了前所未有的挑戰(zhàn)。當(dāng)我們面對(duì)無(wú)邊無(wú)際的信息數(shù)據(jù)時(shí),人類(lèi)有限的記憶容量、脆弱的注意力穩(wěn)定性,以及線性單一的探索路徑,無(wú)疑成為了制約我們高效獲取精準(zhǔn)信息的瓶頸。我們需要一種全新的技術(shù)力量,來(lái)突破這些與生俱來(lái)的認(rèn)知枷鎖。
當(dāng)下,AI Agent 的出現(xiàn),成為了我們獲取數(shù)據(jù)、知識(shí)的增強(qiáng)型工具。像 DeepResearch 這類(lèi)專(zhuān)有智能體系統(tǒng),在復(fù)雜信息檢索領(lǐng)域得到贊許。以 BrowseComp 測(cè)試為例,它在定位互聯(lián)網(wǎng)中那些晦澀難尋、多維度交織的信息時(shí),展現(xiàn)出超乎人類(lèi)的精準(zhǔn)度,最高可達(dá) 67.4%。然而,與之形成鮮明對(duì)比的是,多數(shù)開(kāi)源智能體模型在相同任務(wù)中準(zhǔn)確率幾乎為零,這赤裸裸地揭示了開(kāi)源智能體在處理復(fù)雜推理任務(wù)時(shí)的先天不足,那么開(kāi)源智能體注定要在這場(chǎng)認(rèn)知革命中落后一步嗎?
在此背景下,通義實(shí)驗(yàn)室推出了WebSailor開(kāi)源項(xiàng)目。它聚焦于開(kāi)源智能體的核心痛點(diǎn) —— 降低極端不確定性,憑借獨(dú)特的訓(xùn)練方法與數(shù)據(jù)合成策略,劍指開(kāi)源與專(zhuān)有智能體之間的性能天塹,為開(kāi)源智能體開(kāi)辟了一條逆襲之路。WebSailor 項(xiàng)目不僅提出了創(chuàng)新的技術(shù)方案,更在理論層面深入剖析了現(xiàn)有技術(shù)的局限性,為智能體技術(shù)的發(fā)展提供了創(chuàng)新的思考。
定義問(wèn)題
智能體的 ReAct 框架解析
WebSailor 采用當(dāng)下大家熟悉的 ReAct 框架,智能體在接收到問(wèn)題后,會(huì)開(kāi)啟一段充滿(mǎn)思考與行動(dòng)的推理。以 “誰(shuí)是 20 世紀(jì)最具影響力的物理學(xué)家” 這個(gè)問(wèn)題為例,智能體首先會(huì)基于已有的知識(shí)儲(chǔ)備或簡(jiǎn)單的搜索動(dòng)作,產(chǎn)生初步的想法(Thought),這就好比我們?cè)诿鎸?duì)一個(gè)問(wèn)題時(shí)腦海中的第一反應(yīng)。接著,它會(huì)執(zhí)行搜索動(dòng)作(Action),就像我們打開(kāi)搜索引擎輸入關(guān)鍵詞一樣,然后獲取搜索結(jié)果(Observation),這些結(jié)果就如同外界反饋給我們的信息。智能體再根據(jù)這些反饋結(jié)果調(diào)整思路,重復(fù)這個(gè)迭代過(guò)程,直至最終鎖定答案,整個(gè)過(guò)程充滿(mǎn)了動(dòng)態(tài)調(diào)整與優(yōu)化,力求在復(fù)雜的信息迷宮中找準(zhǔn)方向。
ReAct 框架在 WebSailor 中的具體實(shí)現(xiàn)細(xì)節(jié)如下:
- 任務(wù)初始化 :智能體接收問(wèn)題后,將其編碼為初始狀態(tài)表示,結(jié)合問(wèn)題的語(yǔ)義信息和已有的背景知識(shí),生成初始的思考內(nèi)容。例如,在處理 “尋找某物理學(xué)理論的提出者” 這類(lèi)問(wèn)題時(shí),智能體會(huì)根據(jù)問(wèn)題中的關(guān)鍵詞 “物理學(xué)理論” 和 “提出者”,激活與物理學(xué)歷史相關(guān)的知識(shí)節(jié)點(diǎn)。
- 迭代過(guò)程 :在每次迭代中,智能體依據(jù)當(dāng)前狀態(tài),通過(guò)策略網(wǎng)絡(luò)生成思考內(nèi)容和動(dòng)作。思考內(nèi)容是對(duì)當(dāng)前問(wèn)題理解和解決思路的描述,動(dòng)作則是具體的操作指令,如搜索或訪問(wèn)特定網(wǎng)頁(yè)。例如,在思考內(nèi)容為 “需要確定該物理學(xué)理論的關(guān)鍵特征” 時(shí),智能體執(zhí)行搜索操作,查詢(xún)與該理論相關(guān)的文獻(xiàn)和資料。
- 狀態(tài)更新 :根據(jù)動(dòng)作執(zhí)行后的反饋結(jié)果(如搜索到的網(wǎng)頁(yè)內(nèi)容摘要),智能體更新?tīng)顟B(tài)表示。狀態(tài)表示融合了原始問(wèn)題、之前的思考內(nèi)容、已執(zhí)行的動(dòng)作以及觀察到的結(jié)果等信息,為下一輪迭代提供基礎(chǔ)。
在不同任務(wù)層級(jí)下,ReAct 框架的運(yùn)行機(jī)制有所不同:
- Level 1 任務(wù) :由于其邏輯簡(jiǎn)單,智能體通常在初次思考后就能確定合適的動(dòng)作,快速獲取答案,迭代次數(shù)較少。例如,對(duì)于問(wèn)題 “某知名事件發(fā)生的具體年份”,智能體可能僅需一次搜索動(dòng)作,就能從權(quán)威資料源中找到準(zhǔn)確答案。
- Level 2 任務(wù) :初始不確定性較高,但存在明確解決路徑。智能體按照既定步驟逐步推理,每一步的思考內(nèi)容和動(dòng)作都緊密關(guān)聯(lián),形成一個(gè)有序的鏈條。例如,在解決多跳問(wèn)答 “某科學(xué)家的出生地所在國(guó)家的首都是哪里” 時(shí),智能體先搜索科學(xué)家的出生地,再根據(jù)出生地搜索對(duì)應(yīng)的國(guó)家首都。
- Level 3 任務(wù) :面臨高且難降低的不確定性,智能體需要在每次迭代中進(jìn)行廣泛的探索和嘗試,靈活調(diào)整思路。比如,在處理 “尋找某小眾文化現(xiàn)象的起源和傳播路徑” 這類(lèi)問(wèn)題時(shí),智能體可能?chē)L試多種不同的搜索關(guān)鍵詞組合,從多個(gè)角度收集信息,并根據(jù)觀察結(jié)果不斷修正思考方向,逐步構(gòu)建起對(duì)問(wèn)題的完整理解。
信息檢索任務(wù)的層級(jí)劃分
為了更精準(zhǔn)地理解和優(yōu)化智能體的推理能力,將信息檢索任務(wù)劃分為三個(gè)層級(jí)(如下圖所示)。
信息檢索任務(wù)可以分為三個(gè)層級(jí)。一級(jí)任務(wù)的邏輯結(jié)構(gòu)相對(duì)簡(jiǎn)單,可以直接回答,或者通過(guò)調(diào)用單一、簡(jiǎn)單的工具來(lái)解決。二級(jí)任務(wù)類(lèi)似于多跳問(wèn)題,其解決方案需要通過(guò)一系列固定的推理步驟來(lái)獲得。三級(jí)任務(wù)在經(jīng)過(guò)混淆處理后,呈現(xiàn)出最為復(fù)雜且多變的結(jié)構(gòu),難以手動(dòng)定義,其內(nèi)在的不確定性也很難降低
Task Level 1 相對(duì)簡(jiǎn)單,它們的邏輯結(jié)構(gòu)清晰明了,例如 “誰(shuí)在 2004 年獲得理查德?道金斯獎(jiǎng)”,這類(lèi)問(wèn)題往往可以直接通過(guò)模型內(nèi)部知識(shí)庫(kù)的檢索,或者依靠單次的網(wǎng)絡(luò)搜索,就能迅速得到答案,猶如大海撈針。
進(jìn)階一點(diǎn)的 Task Level 2,雖然初始不確定性有所提高,但好在存在一條明確的解決路徑。以多跳問(wèn)答 “誰(shuí)是 1986 年人民力量革命中最杰出人物” 為例,智能體需要按照既定的步驟,像偵探破案一樣,逐步推理,每一步都環(huán)環(huán)相扣,最終解開(kāi)謎團(tuán)。
而 Task Level 3 則是智能體面臨的終極挑戰(zhàn),它們不僅面臨高不確定性,而且這種不確定性極難降低。比如 “阿里巴巴現(xiàn)任 CEO 母校的首位中國(guó)科學(xué)院院士是誰(shuí)”,這類(lèi)問(wèn)題中實(shí)體之間的關(guān)系錯(cuò)綜復(fù)雜,沒(méi)有預(yù)定義的解決路徑可供遵循。智能體像在大霧中探索,憑借創(chuàng)造性的探索和新穎的推理模式,才能在重重迷霧中找到通往答案的路徑。
大規(guī)模復(fù)雜推理訓(xùn)練數(shù)據(jù)合成
SailorFog-QA 數(shù)據(jù)集構(gòu)建
現(xiàn)在,走進(jìn) WebSailor 的數(shù)據(jù) “工廠”,看看它是如何打造專(zhuān)屬的訓(xùn)練數(shù)據(jù)集 ——SailorFog-QA 的。一切始于知識(shí)圖譜的構(gòu)建,以從 Wikidata 的 SPARQL 服務(wù)中獲取的模糊實(shí)體作為起點(diǎn),這就好比是為智能體的推理埋下了一顆種子。比如,以 “量子物理” 為起點(diǎn),模擬網(wǎng)頁(yè)瀏覽過(guò)程,收集與之相關(guān)的文本和特征信息,這些信息就像是一塊塊拼圖碎片。然后,從這些碎片中提取實(shí)體和關(guān)系,構(gòu)建起初始的節(jié)點(diǎn)和邊,形成知識(shí)圖譜的雛形。
接下來(lái)是子圖采樣與信息模糊化處理環(huán)節(jié),從復(fù)雜圖譜中采樣出具有多樣拓?fù)浣Y(jié)構(gòu)的子圖,這就像是從一個(gè)龐大的知識(shí)迷宮中挑選出一個(gè)個(gè)獨(dú)特的迷宮拼圖。基于這些子圖生成問(wèn)題,同時(shí)引入模糊化處理,將精確日期變?yōu)槟:龝r(shí)期(“20 世紀(jì)初”),將完整名稱(chēng)部分遮蔽(“由姓氏首字母為‘F’的人創(chuàng)立的機(jī)構(gòu)”),從而增加初始不確定性,形成 SailorFog-QA 數(shù)據(jù)集。這種模糊化處理就像是給問(wèn)題蒙上了一層面紗,讓智能體在訓(xùn)練過(guò)程中學(xué)會(huì)透過(guò)迷霧看真相。
數(shù)據(jù)集優(yōu)勢(shì)深入剖析
SailorFog-QA 數(shù)據(jù)集的優(yōu)勢(shì)不言而喻。首先,它精準(zhǔn)復(fù)刻了真實(shí)世界中的復(fù)雜信息環(huán)境,讓智能體在訓(xùn)練過(guò)程中就能接觸到實(shí)際應(yīng)用中可能遭遇的各種挑戰(zhàn)場(chǎng)景,就像是在真實(shí)的戰(zhàn)場(chǎng)中進(jìn)行實(shí)戰(zhàn)演練,而不是僅僅局限于理論上的紙上談兵。其次,不同拓?fù)浣Y(jié)構(gòu)的子圖天然衍生出豐富多樣的推理模式,從多步演繹到組合分析,全方位錘煉智能體的推理能力,讓智能體在各種復(fù)雜的推理場(chǎng)景中都能游刃有余。最后,隨著圖譜規(guī)模不斷擴(kuò)大,潛在子圖數(shù)量呈非線性增長(zhǎng),這種可擴(kuò)展性為模型訓(xùn)練提供了源源不斷的海量素材,確保智能體的訓(xùn)練過(guò)程永遠(yuǎn)不會(huì)因?yàn)閿?shù)據(jù)的匱乏而停滯不前。相較于其他數(shù)據(jù)集,SailorFog-QA 在數(shù)據(jù)復(fù)雜性和多樣性上具有顯著優(yōu)勢(shì),為智能體訓(xùn)練提供了更為豐富的挑戰(zhàn)場(chǎng)景。
基于專(zhuān)家 LRM 軌跡的推理重建
直接使用 LRM 輸出的局限性
訓(xùn)練智能體的道路并非一帆風(fēng)順。在嘗試直接使用開(kāi)源大型推理模型(如 QwQ-32B)的輸出時(shí),發(fā)現(xiàn)了兩個(gè)棘手的問(wèn)題。一是風(fēng)格污染,這些模型具有強(qiáng)烈的風(fēng)格化傾向,它們?nèi)唛L(zhǎng)、花哨的推理過(guò)程如果直接用于微調(diào),就像給智能體套上了一件不合身的緊身衣,限制了它們形成自主探索策略的能力,削弱了泛化能力。二是上下文過(guò)載,在復(fù)雜任務(wù)中,LRM 的冗長(zhǎng)推理鏈很容易超出模型上下文窗口的限制,這就像是在有限的道路上運(yùn)輸過(guò)多的貨物,導(dǎo)致性能下降,影響推理的連貫性。
推理重建方法的優(yōu)化與創(chuàng)新
為了解決這些問(wèn)題,研究者提出了一種巧妙的推理重建方法。首先,從專(zhuān)家 LRM 生成的軌跡中,僅保留正確的動(dòng)作 - 觀察序列,剔除冗余思考內(nèi)容。這就好比是從一篇冗長(zhǎng)的論文中提取出關(guān)鍵的摘要,保留最核心、最有價(jià)值的部分。例如,在解決 “某物理學(xué)家的出生年份與哪一科學(xué)發(fā)現(xiàn)時(shí)間相吻合” 的問(wèn)題時(shí),可以從 LRM 的完整軌跡中提取關(guān)鍵動(dòng)作和觀察結(jié)果。
<think> thinking process here </think>
<tool_call>
"name": "tool name here", "arguments": "parameter name here": parameter value here, "another
parameter name here": another parameter value here, ...
</tool_call>
<tool_response>
tool_response here
</tool_response>
(more thinking processes, tool calls and tool responses here)
<think> thinking process here </think>
<answer> answer here </answer>
然后,針對(duì)每個(gè)動(dòng)作步驟,利用獨(dú)立的指令遵循模型生成簡(jiǎn)潔的邏輯推理思考,替代原 LRM 的冗長(zhǎng)推理鏈。這就像是用精煉的語(yǔ)言重新講述一個(gè)故事,既保留了故事的核心內(nèi)容,又讓它更加簡(jiǎn)潔易懂,最終形成高效、簡(jiǎn)潔的推理軌跡,為智能體提供清晰的行動(dòng)指南。
強(qiáng)化學(xué)習(xí)方法
RFT 冷啟動(dòng)的深度解析
在強(qiáng)化學(xué)習(xí)的征程中,首先采用了 RFT 冷啟動(dòng)策略。在完整軌跡中,對(duì)智能體的思想、動(dòng)作和環(huán)境觀察結(jié)果進(jìn)行特殊標(biāo)記,這就像是給它們貼上了不同的標(biāo)簽,方便我們進(jìn)行后續(xù)的篩選和處理。通過(guò)三階段過(guò)濾,僅保留正確答案結(jié)尾、長(zhǎng)度適中(不超過(guò) 32k token)且工具調(diào)用次數(shù)多的軌跡,確保監(jiān)督信號(hào)的正確性和有效性。這就好比是在一堆金礦石中篩選出最純的金子,為智能體的訓(xùn)練提供最優(yōu)質(zhì)的素材。
訓(xùn)練目標(biāo)聚焦于提升智能體的決策能力,通過(guò)優(yōu)化損失函數(shù),讓智能體在訓(xùn)練過(guò)程中學(xué)會(huì)生成有效的思想和動(dòng)作。這就像是在訓(xùn)練一位新手司機(jī),讓他在反復(fù)練習(xí)中掌握如何在復(fù)雜的路況中做出正確的決策,從而在復(fù)雜任務(wù)中駛向成功的目的地。
DUPO 算法的核心原理與實(shí)現(xiàn)
DUPO 算法則是強(qiáng)化學(xué)習(xí)中的又一創(chuàng)新之舉。在訓(xùn)練前,先篩選出過(guò)于簡(jiǎn)單的案例,避免訓(xùn)練過(guò)程中的時(shí)間浪費(fèi)。在訓(xùn)練過(guò)程中,對(duì)同一批次中具有非零標(biāo)準(zhǔn)差的樣本進(jìn)行重復(fù)采樣,這種方法相比傳統(tǒng)方法,速度提升 2 - 3 倍。
同時(shí),采用基于群體相對(duì)方式的優(yōu)勢(shì)估計(jì)方法,結(jié)合規(guī)則式獎(jiǎng)勵(lì),綜合格式驗(yàn)證和答案驗(yàn)證。這就像是為智能體設(shè)置了一套全面的考核標(biāo)準(zhǔn),不僅要求它能生成正確的答案,還要確保它在行動(dòng)過(guò)程中遵循預(yù)定義的格式,讓智能體的每一個(gè)動(dòng)作都精準(zhǔn)無(wú)誤,每一步推理都合情合理。具體來(lái)說(shuō),DUPO 算法通過(guò)以下公式計(jì)算優(yōu)勢(shì)函數(shù):
實(shí)驗(yàn)評(píng)估
實(shí)驗(yàn)設(shè)置與評(píng)估指標(biāo)
在實(shí)驗(yàn)階段,在 Qwen-2.5-3B 至 Qwen-2.5-72B 等不同規(guī)模模型上開(kāi)展了 RFT 和 RL 訓(xùn)練,主要評(píng)估指標(biāo)為 pass@1,重點(diǎn)測(cè)試 BrowseComp-en、BrowseComp-zh、GAIA、Xbench-DeepSearch 四大基準(zhǔn)測(cè)試。這就像是讓智能體參加不同級(jí)別的考試,全面檢驗(yàn)它們的能力水平。
同時(shí),與直接推理(涵蓋非推理模型和推理模型)、專(zhuān)有瀏覽智能體(如 DeepResearch、Grok-DeepResearch 等)以及開(kāi)源智能體(如 Search-o1、WebThinker 等)進(jìn)行對(duì)比。這就像是在智能體的競(jìng)技場(chǎng)上,讓 WebSailor 與各路高手過(guò)招,全方位衡量它的性能優(yōu)劣。
主結(jié)果分析與圖表深度解讀
實(shí)驗(yàn)結(jié)果令人振奮。首先,直接推理模型在 BrowseComp-en/zh 上的糟糕表現(xiàn)凸顯了其局限性,如 GPT-4.1 僅 1.5% 的準(zhǔn)確率,這有力地證明了復(fù)雜信息檢索任務(wù)僅僅依靠模型自身的知識(shí)和推理能力是遠(yuǎn)遠(yuǎn)不夠的,必須借助外部工具與智能體框架,才能在復(fù)雜的信息中找到正確的方向(如下表所示)。
主要在四個(gè)具有挑戰(zhàn)性的基準(zhǔn)測(cè)試上取得了成果。? 表示這些專(zhuān)有方法通過(guò)其網(wǎng)站進(jìn)行手動(dòng)評(píng)估。- 表示由于成本限制,沒(méi)有這些結(jié)果。
而 WebSailor 的表現(xiàn)則堪稱(chēng)卓越,它在 BrowseComp-en/zh 上大幅領(lǐng)先其他開(kāi)源智能體。例如,WebSailor-7B 準(zhǔn)確率高達(dá) 6.7%,輕松超越 32B 的 WebDancer-32B(2.5%)和 WebThinker-RL(2.8%)。更令人驚嘆的是,WebSailor-72B 在 BrowseComp-zh 上與專(zhuān)有智能體 Doubao 并駕齊驅(qū),準(zhǔn)確率均為 26.0%,與 DeepResearch 的 42.9% 準(zhǔn)確率相比,也展現(xiàn)出了強(qiáng)大的競(jìng)爭(zhēng)力。這就好比是 WebSailor 這匹開(kāi)源的 “駿馬” 在賽場(chǎng)上一路狂奔,不僅超越了眾多開(kāi)源的競(jìng)爭(zhēng)對(duì)手,還與專(zhuān)有的 “千里馬” 們齊頭并進(jìn)(如下圖所示)。
性能表現(xiàn)在 BrowseComp 中英雙語(yǔ)基準(zhǔn)測(cè)試中。DeepSeek-R1-Browse 是通過(guò) ReAct 框架配備了瀏覽工具的 DeepSeek-R1,其實(shí)現(xiàn)方式與 WebSailor 相同。Doubao-Search 和 Grok-3 是專(zhuān)有的基于網(wǎng)絡(luò)的產(chǎn)品(用 * 標(biāo)記)。GPT-4o 配備瀏覽功能的結(jié)果取自 OpenAI 的官方信息
從上圖的性能表現(xiàn)圖中可以看出,WebSailor 在 BrowseComp-en/zh 上的準(zhǔn)確率隨著模型規(guī)模的增大而顯著提升。例如,WebSailor-3B 在 BrowseComp-en 上的準(zhǔn)確率為 3.3%,而 WebSailor-72B 則達(dá)到了 12.0%。這表明,隨著模型規(guī)模的擴(kuò)大,WebSailor 能夠更好地處理復(fù)雜的推理任務(wù),同時(shí)保持較高的性能穩(wěn)定性。此外,與其他開(kāi)源智能體相比,WebSailor 在所有模型規(guī)模下均表現(xiàn)出顯著的性能優(yōu)勢(shì),這進(jìn)一步證明了其訓(xùn)練方法的有效性。
在下圖中,對(duì)訓(xùn)練集與 WebDancer 和 BrowseComp-en 的工具調(diào)用次數(shù)分布進(jìn)行了對(duì)比分析。可以看出,WebSailor 的訓(xùn)練集呈現(xiàn)出明顯的長(zhǎng)尾分布,許多樣本需要多次工具調(diào)用才能完成任務(wù)。例如,WebSailor 的訓(xùn)練集中有相當(dāng)一部分樣本需要超過(guò) 10 次工具調(diào)用,而 WebDancer 的訓(xùn)練集中幾乎沒(méi)有超過(guò) 10 次的樣本。這種長(zhǎng)尾分布使得 WebSailor 在處理復(fù)雜任務(wù)時(shí)更具優(yōu)勢(shì),因?yàn)樗軌蜻m應(yīng)需要多次工具調(diào)用的復(fù)雜推理場(chǎng)景。同時(shí),WebSailor 的訓(xùn)練集分布與 BrowseComp-en 的實(shí)際任務(wù)分布高度一致,這表明 WebSailor 的數(shù)據(jù)集設(shè)計(jì)能夠很好地模擬實(shí)際應(yīng)用中的復(fù)雜任務(wù)場(chǎng)景,為模型訓(xùn)練提供了有力支持。
訓(xùn)練集中的工具調(diào)用數(shù)量與WebDancer和BrowseComp-en訓(xùn)練集中的工具調(diào)用數(shù)量的比較
下表展示了 SailorFog-QA 數(shù)據(jù)集與其他數(shù)據(jù)集在 ReAct 框架下的 pass@1 準(zhǔn)確率對(duì)比??梢钥闯?,SailorFog-QA 的準(zhǔn)確率顯著低于 WebDancer 訓(xùn)練集,這表明其任務(wù)難度更高。例如,DeepSeek-R1 在 WebDancer 訓(xùn)練集上的 pass@1 準(zhǔn)確率為 84.4%,而在 SailorFog-QA 上僅為 38.9%。這進(jìn)一步證明了 SailorFog-QA 數(shù)據(jù)集的復(fù)雜性和挑戰(zhàn)性,同時(shí)也說(shuō)明 WebSailor 在該數(shù)據(jù)集上的優(yōu)異表現(xiàn)并非偶然,而是源于其獨(dú)特的訓(xùn)練方法和數(shù)據(jù)集設(shè)計(jì)。
在 ReAct 框架下,SailorFog-QA、WebDancer 訓(xùn)練集以及 BrowseComp-en 的 pass@1 準(zhǔn)確率
從下圖的 SimpleQA 基準(zhǔn)測(cè)試結(jié)果可以看出,WebSailor 在處理簡(jiǎn)單任務(wù)時(shí)同樣表現(xiàn)出色。盡管其主要優(yōu)勢(shì)在于復(fù)雜任務(wù)領(lǐng)域,但在 SimpleQA 上,WebSailor 仍然超過(guò)了其他方法,包括直接推理和基于搜索的智能體。例如,WebSailor 在 SimpleQA 上的 pass@1 準(zhǔn)確率為 41.6%,而 Qwen-2.5-72B 的直接推理準(zhǔn)確率僅為 12.7%。這表明 WebSailor 具備良好的向下兼容性,能夠在處理復(fù)雜任務(wù)的同時(shí),保持對(duì)簡(jiǎn)單任務(wù)的高效解決能力。
在SimpleQA基準(zhǔn)測(cè)試中的性能表現(xiàn)
下圖展示了使用 Pass@1 和 Pass@3 的詳細(xì)評(píng)估結(jié)果。可以看出,經(jīng)過(guò) RL 訓(xùn)練后,WebSailor 在所有基準(zhǔn)測(cè)試上的性能均有顯著提升。特別是在 BrowseComp-en/zh 等復(fù)雜任務(wù)上,Pass@1 和 Pass@3 的差距明顯縮小。這表明 RL 訓(xùn)練能夠有效提高模型的穩(wěn)定性和樣本效率,使智能體在復(fù)雜任務(wù)中更容易收斂到正確的答案路徑。例如,在 BrowseComp-en 上,經(jīng)過(guò) RL 訓(xùn)練后,WebSailor 的 Pass@1 準(zhǔn)確率提升了 6.3%,而 Pass@3 準(zhǔn)確率提升了 8.3%。這種提升在 BrowseComp-zh 上更為顯著,Pass@1 和 Pass@3 分別提升了 6.6% 和 4.7%。這進(jìn)一步證明了 RL 訓(xùn)練在優(yōu)化智能體推理能力方面的重要作用。
使用Pass@1、Pass@3的詳細(xì)評(píng)估結(jié)果
見(jiàn)下圖對(duì)比了直接 RL 訓(xùn)練與經(jīng)過(guò) RFT 冷啟動(dòng)后 RL 訓(xùn)練的效果??梢钥闯?,經(jīng)過(guò) RFT 冷啟動(dòng)的模型在訓(xùn)練過(guò)程中工具調(diào)用次數(shù)保持穩(wěn)定且較高,而直接 RL 訓(xùn)練的模型工具調(diào)用次數(shù)較低且增長(zhǎng)緩慢。
比較 Qwen - 2.5 - instruct - 32B 的直接強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練與經(jīng)過(guò) RFT 冷啟動(dòng)后的強(qiáng)化學(xué)習(xí)訓(xùn)練
這表明 RFT 冷啟動(dòng)能夠?yàn)槟P吞峁┝己玫某跏疾呗裕瑤椭涓斓貙W(xué)習(xí)到有效的推理模式。最終,經(jīng)過(guò) RFT 冷啟動(dòng)的模型在收斂性能上顯著優(yōu)于直接 RL 訓(xùn)練的模型。例如,在 BrowseComp-en 上,經(jīng)過(guò) RFT 冷啟動(dòng)的 WebSailor 的 Pass@1 準(zhǔn)確率比直接 RL 訓(xùn)練的模型高出 10% 以上。這充分證明了 RFT 冷啟動(dòng)在智能體訓(xùn)練中的重要性。
此外,通過(guò)對(duì)比 SailorFog-QA 數(shù)據(jù)集的工具調(diào)用次數(shù)分布與 BrowseComp-en 的分布,我們發(fā)現(xiàn)兩者高度相似,均呈現(xiàn)長(zhǎng)尾分布。這表明 WebSailor 在該數(shù)據(jù)集上訓(xùn)練后,在 BrowseComp-en/zh 等復(fù)雜任務(wù)中表現(xiàn)出色,充分驗(yàn)證了數(shù)據(jù)復(fù)雜性與模型性能之間的正相關(guān)性。
拓展應(yīng)用與影響
多領(lǐng)域應(yīng)用場(chǎng)景示例
WebSailor 的強(qiáng)大復(fù)雜推理能力不僅局限于信息檢索領(lǐng)域,在醫(yī)療診斷、金融分析、教育輔導(dǎo)等多個(gè)領(lǐng)域也具有廣泛的應(yīng)用前景。
- 醫(yī)療診斷 :在處理復(fù)雜的病癥診斷時(shí),WebSailor 可以整合患者的癥狀、病史、檢查結(jié)果等多源信息,通過(guò)多輪推理和工具調(diào)用,為醫(yī)生提供潛在病因分析和治療方案建議。例如,對(duì)于一些罕見(jiàn)病的診斷,智能體可以搜索全球醫(yī)學(xué)文獻(xiàn),結(jié)合患者的癥狀表現(xiàn),逐步縮小可能的病因范圍,幫助醫(yī)生制定精準(zhǔn)的診療計(jì)劃。
- 金融分析 :在金融領(lǐng)域,WebSailor 可以分析海量的金融市場(chǎng)數(shù)據(jù)、公司財(cái)務(wù)報(bào)表、行業(yè)新聞等信息,為投資者提供投資決策支持。例如,智能體可以對(duì)某公司的財(cái)務(wù)狀況進(jìn)行全面分析,通過(guò)多步推理評(píng)估其未來(lái)盈利能力和發(fā)展前景,輔助投資者判斷該公司的股票投資價(jià)值。
- 教育輔導(dǎo) :作為智能教育助手,WebSailor 可以根據(jù)學(xué)生的學(xué)習(xí)進(jìn)度、知識(shí)掌握情況和學(xué)習(xí)風(fēng)格,為學(xué)生提供個(gè)性化的學(xué)習(xí)資源推薦和學(xué)習(xí)路徑規(guī)劃。例如,針對(duì)學(xué)生在某一學(xué)科知識(shí)點(diǎn)上的薄弱環(huán)節(jié),智能體可以搜索相關(guān)的學(xué)習(xí)資料、在線課程和練習(xí)題,按照學(xué)生的理解能力和學(xué)習(xí)習(xí)慣,生成定制化的學(xué)習(xí)計(jì)劃,幫助學(xué)生提高學(xué)習(xí)效果。
對(duì)相關(guān)技術(shù)發(fā)展的啟示
WebSailor 對(duì)于整個(gè)智能體技術(shù)、自然語(yǔ)言處理以及人工智能領(lǐng)域的發(fā)展帶來(lái)了一些啟示。
- 智能體推理技術(shù)創(chuàng)新 :WebSailor 通過(guò)獨(dú)特的訓(xùn)練方法和數(shù)據(jù)合成策略,成功賦予開(kāi)源智能體強(qiáng)大的復(fù)雜推理能力,為智能體推理技術(shù)的創(chuàng)新提供了新的思路和方法。其提出的 ReAct 框架下的多輪迭代推理模式以及 DUPO 算法等技術(shù),為智能體在復(fù)雜任務(wù)中的推理能力提升提供了有效的解決方案,推動(dòng)了智能體推理技術(shù)從簡(jiǎn)單的線性推理向復(fù)雜的多步推理和策略性推理的轉(zhuǎn)變。
- 數(shù)據(jù)驅(qū)動(dòng)的智能體訓(xùn)練方法 :SailorFog-QA 數(shù)據(jù)集的構(gòu)建方法為智能體訓(xùn)練數(shù)據(jù)的合成提供了新的范式。通過(guò)從真實(shí)世界復(fù)雜信息環(huán)境中采樣和模糊化處理生成具有高不確定性和多樣性的訓(xùn)練數(shù)據(jù),使得智能體能夠在更貼近實(shí)際應(yīng)用場(chǎng)景的數(shù)據(jù)上進(jìn)行訓(xùn)練,提高了智能體的泛化能力和適應(yīng)性。這種數(shù)據(jù)驅(qū)動(dòng)的訓(xùn)練方法也為其他智能體系統(tǒng)的開(kāi)發(fā)提供了重要的參考,促使研究者更加注重訓(xùn)練數(shù)據(jù)的質(zhì)量和復(fù)雜性,以提升智能體在實(shí)際任務(wù)中的表現(xiàn)。
與現(xiàn)有技術(shù)對(duì)比
與更多智能體系統(tǒng)的對(duì)比
除了剛才提到的 DeepResearch、WebDancer 等,WebSailor 與其他具有代表性的智能體系統(tǒng)相比也展現(xiàn)出顯著的優(yōu)勢(shì)和特點(diǎn)。
- 與 GPT-4o 瀏覽器擴(kuò)展對(duì)比 :GPT-4o 瀏覽器擴(kuò)展雖然具有一定的信息檢索能力,但在處理復(fù)雜的多跳推理任務(wù)時(shí),性能相對(duì)較弱。例如,在 BrowseComp-en 上,GPT-4o 的準(zhǔn)確率僅為 1.9%,而 WebSailor-72B 的準(zhǔn)確率達(dá)到了 12.0%。這表明 WebSailor 在復(fù)雜推理任務(wù)中能夠更有效地綜合利用搜索結(jié)果和多輪推理,找到正確的答案路徑。
- 與 Wolfram|Alpha 智能體對(duì)比 :Wolfram|Alpha 智能體擅長(zhǎng)處理數(shù)學(xué)計(jì)算和科學(xué)數(shù)據(jù)查詢(xún)等任務(wù),但在需要廣泛信息收集和復(fù)雜推理的開(kāi)放域問(wèn)題上表現(xiàn)有限。WebSailor 則憑借其強(qiáng)大的網(wǎng)絡(luò)搜索能力和多步推理機(jī)制,在開(kāi)放域復(fù)雜信息檢索任務(wù)中更具優(yōu)勢(shì)。例如,在處理 “某歷史事件對(duì)多個(gè)領(lǐng)域的影響分析” 這類(lèi)需要跨領(lǐng)域信息整合和深度推理的問(wèn)題時(shí),WebSailor 能夠通過(guò)多輪搜索和推理,給出更全面、深入的答案。
與傳統(tǒng)信息檢索方法的對(duì)比
與傳統(tǒng)的信息檢索方法(如關(guān)鍵詞搜索、布爾檢索等)相比,WebSailor 在處理復(fù)雜信息檢索任務(wù)時(shí)具有顯著的優(yōu)越性。
- 語(yǔ)義理解和推理能力 :傳統(tǒng)信息檢索方法主要基于關(guān)鍵詞的匹配,難以理解問(wèn)題的語(yǔ)義和背后的復(fù)雜關(guān)系。而 WebSailor 能夠?qū)?wèn)題進(jìn)行語(yǔ)義解析,理解其背后的意圖和邏輯關(guān)系,并通過(guò)多輪推理探索答案。例如,對(duì)于問(wèn)題 “某文學(xué)作品中人物關(guān)系及其對(duì)情節(jié)發(fā)展的影響”,關(guān)鍵詞搜索只能找到包含相關(guān)關(guān)鍵詞的文獻(xiàn),而 WebSailor 可以通過(guò)分析人物關(guān)系的多個(gè)維度和情節(jié)發(fā)展的不同階段,深入分析它們之間的相互作用和影響,提供更具有洞察力的答案。
- 動(dòng)態(tài)交互和探索能力 :傳統(tǒng)檢索方法是一次性的,用戶(hù)需要根據(jù)搜索結(jié)果手動(dòng)調(diào)整關(guān)鍵詞進(jìn)行下一次搜索。WebSailor 則能夠根據(jù)搜索結(jié)果動(dòng)態(tài)調(diào)整思路,進(jìn)行多次工具調(diào)用和探索,逐步逼近正確答案。例如,在搜索 “某新興技術(shù)在不同行業(yè)中的應(yīng)用現(xiàn)狀和趨勢(shì)” 時(shí),WebSailor 可以先搜索該技術(shù)的概述,了解其主要特點(diǎn)和應(yīng)用領(lǐng)域,然后針對(duì)每個(gè)行業(yè)進(jìn)行深入搜索和分析,形成對(duì)問(wèn)題的全面解答。
局限性
局限性分析
盡管 WebSailor 在實(shí)驗(yàn)中取得了比較好的成績(jī),但它并非十全十美。目前,為了防止上下文過(guò)載,訓(xùn)練軌跡長(zhǎng)度被限制在 32k token以?xún)?nèi),這無(wú)疑給模型處理更復(fù)雜問(wèn)題的能力套上了一道枷鎖。在面對(duì)那些需要超長(zhǎng)推理鏈條的復(fù)雜任務(wù)時(shí),模型往往因超出長(zhǎng)度限制而功虧一簣。例如,在一些極端復(fù)雜的推理任務(wù)中,可能需要超過(guò) 100 次的工具調(diào)用,而當(dāng)前的限制使得模型無(wú)法有效處理此類(lèi)任務(wù)。
另外,WebSailor 在某些簡(jiǎn)單問(wèn)題上表現(xiàn)出的過(guò)度思考傾向也引起了我們的關(guān)注。例如,對(duì)于 “蘋(píng)果公司的現(xiàn)任 CEO 是誰(shuí)” 這樣簡(jiǎn)單的問(wèn)題,它仍進(jìn)行多步工具調(diào)用。然而,深入分析后可以發(fā)現(xiàn),這種 “過(guò)度思考” 其實(shí)是智能體在驗(yàn)證信息準(zhǔn)確性,從側(cè)面反映了它謹(jǐn)慎的推理策略。這種策略雖然保證了答案的準(zhǔn)確性,但也可能導(dǎo)致推理效率的下降。例如,在處理大量簡(jiǎn)單查詢(xún)時(shí),這種過(guò)度思考可能會(huì)使模型的響應(yīng)時(shí)間增加 2 - 3 倍,從而影響用戶(hù)體驗(yàn)。
改進(jìn)優(yōu)化方向
可以有兩大優(yōu)化方向。一是探索更高效的訓(xùn)練框架,將嘗試遷移到異步訓(xùn)練框架,以期提升訓(xùn)練效率,支持更長(zhǎng)時(shí)間的 RL 訓(xùn)練。通過(guò)異步訓(xùn)練,不同智能體可以在各自的環(huán)境中獨(dú)立探索,然后將經(jīng)驗(yàn)匯總到一個(gè)共享的策略網(wǎng)絡(luò)中。這樣,模型就能像攀登高山一樣,一步步征服那些更為復(fù)雜的推理任務(wù)高峰。例如,在新的訓(xùn)練框架中引入多智能體協(xié)作機(jī)制,讓多個(gè)智能體同時(shí)處理不同的任務(wù)分支,從而提高整體推理效率。
二是優(yōu)化推理策略,將在確保復(fù)雜任務(wù)高性能的同時(shí),研究如何減少不必要的工具調(diào)用,提高推理效率。這就像是為智能體打造一套更加高效的行動(dòng)指南,讓它在信息的海洋中航行得更加迅捷而精準(zhǔn)。可以通過(guò)引入基于任務(wù)復(fù)雜度的動(dòng)態(tài)推理策略,讓智能體能夠根據(jù)任務(wù)的難易程度自動(dòng)調(diào)整推理深度和工具調(diào)用次數(shù)。例如,對(duì)于簡(jiǎn)單任務(wù),智能體將采用快速、直接的推理路徑;而對(duì)于復(fù)雜任務(wù),則啟用深度探索模式,確保在復(fù)雜性和效率之間取得平衡。
此外,還可以探索如何將 WebSailor 的能力擴(kuò)展到更多領(lǐng)域,如多模態(tài)信息檢索和實(shí)時(shí)交互式推理。這將為智能體技術(shù)的應(yīng)用開(kāi)辟新的可能性,使其能夠在更廣泛的場(chǎng)景中發(fā)揮作用。
總結(jié)
本文介紹了一個(gè)名為 WebSailor 的開(kāi)源項(xiàng)目,目標(biāo)是提升開(kāi)源 web Agent 系統(tǒng)在復(fù)雜信息搜索任務(wù)中的推理能力,以縮小與專(zhuān)有系統(tǒng)的差距。
WebSailor 方法論
- 高不確定性任務(wù)生成:
通過(guò)在真實(shí)網(wǎng)站上進(jìn)行隨機(jī)游走構(gòu)建復(fù)雜知識(shí)圖譜,生成包含已知實(shí)體和關(guān)系的子圖,形成高不確定性問(wèn)題。
使用信息模糊化技術(shù)增加初始模糊性,迫使模型進(jìn)行復(fù)雜推理。
- RFT 冷啟動(dòng):盡管有研究建議跳過(guò)監(jiān)督微調(diào)(SFT),但 WebSailor 的研究表明,適度的拒絕采樣微調(diào)(RFT)對(duì)于初始化 web 代理模型至關(guān)重要。
- DUPO 算法:提出了一種新的強(qiáng)化學(xué)習(xí)算法 DUPO,通過(guò)動(dòng)態(tài)采樣策略提升訓(xùn)練效率和效果。
綜上,WebSailor 項(xiàng)目通過(guò)生成高不確定性的訓(xùn)練數(shù)據(jù)和優(yōu)化 RL 算法,顯著提升了開(kāi)源 web 智能體系統(tǒng)在復(fù)雜信息搜索任務(wù)中的推理能力,使其性能接近專(zhuān)有系統(tǒng)。它在 BrowseComp-en/zh 等多項(xiàng)基準(zhǔn)測(cè)試中取得的優(yōu)異成績(jī)。這項(xiàng)工作不僅推動(dòng)了開(kāi)源模型的發(fā)展,也為未來(lái)更強(qiáng)大的智能體系統(tǒng)的構(gòu)建奠定了基礎(chǔ)。這個(gè)開(kāi)源項(xiàng)目為我們展示的整個(gè)構(gòu)建過(guò)程,非常具有 Agent 整體落地的實(shí)戰(zhàn)參考價(jià)值,值得大家上手實(shí)戰(zhàn)復(fù)現(xiàn)。