偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<kbd id="l0igv"><font id="l0igv"></font></kbd>

<meter id="l0igv"><ul id="l0igv"><center id="l0igv"></center></ul></meter>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

通義實驗室大火的 WebAgent 續(xù)作：全開源模型方案超過GPT4.1 , 收獲開源SOTA

2025-07-30 09:07:00

人工智能新聞

WebShaper 補足了做 GAIA、Browsecomp 上缺少高質(zhì)量訓(xùn)練數(shù)據(jù)的問題，通義實驗室開源了高質(zhì)量 QA 數(shù)據(jù)！

WebAgent 續(xù)作《WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization》中，作者們首次提出了對 information-seeking（IS）任務(wù)的形式化建模并基于該建模設(shè)計了 IS 任務(wù)訓(xùn)練數(shù)據(jù)合成方法，并用全開源模型方案取得了 GAIA 評測最高 60.1 分的 SOTA 表現(xiàn)。

WebShaper 補足了做 GAIA、Browsecomp 上缺少高質(zhì)量訓(xùn)練數(shù)據(jù)的問題，通義實驗室開源了高質(zhì)量 QA 數(shù)據(jù)！

WebShaper 體現(xiàn)了通義實驗室對 IS 任務(wù)的認知從前期的啟發(fā)式理解到形式化定義的深化。

GitHub 鏈接：https://github.com/Alibaba-NLP/WebAgent
huggingface 鏈接：https://huggingface.co/datasets/Alibaba-NLP/WebShaper
model scope 鏈接：https://modelscope.cn/datasets/iic/WebShaper

圖表 1：WebShaper 在 GAIA 上取得開源方案 SOTA。

WebShaper —— 合成數(shù)據(jù)范式的轉(zhuǎn)變

在大模型時代，「信息檢索（Information Seeking， IS）」早已不是簡單的「搜索 + 回答」那么簡單，而是 AI 智能體（Agent）能力的重要基石。無論是 OpenAI 的 Deep Research、Google 的 Gemini，還是國內(nèi)的 Doubao、Kimi，它們都把「能不能上網(wǎng)找信息」當(dāng)作核心競爭力。

系統(tǒng)性地構(gòu)造高質(zhì)量的信息檢索訓(xùn)練數(shù)據(jù)成為激發(fā)智能體信息檢索能力的關(guān)鍵，同時也是瓶頸。當(dāng)前主流方法依賴「信息驅(qū)動」的合成范式 —— 先通過網(wǎng)絡(luò)檢索構(gòu)建知識圖譜，再由大模型生成問答對（如 WebDancer、WebWalker 等方案）。這種模式存在兩大缺陷：知識結(jié)構(gòu)與推理邏輯的不一致性，以及預(yù)檢索內(nèi)容的局限導(dǎo)致的任務(wù)類型、激發(fā)能力和知識覆蓋有限。

圖表 2：WebShaper 從「信息驅(qū)動」到「形式化驅(qū)動」的范式轉(zhuǎn)變。

WebShaper 系統(tǒng)開創(chuàng)性提出「形式化驅(qū)動」新范式，通過數(shù)學(xué)建模 IS 任務(wù)，并基于該形式化，檢索信息，合成訓(xùn)練數(shù)據(jù)。形式化驅(qū)動的優(yōu)點包括：

1. 全域任務(wù)覆蓋：基于形式化框架的系統(tǒng)探索，突破預(yù)檢索數(shù)據(jù)邊界，實現(xiàn)覆蓋更廣任務(wù)、能力、知識的數(shù)據(jù)生成。

2. 精準結(jié)構(gòu)控制：通過形式化建模，可精確調(diào)控推理復(fù)雜度與邏輯結(jié)構(gòu)。

3. 結(jié)構(gòu)語義對齊：任務(wù)形式化使信息結(jié)構(gòu)和推理結(jié)構(gòu)一致，減少數(shù)據(jù)合成中產(chǎn)生的錯誤。

Information Seeking 形式化建模

圖表 3：形式化建模

WebShaper 首先提出基于集合論的 IS 任務(wù)形式化模型。

該模型包含核心概念「知識投影（Knowledge Projection）」，他是一個包含實體的集合：

每個 IS 任務(wù)都由 KP 的 R - 并集（R-Union）、交集（Intersection）、遞歸操作構(gòu)成，能夠精準控制推理路徑和任務(wù)復(fù)雜度；
每個 IS 任務(wù)旨在確定一個復(fù)雜的由 KP 組合而成的目標集合 T 中包含的實體。

該形式化建模讓 WebShaper 不再依賴自然語言理解的歧義，而是可控、可解釋、可擴展的數(shù)據(jù)合成方案。

智能體式擴展合成：讓 Agent 自己「寫題」

為了與形式化建模保持一致，WebShaper 整個流程開始于預(yù)先構(gòu)建且形式化的基礎(chǔ)種子任務(wù)，然后在形式化的驅(qū)動下，將種子問題多步擴展為最終的合成數(shù)據(jù)。此過程采用專用的代理擴展器 (Expander) 模塊，旨在通過關(guān)鍵過程 (KP) 表征來解釋任務(wù)需求。在每個擴展階段，系統(tǒng)都會實現(xiàn)逐層擴展機制，以最小化冗余，同時通過控制復(fù)雜度進程來防止推理捷徑。

種子任務(wù)構(gòu)建

為了構(gòu)建種子任務(wù)，作者下載了全部 WikiPedia，并在詞條中隨機游走檢索信息，合成基礎(chǔ)的種子 IS 任務(wù)。

KP 表示

IS 任務(wù)形式化模型是復(fù)雜度的，其中包含大量的交、R - 并和遞歸操作。為了在 Expander 中表示和使用該模型，作者提出了一種 KP 表示。其中通過引入「變量」和「常量」，以及 R - 并的可交換性質(zhì)，表示了 IS 形式化模型。

如，將如下的問題：

「Which player of a team in the 2004-05 season, who was born in 90s? This team is founded in 1966 and is an East German football team.」

表示為：

圖表 4 ：形式化表示。

逐層擴展結(jié)構(gòu)

數(shù)據(jù)擴展的策略是數(shù)據(jù)合成的關(guān)鍵。之前的方法在我們的形式化模型中將得到下圖中的 Random Structure 和 Sequential Structure：

圖表 5 ：擴展策略對比。

這樣的結(jié)構(gòu)存在兩個問題：

冗余性：如上圖中的 Random Structure 所示，存在一些已知常量與其他已知常量相聯(lián)系。在這種情況下，諸如「柏林迪納摩是一家位于柏林的足球俱樂部」這樣的句子會存在于問題中。然而，這并沒有增加任務(wù)解決的推理鏈。
推理捷徑：如上圖中的 Sequential Structure 所示，存在一個將常量直接連接到目標的推理鏈條。如果發(fā)生這種情況，模型可能會通過僅推理較近的常量而忽略較深的序列來猜測答案。

為此，作者提出如上圖所示的逐層結(jié)構(gòu)，每次擴展都選擇葉結(jié)點常量進行擴展，有效地解決了上述的兩個問題。

擴展智能體

具體擴展是由 Expander 智能體負責(zé)執(zhí)行，他接受當(dāng)前問題的形式化表示：

根據(jù)圖結(jié)構(gòu)層次遍歷找到可擴展常量節(jié)點；
調(diào)用搜索、網(wǎng)頁摘要、驗證等工具；
自動生成形式化任務(wù)、并進行答案驗證和復(fù)雜度過濾。

這一步，使得我們不僅能構(gòu)建覆蓋度廣的任務(wù)，更能確保任務(wù)正確性和推理鏈條的嚴謹性，大幅減少錯誤傳播。

Agent 訓(xùn)練

基于形式化生成的高質(zhì)量任務(wù)和完整的行為軌跡，作者使用監(jiān)督微調(diào)（SFT）+ GRPO 強化學(xué)習(xí)策略來訓(xùn)練 Agent。WebShaper 最終得到 5k 的訓(xùn)練軌跡。

訓(xùn)練后，模型在 GAIA 基準任務(wù)中獲得：

60.1 分，超越所有開源方案
閉源模型 GPT4.1 只有 40.7 分、Claude Sonnet4 58.2 分、O4 mini 66.99

我們在全使用開源模型方案下拉近了用最強閉源模型 o4 mini 的差距，大幅領(lǐng)先第二名的開源方案。

圖表 6 ：與最新基線方法的對比。

進一步分析

論文中，作者還進一步分析了數(shù)據(jù)和訓(xùn)練模型，發(fā)現(xiàn)：

1. WebShaper 數(shù)據(jù)領(lǐng)域覆蓋充分。

2. 在 WebShaper 數(shù)據(jù)上，通過 RL 訓(xùn)練能大幅激發(fā)模型的 IS 能力。

3. 消融實驗驗證了形式化建模和逐層擴展策略的有效性。

4. 求解 WebShaper 任務(wù)，相比于基線數(shù)據(jù)要求更多的智能體 action。

為什么這件事重要？

任務(wù)形式化 = WebShaper 是基于形式化任務(wù)合成數(shù)據(jù)的開端。該思想可以擴展于相比 IS 更為復(fù)雜的任務(wù)。
數(shù)據(jù)質(zhì)量 = Agent 能力上限。好的智能體，先要有好的訓(xùn)練任務(wù)。
Agentic 數(shù)據(jù)合成 = 智能體數(shù)據(jù)構(gòu)建需要結(jié)合推理和信息檢索，使用 agent 合成數(shù)據(jù)可以大幅減少中間過程開銷和誤差傳遞。
開源共享 = 社區(qū)生態(tài)繁榮。我們相信，用最開放的方式推動最前沿的研究，是 AI 發(fā)展的正路。

用開源數(shù)據(jù) + 模型做到 GAIA 60 分，你也可以。

現(xiàn)在就來試試：https://github.com/Alibaba-NLP/WebAgent

責(zé)任編輯：張燕妮來源：機器之心

AI 模型數(shù)據(jù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="nyiu8"></cite>

<p id="nyiu8"></p>