偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

網(wǎng)頁(yè)智能體新突破!引入?yún)f(xié)同進(jìn)化世界模型,騰訊AI Lab提出新框架

人工智能 新聞
騰訊AI Lab提出WebEvolver框架,通過(guò)引入?yún)f(xié)同進(jìn)化的世界模型(World Model),讓智能體在真實(shí)網(wǎng)頁(yè)環(huán)境中實(shí)現(xiàn)10%的性能提升。

讓網(wǎng)頁(yè)智能體自演進(jìn)突破性能天花板!

騰訊AI Lab提出WebEvolver框架,通過(guò)引入協(xié)進(jìn)化的世界模(World Model),讓智能體在真實(shí)網(wǎng)頁(yè)環(huán)境中實(shí)現(xiàn)10%的性能提升。

由此突破現(xiàn)有基于大語(yǔ)言模型(LLM)的網(wǎng)頁(yè)智能體“自我迭代演進(jìn)的性能最終會(huì)停滯”的瓶頸。

圖片

下面的案例展示了世界模型在GitHub搜索界面中的合成軌跡生成能力:

圖片

研究指出,世界模型具有知識(shí)遷移能力,盡管世界模型未專(zhuān)門(mén)訓(xùn)練過(guò)GitHub中“點(diǎn)擊排序菜單”這類(lèi)操作,卻能準(zhǔn)確生成GitHub搜索的排序選項(xiàng)(如“最佳匹配”、“最多星標(biāo)”等),這表明LLM內(nèi)建的網(wǎng)頁(yè)結(jié)構(gòu)常識(shí)知識(shí)具有可遷移性。

另外研究還指出世界模型具有多樣化軌跡生成能力,世界模型生成的菜單項(xiàng)與真實(shí)網(wǎng)站高度吻合,證明其能有效提升與未見(jiàn)過(guò)網(wǎng)站的交互多樣性,這種能力源于LLM預(yù)訓(xùn)練階段吸收的海量網(wǎng)頁(yè)知識(shí)。

團(tuán)隊(duì)認(rèn)為,該發(fā)現(xiàn)驗(yàn)證了世界模型作為“虛擬網(wǎng)頁(yè)引擎”的核心價(jià)值——即使存在輕微幻覺(jué),其生成的多樣化軌跡仍能顯著提升Agent的訓(xùn)練效果。

以下是論文詳情。

引入?yún)f(xié)同進(jìn)化的世界模型

最近,世界模型迎來(lái)了一波熱潮:Yann Lecun推出了全新的世界模型V-JEPA 2,谷歌也發(fā)布了理論成果,證明General agents need world models,這些進(jìn)展都凸顯了世界模型在智能體發(fā)展中的重要性。

論文指出,當(dāng)前智能體自我迭代的瓶頸源于兩大核心問(wèn)題:

  • 探索局限:隨著訓(xùn)練深入,智能體策略趨于保守,難以發(fā)現(xiàn)新?tīng)顟B(tài)和動(dòng)作
  • 知識(shí)閑置:LLM預(yù)訓(xùn)練時(shí)積累的海量網(wǎng)頁(yè)知識(shí)未被充分激活

就像人類(lèi)需要想象力來(lái)規(guī)劃行動(dòng),智能體也可以使用一個(gè)’大腦模擬器’來(lái)預(yù)演不同操作的結(jié)果。

研究團(tuán)隊(duì)創(chuàng)新性地引入了協(xié)同進(jìn)化的世界模型LLM。

在網(wǎng)頁(yè)Agent場(chǎng)景中,世界模型被定義為這樣一種LLM:

其輸入為(當(dāng)前網(wǎng)頁(yè)觀測(cè)、待執(zhí)行的操作),輸出則是執(zhí)行該操作后的網(wǎng)頁(yè)觀測(cè)。

盡管在此過(guò)程中可能會(huì)出現(xiàn)“幻覺(jué)”問(wèn)題,例如LLM無(wú)法輸出實(shí)時(shí)信息,或其內(nèi)部存儲(chǔ)的網(wǎng)頁(yè)知識(shí)可能存在錯(cuò)誤,但這并不影響整體框架的有效性。因?yàn)楸疚牡暮诵哪繕?biāo)是讓智能體在多樣化的網(wǎng)站環(huán)境中進(jìn)行穩(wěn)健推理,而非要求世界模型完美預(yù)測(cè)下一頁(yè)面。

(注:未來(lái)研究可聚焦于細(xì)粒度的下一頁(yè)面預(yù)測(cè),具體可通過(guò)在生成過(guò)程中對(duì)實(shí)時(shí)信息進(jìn)行占位符掩碼處理,等待外部工具填充真實(shí)數(shù)據(jù)來(lái)實(shí)現(xiàn)。)

圖片

這個(gè)世界模型扮演著雙重角色:

1、虛擬服務(wù)器:生成多樣化的合成訓(xùn)練軌跡

通過(guò)世界模型模擬與未見(jiàn)網(wǎng)頁(yè)的交互。具體操作為,將原本網(wǎng)頁(yè)智能體系統(tǒng)中的網(wǎng)頁(yè)服務(wù)器直接替換為世界模型LLM來(lái)進(jìn)行交互、采集生成的軌跡,作為額外的訓(xùn)練數(shù)據(jù)(圖2上半部分)。

2、想象引擎:推理時(shí)多步前瞻推演

使用類(lèi)似WebDreamer的基于LLM對(duì)未來(lái)預(yù)測(cè)進(jìn)行action篩選的方法,在每一步action生成時(shí)生成多個(gè)候選,利用世界模型來(lái)對(duì)每個(gè)action未來(lái)1~3步的結(jié)果進(jìn)行預(yù)測(cè)。使用GPT-4o對(duì)候選動(dòng)作評(píng)估潛在收益后執(zhí)行最佳操作(圖2下半部分)。

協(xié)同自演進(jìn)實(shí)驗(yàn)技術(shù)方案詳解

本研究構(gòu)建了一個(gè)完整的自演進(jìn)學(xué)習(xí)框架,其核心組件包括:

基礎(chǔ)架構(gòu)

  • 數(shù)據(jù)集:OpenWebVoyager標(biāo)準(zhǔn)數(shù)據(jù)集(包含48種網(wǎng)站)
  • 框架支持:Cognitive Kernel Agent瀏覽器交互環(huán)境
  • 基座模型:純文本大模型Llama-3.3(70B參數(shù)版本)

數(shù)據(jù)采集流程

  • 采用Cognitive Kernel+Llama-3.3組合進(jìn)行多步軌跡采樣
  • 通過(guò)”拒絕采樣”機(jī)制篩選成功完成的軌跡
  • 保留軌跡中的完整推理鏈(Chain-of-Thought)信息

雙模型協(xié)同訓(xùn)練機(jī)制

  • Agent策略模型:學(xué)習(xí)軌跡中的動(dòng)作決策模式
  • 世界模型:重構(gòu)為”當(dāng)前觀察+動(dòng)作→下一觀察”的預(yù)測(cè)任務(wù)
  • 兩模型共享采樣數(shù)據(jù)但采用不同訓(xùn)練目標(biāo)函數(shù)

技術(shù)突破點(diǎn)

  • 首創(chuàng)將瀏覽器交互軌跡同時(shí)用于策略模型和世界模型訓(xùn)練
  • 通過(guò)軌跡格式轉(zhuǎn)換實(shí)現(xiàn)單數(shù)據(jù)源多任務(wù)學(xué)習(xí)
  • 建立可擴(kuò)展的自演進(jìn)訓(xùn)練范式(iterative bootstrapping)

重復(fù)多輪(3輪)自演進(jìn)之后,在WebVoyager和Mind2web-live數(shù)據(jù)集上進(jìn)行測(cè)試,自演進(jìn)結(jié)果:

圖片圖片

結(jié)果:

  • 自演進(jìn)baseline在第二輪后增長(zhǎng)受限
  • 世界模型對(duì)突破性能瓶頸的關(guān)鍵作用
  • 合成軌跡數(shù)據(jù)有效提升探索多樣性
  • 多步前瞻(d=2)達(dá)到最佳性價(jià)比

在GAIA和SimpleQA (前100條數(shù)據(jù),和bing.com進(jìn)行交互搜索) 這兩個(gè)有標(biāo)準(zhǔn)答案的數(shù)據(jù)上進(jìn)行out-of-domain測(cè)試,也能顯著提升結(jié)果。

圖片

團(tuán)隊(duì)對(duì)世界模型的網(wǎng)頁(yè)建模能力也進(jìn)行了一些評(píng)估,在測(cè)試的軌跡里采樣了一些軌跡,讓世界模型根據(jù)上一步觀測(cè)和執(zhí)行的action預(yù)測(cè)下一步的觀測(cè)。

圖片

評(píng)估標(biāo)準(zhǔn)為:

  • 結(jié)構(gòu)正確性(STR):檢驗(yàn)生成網(wǎng)頁(yè)的可訪問(wèn)性樹(shù)在層級(jí)結(jié)構(gòu)和元素關(guān)系上是否符合真實(shí)網(wǎng)頁(yè)的拓?fù)溥壿?/span>
  • 內(nèi)容相似度(Sim.):量化生成內(nèi)容與真實(shí)網(wǎng)頁(yè)在文本語(yǔ)義層面的匹配程度
  • 整體功能評(píng)估(O/A):綜合判斷生成網(wǎng)頁(yè)在交互功能和語(yǔ)義表達(dá)上的可用性

評(píng)估重點(diǎn)特別關(guān)注交互元素(按鈕/輸入框等)的功能完整性、動(dòng)態(tài)內(nèi)容(如搜索結(jié)果)的邏輯合理性、網(wǎng)頁(yè)核心功能的可操作性。

該評(píng)估體系有效驗(yàn)證了世界模型對(duì)網(wǎng)頁(yè)狀態(tài)變化的預(yù)測(cè)能力,為模型優(yōu)化提供了量化依據(jù)。發(fā)現(xiàn)世界模型的能力隨著自演進(jìn)的步驟提升而上升。

總之,WebEvolver框架通過(guò)世界模型與智能體的協(xié)同進(jìn)化,成功突破傳統(tǒng)自演進(jìn)智能體的性能天花板。該技術(shù)為構(gòu)建持續(xù)進(jìn)化的通用網(wǎng)絡(luò)智能體提供了新范式,為后續(xù)無(wú)環(huán)境RL的實(shí)現(xiàn)提供引導(dǎo)。

論文網(wǎng)址:https://arxiv.org/pdf/2504.21024

GitHub:https://github.com/Tencent/SelfEvolvingAgent/tree/main/WebEvolver

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-05-29 09:57:38

2025-10-22 09:00:00

2021-02-07 10:01:31

AI 數(shù)據(jù)人工智能

2025-03-12 12:10:13

2025-05-07 16:27:23

2025-06-03 06:12:03

2023-06-05 10:09:03

研究人工智能

2025-10-28 15:53:21

2025-01-26 11:00:00

2025-09-30 08:48:39

2025-10-17 09:09:46

2024-01-22 12:31:18

模型訓(xùn)練

2025-08-07 09:15:00

2025-08-29 00:10:00

2025-03-07 10:24:43

2025-10-13 09:46:12

2025-09-18 09:00:47

2024-07-08 08:47:00

2025-09-22 09:17:48

騰訊Youtu LabHiChunk

2022-05-12 13:39:48

AI研究模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)