偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

讓模型“看視頻寫網(wǎng)頁(yè)”,GPT-5僅得36.35分!上海AI Lab聯(lián)合發(fā)布首個(gè)video2code基準(zhǔn)

人工智能 新聞
上海人工智能實(shí)驗(yàn)室聯(lián)合浙江大學(xué)等機(jī)構(gòu)的研究者,提出了IWR-Bench——一個(gè)旨在更真實(shí)地評(píng)估LVLM交互式網(wǎng)頁(yè)重建能力的評(píng)測(cè)基準(zhǔn)。

多模態(tài)大模型在根據(jù)靜態(tài)截圖生成網(wǎng)頁(yè)代碼(Image-to-Code)方面已展現(xiàn)出不俗能力,這讓許多人對(duì)AI自動(dòng)化前端開發(fā)充滿期待。

然而,一個(gè)網(wǎng)頁(yè)的真正價(jià)值遠(yuǎn)不止于其靜態(tài)布局。用戶的點(diǎn)擊、篩選、表單提交,乃至游戲中的每一步操作,都構(gòu)成了其核心的交互功能。這些動(dòng)態(tài)、有狀態(tài)的交互邏輯,恰恰是傳統(tǒng)靜態(tài)評(píng)測(cè)無(wú)法觸及的盲區(qū)。

為了填補(bǔ)這一關(guān)鍵空白,上海人工智能實(shí)驗(yàn)室聯(lián)合浙江大學(xué)等機(jī)構(gòu)的研究者,提出了IWR-Bench——一個(gè)旨在更真實(shí)地評(píng)估LVLM交互式網(wǎng)頁(yè)重建能力的評(píng)測(cè)基準(zhǔn)。

IWR-Bench的核心轉(zhuǎn)變?cè)谟?,它不再提供靜態(tài)截圖,而是要求模型觀看一段記錄了完整用戶操作流程的視頻,并結(jié)合網(wǎng)頁(yè)所需的全部靜態(tài)資源(如圖片、圖標(biāo)、子視頻等),去理解并復(fù)現(xiàn)整個(gè)頁(yè)面的動(dòng)態(tài)行為。任務(wù)的復(fù)雜性跨度很大,從簡(jiǎn)單的瀏覽功能,到需要逆向工程游戲規(guī)則的2048、訂機(jī)票等應(yīng)用。

這項(xiàng)任務(wù)的難度遠(yuǎn)超預(yù)期。在對(duì)28個(gè)主流模型的全面測(cè)試中,即便是表現(xiàn)最好的模型GPT-5,其綜合得分也僅有36.35分。這一結(jié)果清晰地指出了當(dāng)前模型的核心短板,IWR-Bench不僅為領(lǐng)域提供了一個(gè)更具挑戰(zhàn)性的新目標(biāo),也為未來(lái)的研究指出了一個(gè)新的方向。

核心亮點(diǎn)

  • 首個(gè)視頻輸入的交互網(wǎng)頁(yè)重建評(píng)測(cè):從“image-to-code”邁向“video-to-code”,對(duì)網(wǎng)頁(yè)事件驅(qū)動(dòng)邏輯的生成提出剛性要求
  • 真實(shí)場(chǎng)景、完整資源:113個(gè)網(wǎng)站任務(wù)、1001次交互動(dòng)作;提供全部靜態(tài)資源并匿名化命名,逼近真實(shí)開發(fā)
  • 自動(dòng)化Agent-as-a-Judge:用編程代理復(fù)現(xiàn)動(dòng)作軌跡,雙重評(píng)分同時(shí)評(píng)估功能正確性(IFS)與視覺保真度(VFS)
  • 28個(gè)LVLM系統(tǒng)測(cè)評(píng):最佳模型總分36.35%,IFS僅24.39%、VFS為64.25%;通用多模態(tài)模型顯著優(yōu)于“視頻專長(zhǎng)”模型

△10個(gè)代表性模型在IWR-Bench任務(wù)上的評(píng)測(cè)總覽

覆蓋全面的真實(shí)世界網(wǎng)頁(yè)任務(wù)

現(xiàn)有的網(wǎng)頁(yè)代碼生成基準(zhǔn)(如Design2Code、WebSight)主要聚焦于靜態(tài)截圖轉(zhuǎn)代碼(image2code),而IWR-Bench則專注于動(dòng)態(tài)視頻轉(zhuǎn)可交互網(wǎng)頁(yè)代碼(video2code):

傳統(tǒng)任務(wù): 給AI一張網(wǎng)頁(yè)截圖 → 生成HTML/CSS代碼IWR任務(wù): 給AI一段用戶操作視頻 + 網(wǎng)頁(yè)靜態(tài)資源 → 生成包含完整交互邏輯的代碼

值得一提的是,每個(gè)任務(wù)都提供了完整的靜態(tài)資源(圖片、圖標(biāo)、視頻等),并且所有文件名都經(jīng)過匿名化處理(如logo.png → asset_001.png),迫使模型必須依靠視覺匹配而非語(yǔ)義推理。靜態(tài)資源的引入,也為直接基于渲染結(jié)果而非HTML代碼進(jìn)行評(píng)測(cè)提供了關(guān)鍵幫助。

下圖為IWR-Bench任務(wù)和評(píng)測(cè)總覽,模型輸入包括(a)用戶交互視頻,(b)爬取的靜態(tài)資源的縮略圖與文件路徑,要求模型輸出html代碼。評(píng)測(cè)時(shí),通過agent在瀏覽器上基于(c)標(biāo)注的操作軌跡進(jìn)行操作,以實(shí)現(xiàn)基于檢查點(diǎn)的自動(dòng)化評(píng)分。

IWR任務(wù)對(duì)模型的三大核心挑戰(zhàn)包括:

  • 多模態(tài)理解:從視頻幀精準(zhǔn)捕捉布局、文本與組件狀態(tài)
  • 多模態(tài)推理:在時(shí)間序列中推斷交互邏輯與因果關(guān)系,并將視頻元素與靜態(tài)資源可靠匹配與綁定
  • 高級(jí)代碼生成:將推斷出的狀態(tài)機(jī)與事件邏輯實(shí)現(xiàn)為可運(yùn)行的前端代碼

IWR任務(wù)的規(guī)模和覆蓋范圍如下:

  • 113個(gè)來(lái)自真實(shí)網(wǎng)站的任務(wù),分辨率覆蓋桌面與移動(dòng)端(19種,移動(dòng)占10.62%)
  • 共1001個(gè)交互動(dòng)作,平均每任務(wù)8.9步;其中620個(gè)視覺檢查點(diǎn)、403個(gè)邏輯斷言
  • 復(fù)雜任務(wù)包含2048、掃雷等完整游戲邏輯與GUI重建

評(píng)測(cè)框架和指標(biāo)

IWR-Bench采用了一套嚴(yán)格的自動(dòng)化評(píng)測(cè)協(xié)議,通過編程代理(基于browser-use庫(kù))來(lái)模擬真實(shí)用戶的網(wǎng)頁(yè)操作。

評(píng)測(cè)流程

  • 操作執(zhí)行:代理按照預(yù)定義的動(dòng)作序列操作生成的網(wǎng)頁(yè)
  • 功能驗(yàn)證:檢查每個(gè)操作是否能正確執(zhí)行,以及邏輯斷言是否滿足
  • 視覺對(duì)比:在關(guān)鍵檢查點(diǎn)截圖,與參考頁(yè)面進(jìn)行多維度對(duì)比

雙重評(píng)分體系

交互功能分?jǐn)?shù)(IFS):衡量功能正確性

  • 計(jì)算成功完成的操作占總操作數(shù)的比例, 操作失敗包括瀏覽器執(zhí)行失敗、邏輯斷言失敗
  • SOTA模型GPT-5的IFS僅為24.39%

視覺保真度分?jǐn)?shù)(VFS):衡量視覺還原度 - 結(jié)合低級(jí)特征(OCR文本相似度、DINO結(jié)構(gòu)相似度)

  • 融合高級(jí)評(píng)估(由Gemini-2.5-Pro進(jìn)行整體評(píng)判)
  • SOTA模型GPT-5的VFS為64.25%

評(píng)測(cè)結(jié)果

△IWR-Bench在28個(gè)模型上的評(píng)測(cè)結(jié)果

研究人員從中得到了三個(gè)關(guān)鍵發(fā)現(xiàn)。

首先,功能實(shí)現(xiàn)是最大瓶頸

所有模型的VFS都顯著高于IFS,這揭示了一個(gè)核心問題:

模型能夠較好地復(fù)現(xiàn)靜態(tài)視覺效果,但在生成事件驅(qū)動(dòng)邏輯方面嚴(yán)重不足。

例如,GPT-5能夠達(dá)到64.25%的視覺保真度,但功能正確性僅為24.39%——這意味著即使頁(yè)面”看起來(lái)對(duì)”,實(shí)際操作時(shí)有75%以上的功能無(wú)法正常工作。

其次,thinking版本帶來(lái)部分提升。

“thinking”版本模型普遍表現(xiàn)更好:

  • Claude-Sonnet-4 (thinking) vs. 普通版:34.62 vs. 34.00
  • Claude-Opus-4 (thinking) vs. 普通版:34.13 vs. 33.33
  • Gemini-2.5-Pro (thinking) vs. 普通版:30.36 vs. 30.31

但提升幅度有限,說(shuō)明基礎(chǔ)模型能力仍是決定性因素。

另外,現(xiàn)在的專有視頻理解模型效果不如通用多模態(tài)模型。

專門針對(duì)視頻理解訓(xùn)練的模型(如VideoLLaMA3、InternVideo)表現(xiàn)墊底,而通用的多模態(tài)大模型表現(xiàn)更優(yōu)。這表明,該任務(wù)與傳統(tǒng)的視頻理解任務(wù)具有顯著的差異性。

IWR-Bench的推出,標(biāo)志著AI從“看懂靜態(tài)網(wǎng)頁(yè)”到“理解動(dòng)態(tài)交互”的關(guān)鍵一步。36分的成績(jī)告訴我們:這條路還很長(zhǎng)。這不僅是對(duì)AI多模態(tài)能力的一次全面體檢,更是為多模態(tài)能力涌現(xiàn)指明了下一階段的攻堅(jiān)方向。

IWR-Bench由上海人工智能實(shí)驗(yàn)室聯(lián)合浙大、2077AI、港中文、斯坦福等單位共同完成,第一作者陳楊是浙江大學(xué)碩士生,通訊作者為上海人工智能實(shí)驗(yàn)室沈宇帆、石博天。

論文鏈接:
https://arxiv.org/abs/2509.24709
代碼地址:
https://github.com/L-O-I/IWR-Bench
數(shù)據(jù)地址:
https://huggingface.co/datasets/IWR-Bench/IWR-Bench
項(xiàng)目主頁(yè):
https://l-o-i.github.io/IWR-Bench/

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-02-12 10:12:00

視頻模型AI

2025-10-27 08:35:00

2025-04-01 09:25:00

2024-04-01 08:00:00

AI模型

2025-09-24 13:04:01

2024-01-09 12:53:16

模型訓(xùn)練

2023-06-16 13:02:22

GPT-5GPT-4AI

2025-10-28 09:03:08

2023-06-16 13:38:37

上海昇思AI框架昇思

2025-08-15 12:50:19

2024-06-17 18:04:38

2025-06-19 09:06:00

2025-09-23 09:13:37

2024-11-13 15:00:00

模型數(shù)據(jù)

2025-04-07 02:33:00

GPT-4.5GPT-4oAI

2023-05-22 15:59:03

開源模型

2025-08-08 09:22:40

2025-08-20 09:02:00

2025-08-08 16:22:19

GPT-5CIOIT 團(tuán)隊(duì)

2025-08-19 16:05:27

GPT-5AI代碼
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)