偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

GPT-4o-Image僅完成28.9%任務(wù)!上海AI實(shí)驗(yàn)室等發(fā)布圖像編輯新基準(zhǔn),360道人類專家嚴(yán)選難題

人工智能 新聞
360個(gè)全部由人類專家仔細(xì)思考并校對(duì)的高質(zhì)量測(cè)試案例,暴露多模態(tài)模型在結(jié)合推理能力進(jìn)行圖像編輯時(shí)的短板。

GPT-4o-Image也只能完成28.9%的任務(wù),圖像編輯評(píng)測(cè)新基準(zhǔn)來了!

360個(gè)全部由人類專家仔細(xì)思考并校對(duì)的高質(zhì)量測(cè)試案例,暴露多模態(tài)模型在結(jié)合推理能力進(jìn)行圖像編輯時(shí)的短板。

圖片

最近,上海人工智能實(shí)驗(yàn)室聯(lián)手上海交大、同濟(jì)大學(xué)、武漢大學(xué)、普林斯頓大學(xué)的研究人員,針對(duì)圖像編輯AI提出了三個(gè)問題:

  • 現(xiàn)有的圖像編輯評(píng)測(cè)基準(zhǔn)是否已經(jīng)無法跟上時(shí)代的步伐?
  • 僅僅停留在“更換顏色”等改變物體表層屬性的測(cè)試,是否已顯得過于簡(jiǎn)單,無法真正衡量AI的“深度理解”能力?
  • 當(dāng)指令變得更加復(fù)雜,涉及圖片背后的邏輯、上下文關(guān)聯(lián)甚至隱含意圖時(shí),現(xiàn)有模型能否正確“領(lǐng)會(huì)”并精準(zhǔn)執(zhí)行,同時(shí)保證生成圖像的質(zhì)量和與原圖的自然一致性?

為了填補(bǔ)這一空白,深度挖掘并客觀評(píng)估視覺編輯模型在理解復(fù)雜指令方面的能力上限,團(tuán)隊(duì)推出了一項(xiàng)全新任務(wù)——Reasoning-Informed ViSual Editing (RISE)。

另外,他們還配套發(fā)布了一個(gè)高質(zhì)量評(píng)測(cè)基準(zhǔn)——RISEBench,覆蓋時(shí)間、因果、空間、邏輯四種核心推理類型,每個(gè)案例包含原圖和編輯指令。

圖片

例如輸入一張圖像,展示了一片草地上有片枯葉,上方有個(gè)放大鏡,任務(wù)指令為“畫出該場(chǎng)景在夏天30秒后的模樣”。

圖片

團(tuán)隊(duì)測(cè)試了當(dāng)前性能領(lǐng)先的九個(gè)視覺編輯模型,實(shí)驗(yàn)測(cè)試結(jié)果令人意外:

即使是最強(qiáng)的GPT-4o-Image,在復(fù)雜視覺編輯任務(wù)中的準(zhǔn)確率也僅為28.9%,最強(qiáng)的開源模型BAGEL僅能完成5.8%的任務(wù),其它被測(cè)開源模型完成率幾乎為零,顯示出當(dāng)前開源模型與閉源模型在視覺理解能力上的差距。

以下是更多細(xì)節(jié)。

RISEBench長啥樣?

與傳統(tǒng)評(píng)測(cè)基準(zhǔn)不同,RISEBench旨在評(píng)估視覺編輯模型在各類需要深層理解的指令上的性能。它不僅僅停留在表面修改,更深入地探索視覺編輯模型對(duì)時(shí)間、因果、空間和邏輯等復(fù)雜概念的把握。

圖片

RISEBench精心設(shè)計(jì)了360道高難度問題,全部由人類專家仔細(xì)思考并校對(duì),確保了問題的嚴(yán)謹(jǐn)性和挑戰(zhàn)性。這些題目被劃分為四大核心類別,旨在全面考驗(yàn)?zāi)P偷耐评砟芰Γ?/span>

  • Temporal Reasoning(時(shí)間推理): 考驗(yàn)?zāi)P蛯?duì)時(shí)間線索的理解和未來/過去狀態(tài)的預(yù)測(cè)。
  • Causal Reasoning(因果推理): 評(píng)估模型能否理解各類動(dòng)作(碰撞,點(diǎn)燃,物理化學(xué)反應(yīng)等)與結(jié)果之間的因果關(guān)系。
  • Spatial Reasoning(空間推理): 挑戰(zhàn)模型對(duì)物體空間位置、關(guān)系、視角變換等想象能力的掌握。
  • Logical Reasoning(邏輯推理): 衡量模型對(duì)抽象規(guī)則、數(shù)學(xué)運(yùn)算、邏輯關(guān)系的推斷能力。

為了確保評(píng)估的全面性和泛化性,RISEBench的輸入圖像來源廣泛,包括互聯(lián)網(wǎng)數(shù)據(jù)、已有基準(zhǔn)、模型生成圖像以及代碼生成圖像等多個(gè)不同分布的數(shù)據(jù)源。

這種多源異構(gòu)的設(shè)計(jì),能夠廣泛細(xì)致地考驗(yàn)?zāi)P蛯?duì)不同輸入圖像和指令的應(yīng)對(duì)能力,避免模型在特定數(shù)據(jù)分布上過擬合。

圖片

自動(dòng)化的細(xì)粒度評(píng)估體系

為了精準(zhǔn)、高效地評(píng)判模型輸出是否符合要求,作者團(tuán)隊(duì)將整體評(píng)估拆分成了三個(gè)關(guān)鍵子維度,并采用前沿的多模態(tài)大模型作為評(píng)判專家(LMM-as-Judge)的方式,使用GPT-4.1作為評(píng)估模型對(duì)每個(gè)維度進(jìn)行打分,確保評(píng)估的客觀性和一致性。

1、Instruction Reasoning(指令理解): 考核模型是否準(zhǔn)確理解了指令的深層含義。

  • 對(duì)于輸出結(jié)果可用文字準(zhǔn)確描述的指令,評(píng)估模型會(huì)判斷生成圖像與給定文本答案是否匹配。
  • 對(duì)于最終輸出難以用文字描述的復(fù)雜指令,我們針對(duì)性地提供了用于參考的圖像回答,評(píng)估模型將判斷生成圖像是否與參考圖像相匹配。

2、Appearance Consistency(外觀一致性): 評(píng)估生成圖像與原圖在背景以及風(fēng)格、紋理等與指令無關(guān)的視覺元素上的一致性,確保編輯自然。

3、Visual Plausibility(視覺合理性): 衡量生成圖像的整體視覺質(zhì)量、真實(shí)感和視覺合理性,避免出現(xiàn)不自然或失真的效果。

每個(gè)維度均為1-5分,當(dāng)三個(gè)維度均為滿分時(shí)標(biāo)記為完成了編輯任務(wù)。這種細(xì)粒度的評(píng)估設(shè)計(jì)顯著提升了模型打分與人類判斷的對(duì)齊程度,為未來視覺編輯模型的發(fā)展提供了更加可靠和公正的評(píng)估體系。

圖片

視覺編輯模型理解能力遠(yuǎn)未及格

作者團(tuán)隊(duì)對(duì)近期備受關(guān)注的多個(gè)閉源及開源模型進(jìn)行了嚴(yán)格評(píng)估,包括GPT-4o-Image、Gemini-Flash-2.0-Series (Experimental & Preview)、HiDream-Edit以及開源模型BAGEL、Step1X-Edit、OmniGen、EMU2、Flux.1。

結(jié)果令人深思:

  • 全面欠缺: 測(cè)評(píng)結(jié)果明確指出,當(dāng)前的視覺編輯模型在完成復(fù)雜指令方面仍存在相當(dāng)大的欠缺。它們距離真正“讀懂”用戶的深層意圖,還有很長的路要走。
  • GPT-4o-Image一騎絕塵,但仍遠(yuǎn)低于預(yù)期: 即使是目前公認(rèn)最強(qiáng)的閉源模型GPT-4o-Image,在RISEBench上也僅僅只能完美完成28.9%的任務(wù)。
  • 閉源與開源差距顯著: 排名第二、第三的Gemini-Flash-2.0-Experimental和Gemini-Flash-2.0-Preview,分別僅能完成13.3%和9.4%的任務(wù),與GPT-4o-Image之間存在著明顯的代際差距。更令人擔(dān)憂的是,最強(qiáng)的開源模型BAGEL僅能完成5.8%的任務(wù),這彰顯出當(dāng)前開源模型與閉源模型之間在視覺理解能力上的巨大鴻溝。 其他被測(cè)模型的完成率幾乎為零,暴露出其薄弱的理解能力。

圖片

為了更深入地分析各模型的表現(xiàn),研究團(tuán)隊(duì)還統(tǒng)計(jì)了每個(gè)模型在指令理解(Instruction Reasoning)、外觀一致性(Appearance Consistency)和視覺合理性(Visual Plausibility)這三個(gè)評(píng)估維度上的平均得分,揭示了其短板所在。

結(jié)果表明:

  • 領(lǐng)先者全面發(fā)展: GPT和Gemini系列模型在所有三個(gè)維度上都展現(xiàn)出了相對(duì)較高的水準(zhǔn),因此在整體任務(wù)完成度上表現(xiàn)相對(duì)更佳。
  • 開源模型短板明顯: BAGEL雖然在指令理解能力上僅次于GPT和Gemini,但在生成圖像的視覺合理性上得分較低,這意味著其輸出圖像往往存在更多的失真或模糊現(xiàn)象,影響了最終得分。
  • 各有側(cè)重,但均有缺陷: HiDream-Edit雖然具備部分理解能力,但在保持輸出圖像內(nèi)容一致性上表現(xiàn)較差,容易出現(xiàn)與原圖脫節(jié)的情況。Step1X-Edit雖然能生成較高視覺合理性的圖像,但其指令理解能力和一致性表現(xiàn)均較低。
  • 理解力成為決定性因素: 其他模型由于幾乎完全沒有理解能力,且在保持一致性方面也表現(xiàn)不佳,最終導(dǎo)致其整體完成度接近于0。

團(tuán)隊(duì)認(rèn)為,這些細(xì)致的評(píng)估結(jié)果清晰地揭示了當(dāng)前視覺編輯模型所面臨的嚴(yán)峻挑戰(zhàn):

不僅僅是簡(jiǎn)單的技術(shù)實(shí)現(xiàn),更深層次的認(rèn)知和推理能力才是決定未來模型性能的關(guān)鍵瓶頸。

圖片

最后,作者團(tuán)隊(duì)展望未來并表示:

RISEBench的發(fā)布,標(biāo)志著圖像編輯評(píng)測(cè)標(biāo)準(zhǔn)的一次重大升級(jí)。希望它能推動(dòng)下一代視覺編輯模型發(fā)展,引領(lǐng)編輯模型從“模仿”走向“理解”,最終實(shí)現(xiàn)真正智能、富有創(chuàng)造力的視覺交互。

論文鏈接:https://arxiv.org/pdf/2504.02826GitHub鏈接:https://github.com/PhoenixZ810/RISEBench

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-06-27 12:45:30

2023-11-07 18:08:03

GPT-4模型

2025-04-01 09:25:00

2018-07-05 17:50:14

AI

2025-05-07 13:51:49

模型數(shù)據(jù)

2025-04-07 02:33:00

GPT-4.5GPT-4oAI

2024-05-14 11:29:15

2025-07-22 10:45:55

2021-08-04 09:48:05

數(shù)字化

2011-02-24 17:31:41

2025-01-17 10:30:00

2011-09-05 16:01:51

2011-08-04 16:58:12

惠普數(shù)學(xué)實(shí)驗(yàn)室

2012-05-08 11:47:50

傲游視頻加速測(cè)試

2012-05-04 13:53:29

視頻加速傲游

2015-03-27 15:41:42

AdobeAcrobat DC

2024-12-18 13:24:30

谷歌AI大語言模型

2015-02-06 09:23:52

賽可達(dá)實(shí)驗(yàn)室網(wǎng)絡(luò)安全

2024-06-28 18:13:05

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)