偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

修圖模型照妖鏡上線!ImgEdit-Bench三維「死亡評測」曝光,誰在裸泳一測便知

發(fā)布于 2025-5-29 10:22
瀏覽
0收藏

修圖模型照妖鏡上線!ImgEdit-Bench三維「死亡評測」曝光,誰在裸泳一測便知-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2505.20275 
Git鏈接:https://github.com/PKU-YuanGroup/ImgEdit

亮點直擊

  • 穩(wěn)健的流程。引入了一個高質量的數(shù)據(jù)生成流程,確保數(shù)據(jù)集具有多樣性、代表性,并具備足夠的質量以支持圖像編輯模型的開發(fā)。
  • 新數(shù)據(jù)集。構建了ImgEdit,一個大規(guī)模、高質量的數(shù)據(jù)集,包含110 萬單輪樣本(涵蓋10 種代表性編輯任務)和11 萬多輪樣本(包含3 種新穎的交互類型)。
  • 可靠的基準。發(fā)布了ImgEdit-Bench,該基準在三個關鍵維度(基礎測試集、挑戰(zhàn)性測試集和多輪測試集)上評估模型性能。
  • 先進模型。在ImgEdit上訓練了ImgEdit-E1,其在多項任務上超越現(xiàn)有開源模型。還發(fā)布了ImgEdit-Judge,這是一個與人類偏好對齊的評估模型。

總結速覽

解決的問題

  • 開源圖像編輯模型性能落后于閉源模型:主要原因是缺乏高質量的開源編輯數(shù)據(jù)集和有效的評估基準。
  • 現(xiàn)有數(shù)據(jù)集質量不足:圖像分辨率低、編輯提示簡單、編輯區(qū)域小、編輯不準確、概念不平衡、過濾不精確。
  • 復雜編輯任務支持不足:缺乏身份一致性保持、多對象同時操作、多輪交互編輯等任務。
  • 評估基準不完善:現(xiàn)有評估框架缺乏多樣性,未分層任務難度,過度關注編輯類別數(shù)量,忽視評估維度和測量準確性。

提出的方案

  1. ImgEdit 數(shù)據(jù)集
  • 包含120 萬高質量編輯樣本(110 萬單輪 + 11 萬多輪)。
  • 涵蓋10 種編輯操作,包括對象提取、多對象混合編輯等。
  • 多輪樣本支持內(nèi)容理解、內(nèi)容記憶、版本回溯。
  1. 自動化數(shù)據(jù)構建流程
  • 多階段篩選(美學評分、分辨率、可編輯區(qū)域)。
  • 結合開放詞匯檢測器 和 視覺分割模型 生成對象級標注。
  • 使用GPT-4o 生成多樣化單輪/多輪編輯提示。
  • 采用任務特定工作流(如 SOTA 生成模型)創(chuàng)建編輯對。
  • 通過GPT-4o 進行編輯對質量評估。
  1. ImgEdit-E1 模型:基于視覺語言模型(VLM)的編輯模型,支持參考圖像和編輯提示處理。
  2. ImgEdit-Bench 基準
  • 基礎測試集:評估指令遵循、編輯質量、細節(jié)保留。
  • 理解-定位-編輯(UGE)測試集:測試空間推理、多對象目標等復雜任務。
  • 多輪編輯測試集:評估內(nèi)容理解、記憶和回溯能力。
  • 引入ImgEdit-Judge 評估模型,與人類偏好對齊。

應用的技術

  • 數(shù)據(jù)生成
  • GPT-4o(生成多樣化編輯提示)。
  • 開放詞匯檢測器(對象定位)。
  • 視覺分割模型(精細化區(qū)域標注)。
  • SOTA 生成模型(如 Stable Diffusion、DALL·E 等)創(chuàng)建編輯圖像。
  • 模型訓練
  • 視覺語言模型(VLM) 架構,用于處理參考圖像和編輯指令。 - 評估方法
  • 自動化評估(ImgEdit-Judge):模擬人類偏好。
  • 多維度測試集(基礎、UGE、多輪)。

達到的效果

  • 數(shù)據(jù)集質量提升
  • 任務新穎性數(shù)據(jù)質量上超越現(xiàn)有數(shù)據(jù)集(如 MagicBrush、SEED-Data-Edit)。
  • 模型性能提升
  • ImgEdit-E1 在多項任務上優(yōu)于現(xiàn)有開源模型,縮小與閉源模型的差距。
  • 評估更全面
  • ImgEdit-Bench 提供分層難度評估,覆蓋基礎、復雜單輪、多輪編輯任務。
  • 通過ImgEdit-Judge 實現(xiàn)高效、可靠的大規(guī)模評估。

ImgEdit: 高質量數(shù)據(jù)集

ImgEdit 提供高保真度的編輯對,包含精確、全面的指令,并涵蓋更廣泛的實用和挑戰(zhàn)性編輯類型。先概述單輪和多輪編輯類型,接著詳述數(shù)據(jù)流程。再介紹 ImgEdit-E1,一個基于 ImgEdit 訓練的前沿編輯模型。最后展示數(shù)據(jù)集統(tǒng)計信息。

編輯類型定義

本文定義兩類編輯任務:單輪和多輪。單輪任務側重于覆蓋全面且實用的任務,而多輪任務則整合連續(xù)編輯場景中的指令和圖像交互。

單輪編輯

基于實際編輯需求,將單輪任務分為四類(如下圖1所示):

  • 局部編輯:包括添加、移除、替換、修改、動作變化對象提取操作。顏色、材質或外觀的變化歸類為修改。由于人物動作編輯是常見用例,特別支持針對人物的動作變化。此外,引入新穎的對象提取任務(如“將貓?zhí)崛〉桨咨尘啊保?,可在干凈背景上分離指定主體,同時保持身份一致性。該能力目前僅 GPT-4o-image 支持。
  • 全局編輯:包括背景替換風格/色調(diào)遷移。
  • 視覺編輯:基于參考圖像編輯(如“給貓?zhí)砑訃怼保_保對象一致性。與 AnyEdit 不同,省略了分割、草圖或布局引導的變體,因實際應用中此類視覺提示較少。
  • 混合編輯:單條指令中對多個對象應用兩種局部操作(如“添加圍巾并將貓毛色改為白色”)。

多輪編輯

基于現(xiàn)有多輪理解基準和實際需求,定義多輪編輯的三大挑戰(zhàn)(如下圖1所示):

  • 內(nèi)容記憶:對話早期引入的全局約束(如“所有生成需帶木質紋理”)需在后續(xù)輪次中保持。
  • 內(nèi)容理解:解析依賴代詞或省略主語的指令(如“將左側衣柜里的衣物改為黑色”隱含指代首輪添加的衣物)。
  • 版本回溯:基于早期版本編輯(如“撤銷上一步更改”)。這三類挑戰(zhàn)覆蓋了多輪交互編輯的主要難點。

修圖模型照妖鏡上線!ImgEdit-Bench三維「死亡評測」曝光,誰在裸泳一測便知-AI.x社區(qū)

自動化數(shù)據(jù)流程

數(shù)據(jù)準備

采用 LAION-Aesthetics 作為主數(shù)據(jù)集,因其場景多樣性、高分辨率和更廣的對象覆蓋。篩選條件:短邊≥1280像素且美學評分>4.75,得到60萬張圖像子集。使用GPT-4o生成簡潔描述并提取可編輯對象及背景名詞。

對象定位與分割

  1. 通過開放詞匯檢測器定位候選實體,生成邊界框。
  2. 利用SAM2將邊界框細化為分割掩碼。
  3. 計算裁剪對象的CLIPScore和面積占比,剔除低相似度或過小區(qū)域,確保目標準確且視覺顯著。
  • 背景替換任務要求編輯區(qū)域占比>40%。
  • 動作變化編輯:額外從Open-Sora Plan收集16萬對人物視頻幀,由 GPT-4o 標注動作,構成動作變化子集。

數(shù)據(jù)準備

采用LAION-Aesthetics作為核心數(shù)據(jù)集。該數(shù)據(jù)集在場景多樣性、分辨率以及物體類別的全面性上表現(xiàn)更優(yōu)。僅保留短邊≥1280像素且美學評分>4.75,得到60萬張圖像子集。使用GPT-4o重新生成簡潔的文本描述,并提取可編輯對象及背景名詞。每個候選實體通過開放詞匯檢測器進行定位,生成的邊界框再由SAM2優(yōu)化為分割掩碼。由此,每個對象和背景區(qū)域均獲得邊界框與掩碼。

由于檢測與分割并非完美,通過掩碼裁剪每個對象,并計算:

  • 裁剪區(qū)域與對象名稱的CLIPScore相似度
  • 區(qū)域面積占比

對相似度低或面積可忽略的區(qū)域進行剔除,確保剩余目標識別準確且視覺顯著性滿足后續(xù)編輯需求。具體而言,在背景替換任務中,要求編輯區(qū)域需占圖像總面積40%以上。

針對動態(tài)變化編輯任務,額外從內(nèi)部視頻庫Open-Sora Plan收集了16萬張以人物為主的圖像對。通過時間子采樣幀并利用GPT-4o標注動作信息,最終構成動態(tài)變化編輯子集。

指令生成模塊

通過原始圖像描述、編輯類型、邊界框和目標物體作為條件輸入生成指令。由于目標物體的精確定位對編輯至關重要,系統(tǒng)要求語言模型在編輯指令中嵌入物體位置和近似尺寸(以邊界框為參考)。低性能LLMs易引入知識偏差導致低質量指令,因此采用尖端大語言模型(如GPT-4o),該模型不僅能理解多樣化指令格式、生成概念豐富的編輯指令,還能高保真編碼空間信息。多輪指令生成時,提供少量上下文示例讓模型單次生成完整對話,再拆分為獨立輪次,每輪對話限制2-3回合,包含添加、刪除、替換、修改四類基礎操作。

修復工作流

選用FLUX和SDXL作為基礎生成模型,結合IP-Adapters、ControlNet等插件實現(xiàn)精準可控編輯。針對不同編輯場景構建定制化數(shù)據(jù)生產(chǎn)管線,例如:在視覺編輯任務中利用FLUX架構的上下文保持能力,通過FLUX-Redux控制語義一致性。生成圖像在審美質量和編輯保真度上均超越現(xiàn)有數(shù)據(jù)集。

后處理流程

在基于物體面積、CLIP分數(shù)和美學分數(shù)的粗過濾基礎上,使用GPT-4o進行精細過濾:為每個編輯對按編輯類型特定的評分標準分配質量分數(shù),并提供詳細評分依據(jù)供用戶篩選。

ImgEdit-E1評估模型

為評估所收集數(shù)據(jù)的質量,在ImgEdit數(shù)據(jù)集上訓練了ImgEdit-E1模型。如下圖2所示,該模型整合了視覺語言模型(VLM)、視覺編碼器以及Diffusion-in-Transformer(DiT)主干網(wǎng)絡。編輯指令與原始圖像共同輸入VLM處理,同時圖像經(jīng)由視覺編碼器并行處理。VLM的隱藏狀態(tài)與視覺編碼器的圖像特征分別通過多層感知機(MLP)映射后拼接,構成DiT的文本分支輸入。訓練采用兩階段策略:先優(yōu)化MLP參數(shù),隨后對FLUX模塊與MLP進行聯(lián)合微調(diào)。

修圖模型照妖鏡上線!ImgEdit-Bench三維「死亡評測」曝光,誰在裸泳一測便知-AI.x社區(qū)

數(shù)據(jù)集統(tǒng)計

包含120萬高質量圖像編輯對(含11萬組多輪樣本),覆蓋13類編輯任務。相比現(xiàn)有數(shù)據(jù)集,具有更豐富語義、更詳細指令、更高分辨率(平均短邊1280像素)和更優(yōu)編輯精度。其8.7k獨特詞匯量的指令多樣性,以及經(jīng)GPT-4o評估的最高編輯準確率(抽樣1000例驗證)尤為突出。像素級差異分析顯示,局部編輯區(qū)域修改幅度顯著大于其他數(shù)據(jù)集,且經(jīng)專業(yè)檢測器驗證更難定位編輯痕跡,證實其圖像質量優(yōu)勢。其物體提取和視覺編輯子集首次實現(xiàn)了高度主體一致性的編輯任務。完整統(tǒng)計數(shù)據(jù)見下圖3與表1。

修圖模型照妖鏡上線!ImgEdit-Bench三維「死亡評測」曝光,誰在裸泳一測便知-AI.x社區(qū)

修圖模型照妖鏡上線!ImgEdit-Bench三維「死亡評測」曝光,誰在裸泳一測便知-AI.x社區(qū)

ImgEdit-Bench:綜合性圖像編輯基準測試?

ImgEdit-Bench為單輪和多輪圖像編輯任務提供系統(tǒng)性評估框架。先闡述基準數(shù)據(jù)集的構建原則,接著定義量化評估指標,再提出專用于圖像編輯任務評估的模型ImgEdit-Judge。

修圖模型照妖鏡上線!ImgEdit-Bench三維「死亡評測」曝光,誰在裸泳一測便知-AI.x社區(qū)

基準數(shù)據(jù)集構建?

模型能力劃分為?基礎編輯能力?與?復雜場景性能?兩類:

基礎編輯測試集

我評估模型完成常規(guī)任務的能力,涵蓋添加、刪除、修改、替換、風格遷移、背景替換、動態(tài)調(diào)整、混合編輯、摳圖處理9大類任務。所有測試圖像均從互聯(lián)網(wǎng)人工收集。為確保語義多樣性,從六大超類別(人物、交通工具、自然、動物、建筑、生活必需品)中每類選取十個代表性概念。

  • 添加任務:為每張背景簡潔的圖片搭配五個不同概念的指令。
  • 移除/修改/替換/摳圖/混合編輯任務:選擇主體突出且物體稀疏的照片。
  • 風格遷移:測試主流藝術風格。
  • 背景替換:選用適合場景置換的圖像。
  • 動態(tài)變化:基于以人物為主的圖像進行評估。


所有指令均由GPT-4o初步生成,并經(jīng)過人工篩選。最終基準測試集包含734個測試用例,指令長度從簡略到詳盡不等。


理解-定位-編輯(UGE)測試套件?:人工精選47張互聯(lián)網(wǎng)復雜場景圖像,涵蓋目標局部遮擋、同類多實例、偽裝/低顯著性物體、罕見編輯對象四大挑戰(zhàn)。每圖設計需綜合空間推理、多目標協(xié)同操作、復合細粒度編輯或大規(guī)模修改的指令,提升單條指令的理解-定位-執(zhí)行難度。


多輪交互測試套件?:從?內(nèi)容記憶?、?上下文理解?、?版本回溯?三維度評估真實交互場景。每任務選取10張圖像人工設計3輪對話流程,形成結構化測試序列。

評估指標?

從?指令遵循度?、?編輯質量?、?細節(jié)保留度?三個維度量化模型性能:


指令遵循度?:衡量對指令語義理解和概念對齊能力,作為基礎得分限制其他兩項上限(編輯質量與細節(jié)保留得分不得超過該值);  編輯質量?:量化目標區(qū)域操作精度;  細節(jié)保留度?:評估非編輯區(qū)域保真程度。  評分采用GPT-4o按1-5分制執(zhí)行,每類任務配備詳細評分細則。多輪場景中由人工評估員基于標準化指南對模型輸出進行?二元判斷?。

真實性量化指標?:引入?偽造分數(shù)?評估生成圖像偽影可檢測性,采用最新開源取證檢測器FakeShield定位編輯痕跡。通過計算多類編輯數(shù)據(jù)集的召回率(以偽造為正類),橫向對比結果驗證生成圖像的視覺真實性與編輯質量。

ImgEdit-Judge評估模型?

鑒于視覺語言模型(VLM)評分相較于傳統(tǒng)相似性指標更具合理性,且當前缺乏開源的圖像編輯專用評估器,我們構建了包含20萬條后處理評分記錄的?任務平衡與評分平衡語料庫?,用于微調(diào)Qwen2.5-VL-7B模型。通過人工研究驗證,每張圖像由人工標注員、Qwen2.5-VL-7B、ImgEdit-Judge與GPT-4o-mini并行評分,并選取60張圖像進行深度分析。當模型評分與人工評分差異不超過1分時視為有效判定。如下圖4所示,ImgEdit-Judge與人工評判一致性接近70%,顯著優(yōu)于GPT-4o-mini和原生Qwen2.5-VL模型。

修圖模型照妖鏡上線!ImgEdit-Bench三維「死亡評測」曝光,誰在裸泳一測便知-AI.x社區(qū)

實驗分析?

本節(jié)系統(tǒng)評估現(xiàn)有編輯模型與ImgEdit-E1性能:先闡述實驗配置,再呈現(xiàn)結果定量與定性分析,最后展開深度討論。

實驗設置?

單輪測試環(huán)境?:
閉源模型?:GPT-4o-Image(Gemini-2.0-Flash未開放API) 開源模型?:Step1X-Edit、Ultra-Edit、AnySD、MagicBrush、InstructPix2Pix及ImgEdit-E1 架構對比?:除ImgEdit-E1與Step1X-Edit采用VLM文本編碼器+DiT主干網(wǎng)絡外,其余模型均基于UNet架構與預訓練文本編碼器。AnySD額外集成任務感知MoE模塊。

參數(shù)配置?:輸入分辨率:UltraEdit/AnySD輸出512×512像素,其余模型輸出1024×1024像素 重復實驗:每個模型執(zhí)行3次獨立實驗,報告平均得分 多輪測試?:僅支持GPT-4o-Image與Gemini-2.0-Flash兩模型

實驗結果?

定量評估首先對不同方法進行了全面的定性評估(結果如下圖5所示)。開源模型與閉源模型之間存在顯著性能差距:GPT-4o-image在所有維度上均優(yōu)于開源模型,僅在部分高難度任務中稍顯不足。該模型同時獲得最高的UGE綜合評分,展現(xiàn)出更強的理解能力、定位能力和編輯能力。

修圖模型照妖鏡上線!ImgEdit-Bench三維「死亡評測」曝光,誰在裸泳一測便知-AI.x社區(qū)

在開源模型中,ImgEdit-E1與Step1X-Edit表現(xiàn)最佳,在部分任務上接近閉源模型水平。其中:

  • ImgEdit-E1全任務表現(xiàn)均衡,因其采用高質量訓練數(shù)據(jù),在物體提取和混合編輯任務中顯著領先其他開源模型
  • Step1X-Edit綜合性能與ImgEdit-E1相當,但在背景替換、屬性修改等高難度任務中表現(xiàn)欠佳
  • AnySD各項任務表現(xiàn)中庸,可能因其數(shù)據(jù)集覆蓋編輯任務廣泛但數(shù)據(jù)質量不足
  • UltraEdit因訓練集未包含移除任務,在該任務中表現(xiàn)極差
  • MagicBrushInstructPix2Pix因訓練數(shù)據(jù)質量與模型結構過于簡單,存在圖像畸變、指令跟隨失敗等問題

值得注意的是,所有模型的編輯輸出均獲得極高的"虛假評分",表明現(xiàn)有檢測模型仍能輕易識別合成內(nèi)容。


在多輪編輯任務中,僅GPT-4o-ImageGemini-2.0-flash展現(xiàn)兩輪內(nèi)的版本回溯能力?,F(xiàn)有模型普遍存在內(nèi)容記憶與理解缺陷,時而出現(xiàn)指代誤解或前提丟失的情況,總體上對多輪編輯的支持仍不充分。

定性評估?

選取了多種任務的代表性案例進行定性分析,如下圖6所示。在改變自行車顏色同時保留積雪的任務中,僅有ImgEdit-E1和GPT-4o-Image成功達成。涉及物體移除的任務中,AnySD和Step1X-Edit生成結果模糊,Gemini錯誤地將路燈一并移除,其他模型則未能遵循指令。相比之下,ImgEdit-E1和GPT-4o-Image完美完成了任務。在背景修改任務中,ImgEdit-E1和Step1X-Edit在所有開源模型中與提示要求契合度最高。對于物體替換任務,閉源模型的處理結果明顯更自然,而多數(shù)開源模型未能完成編輯。在色彩修改任務中,只有ImgEdit-E1和閉源模型在保留復雜細節(jié)的同時精準遵循了指令。此外,僅GPT-4o-Image和ImgEdit-E1成功完成了物體提取任務。

修圖模型照妖鏡上線!ImgEdit-Bench三維「死亡評測」曝光,誰在裸泳一測便知-AI.x社區(qū)

討論?

根據(jù)基準測試結果,確定了影響編輯模型性能的三大關鍵因素:指令理解、區(qū)域定位和編輯執(zhí)行。

指令理解能力 

指模型解析編輯指令的能力,主要由文本編碼器決定,并顯著影響編輯效果。傳統(tǒng)模型使用T5或CLIP等編碼器,雖能處理簡單任務(如風格遷移),但在復雜的區(qū)域特定任務上表現(xiàn)欠佳。我們的評估顯示,ImgEdit-E1和Step1X-Edit大幅優(yōu)于其他開源模型,印證了更強文本編碼器和更豐富文本特征的重要性。

區(qū)域定位能力 

指準確識別并定位待編輯區(qū)域的能力,既依賴指令理解,也取決于視覺感知水平。在需要精確定位的任務(如屬性修改和物體提?。┲?,ImgEdit-E1的表現(xiàn)遠超現(xiàn)有開源編輯模型,凸顯了提示信息中空間定位的關鍵作用。

編輯執(zhí)行能力 

指泛化各類編輯操作的能力,主要取決于訓練數(shù)據(jù)的質量、規(guī)模和多樣性。由于物體提取任務缺乏高質量數(shù)據(jù),包括GPT-4o在內(nèi)的其他模型在此類任務中表現(xiàn)不佳,這再次證明構建全面、高質量編輯數(shù)據(jù)集的必要性。

結論?

ImgEdit框架

推動了圖像編輯領域的發(fā)展:它克服了現(xiàn)有數(shù)據(jù)集的質量缺陷,引入了實用的編輯任務分類體系,并為未來數(shù)據(jù)集構建提供了穩(wěn)健的流程。ImgEdit-E1的優(yōu)異表現(xiàn)驗證了該框架的可靠性。此外,ImgEdit-Bench從創(chuàng)新維度評估模型性能,為圖像編輯模型的數(shù)據(jù)篩選和架構設計提供了重要洞見。通過提供高質量數(shù)據(jù)集、高效編輯方法和全面評估基準,本文的工作有助于縮小開源方案與頂尖閉源模型之間的差距,并將推動整個圖像編輯領域的進步。

本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/OWw_xUXhxL7416tzF4c-7A??

收藏
回復
舉報
回復
相關推薦