修圖模型照妖鏡上線!ImgEdit-Bench三維「死亡評測」曝光,誰在裸泳一測便知
文章鏈接:https://arxiv.org/pdf/2505.20275
Git鏈接:https://github.com/PKU-YuanGroup/ImgEdit
亮點直擊
- 穩(wěn)健的流程。引入了一個高質量的數(shù)據(jù)生成流程,確保數(shù)據(jù)集具有多樣性、代表性,并具備足夠的質量以支持圖像編輯模型的開發(fā)。
- 新數(shù)據(jù)集。構建了ImgEdit,一個大規(guī)模、高質量的數(shù)據(jù)集,包含110 萬單輪樣本(涵蓋10 種代表性編輯任務)和11 萬多輪樣本(包含3 種新穎的交互類型)。
- 可靠的基準。發(fā)布了ImgEdit-Bench,該基準在三個關鍵維度(基礎測試集、挑戰(zhàn)性測試集和多輪測試集)上評估模型性能。
- 先進模型。在ImgEdit上訓練了ImgEdit-E1,其在多項任務上超越現(xiàn)有開源模型。還發(fā)布了ImgEdit-Judge,這是一個與人類偏好對齊的評估模型。
總結速覽
解決的問題
- 開源圖像編輯模型性能落后于閉源模型:主要原因是缺乏高質量的開源編輯數(shù)據(jù)集和有效的評估基準。
- 現(xiàn)有數(shù)據(jù)集質量不足:圖像分辨率低、編輯提示簡單、編輯區(qū)域小、編輯不準確、概念不平衡、過濾不精確。
- 復雜編輯任務支持不足:缺乏身份一致性保持、多對象同時操作、多輪交互編輯等任務。
- 評估基準不完善:現(xiàn)有評估框架缺乏多樣性,未分層任務難度,過度關注編輯類別數(shù)量,忽視評估維度和測量準確性。
提出的方案
- ImgEdit 數(shù)據(jù)集:
- 包含120 萬高質量編輯樣本(110 萬單輪 + 11 萬多輪)。
- 涵蓋10 種編輯操作,包括對象提取、多對象混合編輯等。
- 多輪樣本支持內(nèi)容理解、內(nèi)容記憶、版本回溯。
- 自動化數(shù)據(jù)構建流程:
- 多階段篩選(美學評分、分辨率、可編輯區(qū)域)。
- 結合開放詞匯檢測器 和 視覺分割模型 生成對象級標注。
- 使用GPT-4o 生成多樣化單輪/多輪編輯提示。
- 采用任務特定工作流(如 SOTA 生成模型)創(chuàng)建編輯對。
- 通過GPT-4o 進行編輯對質量評估。
- ImgEdit-E1 模型:基于視覺語言模型(VLM)的編輯模型,支持參考圖像和編輯提示處理。
- ImgEdit-Bench 基準:
- 基礎測試集:評估指令遵循、編輯質量、細節(jié)保留。
- 理解-定位-編輯(UGE)測試集:測試空間推理、多對象目標等復雜任務。
- 多輪編輯測試集:評估內(nèi)容理解、記憶和回溯能力。
- 引入ImgEdit-Judge 評估模型,與人類偏好對齊。
應用的技術
- 數(shù)據(jù)生成:
- GPT-4o(生成多樣化編輯提示)。
- 開放詞匯檢測器(對象定位)。
- 視覺分割模型(精細化區(qū)域標注)。
- SOTA 生成模型(如 Stable Diffusion、DALL·E 等)創(chuàng)建編輯圖像。
- 模型訓練:
- 視覺語言模型(VLM) 架構,用于處理參考圖像和編輯指令。 - 評估方法:
- 自動化評估(ImgEdit-Judge):模擬人類偏好。
- 多維度測試集(基礎、UGE、多輪)。
達到的效果
- 數(shù)據(jù)集質量提升:
- 在任務新穎性和數(shù)據(jù)質量上超越現(xiàn)有數(shù)據(jù)集(如 MagicBrush、SEED-Data-Edit)。
- 模型性能提升:
- ImgEdit-E1 在多項任務上優(yōu)于現(xiàn)有開源模型,縮小與閉源模型的差距。
- 評估更全面:
- ImgEdit-Bench 提供分層難度評估,覆蓋基礎、復雜單輪、多輪編輯任務。
- 通過ImgEdit-Judge 實現(xiàn)高效、可靠的大規(guī)模評估。
ImgEdit: 高質量數(shù)據(jù)集
ImgEdit 提供高保真度的編輯對,包含精確、全面的指令,并涵蓋更廣泛的實用和挑戰(zhàn)性編輯類型。先概述單輪和多輪編輯類型,接著詳述數(shù)據(jù)流程。再介紹 ImgEdit-E1,一個基于 ImgEdit 訓練的前沿編輯模型。最后展示數(shù)據(jù)集統(tǒng)計信息。
編輯類型定義
本文定義兩類編輯任務:單輪和多輪。單輪任務側重于覆蓋全面且實用的任務,而多輪任務則整合連續(xù)編輯場景中的指令和圖像交互。
單輪編輯
基于實際編輯需求,將單輪任務分為四類(如下圖1所示):
- 局部編輯:包括添加、移除、替換、修改、動作變化和對象提取操作。顏色、材質或外觀的變化歸類為修改。由于人物動作編輯是常見用例,特別支持針對人物的動作變化。此外,引入新穎的對象提取任務(如“將貓?zhí)崛〉桨咨尘啊保?,可在干凈背景上分離指定主體,同時保持身份一致性。該能力目前僅 GPT-4o-image 支持。
- 全局編輯:包括背景替換和風格/色調(diào)遷移。
- 視覺編輯:基于參考圖像編輯(如“給貓?zhí)砑訃怼保_保對象一致性。與 AnyEdit 不同,省略了分割、草圖或布局引導的變體,因實際應用中此類視覺提示較少。
- 混合編輯:單條指令中對多個對象應用兩種局部操作(如“添加圍巾并將貓毛色改為白色”)。
多輪編輯
基于現(xiàn)有多輪理解基準和實際需求,定義多輪編輯的三大挑戰(zhàn)(如下圖1所示):
- 內(nèi)容記憶:對話早期引入的全局約束(如“所有生成需帶木質紋理”)需在后續(xù)輪次中保持。
- 內(nèi)容理解:解析依賴代詞或省略主語的指令(如“將左側衣柜里的衣物改為黑色”隱含指代首輪添加的衣物)。
- 版本回溯:基于早期版本編輯(如“撤銷上一步更改”)。這三類挑戰(zhàn)覆蓋了多輪交互編輯的主要難點。
自動化數(shù)據(jù)流程
數(shù)據(jù)準備
采用 LAION-Aesthetics 作為主數(shù)據(jù)集,因其場景多樣性、高分辨率和更廣的對象覆蓋。篩選條件:短邊≥1280像素且美學評分>4.75,得到60萬張圖像子集。使用GPT-4o生成簡潔描述并提取可編輯對象及背景名詞。
對象定位與分割
- 通過開放詞匯檢測器定位候選實體,生成邊界框。
- 利用SAM2將邊界框細化為分割掩碼。
- 計算裁剪對象的CLIPScore和面積占比,剔除低相似度或過小區(qū)域,確保目標準確且視覺顯著。
- 背景替換任務要求編輯區(qū)域占比>40%。
- 動作變化編輯:額外從Open-Sora Plan收集16萬對人物視頻幀,由 GPT-4o 標注動作,構成動作變化子集。
數(shù)據(jù)準備
采用LAION-Aesthetics作為核心數(shù)據(jù)集。該數(shù)據(jù)集在場景多樣性、分辨率以及物體類別的全面性上表現(xiàn)更優(yōu)。僅保留短邊≥1280像素且美學評分>4.75,得到60萬張圖像子集。使用GPT-4o重新生成簡潔的文本描述,并提取可編輯對象及背景名詞。每個候選實體通過開放詞匯檢測器進行定位,生成的邊界框再由SAM2優(yōu)化為分割掩碼。由此,每個對象和背景區(qū)域均獲得邊界框與掩碼。
由于檢測與分割并非完美,通過掩碼裁剪每個對象,并計算:
- 裁剪區(qū)域與對象名稱的CLIPScore相似度
- 區(qū)域面積占比
對相似度低或面積可忽略的區(qū)域進行剔除,確保剩余目標識別準確且視覺顯著性滿足后續(xù)編輯需求。具體而言,在背景替換任務中,要求編輯區(qū)域需占圖像總面積40%以上。
針對動態(tài)變化編輯任務,額外從內(nèi)部視頻庫Open-Sora Plan收集了16萬張以人物為主的圖像對。通過時間子采樣幀并利用GPT-4o標注動作信息,最終構成動態(tài)變化編輯子集。
指令生成模塊
通過原始圖像描述、編輯類型、邊界框和目標物體作為條件輸入生成指令。由于目標物體的精確定位對編輯至關重要,系統(tǒng)要求語言模型在編輯指令中嵌入物體位置和近似尺寸(以邊界框為參考)。低性能LLMs易引入知識偏差導致低質量指令,因此采用尖端大語言模型(如GPT-4o),該模型不僅能理解多樣化指令格式、生成概念豐富的編輯指令,還能高保真編碼空間信息。多輪指令生成時,提供少量上下文示例讓模型單次生成完整對話,再拆分為獨立輪次,每輪對話限制2-3回合,包含添加、刪除、替換、修改四類基礎操作。
修復工作流
選用FLUX和SDXL作為基礎生成模型,結合IP-Adapters、ControlNet等插件實現(xiàn)精準可控編輯。針對不同編輯場景構建定制化數(shù)據(jù)生產(chǎn)管線,例如:在視覺編輯任務中利用FLUX架構的上下文保持能力,通過FLUX-Redux控制語義一致性。生成圖像在審美質量和編輯保真度上均超越現(xiàn)有數(shù)據(jù)集。
后處理流程
在基于物體面積、CLIP分數(shù)和美學分數(shù)的粗過濾基礎上,使用GPT-4o進行精細過濾:為每個編輯對按編輯類型特定的評分標準分配質量分數(shù),并提供詳細評分依據(jù)供用戶篩選。
ImgEdit-E1評估模型
為評估所收集數(shù)據(jù)的質量,在ImgEdit數(shù)據(jù)集上訓練了ImgEdit-E1模型。如下圖2所示,該模型整合了視覺語言模型(VLM)、視覺編碼器以及Diffusion-in-Transformer(DiT)主干網(wǎng)絡。編輯指令與原始圖像共同輸入VLM處理,同時圖像經(jīng)由視覺編碼器并行處理。VLM的隱藏狀態(tài)與視覺編碼器的圖像特征分別通過多層感知機(MLP)映射后拼接,構成DiT的文本分支輸入。訓練采用兩階段策略:先優(yōu)化MLP參數(shù),隨后對FLUX模塊與MLP進行聯(lián)合微調(diào)。
數(shù)據(jù)集統(tǒng)計
包含120萬高質量圖像編輯對(含11萬組多輪樣本),覆蓋13類編輯任務。相比現(xiàn)有數(shù)據(jù)集,具有更豐富語義、更詳細指令、更高分辨率(平均短邊1280像素)和更優(yōu)編輯精度。其8.7k獨特詞匯量的指令多樣性,以及經(jīng)GPT-4o評估的最高編輯準確率(抽樣1000例驗證)尤為突出。像素級差異分析顯示,局部編輯區(qū)域修改幅度顯著大于其他數(shù)據(jù)集,且經(jīng)專業(yè)檢測器驗證更難定位編輯痕跡,證實其圖像質量優(yōu)勢。其物體提取和視覺編輯子集首次實現(xiàn)了高度主體一致性的編輯任務。完整統(tǒng)計數(shù)據(jù)見下圖3與表1。
ImgEdit-Bench:綜合性圖像編輯基準測試?
ImgEdit-Bench為單輪和多輪圖像編輯任務提供系統(tǒng)性評估框架。先闡述基準數(shù)據(jù)集的構建原則,接著定義量化評估指標,再提出專用于圖像編輯任務評估的模型ImgEdit-Judge。
基準數(shù)據(jù)集構建?
模型能力劃分為?基礎編輯能力?與?復雜場景性能?兩類:
基礎編輯測試集
我評估模型完成常規(guī)任務的能力,涵蓋添加、刪除、修改、替換、風格遷移、背景替換、動態(tài)調(diào)整、混合編輯、摳圖處理9大類任務。所有測試圖像均從互聯(lián)網(wǎng)人工收集。為確保語義多樣性,從六大超類別(人物、交通工具、自然、動物、建筑、生活必需品)中每類選取十個代表性概念。
- 添加任務:為每張背景簡潔的圖片搭配五個不同概念的指令。
- 移除/修改/替換/摳圖/混合編輯任務:選擇主體突出且物體稀疏的照片。
- 風格遷移:測試主流藝術風格。
- 背景替換:選用適合場景置換的圖像。
- 動態(tài)變化:基于以人物為主的圖像進行評估。
所有指令均由GPT-4o初步生成,并經(jīng)過人工篩選。最終基準測試集包含734個測試用例,指令長度從簡略到詳盡不等。
理解-定位-編輯(UGE)測試套件?:人工精選47張互聯(lián)網(wǎng)復雜場景圖像,涵蓋目標局部遮擋、同類多實例、偽裝/低顯著性物體、罕見編輯對象四大挑戰(zhàn)。每圖設計需綜合空間推理、多目標協(xié)同操作、復合細粒度編輯或大規(guī)模修改的指令,提升單條指令的理解-定位-執(zhí)行難度。
多輪交互測試套件?:從?內(nèi)容記憶?、?上下文理解?、?版本回溯?三維度評估真實交互場景。每任務選取10張圖像人工設計3輪對話流程,形成結構化測試序列。
評估指標?
從?指令遵循度?、?編輯質量?、?細節(jié)保留度?三個維度量化模型性能:
指令遵循度?:衡量對指令語義理解和概念對齊能力,作為基礎得分限制其他兩項上限(編輯質量與細節(jié)保留得分不得超過該值); 編輯質量?:量化目標區(qū)域操作精度; 細節(jié)保留度?:評估非編輯區(qū)域保真程度。 評分采用GPT-4o按1-5分制執(zhí)行,每類任務配備詳細評分細則。多輪場景中由人工評估員基于標準化指南對模型輸出進行?二元判斷?。
真實性量化指標?:引入?偽造分數(shù)?評估生成圖像偽影可檢測性,采用最新開源取證檢測器FakeShield定位編輯痕跡。通過計算多類編輯數(shù)據(jù)集的召回率(以偽造為正類),橫向對比結果驗證生成圖像的視覺真實性與編輯質量。
ImgEdit-Judge評估模型?
鑒于視覺語言模型(VLM)評分相較于傳統(tǒng)相似性指標更具合理性,且當前缺乏開源的圖像編輯專用評估器,我們構建了包含20萬條后處理評分記錄的?任務平衡與評分平衡語料庫?,用于微調(diào)Qwen2.5-VL-7B模型。通過人工研究驗證,每張圖像由人工標注員、Qwen2.5-VL-7B、ImgEdit-Judge與GPT-4o-mini并行評分,并選取60張圖像進行深度分析。當模型評分與人工評分差異不超過1分時視為有效判定。如下圖4所示,ImgEdit-Judge與人工評判一致性接近70%,顯著優(yōu)于GPT-4o-mini和原生Qwen2.5-VL模型。
實驗分析?
本節(jié)系統(tǒng)評估現(xiàn)有編輯模型與ImgEdit-E1性能:先闡述實驗配置,再呈現(xiàn)結果定量與定性分析,最后展開深度討論。
實驗設置?
單輪測試環(huán)境?:
閉源模型?:GPT-4o-Image(Gemini-2.0-Flash未開放API) 開源模型?:Step1X-Edit、Ultra-Edit、AnySD、MagicBrush、InstructPix2Pix及ImgEdit-E1 架構對比?:除ImgEdit-E1與Step1X-Edit采用VLM文本編碼器+DiT主干網(wǎng)絡外,其余模型均基于UNet架構與預訓練文本編碼器。AnySD額外集成任務感知MoE模塊。
參數(shù)配置?:輸入分辨率:UltraEdit/AnySD輸出512×512像素,其余模型輸出1024×1024像素 重復實驗:每個模型執(zhí)行3次獨立實驗,報告平均得分 多輪測試?:僅支持GPT-4o-Image與Gemini-2.0-Flash兩模型
實驗結果?
定量評估首先對不同方法進行了全面的定性評估(結果如下圖5所示)。開源模型與閉源模型之間存在顯著性能差距:GPT-4o-image在所有維度上均優(yōu)于開源模型,僅在部分高難度任務中稍顯不足。該模型同時獲得最高的UGE綜合評分,展現(xiàn)出更強的理解能力、定位能力和編輯能力。
在開源模型中,ImgEdit-E1與Step1X-Edit表現(xiàn)最佳,在部分任務上接近閉源模型水平。其中:
- ImgEdit-E1全任務表現(xiàn)均衡,因其采用高質量訓練數(shù)據(jù),在物體提取和混合編輯任務中顯著領先其他開源模型
- Step1X-Edit綜合性能與ImgEdit-E1相當,但在背景替換、屬性修改等高難度任務中表現(xiàn)欠佳
- AnySD各項任務表現(xiàn)中庸,可能因其數(shù)據(jù)集覆蓋編輯任務廣泛但數(shù)據(jù)質量不足
- UltraEdit因訓練集未包含移除任務,在該任務中表現(xiàn)極差
- MagicBrush和InstructPix2Pix因訓練數(shù)據(jù)質量與模型結構過于簡單,存在圖像畸變、指令跟隨失敗等問題
值得注意的是,所有模型的編輯輸出均獲得極高的"虛假評分",表明現(xiàn)有檢測模型仍能輕易識別合成內(nèi)容。
在多輪編輯任務中,僅GPT-4o-Image與Gemini-2.0-flash展現(xiàn)兩輪內(nèi)的版本回溯能力?,F(xiàn)有模型普遍存在內(nèi)容記憶與理解缺陷,時而出現(xiàn)指代誤解或前提丟失的情況,總體上對多輪編輯的支持仍不充分。
定性評估?
選取了多種任務的代表性案例進行定性分析,如下圖6所示。在改變自行車顏色同時保留積雪的任務中,僅有ImgEdit-E1和GPT-4o-Image成功達成。涉及物體移除的任務中,AnySD和Step1X-Edit生成結果模糊,Gemini錯誤地將路燈一并移除,其他模型則未能遵循指令。相比之下,ImgEdit-E1和GPT-4o-Image完美完成了任務。在背景修改任務中,ImgEdit-E1和Step1X-Edit在所有開源模型中與提示要求契合度最高。對于物體替換任務,閉源模型的處理結果明顯更自然,而多數(shù)開源模型未能完成編輯。在色彩修改任務中,只有ImgEdit-E1和閉源模型在保留復雜細節(jié)的同時精準遵循了指令。此外,僅GPT-4o-Image和ImgEdit-E1成功完成了物體提取任務。
討論?
根據(jù)基準測試結果,確定了影響編輯模型性能的三大關鍵因素:指令理解、區(qū)域定位和編輯執(zhí)行。
指令理解能力
指模型解析編輯指令的能力,主要由文本編碼器決定,并顯著影響編輯效果。傳統(tǒng)模型使用T5或CLIP等編碼器,雖能處理簡單任務(如風格遷移),但在復雜的區(qū)域特定任務上表現(xiàn)欠佳。我們的評估顯示,ImgEdit-E1和Step1X-Edit大幅優(yōu)于其他開源模型,印證了更強文本編碼器和更豐富文本特征的重要性。
區(qū)域定位能力
指準確識別并定位待編輯區(qū)域的能力,既依賴指令理解,也取決于視覺感知水平。在需要精確定位的任務(如屬性修改和物體提?。┲?,ImgEdit-E1的表現(xiàn)遠超現(xiàn)有開源編輯模型,凸顯了提示信息中空間定位的關鍵作用。
編輯執(zhí)行能力
指泛化各類編輯操作的能力,主要取決于訓練數(shù)據(jù)的質量、規(guī)模和多樣性。由于物體提取任務缺乏高質量數(shù)據(jù),包括GPT-4o在內(nèi)的其他模型在此類任務中表現(xiàn)不佳,這再次證明構建全面、高質量編輯數(shù)據(jù)集的必要性。
結論?
ImgEdit框架
推動了圖像編輯領域的發(fā)展:它克服了現(xiàn)有數(shù)據(jù)集的質量缺陷,引入了實用的編輯任務分類體系,并為未來數(shù)據(jù)集構建提供了穩(wěn)健的流程。ImgEdit-E1的優(yōu)異表現(xiàn)驗證了該框架的可靠性。此外,ImgEdit-Bench從創(chuàng)新維度評估模型性能,為圖像編輯模型的數(shù)據(jù)篩選和架構設計提供了重要洞見。通過提供高質量數(shù)據(jù)集、高效編輯方法和全面評估基準,本文的工作有助于縮小開源方案與頂尖閉源模型之間的差距,并將推動整個圖像編輯領域的進步。
本文轉自AI生成未來 ,作者:AI生成未來
