字節(jié)開源圖像編輯黑科技！1/30參數(shù)1/13數(shù)據(jù)，性能提升9.19%

作者：量子位 2025-05-08 08:57:59

這一方法旨在解決現(xiàn)有圖像編輯模型中監(jiān)督信號有噪聲的問題，通過構(gòu)建更有效的編輯指令提升編輯效果。

字節(jié)開源圖像編輯新方法，比當(dāng)前SOTA方法提高9.19%的性能，只用了1/30的訓(xùn)練數(shù)據(jù)和1/13參數(shù)規(guī)模的模型。

做到這一切無需額外預(yù)訓(xùn)練任務(wù)和架構(gòu)修改，只需要讓強(qiáng)大的多模態(tài)模型（如GPT-4o）來糾正編輯指令。

這一方法旨在解決現(xiàn)有圖像編輯模型中監(jiān)督信號有噪聲的問題，通過構(gòu)建更有效的編輯指令提升編輯效果。

數(shù)據(jù)和模型在Github上開源。

為什么AI編輯圖像模型常?！袄斫忮e誤”

當(dāng)人們讓AI”給照片中的男孩加一條粉色領(lǐng)帶”時，AI可能會把皮膚顏色、衣服顏色也改變，或者完全重繪整張圖片。

為什么會這樣？

團(tuán)隊(duì)發(fā)現(xiàn)了一個被忽視的關(guān)鍵問題：現(xiàn)有的圖像編輯數(shù)據(jù)集存在大量的噪聲監(jiān)督信號。

當(dāng)前基于指令的圖像編輯方法流行起來，但訓(xùn)練這類模型需要大量原始-編輯后圖像對和指令，手動收集困難。

現(xiàn)有數(shù)據(jù)集通常使用各種自動化方法構(gòu)建，導(dǎo)致指令與圖像對之間的不匹配，產(chǎn)生有噪聲的監(jiān)督信號。

簡單來說就是：AI在學(xué)習(xí)時，看到的指令和實(shí)際編輯效果對不上號，導(dǎo)致”學(xué)廢了”。

如此一來，SuperEdit的方法就不是靠擴(kuò)大參數(shù)規(guī)?；蛟黾宇A(yù)訓(xùn)練算力，而是專注于提高監(jiān)督信號質(zhì)量。

團(tuán)隊(duì)首先發(fā)現(xiàn)，擴(kuò)散模型在生成圖像的不同階段有著不同側(cè)重點(diǎn)。

受此啟發(fā)，團(tuán)隊(duì)利用GPT-4o這樣的強(qiáng)大視覺語言模型，通過觀察原始圖像和編輯后圖像之間的差異，生成更準(zhǔn)確的編輯指令。

將原始圖像和編輯后的圖像輸入到GPT-4o中，并要求它返回以下四個屬性的差異：整體圖像布局、局部對象屬性、圖像細(xì)節(jié)、樣式變化。

由于CLIP文本編碼器最多接受77個文本token輸入，還需要讓GPT-4o總結(jié)完善這些指令。

僅僅有正確的指令還不夠，團(tuán)隊(duì)還構(gòu)建了一套對比監(jiān)督機(jī)制：

由于在正確指令和錯誤指令之間只替換了幾個單詞，因此CLIP文本編碼器生成的文本嵌入作為擴(kuò)散模型的輸入也會很相似。

通過這一點(diǎn)確保學(xué)習(xí)任務(wù)的難度，幫助模型了解兩個編輯指令之間的細(xì)微差異如何導(dǎo)致截然不同的編輯結(jié)果。

編輯模型訓(xùn)練基于InstructPix2Pix框架，利用對比監(jiān)督信號時，在訓(xùn)練階段引入錯誤編輯指令生成正負(fù)樣本，提升模型理解和執(zhí)行指令的能力。

SuperEdit在多個基準(zhǔn)測試上的表現(xiàn)出色，在Real-Edit基準(zhǔn)測試中，它以69.7%的整體準(zhǔn)確率和3.91的評分，超越前SOTA方法SmartEdit的58.3%準(zhǔn)確率和3.59評分。

在人工評估中，SuperEdit在指令遵循度、原始內(nèi)容保留和圖像質(zhì)量三個關(guān)鍵指標(biāo)上全面超越了現(xiàn)有方法。

不過該方法也存在一些局限，經(jīng)過訓(xùn)練的模型在理解和執(zhí)行復(fù)雜指令上仍然存在困難，尤其是在密集排列的對象和復(fù)雜的空間關(guān)系方面。

以及為確保校正指令的準(zhǔn)確性和有效性大量調(diào)用GPT-4o，可能產(chǎn)生額外的成本。

團(tuán)隊(duì)計(jì)劃將這種數(shù)據(jù)優(yōu)先的方法擴(kuò)展到更多視覺生成任務(wù)中，并探索與更大模型相結(jié)合的可能性。

責(zé)任編輯：張燕妮來源：量子位