VLM與擴散模型深度整合,圖像理解生成編輯三合一模型登場,權重數(shù)據(jù)訓練流程全開源
VLM和擴散模型被整合到一起了。
ModelScope(魔搭)團隊發(fā)布Nexus-Gen V2,一個同時支持圖像理解、生成和編輯的統(tǒng)一模型,而且模型權重、訓練流程和數(shù)據(jù)集全部開源。
這事兒有多重要?今年以來,GPT-4o-Image、Gemini、Blip3O這些大廠的統(tǒng)一模型都在證明一件事:把圖像理解和生成能力塞進一個模型,不僅僅是為了省事,更是因為兩種任務的有機結合能帶來意想不到的效果。
魔搭團隊其實早在五月就發(fā)布了V1版本,但他們很快發(fā)現(xiàn)了問題:圖像理解能力相比原始VLM掉點嚴重,圖像生成對提示詞太敏感,編輯細節(jié)也保持不好。
于是他們憋了幾個月大招,從三個方向全面優(yōu)化,終于拿出了這個V2版本。

在圖像理解上,優(yōu)化了模型的訓練策略,極大程度地保留了VLM的理解能力;
在圖像生成上,對所有圖像生成樣本進行了重標注,采用長短描述同時標注并采樣選取的策略,提升了圖像生成的魯棒性,同時加入了中文標注樣本,支持了基于中文的圖像生成。
在圖像編輯上,團隊系統(tǒng)性地研究了圖像重建效果與圖像編碼token數(shù)量之間的關系,并設計了全新的編輯方案。經過以上優(yōu)化,Nexus-Gen V2達到了第一梯隊統(tǒng)一模型的水平,模型的模型權重和全鏈路訓練流程全部開源。
此外,Nexus-Gen V2使用2600萬樣本進行訓練,包括580萬圖像理解、1330萬圖像生成和630萬圖像編輯樣本,這個大規(guī)模數(shù)據(jù)集已經在ModelScope主站上開源。
Nexus-GenV2模型的圖像編輯和生成可視化效果下:

△圖1 Nexus-Gen 圖像生成效果

△圖2 Nexus-Gen 圖像編輯效果
模型架構設計
Nexus-Gen V2沿用了V1的模型架構設計,如圖3 a所示,其核心是將擴散模型作為自回歸語言模型(Autoregressive Model)的視覺解碼器(Vision Decoder),并使用一個統(tǒng)一的圖像編碼空間(Image Embedding Space)來連接兩者,并統(tǒng)一建模圖像理解、生成和編輯任務。
輸入圖像由視覺編碼器(Vision Encoder)編碼到統(tǒng)一編碼空間中,由自回歸模型處理。自回歸模型使用預填充自回歸策略預測輸出圖像在編碼空間的特征向量,然后由視覺解碼器解碼為輸出圖像。

△圖3 Nexus-Gen的模型架構和訓練策略
Autoregressive Model 自回歸模型
如圖3 b所示,Nexus-Gen采用Qwen2.5-VL-7B-Instruct的語言模型部分作為自回歸,并采用其ViT作為視覺編碼器,將視覺編碼器的輸出空間作為統(tǒng)一圖像編碼空間。
在訓練時,模型輸出的圖像特征的token數(shù)量固定為N_e(N_e的取值涉及到模型間和效果上的權衡,將在后續(xù)進行講解),圖像特征采用MSE和余弦相似度作為損失函數(shù);對于模型輸出的文本token,Nexus-Gen采用標準的交叉熵來作為損失函數(shù)。
Nexus-Gen的自回歸模型在圖像理解、生成和編輯三個任務上進行了預訓練和視覺質量微調。預訓練用上了全部26M數(shù)據(jù);視覺質量微調只采用了4.3M數(shù)據(jù),其中圖像生成部分僅采用高質量樣本。
Generation Decoder 圖像生成解碼器
如圖3 c所示,Nexus-Gen采用Flux.1-Dev作為視覺解碼器。圖像生成任務的解碼器 (Generation Decoder)采用圖像重建的方式訓練:輸入圖像被視覺編碼器編碼為N_e個特征向量,這些特征被作為圖像生成解碼器的輸入條件,用于重建輸入圖像。訓練采用的損失函數(shù)為標準Flow Matching的MSE損失函數(shù)。這一訓練過程僅使用2M高質量的圖像生成數(shù)據(jù)。
圖像Embedding數(shù)量的權衡
Nexus-Gen采用的視覺編碼器擁有動態(tài)分辯率的編碼能力,圖像分辨率越大,編碼得到的token 數(shù)量越多,編碼包含的細節(jié)信息越多,信息損失也越少;反之,分辨率越小,編碼更偏向高層語義信息,信息損失越多。使用不同數(shù)量的圖像特征來訓練圖像生成解碼器時,圖像重建對比效果如圖4所示。
考慮128x128, 256x256, 512x512三種分辨率和他們對應的25,81和324三種token數(shù)量,實驗現(xiàn)象為,token數(shù)量越少,重建效果越差,25個token重建的圖像已經出現(xiàn)了語義缺失和圖像畸變的情況。81和324token都能較好地重建出圖像,324token細節(jié)重建更好。

△圖4 不同token數(shù)量的重建效果
進一步地,考慮使用81和324兩個token數(shù)量訓練了自回歸模型,再接上對應的解碼器,對比生成效果,如圖5所示??梢园l(fā)現(xiàn),324 token訓練的模型出現(xiàn)了嚴重的語義重復現(xiàn)象,生成的圖像質量也遠不如81 token。
主要原因是324個token嚴重增加了圖像特征預測任務的復雜度,7B的自回歸模型沒法勝任這個任務。經過權衡,Nexus-Gen最終采用81作為自回歸模型的輸出和圖像生成解碼器的輸入token數(shù)量。

△圖5 81和324 圖像token數(shù)量下的Nexus-Gen生成效果對比
Editing Decoder 圖像編輯解碼器
理論上,只要重建效果足夠好,圖像生成解碼器就能直接完成圖像編輯任務,因為自回歸模型預測的就是編輯后圖像特征。然而,自回歸和圖像生成解碼器采用的token數(shù)量是81,在這個數(shù)量下,圖像重建能保證整體布局和語義正確,但細節(jié)重建效果不足,這就導致Nexus-Gen V1版本的圖像編輯功能的細節(jié)保持效果不足。
因此,Nexus-Gen V2版本重新設計了圖像編輯解碼器(editing decoder),架構如圖3 d所示。編輯解碼器的輸入條件有兩個,第一個是自回歸模型輸出的81個目標圖像token,第二個則是圖像編碼器直接編碼的324個原圖Token,用作細節(jié)信息的補充條件。團隊對兩種條件采用不同的位置編碼,并在ImagePulse這個高質量圖像編輯數(shù)據(jù)集上訓練編輯解碼器,訓練的損失函數(shù)仍然是標準Flow Matching的MSE損失函數(shù)。 圖像生成和編輯解碼器在圖像編輯任務上的效果對比如圖6所示。可以看到編輯解碼器的細節(jié)保持能力顯著提高。

△圖6 generation 和editing decoder的編輯效果對比
Prefilled Autoregression 策略
自回歸模型在訓練時采用teacher-forcing的策略,在推理時則采用token-by-token的預測方法。將這種自回歸范式直接運用在連續(xù)特征空間的圖像特征預測上,會帶來比較嚴重的誤差累積問題。誤差累積的本質是訓練和推理行為不一致。為了解決這個問題,提出了預填充自回歸的策略,這一策略與可學習Qeury的思路類似,如圖7所示。
在訓練時,使用一組可學習特殊token填充對應位置的圖像特征向量,這樣就可以讓模型學習直接預測任意位置的圖像特征的能力。在推理階段,只要預測到圖像的起始token BOI,就直接預填充N_e個特殊token到輸入序列中。通過這種方式,能夠保證訓練和推理階段行為的一致性,從而消除誤差累積。

△圖7 預填充自回歸的策略
訓練策略
Nexus-Gen V2的訓練分成自回歸模型的訓練和視覺解碼器的訓練。V1版本發(fā)現(xiàn)模型在理解能力上退化嚴重,經過消融實驗,主要是由于學習率過大導致知識遺忘導致的,Nexus-GenV2版本采用的自回歸模型的學習率為1e-5。所有訓練階段的詳細訓練參數(shù)如表1所示。

△表1 Nexus-Gen訓練超參數(shù)
訓練數(shù)據(jù)集構建
為了對Nexus-Gen的自回歸模型進行多任務協(xié)同優(yōu)化,團隊構建了一個涵蓋圖像理解、生成和編輯任務的大規(guī)模數(shù)據(jù)集,數(shù)據(jù)集已經在ModelScope開源。除了按照Nexus-Gen V2的訓練過程劃分的圖像標注外,還針對蓋圖像理解、生成和編輯任務三個任務劃分了數(shù)據(jù)集,方便后續(xù)在各個任務上的使用,詳細請參考ModelScope數(shù)據(jù)集頁面,鏈接在文末獲取。

△圖8 Nexus-Gen訓練數(shù)據(jù)分布
Nexus-Gen的數(shù)據(jù)分布如圖8所示。
圖像理解的數(shù)據(jù)源主要是Cambrian-7M,為了提升數(shù)據(jù)質量,使用Qwen2.5-VL-72B對視覺問答問題的所有答案進行了重標注。
圖像生成數(shù)據(jù)既包含真實圖像數(shù)據(jù)源(Laion-HR,AnyWord),也包含合成圖像數(shù)據(jù)源(EliGen、FLUX-ARS、FLUX-T2I、JourneyDB)。為了提升模型對圖像生成prompt的魯棒性,使用Qwen2.5-VL-72B對所有圖像進行重標注;在標注時,模型同時生成簡短和詳細兩種圖像描述,訓練時以20%的概率采用簡短圖像描述,80%的概率采用詳細圖像描述。
圖像編輯的數(shù)據(jù)源來自于HQ-Edit,UltraEdit,OmniEdit,StyleBooth等。然而,現(xiàn)有開源圖像編輯的圖像質量較差,直接用于Diffusion模型的訓練會破壞圖像分布,嚴重降低圖像質量。為此,團隊創(chuàng)建了ImagePulse這一高質量圖像編輯數(shù)據(jù)集,包含物體的添加、修改和刪除,風格遷移和任務一致性保持幾個子集。
為了支持使用中文進行圖像生成和編輯,Nexus-Gen V2使用中文標注了部分數(shù)據(jù),對應分布圖中的FLUX-ZH和ImagePulse-ZH子集。經過實驗驗證,僅僅2.5M中文標注數(shù)據(jù)就完全模型的中文生成和編輯能力。
模型評測效果
圖像理解
團隊在多個Benchmark上對Nexus-Gen進行了評測,如表2所示,在這些benchmark上,Nexus-Gen V2比之前經過聯(lián)合優(yōu)化的統(tǒng)一模型表現(xiàn)更好。此外,與VLM Baseline模型(Qwen2.5-VL-Instruct-7B)的對比結果表明,Nexus-Gen以較小的理解能力損失,為自回歸模型增加了圖像生成和編輯能力,這是符合預期的。

△表2 Nexus-Gen 圖像理解能力評測
圖像生成
在圖像生成benchmark GenEval的評測結果如表3所示。實驗結果表明,經過多任務聯(lián)合優(yōu)化的Nexus-Gen模型可以取得0.77的總分。如果進一步在blip3o-60k數(shù)據(jù)集上做對圖像生成做一次指令微調,可以將總分提升到0.81。

△表3 Nexus-Gen 圖像生成能力評測
圖像編輯
在圖像編輯benchmark ImagePulse TestSet的評測結果如表4所示。CLIP-T表明模型與目標圖像的語義信息對齊良好。而L1、CLIP-O和DINO-O分數(shù)則表明模型與目標圖像的細節(jié)特征對其良好,也證明了此前設計的圖像編輯解碼器起到了作用。

△表4 Nexus-Gen 圖像編輯能力評測
展望
Nexus-Gen采用了VLM+Diffusion的統(tǒng)一模型路線,同期的MetaQuery、Blip-3o、Uniworld和OmniGen2等都是采用這一路線,每個工作都很出色,都有各自的獨特之處。Nexus-Gen的獨特之處在于并沒有將自回歸模型凍住,而是在圖像理解、生成和編輯任務上完成了語言模型的統(tǒng)一訓練,團隊始終認為多任務統(tǒng)一訓練和協(xié)同優(yōu)化是統(tǒng)一模型不能逃避的問題,它是統(tǒng)一模型走向更遠應用的關鍵一步。統(tǒng)一模型的潛力在于理解生成模型相互促進的愿景、在于將多模態(tài)推理向前推再推進一步的可能,更在于它也許就是下一個世界模型的雛型,這些都是需要統(tǒng)一訓練來激發(fā)的。
當然,Nexus-Gen模型仍然不是一個成熟完美的模型,模型仍然具有一定的局限性。比如圖像生成的融洽性比不上純Diffusion模型,圖像編輯效果對不同圖像不太穩(wěn)定,圖像生成和編輯的引入也一定程度降低了模型的指令遵行能力。此外,由于類CLIP圖像特征不可避免的信息損失,當前架構并不能保證完美的圖像重建。但團隊也把模型、數(shù)據(jù)、訓練過程和經驗全部分享和開源,希望促進統(tǒng)一模型的快速發(fā)展,歡迎社區(qū)對Nexus-Gen和統(tǒng)一理解與生成模型的技術未來進行廣泛交流。
論文鏈接:https://arxiv.org/pdf/2504.21356
代碼鏈接:https://github.com/modelscope/Nexus-Gen
Nexus-Gen V2模型鏈接:https://www.modelscope.cn/models/DiffSynth-Studio/Nexus-GenV2
2600萬統(tǒng)一模型數(shù)據(jù)集鏈接:https://www.modelscope.cn/datasets/DiffSynth-Studio/Nexus-Gen-Training-Dataset
在線體驗Demo:https://www.modelscope.cn/studios/DiffSynth-Studio/Nexus-Gen































