理解幫助生成?RecA自監(jiān)督訓(xùn)練讓統(tǒng)一多模態(tài)模型直升SOTA
謝集,浙江大學(xué)竺可楨學(xué)院大四學(xué)生,于加州大學(xué)伯克利分校(BAIR)進(jìn)行訪問,研究方向為統(tǒng)一多模態(tài)理解生成大模型。第二作者為加州大學(xué)伯克利分校的 Trevor Darrell,第三作者為華盛頓大學(xué)的 Luke Zettlemoyer,通訊作者是 XuDong Wang, Meta GenAl Research Scientist,博士畢業(yè)于加州大學(xué)伯克利分校(BAIR 實驗室),這篇工作為他在博士期間完成。
背景:統(tǒng)一多模態(tài)理解與生成模型的挑戰(zhàn)
統(tǒng)一多模態(tài)模型(Unified Multimodal Models, UMMs)旨在將視覺理解和生成統(tǒng)一于單一模型架構(gòu)。UMM 繼承了多模態(tài)大語言模型 (Multimodal Large Language Models, MLLMs) 可以很輕松地辨別物體的左右、顏色、種類。但是很多生成模型連「一只黑色的貓和白色的狗」,「黃色西蘭花」都無法生成。這體現(xiàn)了當(dāng)前統(tǒng)一多模態(tài)模型在視覺理解和生成能力上的不平衡:它們往往在理解圖像內(nèi)容方面表現(xiàn)出色,但在根據(jù)文本描述生成圖像時卻力不從心。這是為什么呢?
實際上,圖片是一個「稠密」的模態(tài),文字是一個「稀疏」的模態(tài),從一個稠密的信息里提取稀疏的信息(VQA,Image Captioning)是相對輕松的,但是要從稀疏的信息去構(gòu)建稠密的信息則更為困難。傳統(tǒng)的文生圖訓(xùn)練依賴大規(guī)模的圖像 - 文本對數(shù)據(jù),這些文本描述 (text caption) 無法完整的表述圖片里的所有信息。比如物體位置關(guān)系、幾何結(jié)構(gòu),物體的紋理和風(fēng)格等。這可能導(dǎo)致圖像生成模型學(xué)到不完整甚至有偏差的視覺概念(例如,將「西蘭花」與「綠色」聯(lián)系在一起,導(dǎo)致模型無法生成「黃色西蘭花」)。我們稱這種文本監(jiān)督為「稀疏監(jiān)督」(sparse supervision)。

方法:重建對齊 (Reconstruction Alignment, RecA)
有沒有「稠密監(jiān)督」(Dense Supervision),可以讓模型學(xué)到更完整的視覺概念呢?答案是有的。圖片本身正是最好的信息載體。UMM 提供了一個將圖片作為「提示詞」(prompt) 輸入的機會?,F(xiàn)在的 UMM 的視覺理解編碼器 (Visual Understanding Encoder),如 CLIP, SigLIP,已經(jīng)可以把圖片映射到了 LLM 的語義空間 (language-aligned semantic space)。
以此為動機,我們提出了一種簡單而有效的后訓(xùn)練方法 —— 重建對齊(Reconstruction Alignment, RecA)。RecA 并非對模型架構(gòu)本身做出改動,而是在模型常規(guī)訓(xùn)練完成后,額外進(jìn)行一階段自監(jiān)督的后訓(xùn)練。

- Arxiv:https://alphaxiv.org/abs/2509.07295
- 代碼:https://github.com/HorizonWind2004/reconstruction-alignment
- 項目主頁:https://reconstruction-alignment.github.io/
具體來說,在 RecA 訓(xùn)練過程中,模型首先利用其視覺理解編碼器從輸入圖像提取出語義嵌入特征(例如采用預(yù)訓(xùn)練的 CLIP、DINO 等模型獲取圖像的高維語義表示),與一個模板文本嵌入相融合,再送入統(tǒng)一多模態(tài)模型,使其以此為條件試圖重建出原始輸入圖像。根據(jù)生成的圖像與原圖像之間的差異計算自監(jiān)督重建損失,RecA 將視覺理解分支中蘊含的細(xì)節(jié)知識有效對齊到生成分支。
值得一提的是,RecA 的訓(xùn)練不需要任何的圖像 - 文本對,只需未標(biāo)注的圖像即可完成訓(xùn)練。訓(xùn)練完成后,模型在推理時并不需要額外輸入這些視覺嵌入,仍然像普通生成模型一樣,僅通過文本提示即可工作;換言之,RecA 是一種純訓(xùn)練階段的對齊策略,不會增加推理階段的開銷或改變使用方式。

實驗結(jié)果
通用性(Generality)
為了驗證 RecA 的有效性,我們在四種代表性的統(tǒng)一多模態(tài)模型上進(jìn)行了實驗。1. Show-o (AR), Harmon (AR+MAR), OpenUni (AR+Diffusion, Metaqueries 開源版), BAGEL (AR+Diffusion) 等模型,涵蓋了當(dāng)前的主流架構(gòu)??梢园l(fā)現(xiàn),RecA 在所有模型上均帶來了顯著的性能提升,顯示出其方法的通用性和穩(wěn)健性。

SOTA 結(jié)果(State-of-the-art Results)
我們使用 RecA 后訓(xùn)練得到的 Harmon-1.5B 模型展現(xiàn)出了極強的提高,在不使用 GPT-4o-Image 蒸餾數(shù)據(jù)和 RLHF 的情況下,在 GenEval 和 DPGBench 上達(dá)到了 0.86 和 87.21 的成績。如果使用 GPT-4o-Image 蒸餾數(shù)據(jù) BLIP3o-60k,通過兩階段策略(先進(jìn)行有監(jiān)督微調(diào) SFT,再進(jìn)行 RecA 無監(jiān)督訓(xùn)練),Harmon 模型的性能進(jìn)一步提升到 GenEval 0.90,DPGBench 88.15,全面刷新了現(xiàn)有記錄。

對于 BAGEL,我們發(fā)現(xiàn)其在圖像編輯任務(wù)上也取得了顯著提升。在 ImgEdit 基準(zhǔn)上的評分從 3.38 提升至 3.75,GEdit 評分從 6.94 上升到 7.25。經(jīng)過 RecA 的 BAGEL 模型在某些編輯能力上超越最新的 SOTA 模型,如 Black Forest Labs 推出的 12 億參數(shù)圖像編輯模型 FLUX.1 Kontext。

可視化效果
生成能力展示:

編輯能力展示:

訓(xùn)練前后的生成能力對比:

訓(xùn)練前后的編輯結(jié)果對比:





































