偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<ruby id="wupc9"><tt id="wupc9"><pre id="wupc9"></pre></tt></ruby>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

理解幫助生成？RecA自監(jiān)督訓(xùn)練讓統(tǒng)一多模態(tài)模型直升SOTA

2025-09-19 09:05:18

人工智能新聞

我們提出了一種簡單而有效的后訓(xùn)練方法 —— 重建對齊（Reconstruction Alignment, RecA）。RecA 并非對模型架構(gòu)本身做出改動，而是在模型常規(guī)訓(xùn)練完成后，額外進(jìn)行一階段自監(jiān)督的后訓(xùn)練。

謝集，浙江大學(xué)竺可楨學(xué)院大四學(xué)生，于加州大學(xué)伯克利分校（BAIR）進(jìn)行訪問，研究方向為統(tǒng)一多模態(tài)理解生成大模型。第二作者為加州大學(xué)伯克利分校的 Trevor Darrell，第三作者為華盛頓大學(xué)的 Luke Zettlemoyer，通訊作者是 XuDong Wang, Meta GenAl Research Scientist，博士畢業(yè)于加州大學(xué)伯克利分校（BAIR 實驗室），這篇工作為他在博士期間完成。

背景：統(tǒng)一多模態(tài)理解與生成模型的挑戰(zhàn)

統(tǒng)一多模態(tài)模型（Unified Multimodal Models, UMMs）旨在將視覺理解和生成統(tǒng)一于單一模型架構(gòu)。UMM 繼承了多模態(tài)大語言模型 (Multimodal Large Language Models, MLLMs) 可以很輕松地辨別物體的左右、顏色、種類。但是很多生成模型連「一只黑色的貓和白色的狗」，「黃色西蘭花」都無法生成。這體現(xiàn)了當(dāng)前統(tǒng)一多模態(tài)模型在視覺理解和生成能力上的不平衡：它們往往在理解圖像內(nèi)容方面表現(xiàn)出色，但在根據(jù)文本描述生成圖像時卻力不從心。這是為什么呢？

實際上，圖片是一個「稠密」的模態(tài)，文字是一個「稀疏」的模態(tài)，從一個稠密的信息里提取稀疏的信息（VQA，Image Captioning）是相對輕松的，但是要從稀疏的信息去構(gòu)建稠密的信息則更為困難。傳統(tǒng)的文生圖訓(xùn)練依賴大規(guī)模的圖像 - 文本對數(shù)據(jù)，這些文本描述 (text caption) 無法完整的表述圖片里的所有信息。比如物體位置關(guān)系、幾何結(jié)構(gòu)，物體的紋理和風(fēng)格等。這可能導(dǎo)致圖像生成模型學(xué)到不完整甚至有偏差的視覺概念（例如，將「西蘭花」與「綠色」聯(lián)系在一起，導(dǎo)致模型無法生成「黃色西蘭花」）。我們稱這種文本監(jiān)督為「稀疏監(jiān)督」(sparse supervision)。

方法：重建對齊 (Reconstruction Alignment, RecA)

有沒有「稠密監(jiān)督」(Dense Supervision)，可以讓模型學(xué)到更完整的視覺概念呢？答案是有的。圖片本身正是最好的信息載體。UMM 提供了一個將圖片作為「提示詞」(prompt) 輸入的機會?，F(xiàn)在的 UMM 的視覺理解編碼器 (Visual Understanding Encoder)，如 CLIP, SigLIP，已經(jīng)可以把圖片映射到了 LLM 的語義空間 (language-aligned semantic space)。

以此為動機，我們提出了一種簡單而有效的后訓(xùn)練方法 —— 重建對齊（Reconstruction Alignment, RecA）。RecA 并非對模型架構(gòu)本身做出改動，而是在模型常規(guī)訓(xùn)練完成后，額外進(jìn)行一階段自監(jiān)督的后訓(xùn)練。

Arxiv：https://alphaxiv.org/abs/2509.07295
代碼：https://github.com/HorizonWind2004/reconstruction-alignment
項目主頁：https://reconstruction-alignment.github.io/

具體來說，在 RecA 訓(xùn)練過程中，模型首先利用其視覺理解編碼器從輸入圖像提取出語義嵌入特征（例如采用預(yù)訓(xùn)練的 CLIP、DINO 等模型獲取圖像的高維語義表示），與一個模板文本嵌入相融合，再送入統(tǒng)一多模態(tài)模型，使其以此為條件試圖重建出原始輸入圖像。根據(jù)生成的圖像與原圖像之間的差異計算自監(jiān)督重建損失，RecA 將視覺理解分支中蘊含的細(xì)節(jié)知識有效對齊到生成分支。

值得一提的是，RecA 的訓(xùn)練不需要任何的圖像 - 文本對，只需未標(biāo)注的圖像即可完成訓(xùn)練。訓(xùn)練完成后，模型在推理時并不需要額外輸入這些視覺嵌入，仍然像普通生成模型一樣，僅通過文本提示即可工作；換言之，RecA 是一種純訓(xùn)練階段的對齊策略，不會增加推理階段的開銷或改變使用方式。

實驗結(jié)果

通用性（Generality）

為了驗證 RecA 的有效性，我們在四種代表性的統(tǒng)一多模態(tài)模型上進(jìn)行了實驗。1. Show-o (AR), Harmon (AR+MAR), OpenUni (AR+Diffusion, Metaqueries 開源版), BAGEL (AR+Diffusion) 等模型，涵蓋了當(dāng)前的主流架構(gòu)?？梢园l(fā)現(xiàn)，RecA 在所有模型上均帶來了顯著的性能提升，顯示出其方法的通用性和穩(wěn)健性。

SOTA 結(jié)果（State-of-the-art Results）

我們使用 RecA 后訓(xùn)練得到的 Harmon-1.5B 模型展現(xiàn)出了極強的提高，在不使用 GPT-4o-Image 蒸餾數(shù)據(jù)和 RLHF 的情況下，在 GenEval 和 DPGBench 上達(dá)到了 0.86 和 87.21 的成績。如果使用 GPT-4o-Image 蒸餾數(shù)據(jù) BLIP3o-60k，通過兩階段策略（先進(jìn)行有監(jiān)督微調(diào) SFT，再進(jìn)行 RecA 無監(jiān)督訓(xùn)練），Harmon 模型的性能進(jìn)一步提升到 GenEval 0.90，DPGBench 88.15，全面刷新了現(xiàn)有記錄。

對于 BAGEL，我們發(fā)現(xiàn)其在圖像編輯任務(wù)上也取得了顯著提升。在 ImgEdit 基準(zhǔn)上的評分從 3.38 提升至 3.75，GEdit 評分從 6.94 上升到 7.25。經(jīng)過 RecA 的 BAGEL 模型在某些編輯能力上超越最新的 SOTA 模型，如 Black Forest Labs 推出的 12 億參數(shù)圖像編輯模型 FLUX.1 Kontext。

可視化效果

生成能力展示：

編輯能力展示：

訓(xùn)練前后的生成能力對比：

訓(xùn)練前后的編輯結(jié)果對比：

責(zé)任編輯：張燕妮來源：機器之心

AI 模型訓(xùn)練

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="3xgtr"></sub><center id="3xgtr"><progress id="3xgtr"><thead id="3xgtr"></thead></progress></center>