ICML 2025|多模態(tài)理解與生成最新進(jìn)展:港科聯(lián)合SnapResearch發(fā)布ThinkDiff,為擴(kuò)散模型裝上大腦
本文第一作者密振興,香港科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院人工智能方向博士生,研究方向是多模態(tài)理解與生成,3D/4D 重建與生成,目前正在尋找工業(yè)界全職職位或?qū)嵙?xí)職位。
自 Stable Diffusion、Flux 等擴(kuò)散模型 (Diffusion models) 席卷圖像生成領(lǐng)域以來(lái),文本到圖像的生成技術(shù)取得了長(zhǎng)足進(jìn)步。但它們往往只能根據(jù)精確的文字或圖片提示作圖,缺乏真正讀懂圖像與文本、在多模 態(tài)上下文中推理并創(chuàng)作的能力。能否讓模型像人類一樣真正讀懂圖像與文本、完成多模態(tài)推理與創(chuàng)作,一直是學(xué)術(shù)界和工業(yè)界關(guān)注的熱門問(wèn)題。
OpenAI 的 GPT-4o image generation 和 Google 的 Gemini Pro 用超大規(guī)模參數(shù)和海量數(shù)據(jù),展示了強(qiáng)大的多模態(tài)推理與生成能力。但在學(xué)術(shù)與產(chǎn)業(yè)環(huán)境中算力和數(shù)據(jù)并不充裕時(shí),用較少數(shù)據(jù)與計(jì)算資源實(shí)現(xiàn)類似的功能,依然是一道難題。
在頂級(jí)學(xué)術(shù)會(huì)議 ICML2025 上,香港科技大學(xué)聯(lián)合 Snap Research 提出了多模態(tài)理解與生成新方法:ThinkDiff。該方法僅需較少的圖文對(duì)和數(shù)小時(shí)訓(xùn)練,就能讓擴(kuò)散模型具備思考能力,使其在復(fù)雜的圖像文本組合輸入下,完成推理式生成,為多模態(tài)理解與生成開(kāi)辟了全新路徑。
- Paper:I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models
- Paper link:https://arxiv.org/abs/2502.10458
- Github:https://github.com/MiZhenxing/ThinkDiff(in progress)
- Project page:https://mizhenxing.github.io/ThinkDiff
ThinkDiff 算法設(shè)計(jì)
ThinkDiff 這項(xiàng)工作的核心是將現(xiàn)有大規(guī)模的視覺(jué)語(yǔ)言模型 (VLM) 的推理能力遷移給擴(kuò)散模型 (Diffusion model)。通過(guò)聯(lián)合 VLM 強(qiáng)大的多模態(tài)推理能力和 Diffusion 的高質(zhì)量生成能力,使得最終的模型能夠真正理解圖像與文本提示之間的邏輯關(guān)系,以此為基礎(chǔ)進(jìn)行高質(zhì)量的圖像生成。
LLM 與 Diffusion 的共享特征空間
最新的 Text-to-image 擴(kuò)散模型如 Flux 和 Stable Diffusion 3 等,都開(kāi)始使用大語(yǔ)言模型 (LLM) 例如 T5 的文本編碼器 (Encoder) 作為擴(kuò)散模型的文本編碼器 (Text Encoder)。
在這種設(shè)計(jì)下,擴(kuò)散模型里的擴(kuò)散解碼器 (Diffusion Decoder) 與 T5 解碼器 (LLM Decoder) 共享同一個(gè)輸入特征空間。只要把 VLM 對(duì)圖像和文本的推理對(duì)齊到該特征空間,就能讓擴(kuò)散模型繼承 VLM 的推理能力。
將 VLM 對(duì)齊到 LLM 解碼器
直接對(duì)齊 VLM 與擴(kuò)散解碼器需要大量復(fù)雜數(shù)據(jù)和低效的 Diffusion 訓(xùn)練,因此,ThinkDiff 通過(guò)一個(gè)代理任務(wù),將 VLM 與 LLM 解碼器做視覺(jué)-語(yǔ)言訓(xùn)練 (Vision-language Pretraining)。在將 VLM 與 LLM Decoder 對(duì)齊之后,由于共享空間的存在,VLM 就自然地與 Diffusion Decoder 對(duì)齊。
在訓(xùn)練過(guò)程中,對(duì)于每個(gè)訓(xùn)練樣本,ThinkDiff 將圖像 + 文本輸入到 VLM,自回歸 (Autoregressive) 地生成多模態(tài)特征向量,再通過(guò)一個(gè)輕量級(jí)的對(duì)齊網(wǎng)絡(luò) (Aligner),將這些特征向量映射到 LLM 解碼器的輸入空間,去自回歸地重建圖像的文字描述,用交叉熵?fù)p失進(jìn)行監(jiān)督。
經(jīng)過(guò)訓(xùn)練的對(duì)齊網(wǎng)絡(luò) (Aligner),可以有效地把 VLM 的多模態(tài)推理能力傳遞給了 LLM 解碼器。而在推理階段,只要用同樣的對(duì)齊網(wǎng)絡(luò),通過(guò)共享的特征空間,就可以將 VLM 的多模態(tài)推理能力傳遞給擴(kuò)散解碼器,使擴(kuò)散模型具備多模態(tài)理解與生成能力。
網(wǎng)絡(luò)結(jié)構(gòu)核心設(shè)計(jì)
對(duì)齊 VLM 生成的 Token:傳統(tǒng) Diffusion 在使用 LLM 時(shí),是將 LLM 當(dāng)做輸入文本的編碼器,將得到的特征送入 Diffusion 生成像素。而 VLM 的理解與推理能力,來(lái)自于它自回歸生成的 tokens,而非編碼的輸入 tokens。因此在 ThinkDiff 中,我們選擇將 VLM (大型視覺(jué)-語(yǔ)言模型) 自回歸生成的 tokens 的特征對(duì)齊到擴(kuò)散模型,使擴(kuò)散解碼器能夠真正繼承 LVLM 的多模態(tài)推理能力。
掩碼訓(xùn)練 (Masked Training):為了避免對(duì)齊網(wǎng)絡(luò)走捷徑,而非真正對(duì)齊特征空間,ThinkDiff 在訓(xùn)練階段對(duì) VLM 輸出的 token 特征使用隨機(jī)掩碼策略,隨機(jī)丟掉一部分特征,讓對(duì)齊網(wǎng)絡(luò)學(xué)會(huì)僅從不完整的多模態(tài)信息中恢復(fù)語(yǔ)義。這種掩碼訓(xùn)練使得對(duì)齊網(wǎng)絡(luò)深度理解圖像 + 文本,從而高效地將理解能力傳遞給擴(kuò)散解碼器。
網(wǎng)絡(luò)變體
依據(jù)使用的 VLM 的不同,ThinkDiff 有 ThinkDiff-LVLM 和 ThinkDiff-CLIP 兩種變體。ThinkDiff-LVLM 將大規(guī)模視覺(jué)語(yǔ)言模型 (LVLM) 對(duì)齊到 Diffusion,使得 Diffusion 繼承 LVLM 的多模態(tài)理解能力。ThinkDiff-CLIP 將 CLIP 對(duì)齊到 Diffusion,使得 Diffusion 擁有極強(qiáng)的文本圖像組合能力。
實(shí)驗(yàn)結(jié)果
多模態(tài)理解與生成定量結(jié)果
ThinkDiff-LVLM 在多模態(tài)理解與生成基準(zhǔn) CoBSAT 上,大幅領(lǐng)先現(xiàn)有方法,展現(xiàn)出高精度高質(zhì)量的理解與生成能力。
以下是訓(xùn)練資源的對(duì)比,與其他使用上百?gòu)?GPU 的方法相比,ThinkDiff-LVLM 僅使用 5 小時(shí) × 4 × A100 GPU 的訓(xùn)練,就達(dá)到了最優(yōu)的效果。
多模態(tài)理解與生成圖片結(jié)果
ThinkDiff-LVLM 在 CoBSAT 上,能夠?qū)斎氲亩嗄B(tài)圖片與文本進(jìn)行深度推理,并用高質(zhì)量的圖片展現(xiàn)推理結(jié)果。
與 Gemini 的對(duì)比
ThinkDiff-LVLM 在日常圖片推理與生成任務(wù)上展現(xiàn)出與 Gemini 類似的能力。
Gemini:
Ours:
多模態(tài)組合生成結(jié)果
在輸入多張圖片時(shí),ThinkDiff-CLIP 能夠合理地將多張輸入圖片組合成合理的輸出圖片。
多模態(tài)視頻生成結(jié)果
將 ThinkDiff-CLIP 的擴(kuò)散解碼器改成 Cogvideo 時(shí),ThinkDiff-CLIP 能在不重新訓(xùn)練的情況下,依據(jù)輸入的圖片和文本,生成高質(zhì)量的視頻。
總結(jié)
ThinkDiff 將多模態(tài)推理能力傳遞給擴(kuò)散模型,創(chuàng)造出高質(zhì)量的統(tǒng)一多模態(tài)理解與生成模型。它用極少的訓(xùn)練資源和常見(jiàn)的數(shù)據(jù),讓擴(kuò)散模型具備了在多模態(tài)上下文中進(jìn)行推理和創(chuàng)作的能力。在定量和定性實(shí)驗(yàn)上,都優(yōu)于現(xiàn)有的開(kāi)源模型,并展現(xiàn)出與商業(yè)模型相當(dāng)?shù)臐摿?。無(wú)論是在科研領(lǐng)域還是工業(yè)應(yīng)用,都對(duì)圖像生成與理解技術(shù)做出重要貢獻(xiàn)。