偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ICML 2025|多模態(tài)理解與生成最新進展:港科聯(lián)合SnapResearch發(fā)布ThinkDiff,為擴散模型裝上大腦

人工智能 新聞
ThinkDiff 將多模態(tài)推理能力傳遞給擴散模型,創(chuàng)造出高質(zhì)量的統(tǒng)一多模態(tài)理解與生成模型。它用極少的訓練資源和常見的數(shù)據(jù),讓擴散模型具備了在多模態(tài)上下文中進行推理和創(chuàng)作的能力。

本文第一作者密振興,香港科技大學計算機科學與技術學院人工智能方向博士生,研究方向是多模態(tài)理解與生成,3D/4D 重建與生成,目前正在尋找工業(yè)界全職職位或實習職位。

自 Stable Diffusion、Flux 等擴散模型 (Diffusion models) 席卷圖像生成領域以來,文本到圖像的生成技術取得了長足進步。但它們往往只能根據(jù)精確的文字或圖片提示作圖,缺乏真正讀懂圖像與文本、在多模 態(tài)上下文中推理并創(chuàng)作的能力。能否讓模型像人類一樣真正讀懂圖像與文本、完成多模態(tài)推理與創(chuàng)作,一直是學術界和工業(yè)界關注的熱門問題。

OpenAI 的 GPT-4o image generation 和 Google 的 Gemini Pro 用超大規(guī)模參數(shù)和海量數(shù)據(jù),展示了強大的多模態(tài)推理與生成能力。但在學術與產(chǎn)業(yè)環(huán)境中算力和數(shù)據(jù)并不充裕時,用較少數(shù)據(jù)與計算資源實現(xiàn)類似的功能,依然是一道難題。

在頂級學術會議 ICML2025 上,香港科技大學聯(lián)合 Snap Research 提出了多模態(tài)理解與生成新方法:ThinkDiff。該方法僅需較少的圖文對和數(shù)小時訓練,就能讓擴散模型具備思考能力,使其在復雜的圖像文本組合輸入下,完成推理式生成,為多模態(tài)理解與生成開辟了全新路徑。

圖片

  • Paper:I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models
  • Paper link:https://arxiv.org/abs/2502.10458
  • Github:https://github.com/MiZhenxing/ThinkDiff(in progress) 
  • Project page:https://mizhenxing.github.io/ThinkDiff

ThinkDiff 算法設計

ThinkDiff 這項工作的核心是將現(xiàn)有大規(guī)模的視覺語言模型 (VLM) 的推理能力遷移給擴散模型 (Diffusion model)。通過聯(lián)合 VLM 強大的多模態(tài)推理能力和 Diffusion 的高質(zhì)量生成能力,使得最終的模型能夠真正理解圖像與文本提示之間的邏輯關系,以此為基礎進行高質(zhì)量的圖像生成。

LLM 與 Diffusion 的共享特征空間

最新的 Text-to-image 擴散模型如 Flux 和 Stable Diffusion 3 等,都開始使用大語言模型 (LLM) 例如 T5 的文本編碼器 (Encoder) 作為擴散模型的文本編碼器 (Text Encoder)。

在這種設計下,擴散模型里的擴散解碼器 (Diffusion Decoder) 與 T5 解碼器 (LLM Decoder) 共享同一個輸入特征空間。只要把 VLM 對圖像和文本的推理對齊到該特征空間,就能讓擴散模型繼承 VLM 的推理能力。

圖片

將 VLM 對齊到 LLM 解碼器

直接對齊 VLM 與擴散解碼器需要大量復雜數(shù)據(jù)和低效的 Diffusion 訓練,因此,ThinkDiff 通過一個代理任務,將 VLM 與 LLM 解碼器做視覺-語言訓練 (Vision-language Pretraining)。在將 VLM 與 LLM Decoder 對齊之后,由于共享空間的存在,VLM 就自然地與 Diffusion Decoder 對齊。

在訓練過程中,對于每個訓練樣本,ThinkDiff 將圖像 + 文本輸入到 VLM,自回歸 (Autoregressive) 地生成多模態(tài)特征向量,再通過一個輕量級的對齊網(wǎng)絡 (Aligner),將這些特征向量映射到 LLM 解碼器的輸入空間,去自回歸地重建圖像的文字描述,用交叉熵損失進行監(jiān)督。

經(jīng)過訓練的對齊網(wǎng)絡 (Aligner),可以有效地把 VLM 的多模態(tài)推理能力傳遞給了 LLM 解碼器。而在推理階段,只要用同樣的對齊網(wǎng)絡,通過共享的特征空間,就可以將 VLM 的多模態(tài)推理能力傳遞給擴散解碼器,使擴散模型具備多模態(tài)理解與生成能力。

圖片

網(wǎng)絡結構核心設計

對齊 VLM 生成的 Token:傳統(tǒng) Diffusion 在使用 LLM 時,是將 LLM 當做輸入文本的編碼器,將得到的特征送入 Diffusion 生成像素。而 VLM 的理解與推理能力,來自于它自回歸生成的 tokens,而非編碼的輸入 tokens。因此在 ThinkDiff 中,我們選擇將 VLM (大型視覺-語言模型) 自回歸生成的 tokens 的特征對齊到擴散模型,使擴散解碼器能夠真正繼承 LVLM 的多模態(tài)推理能力。

掩碼訓練 (Masked Training):為了避免對齊網(wǎng)絡走捷徑,而非真正對齊特征空間,ThinkDiff 在訓練階段對 VLM 輸出的 token 特征使用隨機掩碼策略,隨機丟掉一部分特征,讓對齊網(wǎng)絡學會僅從不完整的多模態(tài)信息中恢復語義。這種掩碼訓練使得對齊網(wǎng)絡深度理解圖像 + 文本,從而高效地將理解能力傳遞給擴散解碼器。

網(wǎng)絡變體

依據(jù)使用的 VLM 的不同,ThinkDiff 有 ThinkDiff-LVLM 和 ThinkDiff-CLIP 兩種變體。ThinkDiff-LVLM 將大規(guī)模視覺語言模型 (LVLM) 對齊到 Diffusion,使得 Diffusion 繼承 LVLM 的多模態(tài)理解能力。ThinkDiff-CLIP 將 CLIP 對齊到 Diffusion,使得 Diffusion 擁有極強的文本圖像組合能力。

實驗結果

多模態(tài)理解與生成定量結果

ThinkDiff-LVLM 在多模態(tài)理解與生成基準 CoBSAT 上,大幅領先現(xiàn)有方法,展現(xiàn)出高精度高質(zhì)量的理解與生成能力。

圖片

圖片

以下是訓練資源的對比,與其他使用上百張 GPU 的方法相比,ThinkDiff-LVLM 僅使用 5 小時 × 4 × A100 GPU 的訓練,就達到了最優(yōu)的效果。

圖片

多模態(tài)理解與生成圖片結果

ThinkDiff-LVLM 在 CoBSAT 上,能夠對輸入的多模態(tài)圖片與文本進行深度推理,并用高質(zhì)量的圖片展現(xiàn)推理結果。

圖片

與 Gemini 的對比

ThinkDiff-LVLM 在日常圖片推理與生成任務上展現(xiàn)出與 Gemini 類似的能力。

Gemini:

圖片

Ours:

圖片

多模態(tài)組合生成結果

在輸入多張圖片時,ThinkDiff-CLIP 能夠合理地將多張輸入圖片組合成合理的輸出圖片。

圖片

多模態(tài)視頻生成結果

將 ThinkDiff-CLIP 的擴散解碼器改成 Cogvideo 時,ThinkDiff-CLIP 能在不重新訓練的情況下,依據(jù)輸入的圖片和文本,生成高質(zhì)量的視頻。

圖片

總結

ThinkDiff 將多模態(tài)推理能力傳遞給擴散模型,創(chuàng)造出高質(zhì)量的統(tǒng)一多模態(tài)理解與生成模型。它用極少的訓練資源和常見的數(shù)據(jù),讓擴散模型具備了在多模態(tài)上下文中進行推理和創(chuàng)作的能力。在定量和定性實驗上,都優(yōu)于現(xiàn)有的開源模型,并展現(xiàn)出與商業(yè)模型相當?shù)臐摿?。無論是在科研領域還是工業(yè)應用,都對圖像生成與理解技術做出重要貢獻。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-07-17 10:21:25

TC39JavaScript

2009-09-25 09:27:33

Ubuntu 2010最新進展Lucid Lynx

2015-11-12 09:27:13

C++最新進展

2012-11-19 10:50:39

思杰CloudStack開源

2012-11-19 10:37:57

思杰OpenStack

2021-09-14 10:03:35

RustLinux開發(fā)工作

2020-07-02 16:00:53

?Flutter桌面應用代碼

2012-02-09 09:49:48

2021-06-15 14:54:23

ReactReact 18SSR

2021-09-16 10:15:56

Linux內(nèi)核Rust

2023-04-06 07:30:02

2024-02-22 09:26:33

AI模型

2009-03-23 08:44:29

Windows Ser微軟操作系統(tǒng)

2023-04-19 20:30:49

Rust商標政策

2014-06-17 09:58:15

容器Google

2021-08-24 10:15:35

模型人工智能計算

2023-11-14 11:40:00

OpenAI人工智能
點贊
收藏

51CTO技術棧公眾號