偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

能量驅(qū)動(dòng)注意力:提升文本到圖像擴(kuò)散模型的語義對(duì)齊新范式

人工智能
當(dāng)前的文本到圖像擴(kuò)散模型(Text-to-Image Diffusion Models)(如 Stable Diffusion、Imagen)在生成高質(zhì)量圖像方面取得了巨大成功。

一眼概覽

該論文提出了一種基于能量的跨注意力(Energy-Based Cross-Attention, EBCA) 機(jī)制,以解決文本到圖像擴(kuò)散模型中的語義不對(duì)齊(semantic misalignment)問題。通過建模上下文向量的后驗(yàn)分布,該方法能夠自適應(yīng)地調(diào)整語義上下文,實(shí)現(xiàn)更精準(zhǔn)的文本引導(dǎo)圖像生成,無需額外訓(xùn)練,并在 多概念生成、文本引導(dǎo)修復(fù)、圖像編輯任務(wù)上取得了優(yōu)異表現(xiàn)。

核心問題

當(dāng)前的 文本到圖像擴(kuò)散模型(Text-to-Image Diffusion Models)(如 Stable Diffusion、Imagen)在生成高質(zhì)量圖像方面取得了巨大成功。然而,語義不對(duì)齊問題依然突出:

? 生成的圖像可能忽略文本中的某些概念(概念忽略問題)。

? 在多概念合成任務(wù)中,不同概念可能無法正確綁定(屬性綁定問題)。

? 在文本引導(dǎo)修復(fù)(Inpainting)任務(wù)中,模型可能無法準(zhǔn)確填充缺失區(qū)域。

為解決這些問題,該研究引入了一種新的 貝葉斯框架,通過最小化層次化的能量函數(shù),實(shí)現(xiàn)上下文語義的動(dòng)態(tài)更新。

技術(shù)亮點(diǎn)

1. 能量驅(qū)動(dòng)的上下文更新(Energy-Based Context Update, EBCU)

? 通過 能量函數(shù) 計(jì)算 上下文向量的最大后驗(yàn)概率(MAP)估計(jì),從而優(yōu)化跨注意力機(jī)制。

? 通過梯度優(yōu)化動(dòng)態(tài)調(diào)整文本與圖像的語義匹配,提高文本到圖像的精準(zhǔn)度。

2. 能量驅(qū)動(dòng)的查詢組合(Energy-Based Composition of Queries, EBCQ)

? 通過多個(gè)上下文向量的 能量函數(shù)線性組合,實(shí)現(xiàn) 零樣本可組合生成(Zero-shot Compositional Generation)。

? 允許在無需訓(xùn)練的情況下,以自然方式合成多個(gè)文本概念。

3. 無需額外訓(xùn)練,即插即用

? 該方法可以直接應(yīng)用于 Stable Diffusion 等主流擴(kuò)散模型,無需額外訓(xùn)練或微調(diào),計(jì)算開銷幾乎為零。

方法框架

圖片圖片

EBCA 框架的核心思路:

1. 構(gòu)建能量函數(shù)

? 在擴(kuò)散模型的 跨注意力層 中,定義查詢(Query, Q)和鍵(Key, K)的 能量函數(shù),并以此建模上下文向量的后驗(yàn)分布:[p(\text{context} | \text{representations})]

? 通過 梯度下降 最小化能量函數(shù),實(shí)現(xiàn)自適應(yīng)的上下文優(yōu)化。

2. 動(dòng)態(tài)更新跨注意力層的上下文向量

   ? 計(jì)算 最大后驗(yàn)估計(jì)(MAP),并將 更新后的上下文向量 級(jí)聯(lián)傳遞到后續(xù)的跨注意力層,逐步調(diào)整語義對(duì)齊。

3. 實(shí)現(xiàn)可組合生成

    ? 采用 能量組合策略,允許對(duì)不同的文本概念進(jìn)行自然合成,實(shí)現(xiàn)更靈活的文本控制。

實(shí)驗(yàn)結(jié)果速覽

圖片圖片

論文在多個(gè)文本到圖像任務(wù)上驗(yàn)證了 EBCA 的有效性:

? 多概念生成(Multi-Concept Generation)

? 解決了 概念忽略 和 屬性綁定 問題,使多個(gè)文本概念能夠共存于生成圖像中。

? 例如,在 "A cat wearing a shirt"(一只穿著襯衫的貓)任務(wù)中,該方法確保貓和襯衫同時(shí)出現(xiàn),而非忽略某一部分。

? 文本引導(dǎo)修復(fù)(Text-Guided Inpainting)

? 在 Stable Diffusion Inpaint 和 Stable Repaint 基礎(chǔ)上,應(yīng)用 EBCU 顯著提升修復(fù)質(zhì)量,無需額外微調(diào)。

? 例如,在修復(fù) 被遮擋的泰迪熊 任務(wù)中,該方法能夠精準(zhǔn)填充缺失部分,并與上下文保持一致。

? 圖像編輯(Compositional Image Editing)

? 可用于 真實(shí)和合成圖像編輯,支持可控編輯(如修改圖像風(fēng)格、添加或刪除特定元素)。

? 例如,在 "A castle next to a river (+ Monet, Boat)" 任務(wù)中,該方法能夠自然地合成莫奈風(fēng)格的河邊城堡,并額外添加船只。

量化評(píng)估:

? CLIP 相似度(CLIP Accuracy):相比基線方法,EBCA 在文本-圖像匹配精度上更高。

? DINO-ViT 結(jié)構(gòu)距離(Structure Distance):該方法在保持圖像原始結(jié)構(gòu)的同時(shí),實(shí)現(xiàn)更精準(zhǔn)的編輯。

實(shí)用價(jià)值與應(yīng)用

?? AI 生成藝術(shù):可用于生成更加精準(zhǔn)的 AI 藝術(shù)作品,使風(fēng)格融合更自然。

?? 內(nèi)容創(chuàng)作:適用于 游戲、美術(shù)、廣告 等創(chuàng)意內(nèi)容生成,提升多概念融合能力。

?? 自動(dòng)駕駛 & 監(jiān)控:可用于增強(qiáng)計(jì)算機(jī)視覺模型的理解能力,提高對(duì)復(fù)雜場(chǎng)景的精準(zhǔn)度。

?? 醫(yī)療影像:該方法可擴(kuò)展至 醫(yī)學(xué)圖像分析,改善不確定性估計(jì)和視覺可解釋性。

開放問題

?? 如何適配更大規(guī)模的模型?EBCA 目前主要應(yīng)用于 Stable Diffusion,未來如何擴(kuò)展到 DALLE、Imagen 甚至 3D 生成模型?

?? 如何實(shí)現(xiàn)更細(xì)粒度的文本控制?目前的 EBCU 方法優(yōu)化了上下文向量,但仍有改進(jìn)空間,能否實(shí)現(xiàn)更加細(xì)粒度的文本到圖像映射?

?? 能否擴(kuò)展到視頻生成?EBCA 通過逐層傳遞優(yōu)化的上下文向量,如果將其應(yīng)用到 擴(kuò)散視頻生成,是否能改進(jìn)時(shí)序一致性?


責(zé)任編輯:武曉燕 來源: 萍哥學(xué)AI
相關(guān)推薦

2017-10-15 21:43:36

2023-12-11 14:21:00

模型訓(xùn)練

2024-12-17 14:39:16

2022-05-25 10:28:35

模型AI

2023-01-02 13:12:07

模型圖像

2024-06-28 08:04:43

語言模型應(yīng)用

2022-03-25 11:29:04

視覺算法美團(tuán)

2023-06-09 07:29:03

模型文本document

2024-09-19 10:07:41

2018-08-26 22:25:36

自注意力機(jī)制神經(jīng)網(wǎng)絡(luò)算法

2023-05-05 13:11:16

2018-05-03 16:27:29

RNN神經(jīng)網(wǎng)絡(luò)ResNet

2024-12-09 00:00:10

2023-09-04 12:59:03

AI數(shù)據(jù)

2024-11-04 10:40:00

AI模型

2025-07-03 09:49:43

2025-02-25 09:40:00

模型數(shù)據(jù)AI

2023-11-24 12:36:00

模型訓(xùn)練

2025-01-15 09:28:42

訓(xùn)練模型圖像生成

2025-06-09 09:32:35

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)