偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

NeurIPS 2024 | 全面提升文生圖SOTA方法！ToMe:基于token合并的免訓(xùn)練文生圖語義綁定

發(fā)布于 2024-12-9 10:04

瀏覽

0收藏

NeurIPS 2024 | 全面提升文生圖SOTA方法！ToMe:基于token合并的免訓(xùn)練文生圖語義綁定-AI.x社區(qū)

論文鏈接：https://arxiv.org/abs/2411.07132GitHub鏈接：https://github.com/hutaiHang/ToMe

亮點直擊

分析了語義綁定問題，重點討論了[EOT]token的作用，以及跨注意力圖錯位的問題。此外，探索了token可加性作為一種可能的解決方案。
提出了一種無訓(xùn)練方法——token合并，簡稱ToMe，作為一種更高效且穩(wěn)健的語義綁定解決方案。通過引入提出的結(jié)束token替代和迭代復(fù)合token更新技術(shù)，ToMe得到了進(jìn)一步增強(qiáng)。
在廣泛使用的T2I-CompBench基準(zhǔn)和GPT-4o對象綁定基準(zhǔn)上進(jìn)行的實驗中，將ToMe與多種最先進(jìn)的方法進(jìn)行了比較，并始終在性能上大幅領(lǐng)先。

研究背景

近年來，隨著深度學(xué)習(xí)和人工智能技術(shù)的飛速發(fā)展，文本生成圖像（Text-to-Image, T2I）模型在圖像生成領(lǐng)域取得了顯著的進(jìn)展。特別是擴(kuò)散模型（Diffusion Models）的出現(xiàn)，使得T2I模型能夠根據(jù)文本提示生成高質(zhì)量、高分辨率的圖像。這些模型在藝術(shù)創(chuàng)作、設(shè)計、虛擬現(xiàn)實等多個領(lǐng)域展現(xiàn)了巨大的應(yīng)用潛力。然而，盡管T2I模型在生成圖像方面表現(xiàn)出色，但在將文本提示中的語義信息準(zhǔn)確映射到圖像中仍然存在挑戰(zhàn)。例如，在多對象生成中，prompt中的每個對象都有自己對應(yīng)的子屬性（用來修飾這個對象的形容詞或者名詞子對象），但現(xiàn)有的模型難以將文本中的對象與其屬性或相關(guān)子對象正確關(guān)聯(lián)，表現(xiàn)為錯誤的綁定或者屬性的丟失。我們將這一問題稱為語義綁定（Semantic Binding），

如下圖所示，當(dāng)提示詞為“一只戴著帽子的狗和一只戴著太陽鏡的貓”時，生成的圖像可能會出現(xiàn)帽子戴在貓頭上，太陽鏡戴在狗頭上的錯誤情況。這種錯誤不僅影響了圖像的視覺效果，也限制了T2I模型在實際應(yīng)用中的可靠性和實用性。

NeurIPS 2024 | 全面提升文生圖SOTA方法！ToMe:基于token合并的免訓(xùn)練文生圖語義綁定-AI.x社區(qū)

為了解決這一問題，研究者們提出了多種方法，包括優(yōu)化潛在表示、通過布局先驗引導(dǎo)生成過程，以及對T2I模型進(jìn)行微調(diào)等。然而，這些方法往往需要大量的計算資源和復(fù)雜的訓(xùn)練過程，且在處理復(fù)雜場景（如多個對象和多個屬性）時仍然存在局限性。因此，開發(fā)一種高效、無需訓(xùn)練且能夠有效解決語義綁定問題的方法，成為了當(dāng)前研究的重要方向。

研究動機(jī)

文本嵌入的信息耦合

在處理包含多個對象的prompt時，以往基于布局先驗的方法會首先使用LLM生成合理的圖像布局，例如將圖像劃分為不同的子區(qū)域，每個子區(qū)域只關(guān)注prompt中的單個對象。通過這種規(guī)劃-生成來增強(qiáng)語義對齊。但盡管規(guī)劃好了不同子區(qū)域與原始prompt中不同對象的text embedding進(jìn)行cross attention，但不同子區(qū)域間還是會出現(xiàn)屬性泄露等情況，把和一個對象不相關(guān)的屬性綁定到這個對象上。我們認(rèn)為，這是由于用來調(diào)制不同子區(qū)域的text embeeding本身的信息耦合導(dǎo)致的。例如，對于“a cat wearing sunglasses and a dog with hat”這個prompt，其在經(jīng)由CLIP編碼后得到text embedding。原始的擴(kuò)散模型使用全部text token的text embedding作為cross-attention模塊的輸入，我們發(fā)現(xiàn)當(dāng)僅僅使用此時的單個‘dog’token的text embedding時，產(chǎn)生的圖像內(nèi)容也是一個帶了眼鏡的狗。如果使用EOT token（End of Text，即每個句子末尾被padding的結(jié)束符）的text embedding，此時產(chǎn)生的圖像和使用全部的text token產(chǎn)生的圖像內(nèi)容基本一致。

NeurIPS 2024 | 全面提升文生圖SOTA方法！ToMe:基于token合并的免訓(xùn)練文生圖語義綁定-AI.x社區(qū)

這可能是由于CLIP的causal masked attention導(dǎo)致的，每個text token都可以和它前面的所有token進(jìn)行self-attention，這導(dǎo)致前面的文本信息會不可避免的傳遞到后面的token中，而EOT token會包含全部的語義信息。我們認(rèn)為，這種text embedding層次上的信息泄露導(dǎo)致不同對象之間屬性的混淆。

文本嵌入的可加性

此外，我們還發(fā)現(xiàn)了文本嵌入的可加性。如下圖所示，把兩個單獨編碼后的text embedding相加得到一個新的復(fù)合token的embedding，之后輸入到擴(kuò)散模型中，產(chǎn)生的圖像可以合理的組合兩個不同prompt的內(nèi)容。例如，下圖a的左上部分，[dog+hat]生成了一只戴帽子的狗。這種可加性還可以用于移除對象（下圖a,右上、左下部分），甚至執(zhí)行復(fù)雜的語義計算（下圖a，右下）。為探究這一現(xiàn)象背后的機(jī)制，我們對每個提示詞的token表示進(jìn)行了PCA 降維可視化，下圖b 所示。從“queen-king” 獲得的方向向量與“woman-man” 的方向向量幾乎相同，余弦相似度為0.998

NeurIPS 2024 | 全面提升文生圖SOTA方法！ToMe:基于token合并的免訓(xùn)練文生圖語義綁定-AI.x社區(qū)

研究方法

因此，為了解決文本生成圖像（T2I）模型中的語義綁定問題，關(guān)鍵是如何獲得一個更干凈的text embedding表征，同時使得擴(kuò)散模型意識到prompt的語法結(jié)構(gòu)，把每個對象及其相關(guān)屬性綁定。我們提出了一種名為token合并（Token Merging, ToMe）的新方法。ToMe的核心思想是通過將相關(guān)的token聚合為一個復(fù)合token，從而增強(qiáng)語義綁定。具體來說，ToMe由兩部分組成：token合并與結(jié)束token替換，以及通過兩個輔助損失進(jìn)行推理時復(fù)合token迭代更新。

NeurIPS 2024 | 全面提升文生圖SOTA方法！ToMe:基于token合并的免訓(xùn)練文生圖語義綁定-AI.x社區(qū)

token合并與結(jié)束token替換我們以“a cat wearing sunglasses and a dog with hat”這個prompt為例進(jìn)行說明，具體步驟如下：

對象token合并：對于包含多個對象的提示詞，我們將每個對象及其相關(guān)屬性token的text embedding相加，生成一個復(fù)合token。例如，對于提示詞“a dog with hat”，我們將“dog”和“hat”的文本嵌入相加，生成一個表征“戴著帽子的狗”這個語義的復(fù)合token [dog*]。
結(jié)束token替換（End Token Substitution, ETS）：由于結(jié)束token（[EOT]）中包含的語義信息可能干擾屬性的表達(dá)，我們通過替換[EOT]來減輕這種干擾，保留每個主體的語義信息。例如，當(dāng)提示詞為“a cat wearing sunglasses and a dog with hat”時，我們使用來自提示詞“a cat and a dog”的[EOT]來替換原有的[EOT]。

通過上述步驟，我們生成了一個統(tǒng)一的文本嵌入，其中每個對象及其屬性由一個復(fù)合token表示，并且通過替換[EOT]保留了每個主體的語義信息。Token合并使得每個對象及其屬性共享同一個cross-attention map，顯式的綁定了每個對象及其屬性，使它們在生成過程中共表達(dá)。

復(fù)合token迭代更新為了進(jìn)一步優(yōu)化T2I生成的初始階段（即布局確定階段），我們引入了兩個輔助損失：熵?fù)p失和語義綁定損失。這些損失會在推理過程中迭代更新復(fù)合token，以提升生成的完整性。

熵?fù)p失（Entropy Loss）：每個token的cross-attention map可以看作一個概率分布，這個分布的信息熵較大則說明這個token關(guān)注的區(qū)域較為發(fā)散。我們計算每個token對應(yīng)的交叉注意力圖的熵值，并將其作為損失函數(shù)的一部分。通過最小化熵?fù)p失，我們確保每個token專注于其指定的區(qū)域，從而防止交叉注意力圖過于分散。

NeurIPS 2024 | 全面提升文生圖SOTA方法！ToMe:基于token合并的免訓(xùn)練文生圖語義綁定-AI.x社區(qū)

語義綁定損失（Semantic Binding Loss）：語義綁定損失鼓勵復(fù)合token推斷出與原始對應(yīng)短語相同的噪聲預(yù)測，從而進(jìn)一步加強(qiáng)文本與生成圖像之間的語義一致性。具體來說，我們使用一個干凈的提示詞作為監(jiān)督信號，確保復(fù)合token的語義準(zhǔn)確對應(yīng)它們代表的名詞短語。通過最小化語義綁定損失，我們確保復(fù)合token的語義信息與原始提示詞一致。

NeurIPS 2024 | 全面提升文生圖SOTA方法！ToMe:基于token合并的免訓(xùn)練文生圖語義綁定-AI.x社區(qū)

實驗

我們在T2I-CompBench基準(zhǔn)上進(jìn)行了定量比較，結(jié)果如表1所示。ToMe在顏色、紋理和形狀屬性綁定子集中，BLIP-VQA分?jǐn)?shù)上始終優(yōu)于或與現(xiàn)有方法相當(dāng)，表明其可以有效地避免屬性混淆。通過ImageReward模型評估的人類偏好得分表明，由ToMe生成的圖像更能與提示詞對齊。

NeurIPS 2024 | 全面提升文生圖SOTA方法！ToMe:基于token合并的免訓(xùn)練文生圖語義綁定-AI.x社區(qū)

定性比較結(jié)果如下圖所示：

NeurIPS 2024 | 全面提升文生圖SOTA方法！ToMe:基于token合并的免訓(xùn)練文生圖語義綁定-AI.x社區(qū)

ToMe在名詞子對象和屬性綁定場景下表現(xiàn)出色，這與表1中反映的定量指標(biāo)一致。具體來說，ToMe能夠有效地避免提示詞中的語義泄漏，確保每個對象與其屬性正確關(guān)聯(lián)。例如，在提示詞“一只戴著帽子的狗和一只戴著太陽鏡的貓”中，ToMe生成的圖像中帽子正確地戴在狗頭上，太陽鏡正確地戴在貓頭上。

NeurIPS 2024 | 全面提升文生圖SOTA方法！ToMe:基于token合并的免訓(xùn)練文生圖語義綁定-AI.x社區(qū)

消融實驗結(jié)果如表2所示。我們可以觀察到，僅使用token合并技術(shù)（Config B）帶來了輕微的性能提升，這與上圖中的定性結(jié)果一致。然而，token合并是后續(xù)優(yōu)化的基礎(chǔ)。當(dāng)它們與熵?fù)p失結(jié)合使用（Config C）時，性能顯著提升。我們推測部分原因是由于交叉注意力圖更加規(guī)范化，如圖7所示。然而，Config C在沒有語義綁定損失的情況下，仍然導(dǎo)致生成性能較差，如圖6所示，右側(cè)的狗仍然表現(xiàn)出類似貓的特征。加入語義對齊損失可以確保兩個主體正確綁定到各自的屬性上，而不會出現(xiàn)外觀混淆，從而在定量和定性上取得最佳結(jié)果。如果忽略token合并并僅應(yīng)用優(yōu)化（Config D和Config E），其性能僅與基線相當(dāng)，這表明token合并是后續(xù)優(yōu)化的基礎(chǔ)。移除熵?fù)p失（Config F）也可以改善基線，但生成結(jié)果中會有明顯的偽影，這主要是因為交叉注意力圖缺乏足夠的正則化。綜上所述，ToMe中這三種新技術(shù)的每個元素都對實現(xiàn)最先進(jìn)的性能做出了貢獻(xiàn)。

結(jié)論與展望

在本文中，我們研究了文本生成圖像（T2I）模型中的一個關(guān)鍵難題，即語義綁定。該難題指的是T2I模型難以準(zhǔn)確理解并將相關(guān)語義正確映射到圖像。我們發(fā)現(xiàn)了文本嵌入的語義耦合性和可加性，提出了一種無需訓(xùn)練的新方法，稱為token合并，即ToMe，用于解決T2I生成中的語義綁定問題。ToMe通過創(chuàng)新性的將對象token與其相關(guān)token疊加為一個復(fù)合token。該機(jī)制通過統(tǒng)一交叉注意力圖，消除了語義錯位。此外，我們還結(jié)合了結(jié)束token替換和迭代復(fù)合token更新技術(shù)，進(jìn)一步增強(qiáng)語義綁定。此外，本文發(fā)現(xiàn)的文本嵌入的可加性在其他領(lǐng)域也表現(xiàn)出一定的應(yīng)用前景，如下圖所示，可用來括添加對象、移除對象，甚至用于消除偏見等任務(wù)。

NeurIPS 2024 | 全面提升文生圖SOTA方法！ToMe:基于token合并的免訓(xùn)練文生圖語義綁定-AI.x社區(qū)

本文轉(zhuǎn)自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/kIRgc4LaqDDFraqKZZJ2gA??

標(biāo)簽

已于2024-12-9 10:16:15修改

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

文生圖模型又卷起來了，Stable Diffusion涼涼，Midjourney流量被反超

liutao988 ? 3582瀏覽 ? 0回復(fù)
谷歌發(fā)布文生圖模型Imagen 3，寫實效果超強(qiáng)！

Aceryt ? 4345瀏覽 ? 0回復(fù)
如何不爬梯免費使用AI文生圖？

數(shù)字化助推器 ? 3958瀏覽 ? 0回復(fù)
你的文生圖模型可以秘密接收多模態(tài)提示了！南洋理工&騰訊最新提出EMMA

angel ? 3152瀏覽 ? 0回復(fù)
一分鐘教你學(xué)會ai文生圖

行走的小非 ? 4132瀏覽 ? 0回復(fù)
性能秒殺SD3、DALL·E-3，開源文生圖模型殺出大黑馬

Aceryt ? 2829瀏覽 ? 0回復(fù)
1890美元訓(xùn)出11.6億參數(shù)高質(zhì)量文生圖模型

duhorse ? 2450瀏覽 ? 0回復(fù)
史上最強(qiáng)文生圖模型？谷歌Imagen3內(nèi)部詳細(xì)評估資料解讀

angel ? 4867瀏覽 ? 0回復(fù)
史上最強(qiáng)文生圖模型？谷歌Imagen3內(nèi)部詳細(xì)評估資料解讀

angel ? 3160瀏覽 ? 0回復(fù)
SD3、FLUX.1等開源文生圖模型，可能將無法使用

Aceryt ? 2868瀏覽 ? 0回復(fù)
騰訊&新加坡國立發(fā)布IFAdapter：即插即用，提升文生圖模型實例特征和位置生成準(zhǔn)確性

angel ? 3144瀏覽 ? 0回復(fù)
“左腳踩右腳”提升文生圖模型綜合能力！清北牛津普林斯頓聯(lián)合發(fā)布IterComp

angel ? 3173瀏覽 ? 0回復(fù)
大幅提升SDXL和SD3-Medium效果！文生圖偏好優(yōu)化新寵來了

angel ? 2500瀏覽 ? 0回復(fù)
Omost：極簡提示詞的文生圖工具

sword_hero ? 3058瀏覽 ? 0回復(fù)
超越SDEdit等七大SOTA，免訓(xùn)練多模態(tài)圖像編輯里程碑：HeadRouter帶來精準(zhǔn)語義調(diào)整

angel ? 2541瀏覽 ? 0回復(fù)
文生圖擊敗所有擴(kuò)散SOTA方案！智源研究院等提出NOVA：邁向統(tǒng)一的多任務(wù)大模型

angel ? 2403瀏覽 ? 0回復(fù)
Runway全面開放新文生圖模型Frames

Aceryt ? 2235瀏覽 ? 0回復(fù)
【模型部署】在Dify中接入ComfyUI+Flux實現(xiàn)文生圖

一起AI技術(shù) ? 7494瀏覽 ? 1回復(fù)
剛剛，OpenAI發(fā)布新文生圖模型，免費、逼真到難以分辨

Aceryt ? 1898瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

多領(lǐng)域SOTA誕生！Vid2World：打通視頻擴(kuò)散到世界模型的“任督二脈”｜清華、重大 2025-05-23 10:17:32發(fā)布
多模態(tài)終極大一統(tǒng)！字節(jié)開源BAGEL爆火：圖文生成理解雙冠王，竟能預(yù)測未來畫面？ 2025-05-22 09:33:05發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實測：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

我把DeepSeek微調(diào)參數(shù)扒光了，顯存和性能優(yōu)化的秘密都在這 0回復(fù)

上一篇：從頻率到細(xì)節(jié)：ConsisID實現(xiàn)無縫身份一致的文本到視頻生成

下一篇： VLM訓(xùn)練成本降4.5倍！8B參數(shù)媲美GPT-4o mini | 英偉達(dá)&MIT等發(fā)布NVILA：前沿高效

社區(qū)精華內(nèi)容

目錄

<style id="7nqvt"><source id="7nqvt"></source></style>

<em id="7nqvt"><button id="7nqvt"></button></em>

<table id="7nqvt"></table><tt id="7nqvt"></tt>