偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

NeurIPS 2024 | 全面提升文生圖SOTA方法!ToMe:基于token合并的免訓(xùn)練文生圖語義綁定

發(fā)布于 2024-12-9 10:04
瀏覽
0收藏

NeurIPS 2024 | 全面提升文生圖SOTA方法!ToMe:基于token合并的免訓(xùn)練文生圖語義綁定-AI.x社區(qū)

論文鏈接:https://arxiv.org/abs/2411.07132GitHub鏈接:https://github.com/hutaiHang/ToMe

亮點直擊

  • 分析了語義綁定問題,重點討論了[EOT]token的作用,以及跨注意力圖錯位的問題。此外,探索了token可加性作為一種可能的解決方案。
  • 提出了一種無訓(xùn)練方法——token合并,簡稱ToMe,作為一種更高效且穩(wěn)健的語義綁定解決方案。通過引入提出的結(jié)束token替代和迭代復(fù)合token更新技術(shù),ToMe得到了進(jìn)一步增強(qiáng)。
  • 在廣泛使用的T2I-CompBench基準(zhǔn)和GPT-4o對象綁定基準(zhǔn)上進(jìn)行的實驗中,將ToMe與多種最先進(jìn)的方法進(jìn)行了比較,并始終在性能上大幅領(lǐng)先。

研究背景

近年來,隨著深度學(xué)習(xí)和人工智能技術(shù)的飛速發(fā)展,文本生成圖像(Text-to-Image, T2I)模型在圖像生成領(lǐng)域取得了顯著的進(jìn)展。特別是擴(kuò)散模型(Diffusion Models)的出現(xiàn),使得T2I模型能夠根據(jù)文本提示生成高質(zhì)量、高分辨率的圖像。這些模型在藝術(shù)創(chuàng)作、設(shè)計、虛擬現(xiàn)實等多個領(lǐng)域展現(xiàn)了巨大的應(yīng)用潛力。然而,盡管T2I模型在生成圖像方面表現(xiàn)出色,但在將文本提示中的語義信息準(zhǔn)確映射到圖像中仍然存在挑戰(zhàn)。 例如,在多對象生成中,prompt中的每個對象都有自己對應(yīng)的子屬性(用來修飾這個對象的形容詞或者名詞子對象),但現(xiàn)有的模型難以將文本中的對象與其屬性或相關(guān)子對象正確關(guān)聯(lián),表現(xiàn)為錯誤的綁定或者屬性的丟失。我們將這一問題稱為語義綁定(Semantic Binding),

如下圖所示,當(dāng)提示詞為“一只戴著帽子的狗和一只戴著太陽鏡的貓”時,生成的圖像可能會出現(xiàn)帽子戴在貓頭上,太陽鏡戴在狗頭上的錯誤情況。這種錯誤不僅影響了圖像的視覺效果,也限制了T2I模型在實際應(yīng)用中的可靠性和實用性。

NeurIPS 2024 | 全面提升文生圖SOTA方法!ToMe:基于token合并的免訓(xùn)練文生圖語義綁定-AI.x社區(qū)

為了解決這一問題,研究者們提出了多種方法,包括優(yōu)化潛在表示、通過布局先驗引導(dǎo)生成過程,以及對T2I模型進(jìn)行微調(diào)等。然而,這些方法往往需要大量的計算資源和復(fù)雜的訓(xùn)練過程,且在處理復(fù)雜場景(如多個對象和多個屬性)時仍然存在局限性。因此,開發(fā)一種高效、無需訓(xùn)練且能夠有效解決語義綁定問題的方法,成為了當(dāng)前研究的重要方向。

研究動機(jī)

文本嵌入的信息耦合

在處理包含多個對象的prompt時,以往基于布局先驗的方法會首先使用LLM生成合理的圖像布局,例如將圖像劃分為不同的子區(qū)域,每個子區(qū)域只關(guān)注prompt中的單個對象。通過這種規(guī)劃-生成來增強(qiáng)語義對齊。但盡管規(guī)劃好了不同子區(qū)域與原始prompt中不同對象的text embedding進(jìn)行cross attention,但不同子區(qū)域間還是會出現(xiàn)屬性泄露等情況,把和一個對象不相關(guān)的屬性綁定到這個對象上。我們認(rèn)為,這是由于用來調(diào)制不同子區(qū)域的text embeeding本身的信息耦合導(dǎo)致的。例如,對于“a cat wearing sunglasses and a dog with hat”這個prompt,其在經(jīng)由CLIP編碼后得到text embedding。原始的擴(kuò)散模型使用全部text token的text embedding作為cross-attention模塊的輸入,我們發(fā)現(xiàn)當(dāng)僅僅使用此時的單個‘dog’token的text embedding時,產(chǎn)生的圖像內(nèi)容也是一個帶了眼鏡的狗。如果使用EOT token(End of Text,即每個句子末尾被padding的結(jié)束符)的text embedding,此時產(chǎn)生的圖像和使用全部的text token產(chǎn)生的圖像內(nèi)容基本一致。

NeurIPS 2024 | 全面提升文生圖SOTA方法!ToMe:基于token合并的免訓(xùn)練文生圖語義綁定-AI.x社區(qū)

這可能是由于CLIP的causal masked attention導(dǎo)致的,每個text token都可以和它前面的所有token進(jìn)行self-attention,這導(dǎo)致前面的文本信息會不可避免的傳遞到后面的token中,而EOT token會包含全部的語義信息。我們認(rèn)為,這種text embedding層次上的信息泄露導(dǎo)致不同對象之間屬性的混淆。

文本嵌入的可加性

此外,我們還發(fā)現(xiàn)了文本嵌入的可加性。如下圖所示,把兩個單獨編碼后的text embedding相加得到一個新的復(fù)合token的embedding,之后輸入到擴(kuò)散模型中,產(chǎn)生的圖像可以合理的組合兩個不同prompt的內(nèi)容。例如,下圖a的左上部分,[dog+hat]生成了一只戴帽子的狗。這種可加性還可以用于移除對象(下圖a,右上、左下部分),甚至執(zhí)行復(fù)雜的語義計算(下圖a,右下)。為探究這一現(xiàn)象背后的機(jī)制,我們對每個提示詞的token表示進(jìn)行了PCA 降維可視化,下圖b 所示。從“queen-king” 獲得的方向向量與“woman-man” 的方向向量幾乎相同,余弦相似度為0.998

NeurIPS 2024 | 全面提升文生圖SOTA方法!ToMe:基于token合并的免訓(xùn)練文生圖語義綁定-AI.x社區(qū)

研究方法

因此,為了解決文本生成圖像(T2I)模型中的語義綁定問題,關(guān)鍵是如何獲得一個更干凈的text embedding表征,同時使得擴(kuò)散模型意識到prompt的語法結(jié)構(gòu),把每個對象及其相關(guān)屬性綁定。我們提出了一種名為token合并(Token Merging, ToMe)的新方法。ToMe的核心思想是通過將相關(guān)的token聚合為一個復(fù)合token,從而增強(qiáng)語義綁定。具體來說,ToMe由兩部分組成:token合并與結(jié)束token替換,以及通過兩個輔助損失進(jìn)行推理時復(fù)合token迭代更新。

NeurIPS 2024 | 全面提升文生圖SOTA方法!ToMe:基于token合并的免訓(xùn)練文生圖語義綁定-AI.x社區(qū)

  • token合并與結(jié)束token替換 我們以“a cat wearing sunglasses and a dog with hat”這個prompt為例進(jìn)行說明,具體步驟如下:
  • 對象token合并:對于包含多個對象的提示詞,我們將每個對象及其相關(guān)屬性token的text embedding相加,生成一個復(fù)合token。例如,對于提示詞“a dog with hat”,我們將“dog”和“hat”的文本嵌入相加,生成一個表征“戴著帽子的狗”這個語義的復(fù)合token [dog*]。
  • 結(jié)束token替換(End Token Substitution, ETS):由于結(jié)束token([EOT])中包含的語義信息可能干擾屬性的表達(dá),我們通過替換[EOT]來減輕這種干擾,保留每個主體的語義信息。例如,當(dāng)提示詞為“a cat wearing sunglasses and a dog with hat”時,我們使用來自提示詞“a cat and a dog”的[EOT]來替換原有的[EOT]。

通過上述步驟,我們生成了一個統(tǒng)一的文本嵌入,其中每個對象及其屬性由一個復(fù)合token表示,并且通過替換[EOT]保留了每個主體的語義信息。Token合并使得每個對象及其屬性共享同一個cross-attention map,顯式的綁定了每個對象及其屬性,使它們在生成過程中共表達(dá)。

  • 復(fù)合token迭代更新 為了進(jìn)一步優(yōu)化T2I生成的初始階段(即布局確定階段),我們引入了兩個輔助損失:熵?fù)p失和語義綁定損失。這些損失會在推理過程中迭代更新復(fù)合token,以提升生成的完整性。
  • 熵?fù)p失(Entropy Loss):每個token的cross-attention map可以看作一個概率分布,這個分布的信息熵較大則說明這個token關(guān)注的區(qū)域較為發(fā)散。我們計算每個token對應(yīng)的交叉注意力圖的熵值,并將其作為損失函數(shù)的一部分。通過最小化熵?fù)p失,我們確保每個token專注于其指定的區(qū)域,從而防止交叉注意力圖過于分散。

NeurIPS 2024 | 全面提升文生圖SOTA方法!ToMe:基于token合并的免訓(xùn)練文生圖語義綁定-AI.x社區(qū)

  • 語義綁定損失(Semantic Binding Loss):語義綁定損失鼓勵復(fù)合token推斷出與原始對應(yīng)短語相同的噪聲預(yù)測,從而進(jìn)一步加強(qiáng)文本與生成圖像之間的語義一致性。具體來說,我們使用一個干凈的提示詞作為監(jiān)督信號,確保復(fù)合token的語義準(zhǔn)確對應(yīng)它們代表的名詞短語。通過最小化語義綁定損失,我們確保復(fù)合token的語義信息與原始提示詞一致。

NeurIPS 2024 | 全面提升文生圖SOTA方法!ToMe:基于token合并的免訓(xùn)練文生圖語義綁定-AI.x社區(qū)

實驗

我們在T2I-CompBench基準(zhǔn)上進(jìn)行了定量比較,結(jié)果如表1所示。ToMe在顏色、紋理和形狀屬性綁定子集中,BLIP-VQA分?jǐn)?shù)上始終優(yōu)于或與現(xiàn)有方法相當(dāng),表明其可以有效地避免屬性混淆。通過ImageReward模型評估的人類偏好得分表明,由ToMe生成的圖像更能與提示詞對齊。

NeurIPS 2024 | 全面提升文生圖SOTA方法!ToMe:基于token合并的免訓(xùn)練文生圖語義綁定-AI.x社區(qū)

定性比較結(jié)果如下圖所示:

NeurIPS 2024 | 全面提升文生圖SOTA方法!ToMe:基于token合并的免訓(xùn)練文生圖語義綁定-AI.x社區(qū)

ToMe在名詞子對象和屬性綁定場景下表現(xiàn)出色,這與表1中反映的定量指標(biāo)一致。具體來說,ToMe能夠有效地避免提示詞中的語義泄漏,確保每個對象與其屬性正確關(guān)聯(lián)。例如,在提示詞“一只戴著帽子的狗和一只戴著太陽鏡的貓”中,ToMe生成的圖像中帽子正確地戴在狗頭上,太陽鏡正確地戴在貓頭上。

NeurIPS 2024 | 全面提升文生圖SOTA方法!ToMe:基于token合并的免訓(xùn)練文生圖語義綁定-AI.x社區(qū)

消融實驗結(jié)果如表2所示。我們可以觀察到,僅使用token合并技術(shù)(Config B)帶來了輕微的性能提升,這與上圖中的定性結(jié)果一致。然而,token合并是后續(xù)優(yōu)化的基礎(chǔ)。當(dāng)它們與熵?fù)p失結(jié)合使用(Config C)時,性能顯著提升。我們推測部分原因是由于交叉注意力圖更加規(guī)范化,如圖7所示。然而,Config C在沒有語義綁定損失的情況下,仍然導(dǎo)致生成性能較差,如圖6所示,右側(cè)的狗仍然表現(xiàn)出類似貓的特征。加入語義對齊損失可以確保兩個主體正確綁定到各自的屬性上,而不會出現(xiàn)外觀混淆,從而在定量和定性上取得最佳結(jié)果。如果忽略token合并并僅應(yīng)用優(yōu)化(Config D和Config E),其性能僅與基線相當(dāng),這表明token合并是后續(xù)優(yōu)化的基礎(chǔ)。移除熵?fù)p失(Config F)也可以改善基線,但生成結(jié)果中會有明顯的偽影,這主要是因為交叉注意力圖缺乏足夠的正則化。綜上所述,ToMe中這三種新技術(shù)的每個元素都對實現(xiàn)最先進(jìn)的性能做出了貢獻(xiàn)。

結(jié)論與展望

在本文中,我們研究了文本生成圖像(T2I)模型中的一個關(guān)鍵難題,即語義綁定。該難題指的是T2I模型難以準(zhǔn)確理解并將相關(guān)語義正確映射到圖像。我們發(fā)現(xiàn)了文本嵌入的語義耦合性和可加性,提出了一種無需訓(xùn)練的新方法,稱為token合并,即ToMe,用于解決T2I生成中的語義綁定問題。ToMe通過創(chuàng)新性的將對象token與其相關(guān)token疊加為一個復(fù)合token。該機(jī)制通過統(tǒng)一交叉注意力圖,消除了語義錯位。此外,我們還結(jié)合了結(jié)束token替換和迭代復(fù)合token更新技術(shù),進(jìn)一步增強(qiáng)語義綁定。此外,本文發(fā)現(xiàn)的文本嵌入的可加性在其他領(lǐng)域也表現(xiàn)出一定的應(yīng)用前景,如下圖所示,可用來括添加對象、移除對象,甚至用于消除偏見等任務(wù)。

NeurIPS 2024 | 全面提升文生圖SOTA方法!ToMe:基于token合并的免訓(xùn)練文生圖語義綁定-AI.x社區(qū)

本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/kIRgc4LaqDDFraqKZZJ2gA??

標(biāo)簽
已于2024-12-9 10:16:15修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦