偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<pre id="7i25y"><sup id="7i25y"></sup></pre>

<button id="7i25y"></button>

<tfoot id="7i25y"><strike id="7i25y"></strike></tfoot>

<abbr id="7i25y"><form id="7i25y"><optgroup id="7i25y"></optgroup></form></abbr>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

揭秘神秘的種子：Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴散模型大規(guī)模種子分析精華

發(fā)布于 2024-6-18 13:11

瀏覽

0收藏

揭秘神秘的種子：Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴散模型大規(guī)模種子分析-AI.x社區(qū)

文章鏈接：?https://arxiv.org/pdf/2405.14828??

最近對文本到圖像（T2I）擴散模型的進(jìn)展促進(jìn)了創(chuàng)造性和逼真的圖像合成。通過變化隨機種子，可以為固定的文本提示生成各種圖像。在技術(shù)上，種子控制著初始噪聲，并且在多步擴散推理中，在反向擴散過程的中間時間步驟中用于重參數(shù)化的噪聲。然而，隨機種子對生成的圖像的具體影響仍然相對未知。

在這項工作中，進(jìn)行了大規(guī)模的科學(xué)研究，探討了擴散推理過程中隨機種子的影響。值得注意的是，研究者發(fā)現(xiàn)最佳的“黃金”種子的FID達(dá)到了令人印象深刻的21.60，而最差的“劣質(zhì)”種子的FID為31.97。此外，分類器可以在幾個時代內(nèi)以超過99.9%的準(zhǔn)確度預(yù)測用于生成圖像的種子編號，表明基于生成圖像，種子是高度可區(qū)分的。受到這些發(fā)現(xiàn)的鼓舞，本文研究了種子對可解釋的視覺維度的影響，發(fā)現(xiàn)某些種子會一致地生成灰度圖像、突出的天空區(qū)域或圖像邊界。種子還會影響圖像的構(gòu)成，包括對象的位置、大小和深度。此外，通過利用這些“黃金”種子，展示了改進(jìn)的圖像生成，如高保真推理和多樣化的采樣。本文的調(diào)查還涉及修補任務(wù)，發(fā)現(xiàn)一些種子傾向于插入不需要的文本偽影?？偟膩碚f，廣泛分析凸顯了選擇良好種子的重要性，并為圖像生成提供了實用的實用性。

好壞種子的對比

揭秘神秘的種子：Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴散模型大規(guī)模種子分析-AI.x社區(qū)

揭秘神秘的種子：Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴散模型大規(guī)模種子分析-AI.x社區(qū)

介紹

文本到圖像（T2I）擴散模型已經(jīng)顯著推動了圖像合成，使得可以創(chuàng)建逼真的、高分辨率的圖像。然而，它們的訓(xùn)練需要大量的計算資源，限制了這種研究只能在一些設(shè)備齊全的實驗室進(jìn)行。盡管存在這些限制，許多研究通過特征重新加權(quán)、基于梯度的引導(dǎo)或與多模式LLMs的集成等方法增強了推理過程中的圖像生成。

這項工作提出了一種推理技術(shù)，通過探索逆擴散過程中的“秘密種子”來增強圖像生成。受到Torch.manual_seed(3407)等研究的啟發(fā)，該研究揭示了精心選擇的神經(jīng)網(wǎng)絡(luò)初始化種子在圖像分類中可以優(yōu)于選擇不當(dāng)?shù)姆N子，調(diào)查了在T2I擴散推理中是否“黃金”或“劣質(zhì)”種子同樣會影響圖像質(zhì)量。令人驚訝的是，使用預(yù)訓(xùn)練的流行T2I模型 Stable Diffusion (SD) 2.0，在1,024個種子上進(jìn)行實驗，發(fā)現(xiàn)最佳的“黃金”種子的FID達(dá)到了21.60，而最差的“劣質(zhì)”種子只達(dá)到了31.97 ——這在社區(qū)中是一個顯著的差異。這一發(fā)現(xiàn)引發(fā)了我們對幾個科學(xué)問題的好奇：種子在T2I擴散推理中控制什么？為什么隨機種子如此重要？種子可以通過生成的圖像進(jìn)行區(qū)分嗎？它們是否控制可解釋的圖像維度，如果是，如何利用這一點來增強圖像生成？

為了回答這些研究問題，首先研究了隨機種子如何控制初始的噪聲潛變量以及逆潛變量擴散過程中每個中間時間步的高斯噪聲。研究者們還使用兩個T2I擴散模型（傳統(tǒng)的多步 SD 2.0 和蒸餾的單步 SDXL Turbo）構(gòu)建了一個數(shù)據(jù)集。這個數(shù)據(jù)集包括超過22,000個多樣化的文本提示，并且對于每種模型和提示的組合，使用1,024個唯一的固定種子，結(jié)果大約有4600萬張圖像。

最初的目標(biāo)是確定每個隨機種子是否在生成的圖像中編碼了可識別的獨特特征。為了測試這一點，研究者們訓(xùn)練了一個1,024路分類器，從不同的提示中生成的圖像中預(yù)測擴散推理時使用的種子編號。值得注意的是，這個分類器在只經(jīng)過六個時代的情況下就達(dá)到了超過99.9%的驗證準(zhǔn)確率，這與大約0.01%的隨機猜測概率形成了鮮明對比，表明基于生成的圖像種子是高度可區(qū)分的。

在確認(rèn)了種子的可區(qū)分性后，本文的目標(biāo)是了解是否存在任何可解釋的感知維度，使得這種區(qū)分成為可能。下一步是設(shè)計一個流水線來提取風(fēng)格和布局表示，對可見聚類應(yīng)用降維技術(shù)，然后識別出不同種子之間的一致模式，而不考慮輸入提示。例如，某些種子一致地生成“灰度”圖像，其他種子在頂部生成具有突出的白色“天空”區(qū)域的圖像，而某些種子則創(chuàng)建圖像邊框或在修補模式下插入“文本”。就圖像布局而言，各種種子一致地影響主要對象的規(guī)模、位置和深度。有關(guān)這些發(fā)現(xiàn)的詳細(xì)信息。

基于從種子分析中的這些發(fā)現(xiàn)，提出了幾種下游應(yīng)用來增強圖像生成。首先，通過識別各種提示中的“黃金”種子，可以將采樣限制為前K個種子，以進(jìn)行高保真推理。與默認(rèn)實現(xiàn)中的隨機采樣相比，這種方法表現(xiàn)出更好的定量性能，如FID和HPS v2的測量結(jié)果。其次，發(fā)現(xiàn)表明，某些種子捕獲了不同的風(fēng)格或布局組合。通過利用這一知識，可以基于風(fēng)格或布局實施多樣化的采樣，為用戶提供不同的結(jié)果。最后，在圖像修補方面的研究表明，某些種子一致地生成“文本偽影”，而不是完成像素，這表明可以通過使用最小化這些偽影的種子來改善基于文本的修補模型的修補質(zhì)量。請注意，對于所有這些應(yīng)用，只需要針對每個模型執(zhí)行一次種子分析，本文的方法可以輕松集成到推理過程中，而不需要增加任何計算開銷，這與大多數(shù)基于優(yōu)化的方法不同。

本文的貢獻(xiàn)如下：

首次對文本到圖像擴散模型進(jìn)行了大規(guī)模種子分析，并構(gòu)建了一個包含超過4600萬張圖像的數(shù)據(jù)集，這些圖像來自兩種T2I擴散模型，跨越了各種不同的文本提示。
發(fā)現(xiàn)種子編碼了高度可區(qū)分的信息，使得一個分類器能夠輕松地從1,024個可能的種子中預(yù)測出用于擴散推理的種子編號，驗證準(zhǔn)確率達(dá)到了超過99.9%。
發(fā)現(xiàn)種子在圖像質(zhì)量、風(fēng)格、布局組合以及文本修補模型的“文本偽影”生成等方面具有顯著影響。

基于從種子分析中得到的見解，提出了幾種下游應(yīng)用，可以增強文本到圖像模型的高保真推理或多樣化推理，以及通過避免“文本偽影”來提高圖像生成質(zhì)量的修補模型。

這些結(jié)果對于深入理解T2I擴散模型的工作原理以及改進(jìn)圖像生成的實用性都具有重要意義。

相關(guān)工作

深度學(xué)習(xí)模型中的隨機性。先前的研究主要探討了由隨機初始化權(quán)重、隨機數(shù)據(jù)排序和隨機優(yōu)化引起的神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的隨機性。值得注意的是，Picard等人在CIFAR-10數(shù)據(jù)集上發(fā)現(xiàn)了最佳和最差種子之間1.82%的測試準(zhǔn)確率差異，突顯了種子對模型性能的重大影響。受到這些發(fā)現(xiàn)的啟發(fā)，我們探索了T2I擴散模型中反向擴散過程中的隨機性。

擴散模型輸入的影響。預(yù)訓(xùn)練的文本到圖像擴散模型產(chǎn)生的圖像的主要變化源于文本提示和控制初始噪聲的隨機種子。因此，精心選擇這些模型輸入可以在推理過程中增強圖像生成和編輯，而無需進(jìn)行額外的模型訓(xùn)練或微調(diào)。一些研究專注于理解文本嵌入對生成的圖像的影響，或者利用這些文本嵌入進(jìn)行無調(diào)優(yōu)的圖像生成。例如，Yu等人發(fā)現(xiàn)，T2I擴散模型中常用的CLIP文本嵌入包含多樣化的語義方向，有助于可控的圖像編輯。

此外，最近的研究表明，初始噪聲可能導(dǎo)致某些圖像生成傾向。特別是，Po-Yuan等人證明，對初始噪聲進(jìn)行輕微擾動可以大幅改變擴散模型生成的樣本。然而，初始噪聲對輸出圖像的各種視覺維度的影響程度尚不清楚。因此，對隨機種子對生成圖像質(zhì)量、人類偏好對齊、風(fēng)格、構(gòu)圖以及“文本偽影”插入的影響進(jìn)行了廣泛的分析。

擴散模型中初始噪聲的優(yōu)化。鑒于種子對T2I擴散模型生成的圖像產(chǎn)生的重大影響，先前的研究旨在優(yōu)化初始噪聲，以產(chǎn)生與文本提示更符合、減少視覺偽影或?qū)崿F(xiàn)期望布局的圖像。例如，Mao等人發(fā)現(xiàn)，初始噪聲的某些區(qū)域更有可能噪聲消除成特定概念，使他們能夠通過簡單地替換初始噪聲的區(qū)域而接近圖像編輯，而無需進(jìn)行微調(diào)或干擾反向擴散過程。雖然他們的工作集中在對初始噪聲的局部分析，但我們的研究提供了對控制初始噪聲的隨機種子在各種文本提示下的大規(guī)模研究。

了解擴散種子

種子在逆擴散過程中控制什么？

在深度學(xué)習(xí)中，隨機種子根據(jù)上下文扮演不同的角色。在深度網(wǎng)絡(luò)訓(xùn)練過程中，它們通常影響神經(jīng)網(wǎng)絡(luò)權(quán)重的初始化、數(shù)據(jù)調(diào)度、數(shù)據(jù)增強策略以及隨機正則化技術(shù)，如dropout。本工作旨在了解種子在逆擴散過程中和擴散推理過程中控制什么。

我們專注于由Rombach等人描述的潛在擴散模型，盡管相同的原理也適用于像素擴散模型。理論上，在傳統(tǒng)的多步逆擴散過程中，每個時間步長的初始噪聲潛變量和重新參數(shù)化時使用的噪聲都是從高斯分布中采樣得到的，引入了隨機性。下圖2的左側(cè)可視化了這個過程。在實現(xiàn)層面上，我們確認(rèn)隨機種子被用作計算這些變量的輸入。

揭秘神秘的種子：Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴散模型大規(guī)模種子分析-AI.x社區(qū)

在蒸餾的單步擴散模型（如SDXL Turbo）中，隨機種子僅確定了初始噪聲潛變量，因為沒有中間去噪步驟。在多步擴散推理中，種子確定了每個時間步長的初始潛變量和重參數(shù)化噪聲。為了理解初始潛在配置和重參數(shù)化步驟對生成的圖像的分離影響，我們進(jìn)行了一個簡單的“種子交換”研究，使用了40個推理步驟的DDIM調(diào)度器。在我們的研究中，我們首先將種子設(shè)置為i并開始逆擴散過程。然后，在一個中間時間步長，我們將種子更改為j并完成圖像生成過程。我們探索使用種子0和1作為i和j，以及在逆擴散過程的早期、中期和晚期交換種子。盡管存在這些變化，但我們發(fā)現(xiàn)初始噪聲潛變量顯著控制著生成的內(nèi)容，而在中間的重新參數(shù)化步驟引入的隨機噪聲對生成的圖像沒有明顯影響，如上圖2的右側(cè)所示。

數(shù)據(jù)生成

為了進(jìn)行大規(guī)模的種子分析，研究者們使用了三種類型的文本提示進(jìn)行文本到圖像（T2I）生成，如下圖3所示。

揭秘神秘的種子：Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴散模型大規(guī)模種子分析-AI.x社區(qū)

首先，為了捕獲廣泛的自然視覺內(nèi)容，從常用的MS-COCO 2017訓(xùn)練集中采樣了20,000張圖像，并使用LLaVA 1.5生成了密集的標(biāo)題。其次，利用PartiPrompts基準(zhǔn)測試中的1,632個提示，其中包括短和長的通用用戶提示。最后，為了進(jìn)行更加受控的科學(xué)研究，通過將40個對象類別與22個修飾詞組合，生成了880個唯一組合的合成提示。

針對數(shù)據(jù)集中的每個提示，采樣了1,024個種子，并使用兩種T2I模型，SD 2.0和SDXL Turbo，進(jìn)行大規(guī)模種子分析的圖像生成。這導(dǎo)致了總數(shù)為22,512個提示×1,024個種子×2個模型=46,104,576張圖像。

除了文本到圖像的應(yīng)用之外，還為擴散修補模型策劃了500對圖像和mask，其中mask通常覆蓋原始圖像中的一個對象。對于文本提示，我們使用“清晰背景”來模擬對象移除的用例，并使用原始對象類別來模擬對象完成的用例。

種子根據(jù)生成的圖像有多具有辨別力？

作為一個初步實驗，檢查種子是否可以通過它們生成的圖像來區(qū)分。研究者們訓(xùn)練了一個1,024路的分類器，以預(yù)測生成給定圖像所使用的種子編號，每個種子采用9,000張訓(xùn)練圖像、1,000張驗證圖像和1,000張測試圖像。

值得注意的是，種子根據(jù)它們的圖像是高度可區(qū)分的。僅經(jīng)過六個epoch，在SD 2.0上訓(xùn)練的分類器的測試準(zhǔn)確率達(dá)到了99.994%，而在SDXL Turbo上訓(xùn)練的分類器的測試準(zhǔn)確率達(dá)到了99.956%。然而，目前尚不清楚是什么使得種子容易被區(qū)分，因為下圖4中的Grad-CAM可視化并不容易解釋。這些發(fā)現(xiàn)表明，種子可能編碼了獨特的視覺特征，促使我們探索它們在幾個可解釋的維度上的影響。

揭秘神秘的種子：Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴散模型大規(guī)模種子分析-AI.x社區(qū)

種子對可解釋視覺維度的影響

我們觀察到一個經(jīng)過訓(xùn)練以預(yù)測生成圖像所使用的種子的分類器，在訓(xùn)練幾個時期后就能達(dá)到超過99.9%的準(zhǔn)確率。然而，目前尚不清楚生成圖像的哪些方面使得這些種子能夠被高度區(qū)分。因此，展示了一項關(guān)于種子編號對可解釋視覺維度影響的廣泛實證研究。

圖像質(zhì)量和人類偏好一致性。研究者們使用了來自MS-COCO密集標(biāo)題的20,000個提示。對于每個提示，使用1,024個種子生成圖像。為了評估與每個種子相關(guān)的圖像質(zhì)量，選擇了10,000個提示及其相應(yīng)的生成圖像，然后計算了與10,000個真實MS-COCO圖像的FID分?jǐn)?shù)。

令人驚訝的是，觀察到了最佳和最差種子之間在FID分?jǐn)?shù)上的顯著差異。例如，對于SD 2.0來說，“黃金”種子469取得了低至21.60的FID，而“劣質(zhì)”種子696得分為31.97——這在社區(qū)內(nèi)被認(rèn)為是顯著的差異。此外，研究這門使用了HPS v2來評估種子，這是一種在大規(guī)模人類偏好對中訓(xùn)練的新指標(biāo)，用于量化人類對由AI生成的圖像的偏好程度。對于每個種子，采樣了1,000個提示及其相應(yīng)的圖像來計算HPS v2。正如下圖5所示，根據(jù)FID和HPS v2排名的前三和后三名種子確實顯示出，評分最高的種子生成的圖像更具視覺吸引力，并且與人類偏好更為一致。

揭秘神秘的種子：Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴散模型大規(guī)模種子分析-AI.x社區(qū)

接下來，確定這些種子排名是否可以推廣到另一組10,000個提示的FID和1,000個提示的HPS v2。在下圖6和圖7中，繪制了使用來自SD 2.0和SDXL Turbo的圖像的FID和HPS v2排名的種子。

揭秘神秘的種子：Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴散模型大規(guī)模種子分析-AI.x社區(qū)

揭秘神秘的種子：Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴散模型大規(guī)模種子分析-AI.x社區(qū)

比較了來自第一組提示（藍(lán)色中的“提示集1”）的得分與來自另一組提示（橙色中的“提示集2”）的得分。研究者們揭示了在質(zhì)量和人類偏好方面的種子模式的高度重疊性，表明它們確實適用于提示集合之間。

圖像風(fēng)格。鑒于使用不同種子生成的圖像存在視覺變化，調(diào)查是否特定的種子在各種提示下始終產(chǎn)生獨特的風(fēng)格模式。借鑒圖像紋理和風(fēng)格轉(zhuǎn)移中已建立的方法，通過從預(yù)訓(xùn)練的深度網(wǎng)絡(luò)中提取格拉姆矩陣（衡量通道間成對余弦相似度）來計算風(fēng)格表示，涵蓋多個層次。接下來，我們將格拉姆矩陣重塑為每個圖像的單列向量，并使用PCA和t-SNE將其降維到二維。

現(xiàn)在，對于每個圖像，有一個緊湊的二維向量來捕獲其風(fēng)格。對于N = 1024個種子和P個提示，這導(dǎo)致了一個特征維度為N×（2×P），將每個種子的生成圖像的風(fēng)格表示合并在一起。我們進(jìn)一步將每個種子的聚合風(fēng)格表示從N×（2×P）降維到N×2。最后，下圖8中顯示了一部分種子在2D中的可視化，提供了種子級別的風(fēng)格聚類的清晰可視化表示。

揭秘神秘的種子：Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴散模型大規(guī)模種子分析-AI.x社區(qū)

在圖8中，embedding空間內(nèi)的位置對應(yīng)于各個子圖中的相同種子。如第一行所示，某些種子組始終生成灰度圖像，而不受使用的提示的影響。同樣，第二行顯示了一些種子傾向于生成具有突出天空區(qū)域的圖像，而其他種子則不會。

此外，在下圖9中，觀察到一組特定的種子始終在邊緣附近生成具有“邊框”效果的圖像，而不受文本提示的影響?？偟膩碚f，這些發(fā)現(xiàn)表明，不同的種子在生成風(fēng)格時表現(xiàn)出不同的傾向，而這種差異在不同的提示下仍然存在。

揭秘神秘的種子：Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴散模型大規(guī)模種子分析-AI.x社區(qū)

圖像構(gòu)圖。超越風(fēng)格，研究種子是否創(chuàng)建了獨特的圖像構(gòu)圖，例如一致的對象位置和大小。這里使用了880個合成提示生成圖像，其中包括40個對象類別和22個修飾語，其中包括形容詞和空字符串。對于每個圖像，分割對象并計算圖像構(gòu)圖特征向量，其中包含對象的質(zhì)心（x，y）坐標(biāo)，大小和相對于圖像的深度。

在下圖10的左側(cè)，可視化了類別“馬”的對象mask的質(zhì)心分布。值得注意的是，盡管提示略有變化，但對象的位置相對穩(wěn)定。在圖10的右側(cè)，觀察到了類別“碗”的對象大小和深度的類似模式。總體而言，觀察到生成的對象的位置，大小和深度在很大程度上取決于所使用的特定種子，無論是相同的對象類別還是提示中的文本修飾符。

揭秘神秘的種子：Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴散模型大規(guī)模種子分析-AI.x社區(qū)

實際應(yīng)用

高保真推理

觀察到“黃金”種子傾向于生成質(zhì)量更好且與人類偏好更加一致的圖像。這啟發(fā)思考——相對于隨機生成，能夠通過簡單利用這些“黃金”種子來提高多少圖像質(zhì)量？

具體而言，確定了k個在圖像質(zhì)量和人類偏好對齊方面表現(xiàn)出色的“黃金”種子。隨后，通過使用另一組10,000個提示來生成這k個“黃金”種子的圖像，以評估它們相對于隨機種子的性能。確定了SD 2.0的k = 65個“黃金”種子和SDXL Turbo的k = 67個“黃金”種子，其中k是通過選擇在FID和HPS v2中排名前256位的種子來確定的。

建議在實際應(yīng)用中，為單個提示選擇60+個“黃金”種子的采樣池是足夠大的。如下表1所示，利用這些精心選擇的種子顯著提高了SD 2.0和SDXL Turbo在MS-COCO和PartiPrompts基準(zhǔn)測試中的FID和HPS v2得分。

揭秘神秘的種子：Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴散模型大規(guī)模種子分析-AI.x社區(qū)

風(fēng)格和構(gòu)圖中的可控多樣性

典型的圖像生成界面為用戶每個提示提供四個樣本。此外，先前的方法旨在通過主要使用基于梯度的方法（例如Particle Guidance）來促進(jìn)生成圖像的多樣性。結(jié)果突顯了種子選擇對生成圖像中的風(fēng)格和空間屬性具有很強的影響。因此，探索是否可以通過簡單地對“多樣”種子進(jìn)行采樣來獲得風(fēng)格或構(gòu)圖方面更多樣化的圖像。

為了每個提示選擇四個不同的種子，使用討論中的方法，將每個種子表示為捕捉其風(fēng)格或構(gòu)圖的特征向量。然后，使用這些特征進(jìn)行最遠(yuǎn)點采樣。具體來說，隨機選擇第一個種子，然后迭代地選擇下一個三個種子，以最大化在特征空間中與已選擇種子的距離。

揭秘神秘的種子：Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴散模型大規(guī)模種子分析-AI.x社區(qū)

其中S是多樣種子集。為了評估精心選擇的種子是否比隨機種子和Particle Guidance 改進(jìn)了多樣性，研究者們計算了從不同集合的P個提示生成的圖像的相似性，其中P = 500 LLaVA 密集標(biāo)題用于圖像風(fēng)格，P = 440合成提示用于圖像構(gòu)圖。具體來說，測量圖像特征的成對余弦相似度，并在各個提示上對相似性得分進(jìn)行平均。直觀地說，較低的成對相似性得分意味著更高的多樣性。在數(shù)學(xué)上，度量分?jǐn)?shù)表示為：

揭秘神秘的種子：Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴散模型大規(guī)模種子分析-AI.x社區(qū)

這里有P個提示，f表示代表圖像風(fēng)格或構(gòu)圖的特征向量。通常每個提示使用C = 4個圖像，但重要的是要注意，如果在圖像中未檢測到任何對象，則不使用該圖像來計算相似性。

在下表2中，觀察到多樣種子在為SD 2.0生成具有不同風(fēng)格和構(gòu)圖的圖像方面優(yōu)于隨機種子和Particle Guidance。

揭秘神秘的種子：Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴散模型大規(guī)模種子分析-AI.x社區(qū)

有趣的是，精心選擇的種子有助于為SD 2.0使圖像構(gòu)圖多樣化，但對于SDXL Turbo則不然。在下圖11中展示了視覺比較。

揭秘神秘的種子：Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴散模型大規(guī)模種子分析-AI.x社區(qū)

改進(jìn)的基于文本的修復(fù)

已經(jīng)展示了精心選擇種子提供了一種簡單、無需訓(xùn)練的方法，可以增強文本到圖像擴散模型生成的圖像的視覺質(zhì)量、人類偏好和多樣性。但是，圖像生成的潛力不僅限于文本到圖像應(yīng)用。這提出了一個有趣的問題——我們是否也可以為基于文本的圖像修復(fù)任務(wù)發(fā)現(xiàn)“黃金”種子，例如對象去除和對象完成？

研究者們收集了500對圖像和修復(fù)mask，用于對象去除和對象完成應(yīng)用。使用文本提示“清除背景”來進(jìn)行去除操作，對于完成情況，使用與原始對象類別對應(yīng)的提示。然后，使用基于文本的擴散修復(fù)模型生成圖像。

觀察到一些圖像在修復(fù)區(qū)域包含了不希望的文本，通常模仿提示。為了量化文本的存在，應(yīng)用了光學(xué)字符識別（OCR），并計算了每個種子生成的所有圖像中修復(fù)mask內(nèi)文本的平均比例。如下圖12所示，某些種子傾向于在去除和完成情景下插入文本。

揭秘神秘的種子：Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴散模型大規(guī)模種子分析-AI.x社區(qū)

結(jié)論、限制和更廣泛的影響

在本研究中，研究了“隨機”種子在逆擴散過程中的作用，探索了它們基于生成的圖像的可區(qū)分性以及對可解釋的視覺維度的影響。值得注意的是，1,024路分類器訓(xùn)練以預(yù)測生成圖像的種子號，在短短幾個epoch內(nèi)就達(dá)到了超過99.9%的測試準(zhǔn)確率。

受到這一發(fā)現(xiàn)的鼓舞，進(jìn)行了廣泛的分析，并確定了一些一致產(chǎn)生視覺質(zhì)量更好和與人類偏好更一致的圖像的“黃金”種子。

還發(fā)現(xiàn)某些種子會創(chuàng)建“灰度”圖像，在修復(fù)期間添加邊框或插入文本。研究還表明，種子影響圖像的構(gòu)成，影響對象的位置、大小和深度。利用這些見解，提出了下游應(yīng)用，例如通過僅對這些特殊種子進(jìn)行采樣來進(jìn)行文本到圖像擴散模型的高保真推理和多樣化生成。分析為在推理過程中增強圖像合成提供了新的視角，而無需顯著的計算開銷。

此外，值得注意的是，本研究使用的是在大規(guī)模、未篩選的網(wǎng)絡(luò)數(shù)據(jù)上預(yù)訓(xùn)練的文本到圖像擴散模型，這可能包含偏見和錯誤，而文本提示包括MS-COCO圖像的密集標(biāo)題，可能產(chǎn)生人類想象。另外，由于預(yù)算限制，主要研究了1024個種子中的影響，而不是所有可能的種子值。

揭秘神秘的種子：Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴散模型大規(guī)模種子分析-AI.x社區(qū)

揭秘神秘的種子：Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴散模型大規(guī)模種子分析-AI.x社區(qū)

本文轉(zhuǎn)自 AI生成未來，作者：Lingzhi Zhang等

原文鏈接:??https://mp.weixin.qq.com/s/QbOGqgqdKkSnCG6oFGu2yg??

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

文本到圖像擴散模型中記憶化實用分析（浙大）

angel ? 3743瀏覽 ? 0回復(fù)
【LLM】提升大規(guī)模并行訓(xùn)練效率的方法

sbf_2000 ? 4274瀏覽 ? 0回復(fù)
剖析大規(guī)模 GPU 集群：針對 LLM 場景的挑戰(zhàn)和優(yōu)化

amei2000go ? 5786瀏覽 ? 0回復(fù)
LLaMA 3 背后的大規(guī)模 GPU 集群 RoCE 網(wǎng)絡(luò)建設(shè)

amei2000go ? 4970瀏覽 ? 0回復(fù)
Jamba-1.5：大規(guī)模混合Transformer-Mamba模型

sbf_2000 ? 3389瀏覽 ? 0回復(fù)
兼顧身份保護(hù)和文本對齊！中山大學(xué)等提出CoRe：任意提示的文本到圖像個性化生成！

angel ? 2633瀏覽 ? 0回復(fù)
大規(guī)模分布式 AI 模型訓(xùn)練—張量并行

amei2000go ? 3573瀏覽 ? 0回復(fù)
大規(guī)模分布式 AI 模型訓(xùn)練系列——流水線并行

amei2000go ? 4307瀏覽 ? 0回復(fù)
英偉達(dá)提出LATTE3D：大規(guī)模高質(zhì)量的Amortized文本到增強3D 合成

angel ? 3063瀏覽 ? 0回復(fù)
阿里史上最大規(guī)模開源發(fā)布，超GPT-4o 、Llama-3.1！

Aceryt ? 2471瀏覽 ? 0回復(fù)
阿里國際發(fā)布首個大規(guī)模商用翻譯大模型Marco，效果超Google、DeepL等，全球開放！

51CTO技術(shù)棧 ? 3713瀏覽 ? 0回復(fù)
圖像編輯多任務(wù)一網(wǎng)打盡！PromptFix，新型擴散模型&大規(guī)模視覺指令數(shù)據(jù)集（羅切斯特大學(xué)&微軟）

angel ? 3341瀏覽 ? 0回復(fù)
FGM：刷新流匹配模型單步文本到圖像生成紀(jì)錄！(浙大&卡內(nèi)基梅隆&北大&西湖大學(xué))

angel ? 3352瀏覽 ? 0回復(fù)
AI2驚艷發(fā)布OneDiffusion：突破性大規(guī)模擴散模型，支持多任務(wù)生成與理解，重塑視覺AI應(yīng)用

angel ? 3281瀏覽 ? 0回復(fù)
大規(guī)模情感分析：將NLP應(yīng)用于多語言和特定領(lǐng)域的文本

51CTO內(nèi)容精選 ? 2544瀏覽 ? 0回復(fù)
從經(jīng)典到創(chuàng)新，揭秘擴散模型的6大王牌與5大創(chuàng)新思路

智駐未來 ? 4347瀏覽 ? 0回復(fù)
用戶可控的電影級圖像到視頻生成方法！港中文&Adobe發(fā)布MotionCanvas

angel ? 2486瀏覽 ? 0回復(fù)
OpenAI 發(fā)布GPT-4.5：更大規(guī)模、更知識淵博的模型，預(yù)訓(xùn)練的巔峰之作，COT升級為COD

Syrupup ? 3582瀏覽 ? 0回復(fù)
IBM提出多模式圖像文本到文本模型SmolDocling，可實現(xiàn)代碼 | 公示 | 圖表 | 表格 | 標(biāo)題高效轉(zhuǎn)換！

AIGCStudio ? 1881瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

多領(lǐng)域SOTA誕生！Vid2World：打通視頻擴散到世界模型的“任督二脈”｜清華、重大 2025-05-23 10:17:32發(fā)布
多模態(tài)終極大一統(tǒng)！字節(jié)開源BAGEL爆火：圖文生成理解雙冠王，竟能預(yù)測未來畫面？ 2025-05-22 09:33:05發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實測：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

上一篇： UBCFashion和TikTok新SOTA！復(fù)旦和騰訊優(yōu)圖發(fā)布端到端人像動畫生成器VividPose！

下一篇： CVPR`24 | 4D編輯哪家強？浙大首次提出通用指導(dǎo)4D編輯框架：Instruct 4D-to-4D

社區(qū)精華內(nèi)容

目錄

<form id="e02fk"></form>