Stable Diffusion 3論文終于發(fā)布,架構(gòu)細節(jié)大揭秘,對復現(xiàn)Sora有幫助?
Stable Diffusion 3 的論文終于來了!
這個模型于兩周前發(fā)布,采用了與 Sora 相同的 DiT(Diffusion Transformer)架構(gòu),一經(jīng)發(fā)布就引起了不小的轟動。
與之前的版本相比,Stable Diffusion 3 生成的圖在質(zhì)量上實現(xiàn)了很大改進,支持多主題提示,文字書寫效果也更好了(明顯不再亂碼)。
Stability AI 表示,Stable Diffusion 3 是一個模型系列,參數(shù)量從 800M 到 8B 不等。這個參數(shù)量意味著,它可以在很多便攜式設備上直接跑,大大降低了 AI 大模型的使用門檻。
在最新發(fā)布的論文中,Stability AI 表示,在基于人類偏好的評估中,Stable Diffusion 3 優(yōu)于當前最先進的文本到圖像生成系統(tǒng),如 DALL?E 3、Midjourney v6 和 Ideogram v1。不久之后,他們將公開該研究的實驗數(shù)據(jù)、代碼和模型權(quán)重。
在論文中,Stability AI 透露了關(guān)于 Stable Diffusion 3 的更多細節(jié)。
- 論文標題:Scaling Rectified Flow Transformers for High-Resolution Image Synthesis
- 論文鏈接:https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf
架構(gòu)細節(jié)
對于文本到圖像的生成,Stable Diffusion 3 模型必須同時考慮文本和圖像兩種模式。因此,論文作者稱這種新架構(gòu)為 MMDiT,意指其處理多種模態(tài)的能力。與之前版本的 Stable Diffusion 一樣,作者使用預訓練模型來推導合適的文本和圖像表征。具體來說,他們使用了三種不同的文本嵌入模型 —— 兩種 CLIP 模型和 T5—— 來編碼文本表征,并使用改進的自編碼模型來編碼圖像 token。
Stable Diffusion 3 模型架構(gòu)。
改進的多模態(tài)擴散 transformer:MMDiT 塊。
SD3 架構(gòu)基于 Sora 核心研發(fā)成員 William Peebles 和紐約大學計算機科學助理教授謝賽寧合作提出的 DiT。由于文本嵌入和圖像嵌入在概念上有很大不同,因此 SD3 的作者對兩種模態(tài)使用兩套不同的權(quán)重。如上圖所示,這相當于為每種模態(tài)設置了兩個獨立的 transformer,但將兩種模態(tài)的序列結(jié)合起來進行注意力運算,從而使兩種表征都能在各自的空間內(nèi)工作,同時也將另一種表征考慮在內(nèi)。
在訓練過程中測量視覺保真度和文本對齊度時,作者提出的 MMDiT 架構(gòu)優(yōu)于 UViT 和 DiT 等成熟的文本到圖像骨干。
通過這種方法,信息可以在圖像和文本 token 之間流動,從而提高模型的整體理解能力,并改善所生成輸出的文字排版。正如論文中所討論的那樣,這種架構(gòu)也很容易擴展到視頻等多種模式。
得益于 Stable Diffusion 3 改進的提示遵循能力,新模型有能力制作出聚焦于各種不同主題和質(zhì)量的圖像,同時還能高度靈活地處理圖像本身的風格。
通過 re-weighting 改進 Rectified Flow
Stable Diffusion 3 采用 Rectified Flow(RF)公式,在訓練過程中,數(shù)據(jù)和噪聲以線性軌跡相連。這使得推理路徑更加平直,從而減少了采樣步驟。此外,作者還在訓練過程中引入了一種新的軌跡采樣計劃。他們假設,軌跡的中間部分會帶來更具挑戰(zhàn)性的預測任務,因此該計劃給予軌跡中間部分更多權(quán)重。他們使用多種數(shù)據(jù)集、指標和采樣器設置進行比較,并將自己提出的方法與 LDM、EDM 和 ADM 等 60 種其他擴散軌跡進行了測試。結(jié)果表明,雖然以前的 RF 公式在少步采樣情況下性能有所提高,但隨著步數(shù)的增加,其相對性能會下降。相比之下,作者提出的重新加權(quán) RF 變體能持續(xù)提高性能。
擴展 Rectified Flow Transformer 模型
作者利用重新加權(quán)的 Rectified Flow 公式和 MMDiT 骨干對文本到圖像的合成進行了擴展(scaling)研究。他們訓練的模型從帶有 450M 個參數(shù)的 15 個塊到帶有 8B 個參數(shù)的 38 個塊不等,并觀察到驗證損失隨著模型大小和訓練步驟的增加而平穩(wěn)降低(上圖的第一行)。為了檢驗這是否轉(zhuǎn)化為對模型輸出的有意義改進,作者還評估了自動圖像對齊指標(GenEval)和人類偏好分數(shù)(ELO)(上圖第二行)。結(jié)果表明,這些指標與驗證損失之間存在很強的相關(guān)性,這表明后者可以很好地預測模型的整體性能。此外,scaling 趨勢沒有顯示出飽和的跡象,這讓作者對未來繼續(xù)提高模型性能持樂觀態(tài)度。
靈活的文本編碼器
通過移除用于推理的內(nèi)存密集型 4.7B 參數(shù) T5 文本編碼器,SD3 的內(nèi)存需求可顯著降低,而性能損失卻很小。如圖所示,移除該文本編碼器不會影響視覺美感(不使用 T5 時的勝率為 50%),只會略微降低文本一致性(勝率為 46%)。不過,作者建議在生成書面文本時加入 T5,以充分發(fā)揮 SD3 的性能,因為他們觀察到,如果不加入 T5,生成排版的性能下降幅度更大(勝率為 38%),如下圖所示:
只有在呈現(xiàn)涉及許多細節(jié)或大量書面文本的非常復雜的提示時,移除 T5 進行推理才會導致性能顯著下降。上圖顯示了每個示例的三個隨機樣本。
模型性能
作者將 Stable Diffusion 3 的輸出圖像與其他各種開源模型(包括 SDXL、SDXL Turbo、Stable Cascade、Playground v2.5 和 Pixart-α)以及閉源模型(如 DALL-E 3、Midjourney v6 和 Ideogram v1)進行了比較,以便根據(jù)人類反饋來評估性能。在這些測試中,人類評估員從每個模型中獲得輸出示例,并根據(jù)模型輸出在多大程度上遵循所給提示的上下文(prompt following)、在多大程度上根據(jù)提示渲染文本(typography)以及哪幅圖像具有更高的美學質(zhì)量(visual aesthetics)來選擇最佳結(jié)果。
以 SD3 為基準,這個圖表概述了它在基于人類對視覺美學、提示遵循和文字排版的評估中的勝率。
從測試結(jié)果來看,作者發(fā)現(xiàn) Stable Diffusion 3 在上述所有方面都與當前最先進的文本到圖像生成系統(tǒng)相當,甚至更勝一籌。
在消費級硬件上進行的早期未優(yōu)化推理測試中,最大的 8B 參數(shù) SD3 模型適合 RTX 4090 的 24GB VRAM,使用 50 個采樣步驟生成分辨率為 1024x1024 的圖像需要 34 秒。
此外,在最初發(fā)布時,Stable Diffusion 3 將有多種變體,從 800m 到 8B 參數(shù)模型不等,以進一步消除硬件障礙。
更多細節(jié)請參考原論文。
參考鏈接:https://stability.ai/news/stable-diffusion-3-research-paper