偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

無VAE擴(kuò)散模型! 清華&可靈團(tuán)隊(duì)「撞車」謝賽寧團(tuán)隊(duì)「RAE」

人工智能 新聞
本篇文章通過直接結(jié)合預(yù)訓(xùn)練視覺特征編碼器(如 DINO、SigLIP、MAE)結(jié)合殘差信息學(xué)習(xí)預(yù)訓(xùn)練視覺特征編碼器丟失的圖片重建信息與專門訓(xùn)練的解碼器,有效替代了傳統(tǒng) VAE,提升了表示質(zhì)量與效率。

長(zhǎng)期以來,擴(kuò)散模型的訓(xùn)練通常依賴由變分自編碼器(VAE)構(gòu)建的低維潛空間表示。然而,VAE 的潛空間表征能力有限,難以有效支撐感知理解等核心視覺任務(wù),同時(shí)「VAE + Diffusion」的范式在訓(xùn)練與推理效率上也存在顯著瓶頸。

清華大學(xué)智能視覺團(tuán)隊(duì)和快手可靈團(tuán)隊(duì)聯(lián)合推出《Latent Diffusion Model without Variational Autoencoder》與近期爆火的謝賽寧團(tuán)隊(duì) RAE 工作不謀而合,但在總體設(shè)計(jì)思路與研究重點(diǎn)上有所差異。

本篇文章通過直接結(jié)合預(yù)訓(xùn)練視覺特征編碼器(如 DINO、SigLIP、MAE)結(jié)合殘差信息學(xué)習(xí)預(yù)訓(xùn)練視覺特征編碼器丟失的圖片重建信息與專門訓(xùn)練的解碼器,有效替代了傳統(tǒng) VAE,提升了表示質(zhì)量與效率。

本文提出的系統(tǒng)性框架稱為 SVG(Self-supervised representation for Visual Generation)。

  • 論文標(biāo)題:Latent Diffusion Model without Variational Autoencoder
  • 論文鏈接:https://arxiv.org/abs/2510.15301
  • 項(xiàng)目鏈接:https://howlin-wang.github.io/svg/
  • 代碼地址:https://github.com/shiml20/SVG

該論文同樣對(duì)傳統(tǒng) VAE + Diffusion 的局限性進(jìn)行了分析,發(fā)現(xiàn)其關(guān)鍵問題在于 VAE 空間存在非常明顯的語義糾纏現(xiàn)象。VAE 的 latent 空間缺乏清晰語義結(jié)構(gòu),不同類別特征高度混合(論文通過 t-SNE 可視化驗(yàn)證,普通 VAE latent 中不同語義類別的特征點(diǎn)嚴(yán)重重疊),導(dǎo)致擴(kuò)散模型需花費(fèi)大量步數(shù)學(xué)習(xí)數(shù)據(jù)分布。

不同特征空間中不同語義類別的 t-SNE 可視化圖

這種語義糾纏現(xiàn)象直接導(dǎo)致了兩個(gè)關(guān)鍵問題:

  • 訓(xùn)練推理效率雙低: 如下圖中例子所示,如果語義糾纏程度高,那么即使給定了不同的語義條件,平均速度仍是難以區(qū)分的,模型在訓(xùn)練時(shí)就得花更多力氣「理清」語義糾纏的特征。并且如果語義區(qū)分度較高,在空間中不同位置的速度方向也將更趨于一致,從而有助于減少采樣過程的離散誤差,支持少步數(shù)采樣。

特征空間語義糾纏會(huì)對(duì)生成模型訓(xùn)練推理帶來消極影響

  • 通用性差: VAE 依賴于重建損失進(jìn)行訓(xùn)練,只適合生成任務(wù),在感知理解這些視覺核心任務(wù)中的效果遠(yuǎn)不如專門的特征提取器。

考慮到各類視覺基礎(chǔ)模型(如 DINO、SigLIP)已經(jīng)構(gòu)建出了具有優(yōu)良語義結(jié)構(gòu)的空間,研究者認(rèn)為這類預(yù)訓(xùn)練視覺特征空間可能更適合生成模型的訓(xùn)練,同時(shí)也具有更強(qiáng)的可通用性。其中 DINO 特征在各種視覺下游任務(wù)中已經(jīng)展現(xiàn)出了良好的性能,并且保留了基礎(chǔ)的圖像結(jié)構(gòu)信息,具備比較高的重建潛力。

SVG 破局:

靠 DINO 搭地基,殘差分支補(bǔ)細(xì)節(jié)

SVG 自編碼器結(jié)構(gòu)示意圖

SVG 的核心思路很簡(jiǎn)單:用更強(qiáng)的語義結(jié)構(gòu)解鎖模型生成潛力,基于自監(jiān)督特征構(gòu)建統(tǒng)一特征空間。 

SVG 自編碼器由「凍結(jié)的 DINOv3 編碼器」、「輕量殘差編碼器」、「解碼器」三部分組成,核心是通過多組件協(xié)作同時(shí)實(shí)現(xiàn)強(qiáng)判別性的語義結(jié)構(gòu)與圖像細(xì)節(jié)補(bǔ)充。

  • 凍結(jié) DINOv3 編碼器: 作為語義骨架,提供強(qiáng)判別性特征。DINOv3 通過自監(jiān)督訓(xùn)練(對(duì)比學(xué)習(xí) + 掩碼建模),天然具備清晰的語義類別邊界,同時(shí),DINOv3 的特征已在多種視覺任務(wù)中驗(yàn)證有效性,為 SVG 的通用性奠定基礎(chǔ);
  • 輕量殘差編碼器: 彌補(bǔ)色差,補(bǔ)充細(xì)粒度細(xì)節(jié)。DINOv3 雖能捕捉全局語義,但會(huì)丟失部分細(xì)節(jié)(如色彩、紋理),導(dǎo)致重建質(zhì)量差。SVG 設(shè)計(jì)了基于 ViT 的輕量殘差分支,專門學(xué)習(xí) DINOv3 未覆蓋的高頻細(xì)節(jié),并通過「通道級(jí)拼接」與 DINO 特征融合;
  • 分布對(duì)齊機(jī)制:避免細(xì)節(jié)干擾語義。為防止殘差特征破壞 DINO 的語義結(jié)構(gòu),SVG 將殘差輸出歸一化后再根據(jù) DINO 特征的均值和方差進(jìn)行縮放,使其匹配 DINO 特征的分布,確保拼接后的 latent 空間既具備高保真重建能力,又有利于生成模型訓(xùn)練(消融實(shí)驗(yàn)顯示,無對(duì)齊時(shí)生成 FID 從 6.12 升至 9.03,對(duì)齊后恢復(fù)至 6.11);
  • SVG 解碼器: 參考傳統(tǒng) LDM 的 VAE 解碼器結(jié)構(gòu),將融合后的 latent 特征映射回像素空間,確保生成圖像的分辨率與細(xì)節(jié)還原度。

二者結(jié)合,構(gòu)成了一個(gè)既有良好語義可區(qū)分性,又具有強(qiáng)重建能力的潛在空間。

重建效果展示圖:殘差編碼器修復(fù)了圖像色差問題,補(bǔ)充了高頻細(xì)節(jié)

SVG 擴(kuò)散訓(xùn)練:

直接在高維 SVG 特征空間學(xué)習(xí)

與傳統(tǒng) LDM 在 VAE 的低維(如 16×16×4)latent 空間訓(xùn)練不同,SVG 擴(kuò)散模型直接在高維特征空間(16×16×392)訓(xùn)練。研究者指出,盡管之前的觀點(diǎn)大多認(rèn)為高維空間訓(xùn)練易導(dǎo)致生成模型收斂不穩(wěn)定,但實(shí)驗(yàn)證明 SVG 空間良好的性質(zhì)使得在這種高維度情況下,模型訓(xùn)練依舊穩(wěn)定,甚至效率更高。

論文在 ImageNet 256×256 數(shù)據(jù)集上進(jìn)行了全面實(shí)驗(yàn),對(duì)比 SiT、DiT、MaskDiT 等主流 LDM,從生成性能、效率、多任務(wù)適配性三個(gè)維度驗(yàn)證 SVG 的優(yōu)勢(shì),核心結(jié)果如下:

  • 生成質(zhì)量:性能顯著優(yōu)于基線

在訓(xùn)練 80 個(gè) epoch,25 步采樣條件下,SVG-XL(675M 參數(shù))的生成性能全面超越同規(guī)?;€:

無分類器引導(dǎo)(w/o CFG)時(shí),SVG-XL 的 gFID 為 6.57,而 SiT-XL(SD-VAE)為 22.58、SiT-XL(VA-VAE)為 7.29;

有分類器引導(dǎo)(w/ CFG)時(shí),SVG-XL 的 gFID 降至 3.54,SiT-XL(VA-VAE)為 4.13。

若延長(zhǎng)訓(xùn)練至 1400 個(gè) epoch,SVG-XL 的 gFID 可進(jìn)一步降至 1.92(w/ CFG),接近當(dāng)前生成模型 SOTA 水平。

  • 訓(xùn)練與推理效率:大幅降低資源消耗

訓(xùn)練效率: 在 w/o CFG 設(shè)定下,SVG-XL 僅需 80 個(gè) epoch 即可達(dá)到 SiT-XL 1400 個(gè) epoch 的生成質(zhì)量(gFID 6.57 vs 9.35);

推理效率: 消融實(shí)驗(yàn)中,5 步采樣時(shí),SVG-XL 的 gFID 為 12.26(w/o CFG),而 SiT-XL(SD-VAE)為 69.38、SiT-XL(VA-VAE)為 74.46,展現(xiàn)了良好的少步數(shù)推理性能。


  • 多任務(wù)通用性:統(tǒng)一特征空間適配多視覺任務(wù)

SVG 的 latent 空間繼承了 DINOv3 的良好性質(zhì),可直接用于分類、分割、深度估計(jì)等任務(wù),無需額外微調(diào)編碼器:

消融實(shí)驗(yàn)結(jié)果證明 SVG 編碼器完全保持了 DINOv3 編碼器的性能。這一結(jié)果驗(yàn)證了 SVG 作為統(tǒng)一表征空間的可行性。

  • 定性分析:插值平滑性與可編輯性

研究者發(fā)現(xiàn) SVG 空間中的隨機(jī)噪聲在直接線性插值與球面線性插值下均能生成平滑過渡的圖像;而傳統(tǒng) VAE 空間中直接線性插值可能產(chǎn)生較差的中間結(jié)果。這證明了 SVG 空間的魯棒性。

研究者還對(duì) SVG 進(jìn)行了零樣本編輯實(shí)驗(yàn),證明基于 SVG 空間的生成模型依然具備 VAE + Diffusion 模型所具備的可編輯性。

總結(jié)

SVG 的核心價(jià)值并非單純「棄用 VAE」,而是通過「自監(jiān)督特征 + 殘差細(xì)節(jié)」的組合,證明了「生成、理解與感知共享統(tǒng)一 latent 空間」的可行性。這一思路不僅解決了傳統(tǒng) LDM 的效率與通用性痛點(diǎn),更為后續(xù)通用視覺模型的研發(fā)提供了新的思路。

在總體思路上,該論文關(guān)鍵思路與謝賽寧團(tuán)隊(duì)的 RAE 高度相似,都驗(yàn)證了在生成模型訓(xùn)練中用預(yù)訓(xùn)練視覺特征編碼器替代 VAE 的可行性。RAE 工作更多側(cè)重于如何優(yōu)化改善擴(kuò)散模型在這種高維度特征空間的訓(xùn)練,而本文解決了單純依賴預(yù)訓(xùn)練視覺特征編碼器帶來的重建效果差的問題,從而也為該方法用于統(tǒng)一生成編輯模型初步驗(yàn)證了可行性。

更多細(xì)節(jié)請(qǐng)參閱原論文。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-10-29 09:05:04

2025-10-15 08:50:01

2025-01-20 08:35:00

模型生成AI

2024-10-14 13:20:00

2025-07-04 08:52:00

3D圖像生成AI

2022-12-23 10:15:44

模型AI

2025-06-13 08:53:00

2025-08-01 09:12:00

2023-12-23 23:08:21

語音數(shù)據(jù)

2025-06-19 09:04:00

2025-07-08 09:18:12

AI模型論文

2025-05-16 11:03:48

2025-05-20 09:08:59

2023-03-13 15:56:00

模型框架

2024-10-23 15:05:29

2025-05-14 09:15:00

2024-12-23 07:15:00

多模態(tài)大模型MLLM人工智能

2024-02-26 08:25:00

模型訓(xùn)練

2023-10-23 12:43:05

模型訓(xùn)練

2024-02-21 12:19:00

AI模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)