偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tt id="i1omj"><mark id="i1omj"></mark></tt>

<ruby id="i1omj"><tt id="i1omj"><progress id="i1omj"></progress></tt></ruby>

<style id="i1omj"></style><style id="i1omj"><rp id="i1omj"></rp></style>

<sub id="i1omj"></sub>

<legend id="i1omj"><track id="i1omj"></track></legend>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

TransDiff--最簡潔的AR Transformer + Diffusion圖像生成方法

發(fā)布于 2025-6-27 00:55

瀏覽

0收藏

大家好，今天給大家分享一個圖像生成的新工作—-Marrying Autoregressive Transformer and Diffusion with Multi-Reference Autoregression，后面我們簡稱TransDiff。

TransDiff--最簡潔的AR Transformer + Diffusion圖像生成方法-AI.x社區(qū)

首先，TransDiff是目前最簡潔的、將AR Transformer與Diffusion結合用于圖像生成方法。TransDiff將離散輸入（如類別、文本等）、連續(xù)輸入（圖像等）經過AR Transformer 編碼為圖像語義表征，而后將表征通過一個較小的Diffusion Deocder 解碼為圖片。

其次，我們提出了一種新的自回歸范式-- MRAR（Multi-Reference Autoregression）。此范式類似NLP領域的In-context Learning（ICL）：通過學習上文同類別圖片生成質量更好、更多樣的圖片，唯一的區(qū)別是上文的圖片是模型自己生成的。

TransDiff--最簡潔的AR Transformer + Diffusion圖像生成方法-AI.x社區(qū)

Paper: https://arxiv.org/pdf/2506.09482
Code：https://github.com/TransDiff/TransDiff
Model:  https://huggingface.co/zhendch/Transdiff

具體介紹

為了節(jié)省讀者的時間，拋棄論文的結構，用Q&A這種更簡介的方式介紹TransDiff。

問：為什么使用Transformer？我們工作中AR Transformer編碼出了什么信息？

答：早期的CLIP工作以及后來大模型時代層出不窮的VL模型已經證明Transformer在圖像理解領域的優(yōu)勢。尤其是在CLIP工作中，ViT模型可以將圖片的表征對齊到語義空間（文字bert表征與圖片的ViT表征cosine相似度）。

相似的，實驗證明：TransDiff中AR Transformer也是將類別和圖片編碼至圖片的高級（對比像素）語義空間。以下將不同類別的256維特征隨機進行拼接后生成得到圖片，不同于其他模型（VAR、LlamaGen等）的像素編輯，定性實驗展現出了模型的語義編輯能力。

TransDiff--最簡潔的AR Transformer + Diffusion圖像生成方法-AI.x社區(qū)

問：TransDiff使用較小Diffusion Deocder是否有制約？是否優(yōu)于單純Diffusion和AR Transformer方法？

答：TransDiff的deocder使用DiT結構，使用Flow Matching范式。diffusion占總體參數的1/3，參數量顯著低于主流diffusion模型。但是對比能夠搜集到的所有單純Diffusion和AR Transformer方法，TransDiff在Benchmark上還是有一定優(yōu)勢，至少是“打的有來有回”。

TransDiff--最簡潔的AR Transformer + Diffusion圖像生成方法-AI.x社區(qū)

問：TransDiff很像MAR，是否只是MAR的簡單模仿？

答：TransDiff與MAR雖然結構上很像，但是模型展現的特點截然不同。首先，MAR是在像素（或patch）上生成，沒有顯性的語義表征，其次由于MAR使用的Diffusion Deocder過于簡單（n層MLP Layer）導致decoder表現力有制約。因此，從下圖可以看出：MAR無法 “一步生圖”，且圖像patch是在自回歸過程中逐步迭代“完善”。

TransDiff--最簡潔的AR Transformer + Diffusion圖像生成方法-AI.x社區(qū)

問：MRAR好在哪里？對比AR Transformer中常用的Token-Level AR 和 Scale-Level AR優(yōu)勢嗎？

答：首先對比Token-Level AR和Scale-Level AR，TransDiff with MRAR在在Benchmark上有著較大的優(yōu)勢。其次，我們發(fā)現語義表征多樣性越高，圖像質量越高。而MRAR相較于Scale-Level AR可以顯著提升語義表征多樣性。

TransDiff--最簡潔的AR Transformer + Diffusion圖像生成方法-AI.x社區(qū)

最后放一些demo

TransDiff--最簡潔的AR Transformer + Diffusion圖像生成方法-AI.x社區(qū)

One More Thing

TransDiff with MRAR在未經視頻數據訓練的情況下，展現出了連續(xù)幀生成的潛力。所以后續(xù)也會將TransDiff應用在視頻生成領域，大家敬請期待。

TransDiff--最簡潔的AR Transformer + Diffusion圖像生成方法-AI.x社區(qū)

本文轉載自????NLP工作站????，作者：NLP工作站

標簽

贊

收藏

回復

舉報

回復

相關推薦

圖像生成里程碑！VAR:自回歸模型首超Diffusion Transformer?。ū贝?amp;字節(jié)）

angel ? 1.7w瀏覽 ? 0回復
CAN和Diffusion Transformer才是最佳拍檔(MIT&清華&英偉達)

angel ? 5380瀏覽 ? 0回復
圖像生成模型王牌——Diffusion Transformers系列工作梳理

海因斯DK ? 8252瀏覽 ? 0回復
AI生圖可“量身定制”了，華為&清華聯手打造個性化多模態(tài)生成方法PMG

Crystalcxt ? 3873瀏覽 ? 0回復
數據合成方法-讓模型自己說出用了哪些指令對齊數據

NLP工作站 ? 4445瀏覽 ? 0回復
好萊塢級視頻模型：4種混合模型，顛覆傳統(tǒng)生成方法

Aceryt ? 3776瀏覽 ? 0回復
賈佳亞團隊重磅開源ControlNeXt：超強圖像視頻生成方法

angel ? 5078瀏覽 ? 0回復
高維多變量下的Transformer時序預測建模方法

海因斯DK ? 5432瀏覽 ? 0回復
上海交大等聯合發(fā)布MegaFusion：無須微調的高效高分辨率圖像生成方法

angel ? 4271瀏覽 ? 0回復
北航&愛詩科技聯合發(fā)布靈活高效可控視頻生成方法TrackGo！

angel ? 3590瀏覽 ? 0回復
Stable Diffusion這樣的文本-圖像生成模型有記憶嗎？

angel ? 3573瀏覽 ? 0回復
手寫Sora中的Diffusion Transformer(DiT)——探索最先進視頻生成器背后的秘密

angel ? 3770瀏覽 ? 0回復
P-RAG: 漸進式檢索增強生成方法在具身日常任務規(guī)劃中的應用

芝士AI吃魚 ? 6013瀏覽 ? 0回復
醫(yī)療圖像分割中的深度學習方法

51CTO內容精選 ? 2944瀏覽 ? 0回復
大模型圖像處理技術之擴散模型——Diffusion Model

AI探索時代 ? 4287瀏覽 ? 0回復
生成式模型實現的區(qū)別——VAE、GAN、Diffusion和transformer

AI探索時代 ? 6261瀏覽 ? 0回復
mR^2AG：基于知識的多模態(tài)檢索-反思增強生成方法淺嘗

大模型自然語言處理 ? 3093瀏覽 ? 0回復
用戶可控的電影級圖像到視頻生成方法！港中文&Adobe發(fā)布MotionCanvas

angel ? 3746瀏覽 ? 0回復
ZeroHSI-一種零樣本的四維人類-場景交互合成方法

shizhi02 ? 2650瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

再談DeepSeek-OCR的信息壓縮論！附DeepSeek-OCR與PaddleOCR實測對比！ 1天前發(fā)布
DeepSeek又開源，這次是OCR模型！附論文解讀！ 2025-10-21 00:36:13發(fā)布

熱門推薦

DeepSeek又開源，這次是OCR模型！附論文解讀！ 0回復

別再怪AI“聽不懂人話”了，90%的返工和錯誤，都錯在你下達指令的第一句話 0回復

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術架構全解析 0回復

Deepseek發(fā)布最新OCR模型在實測中展現出驚人效率，僅用15秒便將百頁PDF完整轉換為Markdown格式 0回復

關于RAG系統(tǒng)在多輪對話中的問題改寫(優(yōu)化)方法—使用歷史記錄改寫問題 0回復

上一篇：遲來！解讀Qwen開源的Embedding模型中的細節(jié)！附實測結果！

下一篇：服了！沒想到，GLM-4.1V-Thinking竟然把這些問題都答對了！

社區(qū)精華內容

目錄

<p id="8c5bz"></p>