論文鏈接:https:arxiv.orgpdf2505.14357項(xiàng)目鏈接:https:knightnemo.github.iovid2world生成效果速覽亮點(diǎn)直擊首個(gè)系統(tǒng)性探索如何將全序列、非因果、被動的視頻擴(kuò)散模型遷移為自回歸、交互式、動作條件的世界模型的問題。提出Vid2World,一個(gè)通用且高效的解決方案,包含了將視頻擴(kuò)散模型因果化和動作條件化的多項(xiàng)新穎技術(shù)。Vid2World在多個(gè)領(lǐng)域中都達(dá)到了SOTA,為這一關(guān)鍵問題建立了新的基準(zhǔn),并為未來研究提供了有力支持。將視...
2025-05-23 10:17:32 1151瀏覽 1點(diǎn)贊 0回復(fù) 1收藏
論文鏈接:https:arxiv.orgpdf2505.14683項(xiàng)目鏈接:https:bagelai.org模型地址:https:huggingface.coByteDanceSeedBAGEL7BMoT亮點(diǎn)直擊可擴(kuò)展生成認(rèn)知模型(ScalableGenerativeCognitiveModel,BAGEL),一個(gè)開源的多模態(tài)基礎(chǔ)模型,具有7B活躍參數(shù)(總計(jì)14B),在大規(guī)模交錯(cuò)多模態(tài)數(shù)據(jù)上訓(xùn)練。BAGEL在標(biāo)準(zhǔn)多模態(tài)理解排行榜上超越了當(dāng)前頂級的開源視覺語言模型(VLMs),并且在文本到圖像質(zhì)量方面,與領(lǐng)先的公開生成器如SD3和FLU...
2025-05-22 09:33:05 6770瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
文章鏈接:https:arxiv.orgpdf2505.07747Git鏈接:https:github.comstepfunaiStep1X3D亮點(diǎn)直擊提出了一套全面的數(shù)據(jù)治理流程,該流程在提升生成保真度的同時(shí),深入解析了3D資產(chǎn)特性。提出了Step1X3D,一個(gè)原生3D生成框架,實(shí)現(xiàn)了幾何與紋理合成的解耦。該框架能夠生成拓?fù)浣Y(jié)構(gòu)合理的網(wǎng)格和幾何對齊的紋理,并通過圖像與語義輸入增強(qiáng)可控性。完整框架——包括基礎(chǔ)模型、訓(xùn)練代碼和基于LoRA的適配模塊——將被開源以促進(jìn)3D研究社...
2025-05-21 09:52:11 2093瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
文章鏈接:https:arxiv.orgpdf2505.10562亮點(diǎn)直擊提出了一種新的視覺分詞器訓(xùn)練范式,以釋放視覺分詞器在下游自回歸任務(wù)中的潛力。該視覺分詞器能夠感知并針對下游訓(xùn)練進(jìn)行優(yōu)化。引入了一種簡單而有效的端到端視覺分詞器調(diào)優(yōu)方法ETT。ETT利用分詞器的碼本嵌入而不僅限于離散索引,并應(yīng)用詞級描述損失來優(yōu)化視覺分詞器的表示。ETT顯著提升了基于下一詞預(yù)測范式的下游任務(wù)結(jié)果,包括多模態(tài)理解和生成任務(wù),同時(shí)保持了分詞器的重建...
2025-05-19 08:37:19 845瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
文章鏈接:https:arxiv.orgpdf2505.09568代碼鏈接:https:github.comJiuhaiChenBLIP3o模型鏈接:https:huggingface.coBLIP3oBLIP3oModel預(yù)訓(xùn)練數(shù)據(jù):https:huggingface.codatasetsBLIP3oBLIP3oPretrain優(yōu)化數(shù)據(jù):https:huggingface.codatasetsBLIP3oBLIP3o60k亮點(diǎn)直擊創(chuàng)新架構(gòu)設(shè)計(jì):首次采用擴(kuò)散Transformer生成CLIP語義特征,突破傳統(tǒng)VAE局限,實(shí)現(xiàn)高效訓(xùn)練與高質(zhì)量生成。分階段訓(xùn)練策略:通過“理解優(yōu)先,生成擴(kuò)展”的序列化訓(xùn)...
2025-05-16 09:12:17 1321瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
文章鏈接:https:arxiv.orgpdf2505.07344亮點(diǎn)直擊GPDiT,一個(gè)強(qiáng)大的自回歸視頻生成框架,利用幀級因果注意力來提升長時(shí)間跨度的時(shí)序一致性。為了進(jìn)一步提高效率,提出了一種輕量級的因果注意力變體,顯著降低了訓(xùn)練和推理時(shí)的計(jì)算成本。通過重新解釋擴(kuò)散模型的前向過程,引入了一種基于旋轉(zhuǎn)的條件策略,提供了一種無參數(shù)的時(shí)間信息注入方法。這種輕量級設(shè)計(jì)消除了與adaLNZero相關(guān)的參數(shù),同時(shí)實(shí)現(xiàn)了與最先進(jìn)的基于DiT的方法相當(dāng)...
2025-05-15 08:34:07 1179瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
文章鏈接:https:arxiv.orgpdf2505.05474Git鏈接:https:github.comhzxieAwesome3DSceneGeneration亮點(diǎn)直擊綜述了3D場景生成SOTA方法;組織為四種范式:程序化生成、基于神經(jīng)網(wǎng)絡(luò)的3D生成、基于圖像的生成和基于視頻的生成;分析了它們的技術(shù)基礎(chǔ)、權(quán)衡和代表性結(jié)果,并回顧了常用數(shù)據(jù)集、評估協(xié)議和下游應(yīng)用;討論了生成能力、3D表示、數(shù)據(jù)和標(biāo)注以及評估中的關(guān)鍵挑戰(zhàn),并概述了包括更高真實(shí)度、物理感知和交互生成以及統(tǒng)一感知生...
2025-05-14 09:31:30 1460瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
文章鏈接:https:arxiv.orgpdf2505.02567開源鏈接:https:github.comAIDCAIAwesomeUnifiedMultimodalModels亮點(diǎn)直擊闡述多模態(tài)理解與文生圖模型的基礎(chǔ)概念與最新進(jìn)展;繼而梳理現(xiàn)有統(tǒng)一模型,將其歸納為三大架構(gòu)范式:基于擴(kuò)散的架構(gòu)、基于自回歸的架構(gòu),以及融合自回歸與擴(kuò)散機(jī)制的混合架構(gòu);整理了適配統(tǒng)一模型的數(shù)據(jù)集與評測基準(zhǔn),為后續(xù)研究提供資源支持;探討了這一新興領(lǐng)域面臨的核心挑戰(zhàn),包括分詞策略、跨模態(tài)注意力機(jī)制與...
2025-05-12 08:36:05 2280瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
文章鏈接:https:arxiv.orgpdf2505.04512項(xiàng)目鏈接:https:hunyuancustom.github.io亮點(diǎn)直擊多模態(tài)條件融合:首次實(shí)現(xiàn)圖像、音頻、視頻、文本四模態(tài)聯(lián)合驅(qū)動的定制視頻生成,突破傳統(tǒng)單模態(tài)(如圖像)限制。身份一致性強(qiáng)化:通過時(shí)序拼接和跨幀特征增強(qiáng),顯著提升生成視頻中主題的ID一致性,優(yōu)于開源和商業(yè)模型。模塊化條件注入:提出AudioNet和視頻Patchify對齊等獨(dú)立模塊,實(shí)現(xiàn)多模態(tài)條件的高效解耦與融合,兼顧靈活性與性能。效...
2025-05-09 08:41:09 1715瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
文章:??https:arxiv.orgpdf2505.02831??代碼:https:github.comvvvvvjdySRA亮點(diǎn)直擊分析發(fā)現(xiàn):文章深入分析diffusiontransformer的潛在表征趨勢,發(fā)現(xiàn)當(dāng)只執(zhí)行生成訓(xùn)練時(shí),其會擁有一個(gè)大致從粗糙到細(xì)致,從差到好的表征(判別)過程。方法提出:文章引入SRA方法,通過將早期層高噪聲條件下的潛在表征與后期層低噪聲條件下的潛在表征對齊,實(shí)現(xiàn)自我表征引導(dǎo),提升diffusiontransforme的訓(xùn)練速度和生成表現(xiàn)。實(shí)驗(yàn)驗(yàn)證:文章...
2025-05-08 09:26:26 1166瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
文章鏈接:??https:arxiv.orgpdf2505.01172??Git鏈接:https:github.comJosephTiTanFreePCA亮點(diǎn)直擊首次揭示了PCA能夠有效將視頻特征解耦為一致的外觀和運(yùn)動強(qiáng)度特征,從而解決長視頻生成中的不一致性和低質(zhì)量問題。提出了一種技術(shù),從整個(gè)視頻序列的全局特征中提取主成分空間中的一致性特征,并逐步將其整合到通過滑動窗口獲得的局部特征中,從而在保證視頻質(zhì)量的同時(shí)確保一致性。大量實(shí)驗(yàn)表明,本文的方法優(yōu)于現(xiàn)有方法,...
2025-05-06 09:35:28 1138瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
文章鏈接:https:arxiv.orgpdf2504.21650主頁鏈接:https:zhouhyocean.github.ioholotime代碼鏈接:https:github.comPKUYuanGroupHoloTime亮點(diǎn)直擊全景動畫生成器(PanoramicAnimator):提出兩階段運(yùn)動引導(dǎo)生成策略,無縫轉(zhuǎn)換全景圖像為動態(tài)全景視頻,在保留原始圖像空間特征的同時(shí)支持下游4D重建任務(wù)。全景時(shí)空重建技術(shù)(PanoramicSpaceTimeReconstruction):通過前沿技術(shù)實(shí)現(xiàn)全景視頻深度估計(jì)的時(shí)空對齊,利用4DGaussianSplatting...
2025-05-06 09:27:27 1253瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
文章地址:https:arxiv.orgabs2504.19724項(xiàng)目鏈接:https:reptext.github.ioGit鏈接:https:github.comShakkerLabsRepText亮點(diǎn)直擊RepText,一個(gè)用于可控多語言視覺文本渲染的有效框架。創(chuàng)新性地引入了字形隱空間變量復(fù)制技術(shù),以提高排版準(zhǔn)確性并實(shí)現(xiàn)顏色控制。此外,采用區(qū)域掩碼來保證良好的視覺保真度,避免背景干擾。定性實(shí)驗(yàn)表明,本方法優(yōu)于現(xiàn)有開源方案,并與原生多語言閉源模型取得了可比的結(jié)果。總結(jié)速覽解決的問題現(xiàn)...
2025-04-30 09:13:03 2616瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
文章鏈接:https:arxiv.orgpdf2504.02828項(xiàng)目鏈接:https:peterljq.github.ioprojectcolanGit鏈接:https:github.competerljqConceptLancet亮點(diǎn)直擊提出CoLan框架一個(gè)零樣本即插即用的框架,用于在基于擴(kuò)散的圖像編輯中解釋和操作稀疏概念表示。該框架可以精確控制概念移植的幅度,實(shí)現(xiàn)高質(zhì)量的圖像編輯。構(gòu)建CoLan150K概念詞典收集了包含多樣化視覺概念的CoLan150K數(shù)據(jù)集,并計(jì)算對應(yīng)的概念向量詞典(文本嵌入或評分空間),為...
2025-04-28 09:49:49 1503瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
文章鏈接:https:arxiv.orgpdf2504.16915項(xiàng)目鏈接:https:mce.github.ioprojectDreamO亮點(diǎn)直擊提出了DreamO,一個(gè)統(tǒng)一的圖像定制框架。它通過在預(yù)訓(xùn)練的DiT模型上訓(xùn)練少量額外參數(shù),實(shí)現(xiàn)了各種復(fù)雜和多條件的定制任務(wù)?;跀U(kuò)散模型內(nèi)部的表示對應(yīng)關(guān)系,本文設(shè)計(jì)了一種特征路由約束,以增強(qiáng)一致性保真度,并在多條件場景中實(shí)現(xiàn)有效的解耦。引入了一種漸進(jìn)式訓(xùn)練策略,以促進(jìn)多任務(wù)和復(fù)雜任務(wù)設(shè)置的收斂。本文還設(shè)計(jì)了一種占位符...
2025-04-25 09:16:15 2253瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
文章鏈接:https:arxiv.orgpdf2504.15009開源地址:https:songwensong.github.ioinsertanything亮點(diǎn)直擊發(fā)布了AnyInsertion數(shù)據(jù)集,這是一個(gè)包含120K提示圖像對的大規(guī)模數(shù)據(jù)集,涵蓋了廣泛的插入任務(wù),例如人物、物體和服裝插入。提出了InsertAnything框架,這是一個(gè)統(tǒng)一框架,通過單一模型無縫處理多種插入任務(wù)(人物、物體和服裝)。首個(gè)利用DiT(DiffusionTransformer)進(jìn)行圖像插入的研究,充分發(fā)揮了其在不同控制模式下的...
2025-04-24 09:51:06 2067瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
文章鏈接:https:arxiv.orgpdf2504.13074代碼&模型鏈接:https:github.comSkyworkAISkyReelsV2SKyReelsV2生產(chǎn)驚人的現(xiàn)實(shí)和電影的高分辨率視頻幾乎無限長度亮點(diǎn)直擊全面的視頻標(biāo)注器,既能理解鏡頭語言,又能捕捉視頻的通用描述,從而顯著提升提示詞遵循能力。針對運(yùn)動優(yōu)化的偏好學(xué)習(xí),通過半自動數(shù)據(jù)收集流程增強(qiáng)運(yùn)動動態(tài)表現(xiàn)。高效的擴(kuò)散強(qiáng)制適配,支持超長視頻生成和故事敘述能力,為時(shí)序連貫性和敘事深度提供穩(wěn)健框架。開源S...
2025-04-23 12:13:59 1511瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
論文鏈接:https:arxiv.orgpdf2504.01724項(xiàng)目鏈接:https:grisoon.github.ioDreamActorM1亮點(diǎn)直擊提出了一個(gè)整體的基于DiT的框架和一種漸進(jìn)的訓(xùn)練策略,用于支持靈活多尺度合成的人像動畫。設(shè)計(jì)了混合控制信號,結(jié)合了隱式面部表征、顯式3D頭部球體和身體骨架,以實(shí)現(xiàn)富有表現(xiàn)力的身體和面部動作合成,同時(shí)支持多樣化的角色風(fēng)格。開發(fā)了互補(bǔ)的外觀引導(dǎo),以緩解視頻片段之間未見區(qū)域的信息差距,從而實(shí)現(xiàn)長時(shí)間段內(nèi)的一致視頻生...
2025-04-22 09:43:17 1534瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
文章鏈接:https:arxiv.orgpdf2504.10483項(xiàng)目鏈接:https:end2enddiffusion.github.ioGit鏈接:https:github.comEnd2EndDiffusionREPAE模型鏈接:https:huggingface.coREPAE亮點(diǎn)直擊端到端聯(lián)合優(yōu)化的突破首次實(shí)現(xiàn)VAE與擴(kuò)散模型的端到端聯(lián)合訓(xùn)練,通過REPALoss替代傳統(tǒng)擴(kuò)散損失,解決兩階段訓(xùn)練目標(biāo)不一致問題,使隱空間與生成任務(wù)高度適配。訓(xùn)練效率革命性提升REPAE僅需傳統(tǒng)方法145的訓(xùn)練步數(shù)即可收斂,且生成質(zhì)量顯著超越現(xiàn)有方...
2025-04-21 09:20:47 1549瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
文章鏈接:https:arxiv.orgpdf2504.08736項(xiàng)目鏈接:https:silentview.github.ioGigaTok代碼鏈接:https:github.comSilentViewGigaTok亮點(diǎn)直擊分詞器規(guī)模擴(kuò)展中存在的重建與生成困境源于更大規(guī)模分詞器隱空間復(fù)雜度的提升。本文提出語義正則化方法,有效緩解該困境從而實(shí)現(xiàn)分詞器的規(guī)模擴(kuò)展。探索了分詞器規(guī)模擴(kuò)展的最佳實(shí)踐方案,包括:采用混合CNNTransformer架構(gòu)的一維分詞器、非對稱編碼器解碼器擴(kuò)展策略,以及針對十億級分...
2025-04-18 09:56:15 1767瀏覽 0點(diǎn)贊 0回復(fù) 0收藏