偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<kbd id="446af"><dl id="446af"></dl></kbd>

<tr id="446af"><dfn id="446af"></dfn></tr>

<pre id="446af"></pre>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專(zhuān)業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

超越Text2Video-Zero｜無(wú)需額外訓(xùn)練，條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定！

發(fā)布于 2024-8-26 10:04

瀏覽

0收藏

超越Text2Video-Zero｜無(wú)需額外訓(xùn)練，條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定！-AI.x社區(qū)

論文鏈接：https://arxiv.org/pdf/2407.21475

github鏈接：https://densechen.github.io/zss/

亮點(diǎn)直擊
本文提出了一種新穎的zero-shot視頻采樣算法，該算法能夠直接從預(yù)訓(xùn)練的圖像擴(kuò)散模型中采樣高質(zhì)量的視頻片段。
本文提出了一個(gè)依賴(lài)噪聲模型和時(shí)間動(dòng)量注意力機(jī)制，首次能夠靈活地控制生成視頻中的時(shí)間變化。
通過(guò)廣泛的應(yīng)用展示了本文方法的有效性，包括條件和專(zhuān)門(mén)的視頻生成，以及由文本指令引導(dǎo)的視頻編輯。

超越Text2Video-Zero｜無(wú)需額外訓(xùn)練，條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定！-AI.x社區(qū)

超越Text2Video-Zero｜無(wú)需額外訓(xùn)練，條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定！-AI.x社區(qū)

超越Text2Video-Zero｜無(wú)需額外訓(xùn)練，條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定！-AI.x社區(qū)

超越Text2Video-Zero｜無(wú)需額外訓(xùn)練，條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定！-AI.x社區(qū)

將時(shí)間維度引入預(yù)訓(xùn)練的圖像擴(kuò)散模型中用于視頻生成是一種常見(jiàn)的方法。然而，這種方法計(jì)算量大，并且需要大規(guī)模的視頻數(shù)據(jù)集。更為關(guān)鍵的是，圖像和視頻數(shù)據(jù)集之間的異質(zhì)性常常導(dǎo)致圖像專(zhuān)業(yè)知識(shí)的災(zāi)難性遺忘。最近，直接從圖像擴(kuò)散模型中提取視頻片段的嘗試在一定程度上緩解了這些問(wèn)題。然而，這些方法只能生成帶有簡(jiǎn)單運(yùn)動(dòng)的短視頻片段，無(wú)法捕捉細(xì)粒度的運(yùn)動(dòng)或非網(wǎng)格變形。

超越Text2Video-Zero｜無(wú)需額外訓(xùn)練，條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定！-AI.x社區(qū)

超越Text2Video-Zero｜無(wú)需額外訓(xùn)練，條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定！-AI.x社區(qū)

依賴(lài)噪聲模型

超越Text2Video-Zero｜無(wú)需額外訓(xùn)練，條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定！-AI.x社區(qū)

在訓(xùn)練視頻擴(kuò)散模型時(shí)使用混合和漸進(jìn)噪聲模型已證明是有效的，如[11]所示。這種方法使得在訓(xùn)練過(guò)程中能夠有效地學(xué)習(xí)幀之間的動(dòng)畫(huà)過(guò)渡。

依賴(lài)噪聲模型

超越Text2Video-Zero｜無(wú)需額外訓(xùn)練，條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定！-AI.x社區(qū)

如下面算法1所示，本文提出了一種兩階段噪聲搜索算法，這與傳統(tǒng)的解析解方法有所不同。

超越Text2Video-Zero｜無(wú)需額外訓(xùn)練，條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定！-AI.x社區(qū)

超越Text2Video-Zero｜無(wú)需額外訓(xùn)練，條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定！-AI.x社區(qū)

從而最小化公式1。

時(shí)間動(dòng)量注意力

為了利用跨幀注意力的潛力，并使用預(yù)訓(xùn)練的圖像擴(kuò)散模型而無(wú)需重新訓(xùn)練，F(xiàn)ateZero將每個(gè)自注意力層替換為跨幀注意力。在這種設(shè)置中，每一幀的注意力主要集中在初始幀。類(lèi)似的結(jié)構(gòu)也在 [19] 中采用。

超越Text2Video-Zero｜無(wú)需額外訓(xùn)練，條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定！-AI.x社區(qū)

跨幀注意力的應(yīng)用有助于將外觀、結(jié)構(gòu)以及物體和背景的身份從第一幀傳遞到后續(xù)幀。然而，這種方法缺乏相鄰幀之間的連接，這可能導(dǎo)致生成的視頻序列中出現(xiàn)顯著的變化，如下圖3所示。

超越Text2Video-Zero｜無(wú)需額外訓(xùn)練，條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定！-AI.x社區(qū)

時(shí)間動(dòng)量注意力

本文的觀察表明，自注意力由于缺乏幀間上下文，會(huì)導(dǎo)致采樣特征的多樣性更高。另一方面，跨幀注意力僅依賴(lài)于初始幀的信息。這雖然保證了采樣結(jié)果的一致性，但也導(dǎo)致了多樣性的減少。

為了在自注意力和跨幀注意力的不同效果之間取得平衡，本文引入了時(shí)間動(dòng)量注意力（Temporal Momentum Attention, TMA）。TMA的數(shù)學(xué)表示如下：

超越Text2Video-Zero｜無(wú)需額外訓(xùn)練，條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定！-AI.x社區(qū)

超越Text2Video-Zero｜無(wú)需額外訓(xùn)練，條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定！-AI.x社區(qū)

超越Text2Video-Zero｜無(wú)需額外訓(xùn)練，條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定！-AI.x社區(qū)

超越Text2Video-Zero｜無(wú)需額外訓(xùn)練，條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定！-AI.x社區(qū)

超越Text2Video-Zero｜無(wú)需額外訓(xùn)練，條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定！-AI.x社區(qū)

其中，

超越Text2Video-Zero｜無(wú)需額外訓(xùn)練，條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定！-AI.x社區(qū)

Zero-Shot 視頻采樣算法

通過(guò)結(jié)合依賴(lài)噪聲模型和時(shí)間動(dòng)量注意力，本文成功地利用現(xiàn)有的 DDIM 算法從圖像擴(kuò)散模型中采樣出高質(zhì)量的視頻。這個(gè)過(guò)程在上面的算法 1 中進(jìn)行了概述。

超越Text2Video-Zero｜無(wú)需額外訓(xùn)練，條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定！-AI.x社區(qū)

實(shí)驗(yàn)

文本與視頻任務(wù)的綜合比較

在本研究中，本文從定量和定性?xún)蓚€(gè)方面對(duì)本文的方法和另一個(gè)zero-shot視頻合成方法 Text2Video-Zero 進(jìn)行了廣泛的比較。

超越Text2Video-Zero｜無(wú)需額外訓(xùn)練，條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定！-AI.x社區(qū)

超越Text2Video-Zero｜無(wú)需額外訓(xùn)練，條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定！-AI.x社區(qū)

從定性角度來(lái)看， 本文在上圖3中提供了一些生成視頻片段的可視化。本文方法生成的視頻片段明顯表現(xiàn)出更優(yōu)越的連續(xù)性，顯著減少了突兀的幀。與[19]中的簡(jiǎn)單上下物體運(yùn)動(dòng)相比，本文的依賴(lài)噪聲模型采樣的噪聲可以擴(kuò)散出更具體、復(fù)雜的運(yùn)動(dòng)，并在不同的擴(kuò)散模型中很好地泛化，如下圖2所示。結(jié)合時(shí)間動(dòng)量注意力，本文的方法可以為更具挑戰(zhàn)性的對(duì)象生成更復(fù)雜的運(yùn)動(dòng)，例如流體的非剛性變形、復(fù)雜的煙霧擴(kuò)散效果，甚至是微妙的面部微表情，如下圖1所示。

超越Text2Video-Zero｜無(wú)需額外訓(xùn)練，條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定！-AI.x社區(qū)

超越Text2Video-Zero｜無(wú)需額外訓(xùn)練，條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定！-AI.x社區(qū)

超越Text2Video-Zero｜無(wú)需額外訓(xùn)練，條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定！-AI.x社區(qū)

超越Text2Video-Zero｜無(wú)需額外訓(xùn)練，條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定！-AI.x社區(qū)

超越Text2Video-Zero｜無(wú)需額外訓(xùn)練，條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定！-AI.x社區(qū)

超越Text2Video-Zero｜無(wú)需額外訓(xùn)練，條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定！-AI.x社區(qū)

擴(kuò)展

超越Text2Video-Zero｜無(wú)需額外訓(xùn)練，條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定！-AI.x社區(qū)

結(jié)論

超越Text2Video-Zero｜無(wú)需額外訓(xùn)練，條件生成、專(zhuān)門(mén)生成和指令引導(dǎo)的視頻編輯全搞定！-AI.x社區(qū)

本文轉(zhuǎn)自AI生成未來(lái)，作者：Dengsheng Chen等

原文鏈接:??https://mp.weixin.qq.com/s/gVJD7uMLxmGrqmepp2hsQg?poc_token=HCDgy2ajRdlE1q4u81WYfSWxRlbctni_ZZk5f1B4??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

MolGen: 化學(xué)反饋引導(dǎo)的預(yù)訓(xùn)練分子生成

mb5f8eba9bdb0af ? 2949瀏覽 ? 0回復(fù)
谷歌發(fā)布超強(qiáng)AI視頻編輯工具！施展魔法的VLOGGER，音頻加圖片就搞定唇形和手勢(shì)，還把表情編輯玩出花了！

51CTO技術(shù)棧 ? 3246瀏覽 ? 0回復(fù)
無(wú)需訓(xùn)練，這個(gè)新方法實(shí)現(xiàn)了生成圖像尺寸、分辨率自由

輕薄滴假象 ? 2814瀏覽 ? 0回復(fù)
擴(kuò)散模型中進(jìn)行條件插值？AID:無(wú)需訓(xùn)練，保證一致、平滑和保真度(新加坡國(guó)立&南洋理工)

angel ? 4879瀏覽 ? 0回復(fù)
10倍速度突破質(zhì)量瓶頸，效果超越Gen-2和Pika！T2V-Turbo：新一代視頻生成模型

angel ? 3610瀏覽 ? 0回復(fù)
【LLM】ShareGPT4Video：借助更優(yōu)質(zhì)的標(biāo)題提升視頻理解和生成能力

海因斯DK ? 4209瀏覽 ? 0回復(fù)
視覺(jué)文本視頻生成最強(qiáng)方案！Text-Animator效果確實(shí)好！

angel ? 3151瀏覽 ? 0回復(fù)
長(zhǎng)視頻生成速度提升100倍！新加坡國(guó)立提出Video-Infinity：分布式長(zhǎng)視頻生成

angel ? 3341瀏覽 ? 0回復(fù)
阿里Tora: 首個(gè)軌跡引導(dǎo)的DiT創(chuàng)新實(shí)現(xiàn)精確運(yùn)動(dòng)控制視頻生成

angel ? 3422瀏覽 ? 0回復(fù)
多模態(tài)大語(yǔ)言模型的演變全回顧?。ㄒ曈X(jué)定位、圖像生成、編輯、理解）

angel ? 4229瀏覽 ? 0回復(fù)
PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!

angel ? 3473瀏覽 ? 0回復(fù)
騰訊的混源視頻模型HunyuanVideo：大視頻生成模型訓(xùn)練的系統(tǒng)框架

Halo咯咯 ? 3606瀏覽 ? 0回復(fù)
無(wú)需訓(xùn)練！多提示視頻生成最新SOTA！港中文&騰訊等發(fā)布DiTCtrl：基于MM-DiT架構(gòu)

angel ? 3159瀏覽 ? 0回復(fù)
NeurIPS 2024 | 像素級(jí)LLM實(shí)現(xiàn)圖像視頻理解、生成、分割和編輯大統(tǒng)一

angel ? 4314瀏覽 ? 0回復(fù)
Google 發(fā)布了用于視頻生成的最先進(jìn)的“Veo 2”和用于圖像創(chuàng)建的“Improved Imagen 3”

Halo咯咯 ? 2451瀏覽 ? 0回復(fù)
運(yùn)動(dòng)應(yīng)用（生成&克隆&遷移&編輯）全搞定！阿里通義提出動(dòng)畫(huà)框架Perception-as-Control

angel ? 2514瀏覽 ? 0回復(fù)
文本生成無(wú)限長(zhǎng)視頻，無(wú)需任何訓(xùn)練

Aceryt ? 2340瀏覽 ? 0回復(fù)
LLM合集：視頻生成新王炸！Step-Video-T2V，全方位碾壓開(kāi)源與商業(yè)模型

AIPaperDaily ? 2498瀏覽 ? 0回復(fù)
超越Sora！谷歌推出Veo 2，生成8秒超逼真視頻

Aceryt ? 1633瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

多領(lǐng)域SOTA誕生！Vid2World：打通視頻擴(kuò)散到世界模型的“任督二脈”｜清華、重大 2025-05-23 10:17:32發(fā)布
多模態(tài)終極大一統(tǒng)！字節(jié)開(kāi)源BAGEL爆火：圖文生成理解雙冠王，竟能預(yù)測(cè)未來(lái)畫(huà)面？ 2025-05-22 09:33:05發(fā)布

熱門(mén)推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒(méi)問(wèn)題 0回復(fù)

Deepseek R1 0528實(shí)測(cè)：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！ 1回復(fù)

AI Agents開(kāi)源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

上一篇：勇奪三項(xiàng)SOTA！北航&愛(ài)詩(shī)科技聯(lián)合發(fā)布靈活高效可控視頻生成方法TrackGo！

下一篇：長(zhǎng)視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長(zhǎng)視頻生成框架

社區(qū)精華內(nèi)容

目錄

<ruby id="o7acm"><tt id="o7acm"></tt></ruby>

<blockquote id="o7acm"><delect id="o7acm"></delect></blockquote><strike id="o7acm"><var id="o7acm"></var></strike>

<wbr id="o7acm"><menu id="o7acm"></menu></wbr>