偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<table id="zwmvs"></table>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

北大快手攻克復(fù)雜視頻生成難題！新框架輕松組合各種細(xì)節(jié)，代碼將開源

發(fā)布于 2024-6-17 10:40

瀏覽

0收藏

如何生成高難度、指令超復(fù)雜的視頻呢？

北大與快手AI有解了，他們提出新框架VideoTetris，就像拼俄羅斯方塊一樣，輕松組合各種細(xì)節(jié)~

在復(fù)雜視頻生成任務(wù)中，超過了Pika，Gen-2等一眾商用模型。

北大快手攻克復(fù)雜視頻生成難題！新框架輕松組合各種細(xì)節(jié)，代碼將開源-AI.x社區(qū)

這個(gè)框架不僅能夠直接增強(qiáng)現(xiàn)有模型的組合生成，還能夠支持涵蓋多復(fù)雜指令、多場(chǎng)景變更等更高難度的長(zhǎng)視頻生成。

首次定義組合視頻生成

在文生圖領(lǐng)域，RPG、Omost等項(xiàng)目已經(jīng)實(shí)現(xiàn)了復(fù)雜的組合式多物體多場(chǎng)景圖片生成。而在文生視頻領(lǐng)域，組合生成自然地?cái)U(kuò)展到時(shí)間和空間維度，這樣的場(chǎng)景還未被廣泛探索。

團(tuán)隊(duì)首次定義了組合視頻生成任務(wù)，包括兩個(gè)子任務(wù)：

1、跟隨復(fù)雜組合指令的視頻生成。2、跟隨遞進(jìn)的組合式多物體指令的長(zhǎng)視頻生成。

目前經(jīng)團(tuán)隊(duì)測(cè)試發(fā)現(xiàn)，幾乎所有開源模型，包括商用模型在內(nèi)都未能生成正確的視頻。

比如輸入“左邊一個(gè)可愛的棕色狗狗，右邊一只打盹的貓?jiān)陉?yáng)光下小憩”，結(jié)果生成的都是融合了兩個(gè)物體信息的奇怪視頻。

北大快手攻克復(fù)雜視頻生成難題！新框架輕松組合各種細(xì)節(jié)，代碼將開源-AI.x社區(qū)

而使用VideoTetris，生成出的視頻是這樣，成功保留了所有的位置信息和細(xì)節(jié)特征。

北大快手攻克復(fù)雜視頻生成難題！新框架輕松組合各種細(xì)節(jié)，代碼將開源-AI.x社區(qū)

在長(zhǎng)視頻生成中，目前的方法支持的可變指令目前還停留在“春夏秋冬”的轉(zhuǎn)化，或單物體從走到跑到騎馬的場(chǎng)景變化階段。

團(tuán)隊(duì)輸入一個(gè)簡(jiǎn)單的多指令：“從一只可愛的棕色松鼠在一堆榛子上過渡到一只可愛的棕色松鼠和一只可愛的白色松鼠在一堆榛子上”。

結(jié)果VideoTetris成功搞定，出現(xiàn)順序也與Prompt一致，最后兩只松鼠還在自然地交換食物。

北大快手攻克復(fù)雜視頻生成難題！新框架輕松組合各種細(xì)節(jié)，代碼將開源-AI.x社區(qū)

使用了時(shí)空組合擴(kuò)散方法

這樣的效果是如何做到的呢？該團(tuán)隊(duì)的 VideoTetris 框架使用了時(shí)空組合擴(kuò)散方法

他們將一個(gè)提示詞首先按照時(shí)間解構(gòu)，為不同的視頻幀指定好不同的提示信息。

北大快手攻克復(fù)雜視頻生成難題！新框架輕松組合各種細(xì)節(jié)，代碼將開源-AI.x社區(qū)

隨后，在每一幀上進(jìn)行空間維度的解構(gòu)，將不同物體對(duì)應(yīng)不同的視頻區(qū)域。

最后，通過時(shí)空交叉注意力進(jìn)行組合，通過這個(gè)過程實(shí)現(xiàn)高效的組合指令生成。

而為了生成更高質(zhì)量的長(zhǎng)視頻，該團(tuán)隊(duì)還提出了一種增強(qiáng)的訓(xùn)練數(shù)據(jù)預(yù)處理方法。使得長(zhǎng)視頻生成更加動(dòng)態(tài)穩(wěn)定。

北大快手攻克復(fù)雜視頻生成難題！新框架輕松組合各種細(xì)節(jié)，代碼將開源-AI.x社區(qū)

此外，還引入了一個(gè)參考幀注意力機(jī)制，使用原生VAE對(duì)之前的幀信息編碼，區(qū)別于StreamingT2V，Vlogger，IPAdapter等使用CLIP 編碼的方式，這樣使得參考信息的表示空間和噪聲完全一致，輕松獲取更好的內(nèi)容一致性。

這樣優(yōu)化的結(jié)果是，長(zhǎng)視頻從此不再有大面積偏色的現(xiàn)象，能夠更好地適應(yīng)復(fù)雜指令，并且生成的視頻更具有動(dòng)感，更符合自然。

對(duì)于這種組合生成的結(jié)果評(píng)測(cè)工作，該團(tuán)隊(duì)引入了新的評(píng)測(cè)指標(biāo)VBLIP-VQA和VUnidet，將組合生成評(píng)價(jià)方法首次擴(kuò)展到視頻維度。

實(shí)驗(yàn)測(cè)試表明，在組合視頻生成能力上，該模型的表現(xiàn)超過了所有開源模型，甚至是商用模型如Gen-2和Pika。

北大快手攻克復(fù)雜視頻生成難題！新框架輕松組合各種細(xì)節(jié)，代碼將開源-AI.x社區(qū)

北大快手攻克復(fù)雜視頻生成難題！新框架輕松組合各種細(xì)節(jié)，代碼將開源-AI.x社區(qū)

據(jù)介紹，該代碼將完全開源。

論文地址：
???https://arxiv.org/abs/2406.04277???

項(xiàng)目主頁(yè)：
???https://videotetris.github.io/???

GitHub地址：https://github.com/YangLing0818/VideoTetris

本文轉(zhuǎn)自量子位，作者：量子位

原文鏈接:??https://mp.weixin.qq.com/s/nsSTckp5xsk1VhyV--t_Sw??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

超10秒高分辨率，北大Open Sora視頻生成更強(qiáng)了，還支持華為芯片

輕薄滴假象 ? 2848瀏覽 ? 0回復(fù)
AI攻克費(fèi)馬大定理？數(shù)學(xué)家放棄5年職業(yè)生涯，將100頁(yè)證明變代碼

duhorse ? 2593瀏覽 ? 0回復(fù)
支持合成一分鐘高清視頻，華科等提出人類跳舞視頻生成新框架UniAnimate

輕薄滴假象 ? 2825瀏覽 ? 0回復(fù)
像俄羅斯方塊一樣生成視頻！北大聯(lián)合快手AI團(tuán)隊(duì)推出新框架VideoTetris實(shí)現(xiàn)跟隨復(fù)雜指令的文生視頻！

angel ? 3325瀏覽 ? 0回復(fù)
視頻生成要有自己的系統(tǒng)！尤洋團(tuán)隊(duì)歷時(shí)半年開源VideoSys

輕薄滴假象 ? 2515瀏覽 ? 0回復(fù)
長(zhǎng)視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長(zhǎng)視頻生成框架

angel ? 1.0w瀏覽 ? 0回復(fù)
基于語(yǔ)言代理樹搜索（LATS）和GPT-4o攻克復(fù)雜的LLM決策問題

51CTO內(nèi)容精選 ? 2959瀏覽 ? 0回復(fù)
精準(zhǔn)可控新視角視頻生成+場(chǎng)景級(jí)3D生成！北大&港中文&騰訊等開源ViewCrafter

angel ? 2971瀏覽 ? 0回復(fù)
快手、北大開源，超高清10秒、24幀視頻模型

Aceryt ? 2478瀏覽 ? 0回復(fù)
Meta Movie Gen：新的 SOTA 視頻生成模型-技術(shù)報(bào)告解讀

amei2000go ? 4323瀏覽 ? 0回復(fù)
阿里商業(yè)級(jí)視頻生成框架——軌跡控制版視頻生成 Tora 重磅開源！

angel ? 2803瀏覽 ? 0回復(fù)
從頻率到細(xì)節(jié)：ConsisID實(shí)現(xiàn)無縫身份一致的文本到視頻生成

angel ? 3392瀏覽 ? 0回復(fù)
谷歌量子芯片Willow炸翻了科技圈：攻克30年量子難題，網(wǎng)友：谷歌又行了！

51CTO技術(shù)棧 ? 2048瀏覽 ? 0回復(fù)
騰訊的混源視頻模型HunyuanVideo：大視頻生成模型訓(xùn)練的系統(tǒng)框架

Halo咯咯 ? 3632瀏覽 ? 0回復(fù)
視頻編輯最新SOTA！港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp

angel ? 2244瀏覽 ? 0回復(fù)
LLM合集：視頻生成新王炸！Step-Video-T2V，全方位碾壓開源與商業(yè)模型

AIPaperDaily ? 2509瀏覽 ? 0回復(fù)
長(zhǎng)視頻生成新突破！FAR模型+FlexRoPE讓16倍時(shí)長(zhǎng)創(chuàng)作更高效

AIPaperDaily ? 1605瀏覽 ? 0回復(fù)
復(fù)雜多文本圖像生成；多角色對(duì)話視頻生成，唇形同步，身體動(dòng)作，情感表達(dá)

AI研究前瞻 ? 1331瀏覽 ? 0回復(fù)
港科大&快手提出統(tǒng)一上下文視頻編輯框架 UNIC，各種視頻編輯任務(wù)一網(wǎng)打盡，還可進(jìn)行多項(xiàng)任務(wù)組合！

AIGCStudio ? 672瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

何愷明開辟分形圖像生成新范式！計(jì)算效率提高4000倍，首次實(shí)現(xiàn)高分辨率逐像素生成 2025-02-26 11:59:41發(fā)布
達(dá)摩院開源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線可玩 2025-02-14 13:02:21發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實(shí)測(cè)：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

上一篇：蘋果一夜重塑iPhone！GPT-4o加持Siri，AI深入所有APP，庫(kù)克：開啟蘋果AI下一章

下一篇： 37項(xiàng)SOTA！全模態(tài)預(yù)訓(xùn)練范式MiCo：理解任何模態(tài)并學(xué)習(xí)通用表示｜港中文&中科院

社區(qū)精華內(nèi)容

目錄

<cite id="4vsem"></cite>

<code id="4vsem"><dl id="4vsem"><td id="4vsem"></td></dl></code>