偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<sub id="as1iz"></sub>

<sub id="as1iz"></sub>

<sub id="as1iz"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

AI視頻邊生成邊播放！首幀延遲僅1.3秒，生成速度9.4幀/秒｜Adobe&MIT新研究

作者：量子位 2024-12-10 15:30:00

人工智能新聞

如果你用過視頻生成模型，一定對漫長的等待時間記憶深刻，生成一段10秒的視頻，往往需要等待好幾分鐘才可以開始觀看。

AI生成視頻，邊生成邊實時播放，再不用等了！

Adobe與MIT聯(lián)手推出自回歸實時視頻生成技術(shù)——CausVid。

思路就像從下載整部電影到直接觀看流媒體的轉(zhuǎn)變，在模型生成首幀畫面后，視頻便可以即時播放，后續(xù)內(nèi)容則動態(tài)生成并無縫銜接。

如果你用過視頻生成模型，一定對漫長的等待時間記憶深刻，生成一段10秒的視頻，往往需要等待好幾分鐘才可以開始觀看。

研究團隊表示，這一延遲的根本原因在于：傳統(tǒng)視頻生成模型普遍采用的雙向注意力機制，每一幀都需要參考前后幀的信息。

這就像寫故事時必須先構(gòu)思好整個劇情的所有細節(jié)才能動筆，在完整視頻生成完畢前，你看不到任何畫面。

為此，他們提出了一種全新的解決方案，通過蒸餾預(yù)訓(xùn)練的雙向擴散模型（DiT），構(gòu)建自回歸生成模型。

實驗中，CausVid基于自回歸生成的特性，無需額外訓(xùn)練就能支持多種應(yīng)用，生成速度和質(zhì)量均顯著超越現(xiàn)有方法。

研究團隊還表示將很快開源基于開源模型的實現(xiàn)代碼。

用雙向教師監(jiān)督單向自回歸學(xué)生模型

如前所述，研究團隊通過蒸餾預(yù)訓(xùn)練的雙向擴散模型（DiT），構(gòu)建自回歸生成模型。

為了進一步提速實現(xiàn)實時視頻生成，作者通過分布匹配蒸餾（DMD）將生成步驟從50步縮減到僅需4步。

DMD是一種擴散模型蒸餾技術(shù)，將多步擴散模型轉(zhuǎn)換為快速的單步生成器。DMD此前已在圖像生成中取得成功，Adobe Firefly文生圖的快速模式就是基于此技術(shù)。

本次研究團隊將其創(chuàng)新性地應(yīng)用到視頻擴散模型中，實現(xiàn)了顯著加速。

然而，自回歸模型有一個核心難題——誤差累積。

每一幀視頻都基于之前的幀生成，早期生成的任何細微缺陷都會被放大，導(dǎo)致生成的視頻逐漸偏離預(yù)期軌跡。

為了解決這一問題，團隊提出了非對稱蒸餾策略。具體來說：

引入一個擁有未來信息的雙向教師模型，在蒸餾訓(xùn)練階段指導(dǎo)自回歸的單向?qū)W生模型。這種教師-學(xué)生結(jié)構(gòu)允許模型在生成未來幀時具備更強的精確度。

使用雙向教師模型生成的的噪聲-數(shù)據(jù)配對來預(yù)訓(xùn)練單向?qū)W生模型，提升其后蒸餾訓(xùn)練過程的穩(wěn)定性。

在訓(xùn)練過程中，針對不同時間點的視頻幀施加不同強度的噪聲，這一策略使模型能夠在測試時基于干凈的已生成幀對當前幀進行去噪。

通過這種創(chuàng)新性的非對稱蒸餾方法，CausVid顯著減少了自回歸模型的誤差累積問題，并生成了更高質(zhì)量的視頻內(nèi)容。

這種非對稱蒸餾形式中，學(xué)生模型和教師模型使用了不同的架構(gòu)，而這只有在DMD風(fēng)格的蒸餾中才可行。其他方法，例如漸進式蒸餾（Progressive Distillation）或一致性模型（Consistency Distillation），都要求學(xué)生模型和教師模型使用相同的架構(gòu)。

下面是自回歸擴散視頻模型的誤差累積示例（左圖）和CausVid結(jié)果（右圖）對比：

實驗效果如何？

實驗中，CausVid表現(xiàn)驚艷：

首幀生成延遲從3.5分鐘降至1.3秒，提速170倍
生成速度從0.6幀/秒提升至9.4幀/秒，提升16倍
生成質(zhì)量經(jīng)VBench和用戶調(diào)查驗證，優(yōu)于主流模型例如Meta的MovieGen和智譜的CogVideoX

得益于單向注意力機制，CausVid完全支持在大語言模型中廣泛應(yīng)用的KV緩存推理技術(shù)，從而顯著提升了生成效率。結(jié)合滑動窗口機制，CausVid突破了傳統(tǒng)模型的長度限制。

盡管訓(xùn)練階段僅接觸過10秒的視頻，CausVid依然能夠生成長達30秒甚至更長的視頻，其生成速度和質(zhì)量均顯著超越現(xiàn)有方法。

基于自回歸生成的特性，CausVid無需額外訓(xùn)練就能支持多種應(yīng)用：

圖片動畫化：將靜態(tài)圖片自然轉(zhuǎn)化為流暢視頻，賦予畫面生命力。
實時視頻風(fēng)格轉(zhuǎn)換：如將Minecraft游戲畫面即時轉(zhuǎn)換為真實場景。這一技術(shù)為游戲渲染帶來全新思路：未來可能只需渲染基礎(chǔ)3D幾何信息，由AI實時補充紋理和光影
交互式劇情生成：用戶通過調(diào)整提示詞，實時引導(dǎo)視頻劇情發(fā)展，帶來全新的創(chuàng)作體驗。

項目鏈接：https://causvid.github.io/

責(zé)任編輯：張燕妮來源：量子位

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<form id="5zqoc"></form>