偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

邊打字邊出片,交互式生成長視頻!英偉達(dá)聯(lián)合MIT開源新SOTA

人工智能 新聞
AI拍長視頻不再是難事!LongLive通過實(shí)時(shí)交互生成流暢畫面,解決了傳統(tǒng)方法的卡頓、不連貫等痛點(diǎn),讓普通人都能輕松拍大片。無論是15秒短片還是240秒長片,畫面連貫、節(jié)奏流暢,讓創(chuàng)作變得像打字一樣簡單。

你還在為拍視頻頭疼嗎?

想象一下你正在寫一個(gè)故事,主角從城市街頭一路打到未來太空,劇情越來越精彩,突然你靈光一閃——

「如果他這時(shí)候變身成反派,故事會(huì)不會(huì)更炸?」

以前,你得重新寫劇本、找素材、剪輯、渲染……

現(xiàn)在,你只需要打一句話,AI實(shí)時(shí)生成新劇情,而且畫面連貫、節(jié)奏流暢,邊想邊出片,像電影一樣!

近日,NVIDIA聯(lián)合MIT等機(jī)構(gòu)重磅推出LongLive,把交互式視頻生成性能干到SOTA,最長實(shí)現(xiàn)4分鐘,可以實(shí)時(shí)交互式長視頻生成。

項(xiàng)目地址:https://nvlabs.github.io/LongLive/

論文鏈接:https://arxiv.org/abs/2509.22622

項(xiàng)目主頁:https://nvlabs.github.io/LongLive/

視頻1:交互式視頻生成結(jié)果展示

LongLive的驚艷不止于實(shí)時(shí)交互,別家模型「跑長跑就掉鞋」,我們把終點(diǎn)線直接拉到4分鐘——240秒一鏡到底,人物不崩、劇情不跳、鏡頭不晃。

視頻2:和其他模型在長視頻生成上的視覺對(duì)比。LongLive生成速度快的同時(shí),還保持了視覺一致性和語義上的連貫

對(duì)比Sora2,由于Sora2每次只能生成10秒視頻,Sora2借助GPT-5對(duì)輸入進(jìn)行了優(yōu)化,盡可能地增加背景和上下文信息,來提示Sora2生成的連貫性。

視頻3:Sora2與LongLive在長視頻生成上的對(duì)比。Sora2在視頻質(zhì)感、運(yùn)鏡以及物理規(guī)律模擬等方面非常強(qiáng)大,但難免會(huì)出現(xiàn)突變和不一致。LongLive連續(xù)性好且生成速度快

VBench-Long權(quán)威測評(píng)顯示,LongLive在長視頻賽道拿下84.87總分,領(lǐng)先同量級(jí)選手近4分;背景一致性94.8、主角一致性94.0,全程零閃變,比SkyReels-V2快了41倍。

表1:LongLive和其他模型在長視頻生成上的User Study對(duì)比

回到日常短視頻(15-30秒)場景,一樣「穩(wěn)又快」:20.7幀/秒生成速度,比播放速度還快;VBench短片段評(píng)分86.97,視覺效果依舊SOTA。

表2:LongLive在VBench 短視頻評(píng)測榜單上的性能比較

一句話,無論15秒爆款還是240分鐘大片,LongLive都給你影院級(jí)穩(wěn)感和絲滑產(chǎn)出

現(xiàn)在,很多擴(kuò)散模型的做法由于雙向注意力機(jī)制導(dǎo)致長時(shí)域生成過慢。而另一些則是「把一段視頻一段視頻分別生成然后拼起來」,所以越長越崩,人物形象完全錯(cuò)誤,還有一些方法由于訓(xùn)練階段使用短視頻,推理階段則推長視頻導(dǎo)致訓(xùn)推不一致。

總結(jié)為:

  • 不用KV-cache,時(shí)間太慢并且形象錯(cuò)亂。
  • 使用KV-cache,實(shí)時(shí)交互困難。
  • 訓(xùn)不動(dòng)長視頻,推理則錯(cuò)誤累計(jì)。

而LongLive完美解決這些痛點(diǎn),一個(gè)真正面向長視頻生成交互式的訓(xùn)練和推理算法。滾動(dòng)式窗口支持長視頻訓(xùn)練,單張GPU實(shí)現(xiàn)240s實(shí)時(shí)交互生成。

視頻4:240s長視頻生成效果

LongLive三板斧

LongLive的核心秘訣是「三把鑰匙」,專門解決「長、順、快」不可能三角:

長跑鑰匙——Streaming Long Tuning

專為「長度」而生:訓(xùn)練時(shí)就讓模型自己跑完240秒,邊生成邊學(xué)習(xí),像陪練一樣陪它沖過終點(diǎn),從此不再「train-short-test-long」,越長越穩(wěn)。

圖2:流式長視頻微調(diào)流程圖。

劇情鑰匙——KV-Recache

換劇情時(shí),舊畫面不丟,新指令立刻生效。就像導(dǎo)演現(xiàn)場改劇本,演員自然接戲,不會(huì)「出戲」或「重來」。

圖3:不同策略對(duì)比來看,LongLive提出的KV re-cahce完美解決所有痛點(diǎn)

時(shí)間錨點(diǎn)和聚光燈注意力——Frame Sink和Short-Window

把開頭幾幀永久「釘」在記憶里,后面無論怎么拍,人物長相、場景風(fēng)格都不會(huì)跑。相當(dāng)于給整部片上了「定妝鎖」。

圖4:LongLive提出的sink策略保持風(fēng)格一致

只看最近關(guān)鍵幾幀,算力減半,畫面反而更穩(wěn)。就像攝影師只追焦主角,背景再亂也不影響鏡頭清晰度。

圖5:LongLive提出的Shift Window策略極致的加速生成和降低算力消耗

三招齊下,才能讓你「邊聊邊拍」240 秒依舊不崩、不跳、不重來,這才是 LongLive敢把「交互式長視頻」做成「打字速度」的大秘訣。

LongLive把「寫一句話」變成「拍一部大片」,長視頻一鏡到底、隨時(shí)改戲、立等可取——從此,長視頻不再是專業(yè)團(tuán)隊(duì)的專利,而是每個(gè)人隨手可得的創(chuàng)意游樂場。

真正的交互式視覺時(shí)代已悄然開啟,AI的每個(gè)靈感都值得被實(shí)時(shí)看見,被長久記住。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-11-25 08:20:00

2025-02-07 14:01:20

2025-10-23 09:02:12

2025-06-09 09:03:58

2025-09-10 09:38:56

2025-10-20 08:58:00

2025-07-14 14:38:45

視覺模型AI

2025-04-27 08:30:00

2024-12-10 15:30:00

AI模型

2025-10-28 08:40:00

2021-01-26 15:40:46

工具Vim開發(fā)

2025-01-15 09:21:57

2025-04-01 05:10:00

2020-06-08 10:03:33

視頻AI動(dòng)畫

2020-10-04 13:12:53

開源技術(shù) 數(shù)據(jù)

2023-05-22 15:59:03

開源模型

2019-07-26 11:31:27

代碼開發(fā)工具

2024-08-29 14:48:42

2022-04-29 10:24:38

Inform 7開源自然語言

2013-09-22 16:22:21

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)