偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Sora沒(méi)做到的,LongVie框架給解決了,超長(zhǎng)視頻生成SOTA

人工智能 新聞
上海人工智能實(shí)驗(yàn)室聯(lián)合南京大學(xué)、復(fù)旦大學(xué)、南洋理工大學(xué) S-Lab、英偉達(dá)等機(jī)構(gòu)提出 LongVie 框架,系統(tǒng)性解決可控長(zhǎng)視頻生成中的核心難題。

從 Sora 的驚艷亮相到多款高性能開(kāi)源模型的誕生,視頻生成在過(guò)去兩年迎來(lái)爆發(fā)式進(jìn)步,已能生成幾十秒的高質(zhì)量短片。然而,要想生成時(shí)長(zhǎng)超過(guò) 1 分鐘、內(nèi)容與運(yùn)動(dòng)可控、風(fēng)格統(tǒng)一的超長(zhǎng)視頻,仍面臨巨大挑戰(zhàn)。

為此,上海人工智能實(shí)驗(yàn)室聯(lián)合南京大學(xué)、復(fù)旦大學(xué)、南洋理工大學(xué) S-Lab、英偉達(dá)等機(jī)構(gòu)提出 LongVie 框架,系統(tǒng)性解決可控長(zhǎng)視頻生成中的核心難題。

  • 項(xiàng)目主頁(yè):https://vchitect.github.io/LongVie-project/ 
  • 視頻:https://www.youtube.com/watch?v=SOiTfdGmGEY&t=1s
  • 論文:https://arxiv.org/abs/2508.03694
  • Github:https://github.com/Vchitect/LongVie

難點(diǎn)剖析

直接利用當(dāng)前的可控視頻生成模型生成分鐘級(jí)長(zhǎng)視頻時(shí),通常會(huì)出現(xiàn)以下問(wèn)題:

  • 時(shí)序不一致:前后畫(huà)面細(xì)節(jié)與內(nèi)容不連貫,出現(xiàn)閃爍等現(xiàn)象。
  • 視覺(jué)退化:隨時(shí)長(zhǎng)增長(zhǎng),出現(xiàn)顏色漂移、清晰度下降等問(wèn)題。

解決時(shí)序不一致:兩項(xiàng)關(guān)鍵策略

LongVie 從「控制信號(hào)」與「初始噪聲」兩條路徑入手:

1. 控制信號(hào)全局歸一化(Control Signals Global Normalization)

將控制信號(hào)在全片段范圍內(nèi)統(tǒng)一歸一化,而非僅在單一片段內(nèi)歸一化,顯著提升跨片段拼接時(shí)的一致性。

2. 統(tǒng)一噪聲初始化(Unified Noise Initialization)

各片段共享同一初始噪聲,從源頭對(duì)齊不同片段的生成分布,減少前后幀外觀與細(xì)節(jié)漂移。

(下圖展示了兩項(xiàng)策略帶來(lái)的前后一致性提升)

解決視覺(jué)退化:多模態(tài)精細(xì)控制

單一模態(tài)的控制難以在長(zhǎng)時(shí)間下提供穩(wěn)定而全面的約束,誤差會(huì)隨時(shí)間累積并引發(fā)畫(huà)質(zhì)下降。LongVie 融合密集控制信號(hào)(如深度圖)與稀疏控制信號(hào)(如關(guān)鍵點(diǎn)),并引入退化感知訓(xùn)練策略,在更貼近長(zhǎng)序列退化分布的條件下訓(xùn)練模型,使長(zhǎng)視頻生成在細(xì)節(jié)與穩(wěn)定性上同時(shí)受益。

(下圖給出了單一模態(tài)與多模態(tài)對(duì)比示例)

一圖看懂 LongVie 框架

從左至右,LongVie 先將跨片段的稠密(深度)與稀疏(關(guān)鍵點(diǎn))控制視頻做全局歸一化,并為所有片段采用統(tǒng)一的噪聲  初始化。隨后在具體某一片段生成時(shí),將全局歸一化后的控制信號(hào)、上一片段的末幀與文本提示送入模型,最終生成當(dāng)前片段的視頻,接著不斷生成后面的片段,從而生成長(zhǎng)視頻。

控制信號(hào)怎么融合更穩(wěn)更強(qiáng)?團(tuán)隊(duì)把標(biāo)準(zhǔn) ControlNet(a)和兩種變體(b、c)都做了對(duì)比測(cè)試,結(jié)果顯示變體(c)效果更好、訓(xùn)練更穩(wěn)定,最終被采納。

LongVie 能力展示

LongVie 支持多種長(zhǎng)視頻生成下游任務(wù),包括但不限于:

  • 視頻編輯:對(duì)長(zhǎng)視頻進(jìn)行一致性的內(nèi)容修改與編輯。
  • 風(fēng)格遷移:對(duì)整段長(zhǎng)視頻執(zhí)行統(tǒng)一且時(shí)序連貫的風(fēng)格遷移。
  • Mesh-to-Video:從三維體素出發(fā)生成逼真的長(zhǎng)視頻。

(如下圖為不同任務(wù)的效果示例)

LongVGenBench:首個(gè)可控超長(zhǎng)視頻評(píng)測(cè)基準(zhǔn)

當(dāng)前缺乏面向可控長(zhǎng)視頻生成的標(biāo)準(zhǔn)化評(píng)測(cè)。為此,作者團(tuán)隊(duì)提出 LongVGenBench—— 首個(gè)專為超長(zhǎng)視頻生成設(shè)計(jì)的基準(zhǔn)數(shù)據(jù)集,包含 100 個(gè)時(shí)長(zhǎng)超過(guò) 1 分鐘的高分辨率視頻,旨在推動(dòng)該方向的系統(tǒng)研究與公平評(píng)測(cè)。

基于 LongVGenBench 的定量指標(biāo)與用戶主觀測(cè)評(píng)顯示,LongVie 在多項(xiàng)指標(biāo)上優(yōu)于現(xiàn)有方法,并獲得最高用戶偏好度,達(dá)到 SOTA 水平。(詳見(jiàn)下表與用戶研究結(jié)果)


責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-03-25 00:30:00

AI框架

2024-04-07 14:56:22

技術(shù)應(yīng)用

2024-02-26 16:55:51

Sora人工智能

2024-02-20 13:09:00

AI視頻

2024-02-19 07:58:01

OpenAI模型GPT

2024-12-23 00:30:12

2025-09-10 09:38:56

2021-08-13 15:07:02

模型人工智能深度學(xué)習(xí)

2024-02-19 08:31:10

SoraAIOpenAI

2025-05-26 04:00:00

2024-05-07 09:25:55

Sora物理

2024-11-25 08:20:00

2025-10-20 08:36:21

2024-10-28 07:30:00

2025-02-11 09:00:00

2024-03-18 07:12:05

2025-01-26 10:50:00

模型視頻生成

2024-02-19 00:05:00

視頻AI

2024-12-12 08:35:58

2023-12-20 14:54:29

谷歌Gen-2視頻
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)