偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

500美元刷新SOTA!訓練成本砍到1/200,華人團隊重構視頻生成范式

人工智能 新聞
Pusa V1.0文本到視頻(T2V)模型 Wan-T2V-14B 微調(diào)而來,用于圖像到視頻生成(I2V)。

你可能聽說過OpenAI的Sora,用數(shù)百萬視頻、千萬美元訓練出的AI視頻模型。

但你能想象,有團隊只用3860段視頻、不到500美元成本,也能在關鍵任務上做到SOTA?

比如這個圖生視頻:攀巖者在小行星攀巖,人體運動與太空光影完美仿真。

圖片

視頻擴展也是不在話下,給定起始幀或結束幀,讓存錢罐小豬直接在大溪地的沖浪圣地上沖浪。

圖片

這些精美的視頻就來自于香港城市大學等團隊最新聯(lián)合發(fā)布的圖像-視頻生成模型——Pusa V1.0(菩薩1.0)。

圖片

Pusa V1.0在基礎大模型Wan2.1-T2V-14B的基礎上引入向量時間步適應(vectorized timestep adaptation,VTA )機制,僅使用3860對視頻-文字數(shù)據(jù)、約500美元成本進行微調(diào),就在在圖像轉(zhuǎn)視頻 (I2V) 超越了Wan-I2V-14B,實現(xiàn)了SOTA,并解鎖了諸多零樣本任務能力。

圖片

500美元實現(xiàn)SOTA

如上文所說,Pusa V1.0文本到視頻(T2V)模型 Wan-T2V-14B 微調(diào)而來,用于圖像到視頻生成(I2V)。

與其他會破壞基礎模型架構的微調(diào)模型不同,Pusa采用VTA機制,從而實現(xiàn)最小、非破壞性的優(yōu)化,將時間步長從標量擴大到矢量。它完全保留了基礎模型的預訓練先驗,并實現(xiàn)了更有效的時間學習。

全面的任務支持

憑借其靈活的矢量化時間步適應策略,Pusa僅需10個推理步驟就能夠執(zhí)行多種視頻生成任務。

這些能力都是其“涌現(xiàn)屬性”,能夠以零樣本方式(無需任何任務特定的訓練)擴展到:圖像到視頻、開始-結束幀、視頻擴展、文字轉(zhuǎn)視頻、視頻轉(zhuǎn)場等任務中。

例如,以9個起始幀(左視頻)和12個結束幀(右視頻)作為條件,讓模型生成中間的60幀畫面。

圖片

或者,直接輸入文字,讓模型把一輛汽車從金色變成白色。

圖片

VTA如何讓視頻生成更自然?

由于視頻本質(zhì)上是按固定幀率(如電影的每秒 24 幀)連續(xù)播放的一系列圖片。在視頻擴散模型(VDM)中,模型通常將整段視頻拆解為逐幀圖像進行建模。

在傳統(tǒng)的做法中,所有幀共享一個標量時間步長變量,模型對所有幀同步進行相同程度的降噪。不過,這就意味著讓所有幀在降噪過程中步調(diào)一致,同時演化。

由此,后面的畫面無法獲得前一幀畫面的約束信息,從而使I2V(image-to-video)的效果過于僵硬。

此外,由于圖像輸入不同于模糊抽象的文本輸入,其作為剛性條件,對“視頻生成起點”限制非常嚴格。模型在保持原圖約束的同時,必須自己“猜”這個圖像之后會怎么動。

因此,為了生成連貫動態(tài)的視頻,不同幀之間應該以不同速度/時間狀態(tài)進行演化,從而讓后續(xù)幀的去噪過程能盡可能的收到前一幀先驗的控制。

由此,研究提出VTA,為每一幀引入一個獨立的時間編碼。這樣就允許模型能對每幀的去噪進度和時間位置進行精細控制,從而更好地模擬現(xiàn)實中幀的時序演化,使生成的視頻在動態(tài)表現(xiàn)上更連貫、自然。

圖片

具體而言,VTA通過幀感知的流匹配(Frame-Aware Flow Matching, FAFM)使每一幀能夠獨立演化,同時賦予模型對同步與異步時間結構的建模能力。最終,它通過向DiT注入自定義的時間嵌入,實現(xiàn)了高效、統(tǒng)一、非破壞性的多任務視頻生成。

在訓練層面,Pusa 采用了幀感知的流匹配(FAFM)目標函數(shù),模擬每一幀在時間軸上獨立演化的理想速度。此外,為了始終保持起始圖像作為條件約束,其對應的時間步分量在整個推理過程中都被設置為零。

在模型結構上,VTA 則將這一目標通過向量時間步嵌入落實到 DiT 框架中,實現(xiàn)推理階段的幀級動態(tài)控制。

在推理時,Pusa 允許為每一幀指定不同時間步長,從而實現(xiàn)起始幀固定、末幀補齊、關鍵幀約束等多種時間控制策略。這種“從目標到機制”的結合,是 Pusa 不僅生成自然,更易泛化的關鍵。

Pusa V1.0使用LORA+DeepSpeed Zero2在8張80GB內(nèi)存的GPU上進行微調(diào)。實驗表明,Pusa V1.0 超越了同樣基于Wan-I2V-14B微調(diào)而來的Wan-I2V,實現(xiàn)了SOTA。

圖片

與此同時,Pusa V1.0所需的參數(shù)更新數(shù)比Wan-I2V少10倍以上,這表明Pusa僅僅關注與時間相關的模塊,從而保留了基礎模型的先驗知識。與之相對的,Wan-12V則表現(xiàn)出對基礎模型先驗知識的破壞。

圖片

可以說,Pusa V1.0以極致輕量化的訓練成本為之后的視頻生成建立了可擴展且多功能的范例。

模型目前已開源,詳情可參考文末鏈接。

One More Thing

根據(jù)Pusa的介紹文檔,模型的名稱源于中文中的菩薩(“千手觀音”)。

觀音菩薩多手的圖案象征著她無邊的慈悲和無量的能力。

團隊采用這個名稱是為了表明模型使用多個時間步長變量來實現(xiàn)豐富的視頻生成功能。

模型更小,意味著它能更快地進入每個人的電腦,而只有當技術真正服務于每一個創(chuàng)作者的時候,它才成為了真正的“菩薩”。

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-03-13 12:39:22

2021-08-13 15:07:02

模型人工智能深度學習

2025-03-13 10:26:45

2025-03-27 09:24:16

2022-04-08 14:40:59

框架訓練模型

2025-08-07 16:18:35

AI視頻生成模型

2024-07-08 13:11:40

2024-10-28 07:30:00

2025-10-20 08:36:21

2024-12-18 08:01:12

2025-08-21 09:02:00

2024-02-20 13:09:00

AI視頻

2025-10-20 08:58:00

2025-07-02 09:21:30

2024-12-26 00:51:38

2024-03-29 13:55:22

AI訓練

2024-12-24 13:50:00

視頻生成AI

2023-02-20 13:50:39

AI 領域建模大數(shù)據(jù)

2024-11-25 08:20:00

點贊
收藏

51CTO技術棧公眾號