美團(tuán)殺入視頻生成模型賽道,LongCat-Video 136億參數(shù)媲美頂尖模型,效率提升10倍
又是美團(tuán)!
美團(tuán)最近在AI領(lǐng)域的開(kāi)源動(dòng)作,真是令人刮目相看。
剛剛,美團(tuán)LongCat團(tuán)隊(duì)發(fā)布了LongCat-Video的基礎(chǔ)視頻生成模型,它擁有136億的參數(shù)量,能在數(shù)分鐘內(nèi)生成720p、30幀每秒的高質(zhì)量視頻,并且在文本轉(zhuǎn)視頻、圖像轉(zhuǎn)視頻和長(zhǎng)視頻續(xù)寫(xiě)等多個(gè)任務(wù)上都表現(xiàn)出色。

從谷歌的Veo、OpenAI的Sora,到快手的可靈(Kling)和國(guó)內(nèi)外的眾多開(kāi)源模型,視頻生成的質(zhì)量、對(duì)指令的理解能力以及運(yùn)動(dòng)的真實(shí)感都在飛速提升。
LongCat-Video這個(gè)時(shí)候殺出來(lái),一定有它的亮點(diǎn)。



核心亮點(diǎn)在于其統(tǒng)一的多任務(wù)架構(gòu)、卓越的長(zhǎng)視頻生成能力、高效的推理性能,以及通過(guò)多獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)人類反饋(RLHF)實(shí)現(xiàn)的強(qiáng)大效果。
它用一個(gè)模型就統(tǒng)一了文本到視頻(Text-to-Video)、圖像到視頻(Image-to-Video)、視頻續(xù)寫(xiě)(Video-Continuation)、交互式生成(interactive generation )幾大任務(wù)。

通過(guò)在視頻續(xù)寫(xiě)任務(wù)上的預(yù)訓(xùn)練,它能生成分鐘級(jí)別的長(zhǎng)視頻,同時(shí)保持高質(zhì)量和時(shí)間上的一致性。
為了解決生成效率問(wèn)題,模型采用了一種從粗到細(xì)的生成策略,結(jié)合模型蒸餾和稀疏注意力機(jī)制,將推理效率提升了超過(guò)10倍。
最終,通過(guò)精細(xì)的多獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)訓(xùn)練,LongCat-Video的性能達(dá)到了與頂尖閉源模型及領(lǐng)先開(kāi)源模型相媲美的水平。
數(shù)據(jù)是一切的基石
訓(xùn)練一個(gè)高質(zhì)量的視頻生成模型,離不開(kāi)大規(guī)模、多樣化且高品質(zhì)的數(shù)據(jù)集。為此建立了一套全面的數(shù)據(jù)處理流水線。
一切從原始視頻數(shù)據(jù)開(kāi)始,從多個(gè)渠道收集海量視頻。利用源視頻的ID和MD5哈希值,確保了數(shù)據(jù)源的純凈,避免了冗余內(nèi)容對(duì)訓(xùn)練效率和模型效果的干擾。
原始視頻往往很長(zhǎng),內(nèi)容龐雜,不適合直接用于訓(xùn)練。團(tuán)隊(duì)使用開(kāi)源工具PySceneDetect和自研的TransNetV2模型,將長(zhǎng)視頻精準(zhǔn)地分割成內(nèi)容連貫的短片。
這就像剪輯師將一部電影拆解成一個(gè)個(gè)獨(dú)立的場(chǎng)景,保證了每個(gè)訓(xùn)練樣本在內(nèi)容上的一致性,這是訓(xùn)練出優(yōu)秀視頻模型的關(guān)鍵。

數(shù)據(jù)處理好之后,為每個(gè)視頻片段打上了一系列標(biāo)簽,并構(gòu)建了一個(gè)全面的元數(shù)據(jù)庫(kù)。
這些標(biāo)簽涵蓋了視頻的基本元數(shù)據(jù),如時(shí)長(zhǎng)、分辨率、幀率、比特率;也包括了更高維度的美學(xué)評(píng)分、模糊度評(píng)分、文本覆蓋度以及水印檢測(cè)。
為了評(píng)估視頻的動(dòng)態(tài)性,還通過(guò)提取視頻的光流來(lái)計(jì)算運(yùn)動(dòng)信息,這樣就可以過(guò)濾掉那些畫(huà)面幾乎靜止、缺乏動(dòng)態(tài)感的片段。
視頻的字幕(Caption)必須與視頻內(nèi)容高度一致,才能讓模型學(xué)會(huì)準(zhǔn)確地聽(tīng)從指令。視頻信息是復(fù)雜的,既包含靜態(tài)的畫(huà)面特征,也包含動(dòng)作、事件等時(shí)間上的動(dòng)態(tài)變化。許多模型擅長(zhǎng)描述一張靜態(tài)圖片,卻難以準(zhǔn)確捕捉視頻中的動(dòng)作和時(shí)間關(guān)系。

為了解決這個(gè)問(wèn)題,對(duì)視頻信息進(jìn)行了拆解,利用多個(gè)模型從不同維度為視頻打標(biāo)簽。
一個(gè)基礎(chǔ)的字幕模型負(fù)責(zé)捕捉視頻的核心內(nèi)容。在此基礎(chǔ)上,使用內(nèi)部構(gòu)建的合成視頻-文本數(shù)據(jù)對(duì),對(duì)LLaVA-Video模型進(jìn)行了微調(diào),顯著提升了它描述視覺(jué)和時(shí)間動(dòng)態(tài)的能力。
數(shù)據(jù)集中時(shí)間動(dòng)作相關(guān)標(biāo)注的數(shù)量和質(zhì)量,是提升模型時(shí)間理解能力的關(guān)鍵。為此收集了更多包含豐富時(shí)間事件的視頻,并使用Tarsier2模型的標(biāo)注數(shù)據(jù)進(jìn)行微調(diào),讓模型更擅長(zhǎng)描述和理解視頻中的時(shí)間流變。
除了內(nèi)容,視頻的攝影手法和視覺(jué)風(fēng)格也至關(guān)重要。攝影手法包括運(yùn)鏡(平移、傾斜、縮放等)、景別(遠(yuǎn)景、特寫(xiě)等)和鏡頭類型。
為了自動(dòng)識(shí)別運(yùn)鏡,專門標(biāo)注了一個(gè)數(shù)據(jù)集并訓(xùn)練了一個(gè)分類器。
景別和鏡頭類型的標(biāo)注,采用了在圖像分析上表現(xiàn)出色的Qwen2.5VL模型。視覺(jué)風(fēng)格則涵蓋了現(xiàn)實(shí)主義、2D動(dòng)畫(huà)、3D卡通等宏觀類型,以及色彩基調(diào)等更細(xì)微的屬性,同樣利用Qwen2.5VL強(qiáng)大的圖像理解能力來(lái)捕捉這些多樣化的視覺(jué)特征。
為了讓模型能處理各種各樣的文本輸入,還對(duì)視頻字幕進(jìn)行了豐富和增強(qiáng)。
他們將字幕在中英文之間互譯,以支持雙語(yǔ)生成;同時(shí)生成簡(jiǎn)潔的摘要,以實(shí)現(xiàn)字幕風(fēng)格的多樣化。最后通過(guò)從攝影和視覺(jué)風(fēng)格庫(kù)中隨機(jī)抽取元素,與增強(qiáng)后的字幕進(jìn)行組合,為每個(gè)視頻片段都配上了風(fēng)格多樣的文本描述。

為了確保數(shù)據(jù)集的均衡性,團(tuán)隊(duì)將字幕文本轉(zhuǎn)換為嵌入向量,并進(jìn)行聚類分析,從而將視頻片段無(wú)監(jiān)督地劃分為不同內(nèi)容類別,如人際互動(dòng)、藝術(shù)表演、自然景觀等。
通過(guò)評(píng)估每個(gè)類別的數(shù)據(jù)量和分布密度,可以判斷數(shù)據(jù)集是否均衡,并根據(jù)需要進(jìn)行針對(duì)性的數(shù)據(jù)補(bǔ)充或重新平衡。
一個(gè)模型,三大任務(wù)
LongCat-Video采用了標(biāo)準(zhǔn)的擴(kuò)散變換器(Diffusion Transformer, DiT)架構(gòu)。
其核心是一個(gè)單流的變換器(Transformer)模塊,每個(gè)模塊都包含一個(gè)3D自注意力層、一個(gè)用于理解文本條件的交叉注意力層,以及一個(gè)前饋網(wǎng)絡(luò)。
為了增強(qiáng)訓(xùn)練的穩(wěn)定性,模型在自注意力和交叉注意力模塊中都應(yīng)用了RMSNorm進(jìn)行歸一化。
在處理視頻數(shù)據(jù)時(shí),模型首先使用WAN2.1 VAE(Variational Autoencoder, 變分自編碼器)將視頻像素壓縮成更緊湊的潛在表示,壓縮比在時(shí)間、高度和寬度維度上達(dá)到了4×8×8。
隨后,DiT模型內(nèi)部的patchify操作會(huì)進(jìn)一步進(jìn)行1×2×2的壓縮。最終,從原始像素到模型處理的潛在表示,整體壓縮比高達(dá)4×16×16。在文本理解方面,模型使用了umT5,這是一個(gè)支持中英雙語(yǔ)的多語(yǔ)言文本編碼器。
LongCat-Video最巧妙的設(shè)計(jì)之一,是用一個(gè)統(tǒng)一的框架來(lái)支持文本到視頻、圖像到視頻和視頻續(xù)寫(xiě)這三大任務(wù)。將所有這些任務(wù)都重新定義為視頻續(xù)寫(xiě):模型根據(jù)給定的、作為條件的初始幀,來(lái)預(yù)測(cè)未來(lái)的幀。

這三種任務(wù)的區(qū)別,僅僅在于提供的條件幀數(shù)量不同。
- 文本到視頻:沒(méi)有條件幀,模型從純?cè)肼曢_(kāi)始生成。
- 圖像到視頻:提供一幀圖像作為條件。
- 視頻續(xù)寫(xiě):提供多幀視頻作為條件。
為了實(shí)現(xiàn)這種統(tǒng)一,模型的輸入被設(shè)計(jì)成兩個(gè)序列的拼接:一個(gè)是無(wú)噪聲的條件幀序列Xcond,另一個(gè)是需要被去噪的噪聲幀序列Xnoisy。
這兩個(gè)序列在時(shí)間軸上連接起來(lái),構(gòu)成了模型的完整輸入。
相應(yīng)地,擴(kuò)散過(guò)程中的時(shí)間步t也被分為兩部分,條件幀的時(shí)間步tcond被固定為0,表示它們是清晰、無(wú)損的信息,而噪聲幀的時(shí)間步tnoisy則在0到1之間采樣。在計(jì)算損失時(shí),模型只關(guān)心對(duì)噪聲幀的去噪效果,條件幀的部分不參與計(jì)算。
為了配合這種輸入表示,設(shè)計(jì)了一種特殊的塊注意力機(jī)制。
在這種機(jī)制下,條件幀的更新只依賴于它們自身,不受噪聲幀的影響。在交叉注意力計(jì)算中,條件幀也不參與。
這意味著,與條件幀相關(guān)的計(jì)算是固定的,可以將它們的鍵(Key)和值(Value)特征(即KV特征)緩存起來(lái),在所有的采樣步驟中重復(fù)使用,而無(wú)需重新計(jì)算。
這種KV緩存(KVCache)機(jī)制在保證訓(xùn)練和推理一致性的同時(shí),極大地提升了長(zhǎng)視頻生成的效率。
用多獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)精雕細(xì)琢
基礎(chǔ)模型訓(xùn)練完成后,還需要通過(guò)精加工來(lái)進(jìn)一步提升其性能,使其輸出更符合人類的偏好。LongCat-Video采用了一種名為組相對(duì)策略優(yōu)化(Group Relative Policy Optimization, GRPO)的強(qiáng)化學(xué)習(xí)方法,并針對(duì)視頻生成的特點(diǎn)進(jìn)行了一系列創(chuàng)新。

GRPO雖然在語(yǔ)言模型和圖像生成中取得了成功,但應(yīng)用到視頻生成上卻面臨收斂慢、優(yōu)化難的挑戰(zhàn)。
在流匹配(Flow Matching)的框架下,GRPO本質(zhì)上是在用隨機(jī)噪聲來(lái)模擬獎(jiǎng)勵(lì)函數(shù)對(duì)生成速度的梯度?;谶@個(gè)發(fā)現(xiàn),團(tuán)隊(duì)設(shè)計(jì)了多項(xiàng)改進(jìn)策略。
為了解決獎(jiǎng)勵(lì)信號(hào)歸因模糊的問(wèn)題,修改了采樣方案。
對(duì)于每個(gè)提示詞,模型生成的一組樣本會(huì)共享相同的初始噪聲,并從前T'個(gè)時(shí)間步中隨機(jī)選擇一個(gè)關(guān)鍵時(shí)間步t。只有在這個(gè)關(guān)鍵時(shí)間步t,才使用帶噪聲注入的隨機(jī)微分方程(SDE)采樣,而其他時(shí)間步都使用確定性的常微分方程(ODE)采樣。這就像在排查問(wèn)題時(shí)進(jìn)行控制變量實(shí)驗(yàn),使得獎(jiǎng)勵(lì)的變化能夠被精確地歸因到某一個(gè)特定的步驟上。
視頻生成模型通常在訓(xùn)練和推理中使用變化較大的時(shí)間步調(diào)度,這會(huì)導(dǎo)致梯度消失問(wèn)題。為了解決這個(gè)問(wèn)題,引入了一個(gè)重新加權(quán)的系數(shù),有效地對(duì)梯度幅度進(jìn)行了歸一化。

在標(biāo)準(zhǔn)的GRPO中,每個(gè)提示詞對(duì)應(yīng)的一組樣本會(huì)計(jì)算一個(gè)組內(nèi)特定的標(biāo)準(zhǔn)差,用于歸一化。用所有組中觀察到的最大標(biāo)準(zhǔn)差來(lái)替換每個(gè)組自己的標(biāo)準(zhǔn)差。這種調(diào)整降低了那些優(yōu)勢(shì)估計(jì)可能不可靠的樣本的梯度權(quán)重,保留了來(lái)自獎(jiǎng)勵(lì)分布更可靠的組的信號(hào),使得訓(xùn)練過(guò)程對(duì)獎(jiǎng)勵(lì)模型的不準(zhǔn)確性更加魯棒。
利用了三個(gè)專門的獎(jiǎng)勵(lì)模型,分別從視覺(jué)質(zhì)量(Visual Quality, VQ)、運(yùn)動(dòng)質(zhì)量(Motion Quality, MQ)和文生視頻對(duì)齊度(Text-Video Alignment, TA)三個(gè)維度進(jìn)行優(yōu)化。
- 視覺(jué)質(zhì)量評(píng)估:使用HPSv3模型。結(jié)合了兩種基于它的獎(jiǎng)勵(lì),一種使用通用提示高質(zhì)量圖像來(lái)專門評(píng)估視覺(jué)質(zhì)量,另一種使用視頻字幕來(lái)評(píng)估圖文一致性。
- 運(yùn)動(dòng)質(zhì)量評(píng)估:使用基于VideoAlign的模型,并在內(nèi)部標(biāo)注的數(shù)據(jù)集上進(jìn)行了微調(diào)。為了避免模型對(duì)特定顏色產(chǎn)生偏好,在訓(xùn)練和推理時(shí)都使用灰度視頻,確保評(píng)估只專注于運(yùn)動(dòng)特征本身。
- 文生視頻對(duì)齊評(píng)估:同樣采用基于VideoAlign的模型,但在原始的彩色視頻上進(jìn)行微調(diào),以保留模型評(píng)估文本和視頻內(nèi)容之間語(yǔ)義對(duì)應(yīng)的能力。
在多獎(jiǎng)勵(lì)訓(xùn)練中,總的策略損失是各個(gè)獎(jiǎng)勵(lì)信號(hào)的加權(quán)和。
這種多獎(jiǎng)勵(lì)的組合為策略優(yōu)化提供了全面的指導(dǎo),更重要的是,多個(gè)獎(jiǎng)勵(lì)之間形成的相互約束,起到了一種自然的正則化效果,防止了模型為了迎合某一個(gè)單一指標(biāo)而走火入魔(即獎(jiǎng)勵(lì)黑客攻擊),比如過(guò)度追求視覺(jué)質(zhì)量而犧牲了運(yùn)動(dòng)的自然性。

讓高效生成成為可能
生成高分辨率、高幀率的視頻,推理效率始終是一個(gè)巨大的挑戰(zhàn)。LongCat-Video引入了多種優(yōu)化策略,將生成效率提升了超過(guò)10倍,實(shí)現(xiàn)了在幾分鐘內(nèi)生成720p、30幀每秒的視頻。

核心策略是從粗到細(xì)(Coarse-to-Fine, C2F)的生成范式。
模型不再直接生成高分辨率視頻,而是分兩步走:首先,生成一個(gè)480p、15幀每秒的草稿視頻;然后,使用三線性插值將這個(gè)視頻上采樣到720p、30幀每秒,再由一個(gè)專門的精煉專家模型對(duì)其進(jìn)行細(xì)化。
這種方法不僅大幅提升了效率,還意外地增強(qiáng)了最終視頻的圖像質(zhì)量和高頻細(xì)節(jié)。

這個(gè)精煉專家是在基礎(chǔ)模型之上,使用LoRA(Low-Rank Adaptation, 低秩適應(yīng))微調(diào)技術(shù)訓(xùn)練出來(lái)的。
由于精煉任務(wù)與基礎(chǔ)模型的生成任務(wù)相似但去噪路徑不同,LoRA允許模型在重用基礎(chǔ)模型已有能力的同時(shí),高效地適應(yīng)新任務(wù)。這種方式與其他訓(xùn)練階段解耦,收斂更快,也顯著減少了內(nèi)存占用。
在精煉階段,同樣利用了流匹配來(lái)建模從上采樣的低分辨率視頻到高清視頻的轉(zhuǎn)換過(guò)程。
精煉過(guò)程對(duì)上采樣后的視頻施加了中等水平的噪聲,以此作為的起點(diǎn)。在實(shí)踐中,精煉階段只需要5個(gè)采樣步驟,極大地提升了效率。
考慮到視頻潛在表示中存在大量冗余信息,團(tuán)隊(duì)開(kāi)發(fā)了一種可訓(xùn)練的塊稀疏注意力(Block Sparse Attention, BSA)算子。

將查詢(Query)和所有的鍵(Key)都劃分成不重疊的3D塊。
對(duì)于每個(gè)查詢塊,計(jì)算它與其他所有鍵塊的相似度,然后只選擇最相似的top-r個(gè)鍵塊進(jìn)行標(biāo)準(zhǔn)的注意力計(jì)算。這樣,模型就無(wú)需關(guān)注視頻中的所有細(xì)節(jié),而只聚焦于最相關(guān)的部分。
通過(guò)只保留不到10%的原始計(jì)算負(fù)載,實(shí)現(xiàn)了近乎無(wú)損的生成質(zhì)量。
團(tuán)隊(duì)還將這個(gè)3D塊稀疏注意力的實(shí)現(xiàn)(包括前向和反向傳播)與基礎(chǔ)模型一起開(kāi)源,方便社區(qū)在自己的項(xiàng)目中使用。
嚴(yán)謹(jǐn)?shù)挠?xùn)練流程
LongCat-Video的訓(xùn)練,包括基礎(chǔ)模型訓(xùn)練、RLHF訓(xùn)練和加速訓(xùn)練三個(gè)主要部分。

訓(xùn)練從基礎(chǔ)模型開(kāi)始,采用了流匹配框架和漸進(jìn)式預(yù)訓(xùn)練策略。模型首先在低分辨率的圖像上進(jìn)行預(yù)訓(xùn)練,高效地學(xué)習(xí)語(yǔ)義和視覺(jué)表示。
當(dāng)圖像訓(xùn)練收斂后,再過(guò)渡到視頻訓(xùn)練,捕捉基本的運(yùn)動(dòng)動(dòng)態(tài)。
隨后,訓(xùn)練進(jìn)入多任務(wù)階段,聯(lián)合優(yōu)化文本到圖像、文本到視頻、圖像到視頻和視頻續(xù)寫(xiě)等多個(gè)任務(wù)。
這些階段從低分辨率逐步過(guò)渡到高分辨率。在每個(gè)階段,訓(xùn)練樣本被分配到不同尺寸的桶中,以最大化計(jì)算效率。
預(yù)訓(xùn)練之后是監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT)階段。使用了一個(gè)經(jīng)過(guò)精心篩選的高質(zhì)量數(shù)據(jù)集,和專門的數(shù)據(jù)集來(lái)增強(qiáng)模型對(duì)運(yùn)鏡和視覺(jué)風(fēng)格等指令的遵循能力。
RLHF訓(xùn)練階段,使用前面介紹的GRPO方法和多個(gè)視頻質(zhì)量獎(jiǎng)勵(lì),對(duì)基礎(chǔ)模型進(jìn)行精調(diào)。有趣的是,團(tuán)隊(duì)發(fā)現(xiàn)在GRPO訓(xùn)練中只使用文本到視頻任務(wù),其在指令遵循、視覺(jué)和運(yùn)動(dòng)質(zhì)量上的提升,能夠很好地泛化到圖像到視頻和視頻續(xù)寫(xiě)任務(wù)上。
加速訓(xùn)練階段,團(tuán)隊(duì)對(duì)模型進(jìn)行了蒸餾,并訓(xùn)練了用于從粗到 fine生成的精煉專家模塊。
蒸餾結(jié)合了無(wú)分類器指導(dǎo)(Classifier-Free Guidance, CFG)蒸餾和一致性模型(Consistency Model, CM)蒸餾,使得16步推理的質(zhì)量就能媲美50步以上的效果。
LongCat-Video作為一個(gè)擁有136億參數(shù)的基礎(chǔ)視頻生成模型,通過(guò)統(tǒng)一的架構(gòu)、創(chuàng)新的多獎(jiǎng)勵(lì)RLHF訓(xùn)練,以及高效的生成策略,在多種視頻生成任務(wù)上,尤其是在高質(zhì)量長(zhǎng)視頻的生成方面,展現(xiàn)了卓越的性能和巨大的潛力。
開(kāi)源視頻生成目前幾乎是wan2.2一統(tǒng)天下,美團(tuán)的LongCat-Video能否打破格局?


































