美團(tuán)視頻生成模型來(lái)了!一出手就是開(kāi)源SOTA
美團(tuán),你是跨界上癮了是吧?。╠oge)
沒(méi)錯(cuò),最新開(kāi)源SOTA視頻模型,又是來(lái)自這家“送外賣(mài)”的公司。
模型名為LongCat-Video,參數(shù)13.6B,支持文生/圖生視頻,視頻時(shí)長(zhǎng)可達(dá)數(shù)分鐘。

從官方釋出的demo來(lái)看,模型生成的視頻不僅更加真實(shí)自然,而且懂物理的能力又雙叒增強(qiáng)了。
無(wú)論是空中滑板:

還是一秒特效變身:

抑或是第一視角下,全程需要保持畫(huà)面一致的騎車(chē)視頻(時(shí)長(zhǎng)整整有4分多種):

仔細(xì)看,視頻的AI味兒濃度確實(shí)降低不少。
而且從測(cè)評(píng)成績(jī)來(lái)看,其表現(xiàn)也相當(dāng)亮眼——文生視頻能力在開(kāi)源模型中處于頂尖水平,整體質(zhì)量?jī)?yōu)于PixVerse-V5和Wan2.2-T2V-A14B,部分核心維度甚至可與谷歌最新、最強(qiáng)閉源模型Veo3媲美。


而且由于采用的是允許商用的MIT協(xié)議,連Hugging Face高級(jí)主管也用三連問(wèn)來(lái)表示驚嘆。
中國(guó)團(tuán)隊(duì)竟然發(fā)布了一個(gè)MIT協(xié)議的基礎(chǔ)視頻模型???

以及其長(zhǎng)視頻生成能力(穩(wěn)定輸出5分鐘)也被視為,“我們離視頻AI的終極形態(tài)又更進(jìn)一步”。

so,一家外賣(mài)公司出品的視頻模型究竟如何?來(lái)看更多案例。
文生/圖生視頻開(kāi)源SOTA,還能像制作連續(xù)劇一樣生成長(zhǎng)視頻!
整體而言,美團(tuán)這次發(fā)布并開(kāi)源的LongCat-Video具備以下功能:
- 文生視頻:可生成720p、30fps高清視頻,語(yǔ)義理解與視覺(jué)呈現(xiàn)能力達(dá)開(kāi)源SOTA級(jí)別;
- 圖生視頻:能夠保留參考圖像的主體屬性、背景關(guān)系與整體風(fēng)格等;
- 視頻延長(zhǎng):核心差異化能力,可基于多幀條件幀續(xù)接視頻內(nèi)容。
文生視頻方面,從官方提供的案例來(lái)看,這個(gè)模型尤為強(qiáng)調(diào)對(duì)真實(shí)世界的理解能力。
一眼看去,主頁(yè)上一溜的足球、體操、跳舞等視頻:

僅以其中的“水上芭蕾”來(lái)看,模型面臨的挑戰(zhàn)不可謂不艱難——既需要具備高度的細(xì)節(jié)捕捉能力,還需要能夠處理復(fù)雜的光影效果、環(huán)境模擬和動(dòng)態(tài)場(chǎng)景。
而LongCat-Video幾乎都考慮到了,整體完成度be like:
圖生視頻方面,這不雙十一到了,所以各大商家也能拿來(lái)做一些更實(shí)用的宣傳視頻了:

當(dāng)然,由于提供了原始參考圖,所以圖生視頻上通常我們更看重模型是否能保持前后一致。
而當(dāng)給了LongCat-Video一張機(jī)器人正在工作的圖片后,它直接立馬生成了機(jī)器人“居家辦公”的日常vlog。
一會(huì)兒拿桌上的小熊、一會(huì)兒拿水杯、甚至下班關(guān)電腦……不同動(dòng)作下,桌面及周?chē)沫h(huán)境均未發(fā)生“異變”,扛住了一致性挑戰(zhàn)。

當(dāng)搞定了一致性這個(gè)“老大難”后,LongCat-Video的玩法也就更多了。
白天當(dāng)壁畫(huà),晚上出來(lái)打游戲可還行(誰(shuí)說(shuō)不是真·破壁呢?)。
還能制作動(dòng)畫(huà)大電影:
此外,LongCat-Video最核心的能力還在于視頻延長(zhǎng),它能像制作連續(xù)劇一樣生成分鐘級(jí)長(zhǎng)視頻。
一個(gè)視頻搞定后,只需接著續(xù)寫(xiě)提示詞,最終就能生成一個(gè)完整情節(jié)或片段。
比如下面這個(gè)接近半分鐘的視頻,就是通過(guò)以下提示詞一步步實(shí)現(xiàn)的(中譯版):
1、廚房明亮通風(fēng),白色櫥柜和木質(zhì)臺(tái)面交相輝映。一塊新鮮出爐的面包放在砧板上,旁邊放著一個(gè)玻璃杯和一盒牛奶。一位身著碎花圍裙的女士站在木質(zhì)臺(tái)面旁,熟練地用鋒利的刀切著一塊金黃色的面包。面包放在砧板上,她切的時(shí)候,面包屑四處飛濺。
2、鏡頭拉遠(yuǎn),女人放下手中的刀,伸手去拿牛奶盒,然后將其倒入桌上的玻璃杯中。
3、女人放下牛奶盒。
4、女人拿起牛奶杯,抿了一口。

怎么樣?是不是有拍電影電視劇的感jio了~
敲黑板,由于LongCat-Video本身就經(jīng)過(guò)視頻連續(xù)任務(wù)的預(yù)訓(xùn)練,所以它能夠制作長(zhǎng)達(dá)數(shù)分鐘的視頻,而不會(huì)出現(xiàn)顏色漂移或質(zhì)量下降的情況(一般可穩(wěn)定輸出5分鐘級(jí)別的長(zhǎng)視頻,且無(wú)質(zhì)量損失)。
美團(tuán)表示,之所以推出LongCat-Video,核心瞄準(zhǔn)的還是世界模型這一前沿領(lǐng)域:
作為能夠建模物理規(guī)律、時(shí)空演化與場(chǎng)景邏輯的智能系統(tǒng),世界模型賦予AI“看見(jiàn)”世界運(yùn)行本質(zhì)的能力。而視頻生成模型有望成為構(gòu)建世界模型的關(guān)鍵路徑——通過(guò)視頻生成任務(wù)壓縮幾何、語(yǔ)義、物理等多種形式的知識(shí),AI得以在數(shù)字空間中模擬、推演乃至預(yù)演真實(shí)世界的運(yùn)行。
而為了構(gòu)建視頻模型LongCat-Video,美團(tuán)這次在技術(shù)方面也是進(jìn)行了一系列創(chuàng)新和突破。
背后技術(shù)原理
LongCat-Video只有13.6B,但集成了文生視頻、圖生視頻和視頻續(xù)生三大任務(wù)于一體。

具體來(lái)說(shuō),整個(gè)模型以Diffusion Transformer (DiT)為框架設(shè)計(jì),其中每個(gè)Transformer塊都由3D自注意力層、交叉注意力層,以及采用SwiGLU激活函數(shù)的前饋網(wǎng)絡(luò)組成。
并使用AdaLN-Zero調(diào)制機(jī)制,將每個(gè)Transformer塊均集成為專(zhuān)用的調(diào)制多層感知機(jī),再在自注意力和交叉注意力模塊中,采用RMSNorm歸一化以提升訓(xùn)練穩(wěn)定性,另外還對(duì)視覺(jué)token的位置編碼使用3D RoPE。

然后將所有任務(wù)都定義為視頻續(xù)生任務(wù),通過(guò)條件幀數(shù)量進(jìn)行區(qū)分:
- 文本到視頻:0幀條件。
- 圖像到視頻:1幀條件。
- 視頻續(xù)生:多幀條件。
統(tǒng)一混合輸入后,將無(wú)噪聲的條件幀和待去噪的噪聲幀沿著時(shí)間軸拼接,結(jié)合時(shí)序步配置,以實(shí)現(xiàn)單模型原生支持多任務(wù)。
而為了適配這類(lèi)輸入,研究團(tuán)隊(duì)還在架構(gòu)中設(shè)計(jì)了一種帶鍵值緩存(KVCache)的塊注意力機(jī)制,該設(shè)計(jì)可以確保條件token不受噪聲token的影響,且后續(xù)可以緩存并復(fù)用條件token的KV特征,提升長(zhǎng)視頻生成效率。
其中最矚目的長(zhǎng)視頻生成能力,主要通過(guò)原生預(yù)訓(xùn)練設(shè)計(jì)和交互式生成支持兩大核心特性實(shí)現(xiàn)。
首先LongCat-Video摒棄了傳統(tǒng)的“先訓(xùn)練基礎(chǔ)視頻生成能力,再針對(duì)長(zhǎng)視頻任務(wù)微調(diào)”的訓(xùn)練路徑,而是直接在視頻續(xù)生任務(wù)上預(yù)訓(xùn)練。
這樣做可以直接從源頭解決長(zhǎng)視頻生成中的累積誤差問(wèn)題,在生成分鐘級(jí)視頻的同時(shí),避免色彩漂移和質(zhì)量下降。
另外LongCat-Video還支持交互式長(zhǎng)視頻生成,允許用戶為不同片段設(shè)置獨(dú)立指令,進(jìn)一步擴(kuò)展了長(zhǎng)視頻創(chuàng)作的靈活性。

為了提高視頻生成的推理效率,團(tuán)隊(duì)提出了一種從粗到精的生成范式,先是讓模型生成480p、15fps的低分辨率低幀率視頻,再通過(guò)三線性插值將分辨率升級(jí)至720p、30fps,同時(shí)由一個(gè)LoRA訓(xùn)練的精煉專(zhuān)家模型進(jìn)行細(xì)節(jié)優(yōu)化。
再引入塊稀疏注意力,將注意力計(jì)算量降至原始的10%以下,配合上下文并行的環(huán)形塊稀疏注意力,進(jìn)一步優(yōu)化高分辨率生成效率。

結(jié)合CFG蒸餾和一致性模型(CM)蒸餾,將采樣步數(shù)從50步縮減至16步,實(shí)現(xiàn)在單H800 GPU上,單個(gè)720p、30fps視頻生成可在分鐘內(nèi)完成,效率提升超10倍。
另外針對(duì)視頻生成場(chǎng)景,使用組相對(duì)策略?xún)?yōu)化 (GRPO)算法,提升GRPO在視頻生成任務(wù)中的收斂速度與生成質(zhì)量。

在訓(xùn)練過(guò)程中,分別采用三類(lèi)專(zhuān)用獎(jiǎng)勵(lì)模型:
- 視覺(jué)質(zhì)量 (VQ):結(jié)合HPSv3-general和HPSv3-percentile進(jìn)行評(píng)估。
- 運(yùn)動(dòng)質(zhì)量 (MQ):基于VideoAlign模型微調(diào),并使用灰度視頻訓(xùn)練避免色彩偏好。
- 文本-視頻對(duì)齊度 (TA):同樣基于VideoAlign模型微調(diào),但保留原始的彩色輸入。
然后進(jìn)行多獎(jiǎng)勵(lì)加權(quán)融合訓(xùn)練,避免單一獎(jiǎng)勵(lì)的過(guò)擬合和獎(jiǎng)勵(lì)欺騙問(wèn)題,實(shí)現(xiàn)視覺(jué)、運(yùn)動(dòng)、對(duì)齊能力的均衡提升。

在完成數(shù)據(jù)構(gòu)建和模型訓(xùn)練后,研究團(tuán)隊(duì)首先對(duì)其進(jìn)行內(nèi)部基準(zhǔn)測(cè)試,主要評(píng)估文生視頻和圖生視頻性能。
其中文生視頻,包含文本對(duì)齊、視覺(jué)質(zhì)量、運(yùn)動(dòng)質(zhì)量、整體質(zhì)量四個(gè)維度。
實(shí)驗(yàn)結(jié)果表明,LongCat-Video在整體質(zhì)量得分中超越PixVerse-V5和Wan2.2-T2V-A14B,視覺(jué)質(zhì)量接近Wan2.2-T2V-A14B,僅略遜于閉源模型Veo3。
圖生視頻則在此基礎(chǔ)上,新增圖像對(duì)齊維度評(píng)估,最終結(jié)果中LongCat-Video的視覺(jué)質(zhì)量得分最高(3.27),說(shuō)明整體質(zhì)量具有競(jìng)爭(zhēng)力,但圖像對(duì)齊與運(yùn)動(dòng)質(zhì)量仍有提升空間。

另外研究團(tuán)隊(duì)還進(jìn)行了VBench 2.0的公開(kāi)基準(zhǔn)測(cè)試,LongCat-Video總得分位列第三(62.11%),僅次于Veo3(66.72%)和Vidu Q1(62.7%)。

值得注意的是,LongCat-Video在常識(shí)性維度(運(yùn)動(dòng)合理性、物理定律遵循)上處于第一的領(lǐng)先優(yōu)勢(shì),凸顯出該模型優(yōu)秀的物理世界建模能力。
One More Thing
而這已經(jīng)不是這家外賣(mài)公司第一次“不務(wù)正業(yè)”了……
從八月底開(kāi)始,美團(tuán)龍貓大模型就在不停地發(fā)發(fā)發(fā),先是端出來(lái)了最經(jīng)典的開(kāi)源基礎(chǔ)模型LongCat-Flash-Chat。
總參數(shù)560B,可以在僅激活少量參數(shù)的前提下,實(shí)現(xiàn)性能比肩市面上的主流模型,尤其是在復(fù)雜的Agent任務(wù)中表現(xiàn)突出。
而且現(xiàn)已登陸API平臺(tái)使用~

一個(gè)月不到,又上新了LongCat-Flash-Thinking,在邏輯、數(shù)學(xué)、編碼、Agent多任務(wù)中均達(dá)成SOTA水平,是國(guó)內(nèi)首個(gè)同時(shí)具備“深度思考+工具調(diào)用”和“非形式化+形式化”推理能力的LLM,可以實(shí)現(xiàn)更低成本、更優(yōu)性能。

隨后又專(zhuān)為語(yǔ)音LLM推出了LongCat-Audio-Codec,可以同時(shí)對(duì)語(yǔ)義和聲學(xué)token以低幀速率(16.7Hz/60ms)并行提取,實(shí)現(xiàn)高效離散化,并能夠在極低的比特率中保持高清晰度。
以及專(zhuān)為復(fù)雜現(xiàn)實(shí)生活場(chǎng)景(外賣(mài)送餐、餐廳點(diǎn)餐、旅游出行)打造的Agent評(píng)測(cè)基準(zhǔn)——VitaBench,可以系統(tǒng)性衡量Agent在推理、工具使用和自適應(yīng)交互方面的能力。(淚目,終于回歸老本行.jpg)
……
最后再到今天的視頻生成模型,毫無(wú)疑問(wèn),“跨界”AI正在成為這家外賣(mài)公司的新常態(tài)。
開(kāi)源地址:
https://github.com/meituan-longcat/LongCat-Video
https://huggingface.co/meituan-longcat/LongCat-Video
項(xiàng)目主頁(yè):https://meituan-longcat.github.io/LongCat-Video/



































