偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

美團(tuán)視頻生成模型來(lái)了!一出手就是開(kāi)源SOTA

人工智能 新聞
本文介紹的模型名為L(zhǎng)ongCat-Video,參數(shù)13.6B,支持文生/圖生視頻,視頻時(shí)長(zhǎng)可達(dá)數(shù)分鐘。

美團(tuán),你是跨界上癮了是吧?。╠oge)

沒(méi)錯(cuò),最新開(kāi)源SOTA視頻模型,又是來(lái)自這家“送外賣(mài)”的公司。

模型名為LongCat-Video,參數(shù)13.6B,支持文生/圖生視頻,視頻時(shí)長(zhǎng)可達(dá)數(shù)分鐘。

從官方釋出的demo來(lái)看,模型生成的視頻不僅更加真實(shí)自然,而且懂物理的能力又雙叒增強(qiáng)了。

無(wú)論是空中滑板:

還是一秒特效變身:

抑或是第一視角下,全程需要保持畫(huà)面一致的騎車(chē)視頻(時(shí)長(zhǎng)整整有4分多種):

仔細(xì)看,視頻的AI味兒濃度確實(shí)降低不少。

而且從測(cè)評(píng)成績(jī)來(lái)看,其表現(xiàn)也相當(dāng)亮眼——文生視頻能力在開(kāi)源模型中處于頂尖水平,整體質(zhì)量?jī)?yōu)于PixVerse-V5和Wan2.2-T2V-A14B,部分核心維度甚至可與谷歌最新、最強(qiáng)閉源模型Veo3媲美。

而且由于采用的是允許商用的MIT協(xié)議,連Hugging Face高級(jí)主管也用三連問(wèn)來(lái)表示驚嘆。

中國(guó)團(tuán)隊(duì)竟然發(fā)布了一個(gè)MIT協(xié)議的基礎(chǔ)視頻模型???

以及其長(zhǎng)視頻生成能力(穩(wěn)定輸出5分鐘)也被視為,“我們離視頻AI的終極形態(tài)又更進(jìn)一步”。

so,一家外賣(mài)公司出品的視頻模型究竟如何?來(lái)看更多案例。

文生/圖生視頻開(kāi)源SOTA,還能像制作連續(xù)劇一樣生成長(zhǎng)視頻!

整體而言,美團(tuán)這次發(fā)布并開(kāi)源的LongCat-Video具備以下功能:

  • 文生視頻:可生成720p、30fps高清視頻,語(yǔ)義理解與視覺(jué)呈現(xiàn)能力達(dá)開(kāi)源SOTA級(jí)別;
  • 圖生視頻:能夠保留參考圖像的主體屬性、背景關(guān)系與整體風(fēng)格等;
  • 視頻延長(zhǎng):核心差異化能力,可基于多幀條件幀續(xù)接視頻內(nèi)容。

文生視頻方面,從官方提供的案例來(lái)看,這個(gè)模型尤為強(qiáng)調(diào)對(duì)真實(shí)世界的理解能力

一眼看去,主頁(yè)上一溜的足球、體操、跳舞等視頻:

僅以其中的“水上芭蕾”來(lái)看,模型面臨的挑戰(zhàn)不可謂不艱難——既需要具備高度的細(xì)節(jié)捕捉能力,還需要能夠處理復(fù)雜的光影效果、環(huán)境模擬和動(dòng)態(tài)場(chǎng)景。

而LongCat-Video幾乎都考慮到了,整體完成度be like:

圖生視頻方面,這不雙十一到了,所以各大商家也能拿來(lái)做一些更實(shí)用的宣傳視頻了:

當(dāng)然,由于提供了原始參考圖,所以圖生視頻上通常我們更看重模型是否能保持前后一致。

而當(dāng)給了LongCat-Video一張機(jī)器人正在工作的圖片后,它直接立馬生成了機(jī)器人“居家辦公”的日常vlog。

一會(huì)兒拿桌上的小熊、一會(huì)兒拿水杯、甚至下班關(guān)電腦……不同動(dòng)作下,桌面及周?chē)沫h(huán)境均未發(fā)生“異變”,扛住了一致性挑戰(zhàn)。

當(dāng)搞定了一致性這個(gè)“老大難”后,LongCat-Video的玩法也就更多了。

白天當(dāng)壁畫(huà),晚上出來(lái)打游戲可還行(誰(shuí)說(shuō)不是真·破壁呢?)。

還能制作動(dòng)畫(huà)大電影:

此外,LongCat-Video最核心的能力還在于視頻延長(zhǎng),它能像制作連續(xù)劇一樣生成分鐘級(jí)長(zhǎng)視頻。

一個(gè)視頻搞定后,只需接著續(xù)寫(xiě)提示詞,最終就能生成一個(gè)完整情節(jié)或片段。

比如下面這個(gè)接近半分鐘的視頻,就是通過(guò)以下提示詞一步步實(shí)現(xiàn)的(中譯版):

1、廚房明亮通風(fēng),白色櫥柜和木質(zhì)臺(tái)面交相輝映。一塊新鮮出爐的面包放在砧板上,旁邊放著一個(gè)玻璃杯和一盒牛奶。一位身著碎花圍裙的女士站在木質(zhì)臺(tái)面旁,熟練地用鋒利的刀切著一塊金黃色的面包。面包放在砧板上,她切的時(shí)候,面包屑四處飛濺。

2、鏡頭拉遠(yuǎn),女人放下手中的刀,伸手去拿牛奶盒,然后將其倒入桌上的玻璃杯中。

3、女人放下牛奶盒。

4、女人拿起牛奶杯,抿了一口。

怎么樣?是不是有拍電影電視劇的感jio了~

敲黑板,由于LongCat-Video本身就經(jīng)過(guò)視頻連續(xù)任務(wù)的預(yù)訓(xùn)練,所以它能夠制作長(zhǎng)達(dá)數(shù)分鐘的視頻,而不會(huì)出現(xiàn)顏色漂移或質(zhì)量下降的情況(一般可穩(wěn)定輸出5分鐘級(jí)別的長(zhǎng)視頻,且無(wú)質(zhì)量損失)。

美團(tuán)表示,之所以推出LongCat-Video,核心瞄準(zhǔn)的還是世界模型這一前沿領(lǐng)域:

作為能夠建模物理規(guī)律、時(shí)空演化與場(chǎng)景邏輯的智能系統(tǒng),世界模型賦予AI“看見(jiàn)”世界運(yùn)行本質(zhì)的能力。而視頻生成模型有望成為構(gòu)建世界模型的關(guān)鍵路徑——通過(guò)視頻生成任務(wù)壓縮幾何、語(yǔ)義、物理等多種形式的知識(shí),AI得以在數(shù)字空間中模擬、推演乃至預(yù)演真實(shí)世界的運(yùn)行。

而為了構(gòu)建視頻模型LongCat-Video,美團(tuán)這次在技術(shù)方面也是進(jìn)行了一系列創(chuàng)新和突破。

背后技術(shù)原理

LongCat-Video只有13.6B,但集成了文生視頻、圖生視頻和視頻續(xù)生三大任務(wù)于一體。

具體來(lái)說(shuō),整個(gè)模型以Diffusion Transformer (DiT)為框架設(shè)計(jì),其中每個(gè)Transformer塊都由3D自注意力層、交叉注意力層,以及采用SwiGLU激活函數(shù)的前饋網(wǎng)絡(luò)組成。

并使用AdaLN-Zero調(diào)制機(jī)制,將每個(gè)Transformer塊均集成為專(zhuān)用的調(diào)制多層感知機(jī),再在自注意力和交叉注意力模塊中,采用RMSNorm歸一化以提升訓(xùn)練穩(wěn)定性,另外還對(duì)視覺(jué)token的位置編碼使用3D RoPE。

然后將所有任務(wù)都定義為視頻續(xù)生任務(wù),通過(guò)條件幀數(shù)量進(jìn)行區(qū)分:

  • 文本到視頻:0幀條件。
  • 圖像到視頻:1幀條件。
  • 視頻續(xù)生:多幀條件。

統(tǒng)一混合輸入后,將無(wú)噪聲的條件幀和待去噪的噪聲幀沿著時(shí)間軸拼接,結(jié)合時(shí)序步配置,以實(shí)現(xiàn)單模型原生支持多任務(wù)。

而為了適配這類(lèi)輸入,研究團(tuán)隊(duì)還在架構(gòu)中設(shè)計(jì)了一種帶鍵值緩存(KVCache)的塊注意力機(jī)制,該設(shè)計(jì)可以確保條件token不受噪聲token的影響,且后續(xù)可以緩存并復(fù)用條件token的KV特征,提升長(zhǎng)視頻生成效率。

其中最矚目的長(zhǎng)視頻生成能力,主要通過(guò)原生預(yù)訓(xùn)練設(shè)計(jì)和交互式生成支持兩大核心特性實(shí)現(xiàn)。

首先LongCat-Video摒棄了傳統(tǒng)的“先訓(xùn)練基礎(chǔ)視頻生成能力,再針對(duì)長(zhǎng)視頻任務(wù)微調(diào)”的訓(xùn)練路徑,而是直接在視頻續(xù)生任務(wù)上預(yù)訓(xùn)練。

這樣做可以直接從源頭解決長(zhǎng)視頻生成中的累積誤差問(wèn)題,在生成分鐘級(jí)視頻的同時(shí),避免色彩漂移和質(zhì)量下降。

另外LongCat-Video還支持交互式長(zhǎng)視頻生成,允許用戶為不同片段設(shè)置獨(dú)立指令,進(jìn)一步擴(kuò)展了長(zhǎng)視頻創(chuàng)作的靈活性。

為了提高視頻生成的推理效率,團(tuán)隊(duì)提出了一種從粗到精的生成范式,先是讓模型生成480p、15fps的低分辨率低幀率視頻,再通過(guò)三線性插值將分辨率升級(jí)至720p、30fps,同時(shí)由一個(gè)LoRA訓(xùn)練的精煉專(zhuān)家模型進(jìn)行細(xì)節(jié)優(yōu)化。

再引入塊稀疏注意力,將注意力計(jì)算量降至原始的10%以下,配合上下文并行的環(huán)形塊稀疏注意力,進(jìn)一步優(yōu)化高分辨率生成效率。

結(jié)合CFG蒸餾和一致性模型(CM)蒸餾,將采樣步數(shù)從50步縮減至16步,實(shí)現(xiàn)在單H800 GPU上,單個(gè)720p、30fps視頻生成可在分鐘內(nèi)完成,效率提升超10倍。

另外針對(duì)視頻生成場(chǎng)景,使用組相對(duì)策略?xún)?yōu)化 (GRPO)算法,提升GRPO在視頻生成任務(wù)中的收斂速度與生成質(zhì)量。

在訓(xùn)練過(guò)程中,分別采用三類(lèi)專(zhuān)用獎(jiǎng)勵(lì)模型:

  • 視覺(jué)質(zhì)量 (VQ):結(jié)合HPSv3-general和HPSv3-percentile進(jìn)行評(píng)估。
  • 運(yùn)動(dòng)質(zhì)量 (MQ):基于VideoAlign模型微調(diào),并使用灰度視頻訓(xùn)練避免色彩偏好。
  • 文本-視頻對(duì)齊度 (TA):同樣基于VideoAlign模型微調(diào),但保留原始的彩色輸入。

然后進(jìn)行多獎(jiǎng)勵(lì)加權(quán)融合訓(xùn)練,避免單一獎(jiǎng)勵(lì)的過(guò)擬合和獎(jiǎng)勵(lì)欺騙問(wèn)題,實(shí)現(xiàn)視覺(jué)、運(yùn)動(dòng)、對(duì)齊能力的均衡提升。

在完成數(shù)據(jù)構(gòu)建和模型訓(xùn)練后,研究團(tuán)隊(duì)首先對(duì)其進(jìn)行內(nèi)部基準(zhǔn)測(cè)試,主要評(píng)估文生視頻和圖生視頻性能。

其中文生視頻,包含文本對(duì)齊、視覺(jué)質(zhì)量、運(yùn)動(dòng)質(zhì)量、整體質(zhì)量四個(gè)維度。

實(shí)驗(yàn)結(jié)果表明,LongCat-Video在整體質(zhì)量得分中超越PixVerse-V5和Wan2.2-T2V-A14B,視覺(jué)質(zhì)量接近Wan2.2-T2V-A14B,僅略遜于閉源模型Veo3。

圖生視頻則在此基礎(chǔ)上,新增圖像對(duì)齊維度評(píng)估,最終結(jié)果中LongCat-Video的視覺(jué)質(zhì)量得分最高(3.27),說(shuō)明整體質(zhì)量具有競(jìng)爭(zhēng)力,但圖像對(duì)齊與運(yùn)動(dòng)質(zhì)量仍有提升空間。

另外研究團(tuán)隊(duì)還進(jìn)行了VBench 2.0的公開(kāi)基準(zhǔn)測(cè)試,LongCat-Video總得分位列第三(62.11%),僅次于Veo3(66.72%)和Vidu Q1(62.7%)。

值得注意的是,LongCat-Video在常識(shí)性維度(運(yùn)動(dòng)合理性、物理定律遵循)上處于第一的領(lǐng)先優(yōu)勢(shì),凸顯出該模型優(yōu)秀的物理世界建模能力。

One More Thing

而這已經(jīng)不是這家外賣(mài)公司第一次“不務(wù)正業(yè)”了……

從八月底開(kāi)始,美團(tuán)龍貓大模型就在不停地發(fā)發(fā)發(fā),先是端出來(lái)了最經(jīng)典的開(kāi)源基礎(chǔ)模型LongCat-Flash-Chat。

總參數(shù)560B,可以在僅激活少量參數(shù)的前提下,實(shí)現(xiàn)性能比肩市面上的主流模型,尤其是在復(fù)雜的Agent任務(wù)中表現(xiàn)突出。

而且現(xiàn)已登陸API平臺(tái)使用~

一個(gè)月不到,又上新了LongCat-Flash-Thinking,在邏輯、數(shù)學(xué)、編碼、Agent多任務(wù)中均達(dá)成SOTA水平,是國(guó)內(nèi)首個(gè)同時(shí)具備“深度思考+工具調(diào)用”和“非形式化+形式化”推理能力的LLM,可以實(shí)現(xiàn)更低成本、更優(yōu)性能。

隨后又專(zhuān)為語(yǔ)音LLM推出了LongCat-Audio-Codec,可以同時(shí)對(duì)語(yǔ)義和聲學(xué)token以低幀速率(16.7Hz/60ms)并行提取,實(shí)現(xiàn)高效離散化,并能夠在極低的比特率中保持高清晰度。

以及專(zhuān)為復(fù)雜現(xiàn)實(shí)生活場(chǎng)景(外賣(mài)送餐、餐廳點(diǎn)餐、旅游出行)打造的Agent評(píng)測(cè)基準(zhǔn)——VitaBench,可以系統(tǒng)性衡量Agent在推理、工具使用和自適應(yīng)交互方面的能力。(淚目,終于回歸老本行.jpg)

……

最后再到今天的視頻生成模型,毫無(wú)疑問(wèn),“跨界”AI正在成為這家外賣(mài)公司的新常態(tài)。

開(kāi)源地址:
https://github.com/meituan-longcat/LongCat-Video
https://huggingface.co/meituan-longcat/LongCat-Video

項(xiàng)目主頁(yè):https://meituan-longcat.github.io/LongCat-Video/

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2024-03-14 11:55:08

AI模型

2024-07-25 12:31:06

2025-02-26 09:44:14

2024-04-01 12:39:05

大模型人工智能AI

2023-04-03 10:04:44

開(kāi)源模型

2021-08-13 15:07:02

模型人工智能深度學(xué)習(xí)

2024-09-23 15:40:00

2017-03-01 18:17:27

阿里巴巴

2025-10-29 16:10:41

AI視頻生成模型

2024-11-25 08:20:00

2025-03-13 10:26:45

2024-04-30 10:04:14

目標(biāo)檢測(cè)AI

2024-08-01 12:44:58

2025-04-16 09:20:00

虛擬模型數(shù)字

2024-03-25 00:30:00

AI框架

2025-06-11 09:12:00

視頻生成AI

2025-02-13 10:12:27

2025-10-20 08:36:21

2025-03-13 12:39:22

2024-02-05 13:37:35

AI數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)