偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<strong id="6oqha"><label id="6oqha"></label></strong>

<em id="6oqha"></em>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

美團(tuán)視頻生成模型來(lái)了！一出手就是開(kāi)源SOTA

2025-10-28 08:40:00

人工智能新聞

本文介紹的模型名為L(zhǎng)ongCat-Video，參數(shù)13.6B，支持文生/圖生視頻，視頻時(shí)長(zhǎng)可達(dá)數(shù)分鐘。

美團(tuán)，你是跨界上癮了是吧?。╠oge）

沒(méi)錯(cuò)，最新開(kāi)源SOTA視頻模型，又是來(lái)自這家“送外賣(mài)”的公司。

模型名為LongCat-Video，參數(shù)13.6B，支持文生/圖生視頻，視頻時(shí)長(zhǎng)可達(dá)數(shù)分鐘。

從官方釋出的demo來(lái)看，模型生成的視頻不僅更加真實(shí)自然，而且懂物理的能力又雙叒增強(qiáng)了。

無(wú)論是空中滑板：

還是一秒特效變身：

抑或是第一視角下，全程需要保持畫(huà)面一致的騎車(chē)視頻（時(shí)長(zhǎng)整整有4分多種）：

仔細(xì)看，視頻的AI味兒濃度確實(shí)降低不少。

而且從測(cè)評(píng)成績(jī)來(lái)看，其表現(xiàn)也相當(dāng)亮眼——文生視頻能力在開(kāi)源模型中處于頂尖水平，整體質(zhì)量?jī)?yōu)于PixVerse-V5和Wan2.2-T2V-A14B，部分核心維度甚至可與谷歌最新、最強(qiáng)閉源模型Veo3媲美。

而且由于采用的是允許商用的MIT協(xié)議，連Hugging Face高級(jí)主管也用三連問(wèn)來(lái)表示驚嘆。

中國(guó)團(tuán)隊(duì)竟然發(fā)布了一個(gè)MIT協(xié)議的基礎(chǔ)視頻模型？？？

以及其長(zhǎng)視頻生成能力（穩(wěn)定輸出5分鐘）也被視為，“我們離視頻AI的終極形態(tài)又更進(jìn)一步”。

so，一家外賣(mài)公司出品的視頻模型究竟如何？來(lái)看更多案例。

文生/圖生視頻開(kāi)源SOTA，還能像制作連續(xù)劇一樣生成長(zhǎng)視頻！

整體而言，美團(tuán)這次發(fā)布并開(kāi)源的LongCat-Video具備以下功能：

文生視頻：可生成720p、30fps高清視頻，語(yǔ)義理解與視覺(jué)呈現(xiàn)能力達(dá)開(kāi)源SOTA級(jí)別；
圖生視頻：能夠保留參考圖像的主體屬性、背景關(guān)系與整體風(fēng)格等；
視頻延長(zhǎng)：核心差異化能力，可基于多幀條件幀續(xù)接視頻內(nèi)容。

文生視頻方面，從官方提供的案例來(lái)看，這個(gè)模型尤為強(qiáng)調(diào)對(duì)真實(shí)世界的理解能力。

一眼看去，主頁(yè)上一溜的足球、體操、跳舞等視頻：

僅以其中的“水上芭蕾”來(lái)看，模型面臨的挑戰(zhàn)不可謂不艱難——既需要具備高度的細(xì)節(jié)捕捉能力，還需要能夠處理復(fù)雜的光影效果、環(huán)境模擬和動(dòng)態(tài)場(chǎng)景。

而LongCat-Video幾乎都考慮到了，整體完成度be like：

圖生視頻方面，這不雙十一到了，所以各大商家也能拿來(lái)做一些更實(shí)用的宣傳視頻了：

當(dāng)然，由于提供了原始參考圖，所以圖生視頻上通常我們更看重模型是否能保持前后一致。

而當(dāng)給了LongCat-Video一張機(jī)器人正在工作的圖片后，它直接立馬生成了機(jī)器人“居家辦公”的日常vlog。

一會(huì)兒拿桌上的小熊、一會(huì)兒拿水杯、甚至下班關(guān)電腦……不同動(dòng)作下，桌面及周?chē)沫h(huán)境均未發(fā)生“異變”，扛住了一致性挑戰(zhàn)。

當(dāng)搞定了一致性這個(gè)“老大難”后，LongCat-Video的玩法也就更多了。

白天當(dāng)壁畫(huà)，晚上出來(lái)打游戲可還行（誰(shuí)說(shuō)不是真·破壁呢？）。

還能制作動(dòng)畫(huà)大電影：

此外，LongCat-Video最核心的能力還在于視頻延長(zhǎng)，它能像制作連續(xù)劇一樣生成分鐘級(jí)長(zhǎng)視頻。

一個(gè)視頻搞定后，只需接著續(xù)寫(xiě)提示詞，最終就能生成一個(gè)完整情節(jié)或片段。

比如下面這個(gè)接近半分鐘的視頻，就是通過(guò)以下提示詞一步步實(shí)現(xiàn)的（中譯版）：

1、廚房明亮通風(fēng)，白色櫥柜和木質(zhì)臺(tái)面交相輝映。一塊新鮮出爐的面包放在砧板上，旁邊放著一個(gè)玻璃杯和一盒牛奶。一位身著碎花圍裙的女士站在木質(zhì)臺(tái)面旁，熟練地用鋒利的刀切著一塊金黃色的面包。面包放在砧板上，她切的時(shí)候，面包屑四處飛濺。

2、鏡頭拉遠(yuǎn)，女人放下手中的刀，伸手去拿牛奶盒，然后將其倒入桌上的玻璃杯中。

3、女人放下牛奶盒。

4、女人拿起牛奶杯，抿了一口。

怎么樣？是不是有拍電影電視劇的感jio了~

敲黑板，由于LongCat-Video本身就經(jīng)過(guò)視頻連續(xù)任務(wù)的預(yù)訓(xùn)練，所以它能夠制作長(zhǎng)達(dá)數(shù)分鐘的視頻，而不會(huì)出現(xiàn)顏色漂移或質(zhì)量下降的情況（一般可穩(wěn)定輸出5分鐘級(jí)別的長(zhǎng)視頻，且無(wú)質(zhì)量損失）。

美團(tuán)表示，之所以推出LongCat-Video，核心瞄準(zhǔn)的還是世界模型這一前沿領(lǐng)域：

作為能夠建模物理規(guī)律、時(shí)空演化與場(chǎng)景邏輯的智能系統(tǒng)，世界模型賦予AI“看見(jiàn)”世界運(yùn)行本質(zhì)的能力。而視頻生成模型有望成為構(gòu)建世界模型的關(guān)鍵路徑——通過(guò)視頻生成任務(wù)壓縮幾何、語(yǔ)義、物理等多種形式的知識(shí)，AI得以在數(shù)字空間中模擬、推演乃至預(yù)演真實(shí)世界的運(yùn)行。

而為了構(gòu)建視頻模型LongCat-Video，美團(tuán)這次在技術(shù)方面也是進(jìn)行了一系列創(chuàng)新和突破。

背后技術(shù)原理

LongCat-Video只有13.6B，但集成了文生視頻、圖生視頻和視頻續(xù)生三大任務(wù)于一體。

具體來(lái)說(shuō)，整個(gè)模型以Diffusion Transformer （DiT）為框架設(shè)計(jì)，其中每個(gè)Transformer塊都由3D自注意力層、交叉注意力層，以及采用SwiGLU激活函數(shù)的前饋網(wǎng)絡(luò)組成。

并使用AdaLN-Zero調(diào)制機(jī)制，將每個(gè)Transformer塊均集成為專(zhuān)用的調(diào)制多層感知機(jī)，再在自注意力和交叉注意力模塊中，采用RMSNorm歸一化以提升訓(xùn)練穩(wěn)定性，另外還對(duì)視覺(jué)token的位置編碼使用3D RoPE。

然后將所有任務(wù)都定義為視頻續(xù)生任務(wù)，通過(guò)條件幀數(shù)量進(jìn)行區(qū)分：

文本到視頻：0幀條件。
圖像到視頻：1幀條件。
視頻續(xù)生：多幀條件。

統(tǒng)一混合輸入后，將無(wú)噪聲的條件幀和待去噪的噪聲幀沿著時(shí)間軸拼接，結(jié)合時(shí)序步配置，以實(shí)現(xiàn)單模型原生支持多任務(wù)。

而為了適配這類(lèi)輸入，研究團(tuán)隊(duì)還在架構(gòu)中設(shè)計(jì)了一種帶鍵值緩存（KVCache）的塊注意力機(jī)制，該設(shè)計(jì)可以確保條件token不受噪聲token的影響，且后續(xù)可以緩存并復(fù)用條件token的KV特征，提升長(zhǎng)視頻生成效率。

其中最矚目的長(zhǎng)視頻生成能力，主要通過(guò)原生預(yù)訓(xùn)練設(shè)計(jì)和交互式生成支持兩大核心特性實(shí)現(xiàn)。

首先LongCat-Video摒棄了傳統(tǒng)的“先訓(xùn)練基礎(chǔ)視頻生成能力，再針對(duì)長(zhǎng)視頻任務(wù)微調(diào)”的訓(xùn)練路徑，而是直接在視頻續(xù)生任務(wù)上預(yù)訓(xùn)練。

這樣做可以直接從源頭解決長(zhǎng)視頻生成中的累積誤差問(wèn)題，在生成分鐘級(jí)視頻的同時(shí)，避免色彩漂移和質(zhì)量下降。

另外LongCat-Video還支持交互式長(zhǎng)視頻生成，允許用戶為不同片段設(shè)置獨(dú)立指令，進(jìn)一步擴(kuò)展了長(zhǎng)視頻創(chuàng)作的靈活性。

為了提高視頻生成的推理效率，團(tuán)隊(duì)提出了一種從粗到精的生成范式，先是讓模型生成480p、15fps的低分辨率低幀率視頻，再通過(guò)三線性插值將分辨率升級(jí)至720p、30fps，同時(shí)由一個(gè)LoRA訓(xùn)練的精煉專(zhuān)家模型進(jìn)行細(xì)節(jié)優(yōu)化。

再引入塊稀疏注意力，將注意力計(jì)算量降至原始的10%以下，配合上下文并行的環(huán)形塊稀疏注意力，進(jìn)一步優(yōu)化高分辨率生成效率。

結(jié)合CFG蒸餾和一致性模型（CM）蒸餾，將采樣步數(shù)從50步縮減至16步，實(shí)現(xiàn)在單H800 GPU上，單個(gè)720p、30fps視頻生成可在分鐘內(nèi)完成，效率提升超10倍。

另外針對(duì)視頻生成場(chǎng)景，使用組相對(duì)策略?xún)?yōu)化 （GRPO）算法，提升GRPO在視頻生成任務(wù)中的收斂速度與生成質(zhì)量。

在訓(xùn)練過(guò)程中，分別采用三類(lèi)專(zhuān)用獎(jiǎng)勵(lì)模型：

視覺(jué)質(zhì)量 （VQ）：結(jié)合HPSv3-general和HPSv3-percentile進(jìn)行評(píng)估。
運(yùn)動(dòng)質(zhì)量 （MQ）：基于VideoAlign模型微調(diào)，并使用灰度視頻訓(xùn)練避免色彩偏好。
文本-視頻對(duì)齊度 （TA）：同樣基于VideoAlign模型微調(diào)，但保留原始的彩色輸入。

然后進(jìn)行多獎(jiǎng)勵(lì)加權(quán)融合訓(xùn)練，避免單一獎(jiǎng)勵(lì)的過(guò)擬合和獎(jiǎng)勵(lì)欺騙問(wèn)題，實(shí)現(xiàn)視覺(jué)、運(yùn)動(dòng)、對(duì)齊能力的均衡提升。

在完成數(shù)據(jù)構(gòu)建和模型訓(xùn)練后，研究團(tuán)隊(duì)首先對(duì)其進(jìn)行內(nèi)部基準(zhǔn)測(cè)試，主要評(píng)估文生視頻和圖生視頻性能。

其中文生視頻，包含文本對(duì)齊、視覺(jué)質(zhì)量、運(yùn)動(dòng)質(zhì)量、整體質(zhì)量四個(gè)維度。

實(shí)驗(yàn)結(jié)果表明，LongCat-Video在整體質(zhì)量得分中超越PixVerse-V5和Wan2.2-T2V-A14B，視覺(jué)質(zhì)量接近Wan2.2-T2V-A14B，僅略遜于閉源模型Veo3。

圖生視頻則在此基礎(chǔ)上，新增圖像對(duì)齊維度評(píng)估，最終結(jié)果中LongCat-Video的視覺(jué)質(zhì)量得分最高（3.27），說(shuō)明整體質(zhì)量具有競(jìng)爭(zhēng)力，但圖像對(duì)齊與運(yùn)動(dòng)質(zhì)量仍有提升空間。

另外研究團(tuán)隊(duì)還進(jìn)行了VBench 2.0的公開(kāi)基準(zhǔn)測(cè)試，LongCat-Video總得分位列第三（62.11%），僅次于Veo3（66.72%）和Vidu Q1（62.7%）。

值得注意的是，LongCat-Video在常識(shí)性維度（運(yùn)動(dòng)合理性、物理定律遵循）上處于第一的領(lǐng)先優(yōu)勢(shì)，凸顯出該模型優(yōu)秀的物理世界建模能力。

One More Thing

而這已經(jīng)不是這家外賣(mài)公司第一次“不務(wù)正業(yè)”了……

從八月底開(kāi)始，美團(tuán)龍貓大模型就在不停地發(fā)發(fā)發(fā)，先是端出來(lái)了最經(jīng)典的開(kāi)源基礎(chǔ)模型LongCat-Flash-Chat。

總參數(shù)560B，可以在僅激活少量參數(shù)的前提下，實(shí)現(xiàn)性能比肩市面上的主流模型，尤其是在復(fù)雜的Agent任務(wù)中表現(xiàn)突出。

而且現(xiàn)已登陸API平臺(tái)使用～

一個(gè)月不到，又上新了LongCat-Flash-Thinking，在邏輯、數(shù)學(xué)、編碼、Agent多任務(wù)中均達(dá)成SOTA水平，是國(guó)內(nèi)首個(gè)同時(shí)具備“深度思考+工具調(diào)用”和“非形式化+形式化”推理能力的LLM，可以實(shí)現(xiàn)更低成本、更優(yōu)性能。

隨后又專(zhuān)為語(yǔ)音LLM推出了LongCat-Audio-Codec，可以同時(shí)對(duì)語(yǔ)義和聲學(xué)token以低幀速率（16.7Hz/60ms）并行提取，實(shí)現(xiàn)高效離散化，并能夠在極低的比特率中保持高清晰度。

以及專(zhuān)為復(fù)雜現(xiàn)實(shí)生活場(chǎng)景（外賣(mài)送餐、餐廳點(diǎn)餐、旅游出行）打造的Agent評(píng)測(cè)基準(zhǔn)——VitaBench，可以系統(tǒng)性衡量Agent在推理、工具使用和自適應(yīng)交互方面的能力。（淚目，終于回歸老本行.jpg）

……

最后再到今天的視頻生成模型，毫無(wú)疑問(wèn)，“跨界”AI正在成為這家外賣(mài)公司的新常態(tài)。

開(kāi)源地址：
https://github.com/meituan-longcat/LongCat-Video
https://huggingface.co/meituan-longcat/LongCat-Video

項(xiàng)目主頁(yè)：https://meituan-longcat.github.io/LongCat-Video/

責(zé)任編輯：張燕妮來(lái)源：量子位

AI 開(kāi)源模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<menuitem id="8zup0"><mark id="8zup0"></mark></menuitem>

<abbr id="8zup0"></abbr>

<u id="8zup0"><rp id="8zup0"></rp></u>

<ruby id="8zup0"></ruby>