偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

清華特獎(jiǎng)得主團(tuán)隊(duì)視頻生成AI一夜刷屏!100%開源+61頁技術(shù)報(bào)告,還能無限擴(kuò)展生成,網(wǎng)友:游戲規(guī)則改變者

人工智能
Magi-1,首個(gè)實(shí)現(xiàn)頂級(jí)畫質(zhì)輸出的自回歸視頻生成模型,模型權(quán)重、代碼100%開源。整整61頁的技術(shù)報(bào)告中還詳細(xì)介紹了創(chuàng)新的注意力改進(jìn)和推理基礎(chǔ)設(shè)施設(shè)計(jì),給人一種視頻版DeepSeek的感覺。

整整61頁的技術(shù)報(bào)告中還詳細(xì)介紹了創(chuàng)新的注意力改進(jìn)和推理基礎(chǔ)設(shè)施設(shè)計(jì),給人一種視頻版DeepSeek的感覺。

圖片圖片

Magi-1將視頻生成卷到了新高度,大片級(jí)品質(zhì)直接鎖住大家的眼球,請(qǐng)看VCR:

其主打能力,一是無限長度擴(kuò)展,實(shí)現(xiàn)跨時(shí)間的無縫連貫敘事:

圖片圖片

二是能將生成時(shí)長控制精確到每一“秒”:

圖片圖片

另外,Magi-1對(duì)物理規(guī)律也有更深度的理解,Physics-IQ基準(zhǔn)測試56.02%,大幅領(lǐng)先一眾頂流。

現(xiàn)在看這張圖,Sora的時(shí)代是真的過去了。

圖片圖片

這匹“黑馬”來自中國團(tuán)隊(duì)Sand.ai,中文名聽著有點(diǎn)萌叫三呆科技,實(shí)力卻不容小覷。

創(chuàng)始人,清華特獎(jiǎng)得主、光年之外聯(lián)合創(chuàng)始人。

目前大伙兒可在官網(wǎng)免費(fèi)試玩Magi-1。GitHub更是一晚過后狂攬500+Star。

圖片圖片

此次開源了從24B到4.5B參數(shù)的一系列模型,最低配置一塊4090就能跑。

圖片圖片

網(wǎng)友們激動(dòng)轉(zhuǎn)發(fā)測試,評(píng)價(jià)也是相當(dāng)高,看一下這個(gè)feel:

圖片圖片

這絕對(duì)是令人驚嘆的工作。將自回歸擴(kuò)散應(yīng)用于視頻領(lǐng)域不僅是研究上的一大步,更是為現(xiàn)實(shí)世界的創(chuàng)意領(lǐng)域開辟了新可能。Magi-1在生成質(zhì)量和精度上樹立了新標(biāo)桿。

開源特性+令人矚目的基準(zhǔn)測試表現(xiàn)=游戲規(guī)則改變者。

圖片圖片

無限長度擴(kuò)展,控制精確到每“秒”

還有更多官方效果展示,先來欣賞一波~

比如漂在水面上的貓,水面自然晃動(dòng),波光粼粼:

圖片圖片

抽著雪茄的海盜船長,頗有大片的感jio:

圖片圖片

光影等細(xì)節(jié)滿滿:

圖片圖片

網(wǎng)友們也都陸陸續(xù)續(xù)曬出了自己的實(shí)測效果:

畫質(zhì)超清晰,VR頭顯上的細(xì)微反光以及狗的胡須和毛發(fā)細(xì)節(jié)都栩栩如生。

圖片圖片

還有網(wǎng)友生成了正在跳舞的小動(dòng)物,belike:

圖片圖片

量子位自然不能錯(cuò)過,第一時(shí)間上手實(shí)測了一波。

玩法上,打開Magi-1,主打圖生成視頻,且是以一個(gè)“項(xiàng)目”為單位:

圖片圖片

上傳好圖片之后,Magi-1像一張畫布一樣,呈現(xiàn)節(jié)點(diǎn)式的交互界面,點(diǎn)擊圖片側(cè)邊加號(hào)按鈕就能創(chuàng)建一個(gè)“視頻塊”。

開始設(shè)置prompt,支持精確調(diào)整時(shí)長,一次最長10s,也可設(shè)置Variations一次性生成多個(gè)視頻:

圖片圖片

稍等片刻,一只活蹦亂跳的吉卜力小狗就生成好了。

我們第一次嘗試就得到了下面醬嬸兒的效果,小狗的動(dòng)作姿態(tài)整體比較符合物理規(guī)律,沒有離譜的扭曲以及突然出現(xiàn)的第五條腿(doge)。

視頻左邊還有自動(dòng)改寫增強(qiáng)后的prompt。

圖片圖片

接著,對(duì)這段視頻進(jìn)行擴(kuò)展,小狗搖頭晃腦活蹦亂跳在表達(dá)什么呢?

圖片圖片

原來是在講述它今天在河里游泳玩耍的事情。

圖片圖片

把這一個(gè)個(gè)鏡頭“組裝”起來,分分鐘就能打造出一部連貫的敘事短片。

另外Magi-1中還有“資產(chǎn)管理”板塊,可基于生成的視頻再創(chuàng)建一個(gè)新項(xiàng)目,進(jìn)行二次加工創(chuàng)作。

圖片圖片


完整模型架構(gòu)、推理基礎(chǔ)設(shè)施公開

Magi-1公布的技術(shù)論文足足有61頁之多。

圖片圖片

Magi-1整體架構(gòu)基于Diffusion Transformer,采用Flow-Matching作為訓(xùn)練目標(biāo)。

訓(xùn)練分為多階段,第一階段固定分辨率(256×256,16 幀),第二階段引入可變分辨率和圖像-視頻聯(lián)合訓(xùn)練,并在推理時(shí)使用滑動(dòng)窗口方法來支持任意分辨率。

其最大的特點(diǎn)是不把視頻當(dāng)成一個(gè)整體去生成,而是通過自回歸去噪方式預(yù)測固定長度的視頻片段(chunk),每個(gè)片段固定為24幀。

當(dāng)前一個(gè)片段達(dá)到一定去噪水平后,便開始生成下一個(gè)片段。這種流水線設(shè)計(jì)最多可同時(shí)處理四個(gè)片段,提高視頻生成的效率。

同時(shí),這種約束早期片段噪聲水平低于后期片段的設(shè)計(jì),確保了視頻前后的因果性,避免片段的信息影響過去,導(dǎo)致時(shí)間一致性差(如物體突然消失或運(yùn)動(dòng)軌跡斷裂)。

圖片圖片

配合這種分片段自回歸設(shè)計(jì),Magi-1在Diffusion Transformer的基礎(chǔ)上融入了多項(xiàng)改進(jìn)。

圖片圖片

光是在注意力機(jī)制上就有多項(xiàng)創(chuàng)新。

Block-Causal Attention

  • 片段內(nèi)全注意力:每個(gè)視頻片段內(nèi)的所有幀間進(jìn)行全注意力計(jì)算,捕捉片段內(nèi)短時(shí)序依賴(如單片段內(nèi)物體的快速運(yùn)動(dòng))。
  • 片段間因果注意力:僅允許當(dāng)前片段關(guān)注之前已生成的片段,禁止未來片段信息反向流入,確保因果性。
  • 3D RoPE 位置編碼:結(jié)合空間和時(shí)間位置信息,學(xué)習(xí)可訓(xùn)練的基頻參數(shù),提升長時(shí)序建模能力。

Parallel Attention Block

傳統(tǒng)DiT架構(gòu)中自注意力(處理視覺特征)和交叉注意力(處理文本條件)串行執(zhí)行,需兩次TP通信(Tensor Parallel);并行塊將兩者的查詢投影Q共享,僅需一次通信,減少GPU間同步開銷

QK-NormGQA

QK-Norm是源自視覺Transformer的技術(shù),通過歸一化查詢(Q)和鍵(K)的范數(shù),穩(wěn)定注意力權(quán)重計(jì)算,避免梯度爆炸/消失。Magi-1將其擴(kuò)展到時(shí)空注意力和交叉注意力模塊,提升訓(xùn)練穩(wěn)定性,尤其在240億參數(shù)規(guī)模下效果顯著。

接下來的GQA、FFN 中的三明治歸一化、SwiGLU大家就很熟悉了。

到了具體軟硬協(xié)同層面,論文還提出了可擴(kuò)展分布式注意力機(jī)制MagiAttention。

Flex-Flash-Attention

基于FlashAttention-3,將不規(guī)則注意力掩碼分解為多個(gè) AttnSlice,使各種常用注意力掩碼可表示為多個(gè)AttnSlice的組合,從而支持靈活的注意力掩碼類型。利用英偉達(dá)Hopper 架構(gòu)的TMA 特征,引入Slice級(jí)并行和原子操作,在支持靈活掩碼的同時(shí),保持與FlashAttention-3相當(dāng)?shù)挠?jì)算性能。

計(jì)算負(fù)載均衡

將整個(gè)掩碼沿查詢維度均勻劃分為多個(gè)dispatch chunks,并分配到不同的上下文并行(CP)對(duì)應(yīng)的bucket中,使每個(gè)bucket包含相同數(shù)量的dispatch chunks,避免因負(fù)載不均衡導(dǎo)致的計(jì)算資源閑置。

零冗余通信原語

針對(duì)現(xiàn)有環(huán)形點(diǎn)對(duì)點(diǎn)通信原語存在冗余通信的問題,引入group-cast和 group-reduce原語。根據(jù)注意力掩碼的需求,精準(zhǔn)地發(fā)送和收集關(guān)鍵值(KV)及梯度(dKV)信息,避免不必要的通信,實(shí)現(xiàn)零冗余通信。通過使用all-to-all-v原語進(jìn)行原型實(shí)現(xiàn),并借助內(nèi)核融合減少預(yù)處理和后處理開銷。

圖片圖片

自適應(yīng)多階段重疊

為實(shí)現(xiàn)真正的線性擴(kuò)展,引入多階段計(jì)算-通信重疊策略,將每個(gè)rank的遠(yuǎn)程 KV/dKV 通信劃分為多個(gè)階段。

在正向傳遞中,先啟動(dòng)group-cast內(nèi)核預(yù)取下一階段的遠(yuǎn)程KV,然后異步執(zhí)行Flex-Flash-Attention(FFA)內(nèi)核進(jìn)行部分注意力計(jì)算;

在反向傳遞中,除了預(yù)取 KV,還在啟動(dòng) FFA 內(nèi)核前,通過group-reduce內(nèi)核減少上一階段的dKV。通過引入可調(diào)節(jié)超參數(shù)num_stages,根據(jù)不同訓(xùn)練設(shè)置、微批次以及正向和反向傳遞的計(jì)算-通信比率,自適應(yīng)地控制重疊粒度。

所有這些改動(dòng)作為一個(gè)完整的MagiAttention項(xiàng)目,代碼也在GitHub上開源。

圖片圖片

推理基礎(chǔ)設(shè)施方面,主要針對(duì)兩種場景進(jìn)行設(shè)計(jì):實(shí)時(shí)流式視頻生成和在 RTX 4090 GPU 上的經(jīng)濟(jì)高效部署,以滿足不同應(yīng)用需求。

在實(shí)時(shí)流式視頻生成上采用異構(gòu)服務(wù)架構(gòu),將T5(提取文本Embedding,為視頻生成提供語義信息)和Magi-1部署在高性能GPU 上,VAE部分部署在經(jīng)濟(jì)高效的硬件上,實(shí)現(xiàn)Magi-1推理和VAE解碼并發(fā)執(zhí)行,并通過分析性能數(shù)據(jù)來分配資源,提升整體吞吐量。

針對(duì)RTX4090部署場景,借鑒語言模型將KV緩存存儲(chǔ)在CPU內(nèi)存中,根據(jù)需要?jiǎng)討B(tài)加載回GPU。針對(duì)RTX4090的PCIe總線帶寬限制,提出Context Shuffle Overlap(CSO)技術(shù),優(yōu)化通信與計(jì)算的重疊,提升計(jì)算資源利用率,使4.5B參數(shù)模型在單塊RTX 4090 GPU上部署時(shí),峰值內(nèi)存占用控制在21.94GB;24B模型在8塊RTX4090 GPU上部署時(shí),峰值內(nèi)存占用控制在19.29GB,且最大MFU(浮點(diǎn)運(yùn)算數(shù)利用率)達(dá)到 58% 。

最后,評(píng)估結(jié)果分為內(nèi)部人工評(píng)估、自動(dòng)評(píng)估(VBench-I2V基準(zhǔn))、物理理解能力評(píng)估三部分。

人類評(píng)估中Magi-1與海螺、騰訊混元、通義萬相Wan2.1相比,尤其是在指令跟隨和運(yùn)動(dòng)質(zhì)量方面有優(yōu)勢,與閉源模型可靈1.6在視覺質(zhì)量上還有一些差距。

圖片圖片

在VBench-I2V基準(zhǔn)上:MAGI-1(2×解碼器)以總分89.28排名第一,尤其在動(dòng)態(tài)程度(Dynamic Degree)上有優(yōu)勢,平衡運(yùn)動(dòng)幅度與圖像質(zhì)量。

圖片圖片

曹越執(zhí)掌的團(tuán)隊(duì),已完成三輪融資

Sand.AI創(chuàng)始人曹越,博士畢業(yè)于清華大學(xué)軟件學(xué)院,2018年獲清華大學(xué)特等獎(jiǎng)學(xué)金。

圖片

讀博期間在微軟MSRA實(shí)習(xí),2021年以Swin Transformer共同一作身份獲ICCV最佳論文“馬爾獎(jiǎng)”。

2022年,曹越與王慧文等共同創(chuàng)辦光年之外,后加入智源研究院領(lǐng)導(dǎo)多模態(tài)與視覺研究中心。

2023年曹越創(chuàng)辦Sand.ai,在很長一段時(shí)間保持隱身模式。

2024年7月,其投資方今日資本“風(fēng)投女王”徐新的一條傳聞把Sand.ai炸出水面。

當(dāng)時(shí)有人發(fā)帖稱“今日資本撤離一級(jí)市場”,徐新發(fā)朋友圈辟謠時(shí)透露,2024年5月今日資本領(lǐng)投了Sand.AI的早期融資。

到現(xiàn)在據(jù)了解,Sand.AI已完成三輪融資,主要參與方包括今日資本、經(jīng)緯創(chuàng)投等。

創(chuàng)新工廠創(chuàng)始人李開復(fù)剛剛也發(fā)帖推薦了Sand.AI與Magi-1,稱“很高興看到繼 DeepSeek 之后,又有一家AI公司開發(fā)出世界一流的開源模型”。

圖片圖片

目前Sand.ai具體融資金額,團(tuán)隊(duì)規(guī)模等尚未可知,不過從MAGI-1論文附帶的貢獻(xiàn)者名單看,核心技術(shù)團(tuán)隊(duì)至少有36人。

圖片圖片

其中很多成員與曹越在工作經(jīng)歷上有交集。

如創(chuàng)始成員方羽新,有微軟MSRA、智源研究院實(shí)習(xí)經(jīng)歷,也是光年之外創(chuàng)始成員之一。

圖片圖片

兩人在智源研究院期間在大規(guī)模視覺表征預(yù)訓(xùn)練模型EVA系列上多次合作。

圖片圖片

核心貢獻(xiàn)者李凌志,也有MSRA實(shí)習(xí)經(jīng)歷,曾擔(dān)任小紅書算法主管和阿里巴巴集團(tuán)達(dá)摩院算法專家。

圖片圖片

多位團(tuán)隊(duì)成員在個(gè)人主頁等處介紹自己現(xiàn)在為一家隱形初創(chuàng)公司工作。

現(xiàn)在答案已經(jīng)明了,他們在Sand AI,做AI視頻生成界的DeepSeek。

在線試玩:https://sand.ai/

參考鏈接:

[1] https://github.com/SandAI-org/MAGI-1

[2]https://static.magi.world/static/files/MAGI_1.pdf

[3]https://x.com/kaifulee/status/1914528611429966315

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2025-04-22 15:34:08

視頻生成AI

2024-03-18 00:09:19

人工智能生成式人工智能安全

2025-05-19 00:00:06

AI域名工具

2023-08-04 08:00:00

ControlNet醫(yī)學(xué)圖像

2025-03-26 08:10:56

2023-12-20 15:26:13

AI谷歌

2025-03-04 08:36:31

開源形狀生成庫React

2021-10-15 11:28:06

物聯(lián)網(wǎng)邊緣計(jì)算IoT

2023-07-07 11:24:04

2025-04-07 00:00:00

OpenAIGPT-4o圖像

2023-05-25 13:39:00

AI功能分隔帶

2023-11-03 11:03:10

AIGen-2

2025-03-06 10:52:02

2024-02-23 16:12:47

2020-08-19 09:45:10

IBMAIOps混合多云管理

2018-01-14 16:01:33

2023-04-12 16:49:18

數(shù)字技術(shù)物聯(lián)網(wǎng)

2021-01-28 12:37:40

物聯(lián)網(wǎng)體育行業(yè)IOT

2024-03-12 13:26:46

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)