偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

48塊GPU訓(xùn)練對標(biāo)千億參數(shù)SOTA!達(dá)摩院等發(fā)布基于LLM的自回歸視頻生成模型Lumos-1

發(fā)布于 2025-7-17 09:45
瀏覽
0收藏

48塊GPU訓(xùn)練對標(biāo)千億參數(shù)SOTA!達(dá)摩院等發(fā)布基于LLM的自回歸視頻生成模型Lumos-1-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2507.08801 

項(xiàng)目鏈接:https://github.com/alibaba-damo-academy/Lumos

48塊GPU訓(xùn)練對標(biāo)千億參數(shù)SOTA!達(dá)摩院等發(fā)布基于LLM的自回歸視頻生成模型Lumos-1-AI.x社區(qū)

Lumos-1 生成的示例可視化。Lumos-1 支持文本到圖像、圖像到視頻和文本到視頻任務(wù)

亮點(diǎn)直擊

  • MM-RoPE創(chuàng)新:首次在視頻生成中優(yōu)化3D RoPE的頻譜分配與位置縮放,兼顧文本與視頻模態(tài)的兼容性。
  • AR-DF訓(xùn)練策略:通過時域管狀掩碼解決幀間信息冗余問題,實(shí)現(xiàn)平衡的幀級損失與高質(zhì)量推理。
  • 輕量高效架構(gòu):僅需最小LLM修改,無需外部文本編碼器,以48塊GPU實(shí)現(xiàn)對標(biāo)千億參數(shù)模型的性能。

總結(jié)速覽

視頻生成效果

48塊GPU訓(xùn)練對標(biāo)千億參數(shù)SOTA!達(dá)摩院等發(fā)布基于LLM的自回歸視頻生成模型Lumos-1-AI.x社區(qū)

48塊GPU訓(xùn)練對標(biāo)千億參數(shù)SOTA!達(dá)摩院等發(fā)布基于LLM的自回歸視頻生成模型Lumos-1-AI.x社區(qū)

48塊GPU訓(xùn)練對標(biāo)千億參數(shù)SOTA!達(dá)摩院等發(fā)布基于LLM的自回歸視頻生成模型Lumos-1-AI.x社區(qū)

48塊GPU訓(xùn)練對標(biāo)千億參數(shù)SOTA!達(dá)摩院等發(fā)布基于LLM的自回歸視頻生成模型Lumos-1-AI.x社區(qū)

48塊GPU訓(xùn)練對標(biāo)千億參數(shù)SOTA!達(dá)摩院等發(fā)布基于LLM的自回歸視頻生成模型Lumos-1-AI.x社區(qū)

48塊GPU訓(xùn)練對標(biāo)千億參數(shù)SOTA!達(dá)摩院等發(fā)布基于LLM的自回歸視頻生成模型Lumos-1-AI.x社區(qū)

48塊GPU訓(xùn)練對標(biāo)千億參數(shù)SOTA!達(dá)摩院等發(fā)布基于LLM的自回歸視頻生成模型Lumos-1-AI.x社區(qū)

48塊GPU訓(xùn)練對標(biāo)千億參數(shù)SOTA!達(dá)摩院等發(fā)布基于LLM的自回歸視頻生成模型Lumos-1-AI.x社區(qū)

解決的問題

  • 架構(gòu)兼容性:現(xiàn)有自回歸視頻生成模型與標(biāo)準(zhǔn)LLM架構(gòu)不兼容,或依賴外部文本編碼器,或因逐令牌解碼導(dǎo)致高延遲。
  • 時空相關(guān)性建模:視頻數(shù)據(jù)具有強(qiáng)時空相關(guān)性,現(xiàn)有方法(如1D RoPE)未能有效建模,且3D RoPE存在頻譜范圍不平衡問題。
  • 訓(xùn)練效率與質(zhì)量:視頻幀間空間信息冗余導(dǎo)致幀間損失不平衡,隨機(jī)掩碼預(yù)測效率低下,影響生成質(zhì)量。

提出的方案

  • Lumos-1模型:基于LLM架構(gòu)的輕量修改,實(shí)現(xiàn)高效自回歸視頻生成,無需外部文本編碼器。
  • MM-RoPE:改進(jìn)的3D旋轉(zhuǎn)位置編碼,保留文本RoPE的同時優(yōu)化視頻時空建模,平衡頻譜范圍與模態(tài)位置縮放。
  • AR-DF(自回歸離散擴(kuò)散強(qiáng)制):通過時域管狀掩碼(temporal tube masking)解決幀間損失不平衡問題,訓(xùn)練與推理策略一致,避免質(zhì)量退化。

應(yīng)用的技術(shù)

  • 3D RoPE擴(kuò)展:將RoPE從1D擴(kuò)展到3D以建模時空相關(guān)性,診斷頻譜不平衡后提出MM-RoPE。
  • 令牌依賴策略:幀內(nèi)雙向依賴+幀間時序因果依賴,貼合視頻數(shù)據(jù)特性。
  • 內(nèi)存高效訓(xùn)練:階段式訓(xùn)練與GPU內(nèi)存優(yōu)化技術(shù),僅用48塊GPU預(yù)訓(xùn)練模型。

達(dá)到的效果:

  • 性能對標(biāo)SOTA:在GenEval、VBench-I2V/VBench-T2V基準(zhǔn)上媲美EMU3、COSMOS-Video2World和OpenSoraPlan。
  • 架構(gòu)統(tǒng)一性:保留LLM架構(gòu),支持多模態(tài)(文本+視頻)生成與理解。
  • 高效生成:通過AR-DF和MM-RoPE提升訓(xùn)練效率與生成質(zhì)量,避免高延遲。

Lumos-1

Lumos-1的設(shè)計理念:首先介紹MM-RoPE,它使LLM能夠更好地感知時空以建模視覺數(shù)據(jù)。接著介紹AR-DF,它實(shí)現(xiàn)了有效的訓(xùn)練和推理。最后介紹實(shí)現(xiàn)Lumos-1的關(guān)鍵技術(shù),包括架構(gòu)、內(nèi)存友好技術(shù)等。

通過MM-RoPE注入時空相關(guān)性

48塊GPU訓(xùn)練對標(biāo)千億參數(shù)SOTA!達(dá)摩院等發(fā)布基于LLM的自回歸視頻生成模型Lumos-1-AI.x社區(qū)

48塊GPU訓(xùn)練對標(biāo)千億參數(shù)SOTA!達(dá)摩院等發(fā)布基于LLM的自回歸視頻生成模型Lumos-1-AI.x社區(qū)

48塊GPU訓(xùn)練對標(biāo)千億參數(shù)SOTA!達(dá)摩院等發(fā)布基于LLM的自回歸視頻生成模型Lumos-1-AI.x社區(qū)

48塊GPU訓(xùn)練對標(biāo)千億參數(shù)SOTA!達(dá)摩院等發(fā)布基于LLM的自回歸視頻生成模型Lumos-1-AI.x社區(qū)

48塊GPU訓(xùn)練對標(biāo)千億參數(shù)SOTA!達(dá)摩院等發(fā)布基于LLM的自回歸視頻生成模型Lumos-1-AI.x社區(qū)

3D RoPE的初步探索。首先將3D RoPE引入自回歸視頻生成進(jìn)行初步探索。由于驗(yàn)證損失與評估指標(biāo)強(qiáng)相關(guān),用它來觀察效果。默認(rèn)使用交叉熵?fù)p失(C-Loss),遵循標(biāo)準(zhǔn)LLM訓(xùn)練目標(biāo)。如下圖2所示,比較了原始LLM RoPE與三種方案:

  • 方案1將前1/2通道分配給全局位置編碼(即全局序列索引),后1/2通道以2:3:3比例分配時間、高度和寬度位置。文本標(biāo)記僅使用前半通道編碼全局位置以保證語言建模能力,視覺標(biāo)記僅使用后半編碼3D位置;
  • 方案2擴(kuò)展方案1,利用視覺標(biāo)記前半通道額外編碼全局位置;
  • M-RoPE使用視覺標(biāo)記全部通道編碼3D位置。

48塊GPU訓(xùn)練對標(biāo)千億參數(shù)SOTA!達(dá)摩院等發(fā)布基于LLM的自回歸視頻生成模型Lumos-1-AI.x社區(qū)

下圖3(a)顯示:

  • 通過比較原始RoPE與方案1,時空相關(guān)性注入顯著提升模型擬合能力;
  • 為視覺標(biāo)記注入光柵掃描順序位置信息(方案2的全局位置)會降低性能;
  • 全通道利用(M-RoPE)優(yōu)于部分通道利用(方案1)。因此,在此生成模型中注入此類先驗(yàn)具有前景。

48塊GPU訓(xùn)練對標(biāo)千億參數(shù)SOTA!達(dá)摩院等發(fā)布基于LLM的自回歸視頻生成模型Lumos-1-AI.x社區(qū)

剖析3D RoPE及其局限性。盡管3D RoPE實(shí)踐有效,但其設(shè)計仍非最優(yōu)。圖3(b)可視化頻率如何分配給時間、高度和寬度維度:時間通道主導(dǎo)高頻段,而高度和寬度通道被分配至近零頻率。對于正弦函數(shù),相對位置τ(當(dāng)τ≥0)不應(yīng)超過一個周期以避免歧義,因?yàn)槌^2π弧度會導(dǎo)致函數(shù)模式重復(fù)。超出此范圍,模型無法區(qū)分細(xì)粒度位置差異。低索引通道的嵌入旋轉(zhuǎn)速度顯著快于高索引通道(圖3(c)),導(dǎo)致加速混疊和嵌入唯一性喪失;高索引通道旋轉(zhuǎn)過慢,缺乏足夠分辨率建模細(xì)微局部變化。此外,高度和寬度雖對稱重要,卻占據(jù)不成比例的小且不同的頻段,削弱其捕捉空間細(xì)節(jié)的能力。

MM-RoPE:分布式縮放3D RoPE機(jī)制。為優(yōu)雅解決上述限制,本文提出MM-RoPE——分布式3D RoPE機(jī)制。相比視覺語言模型廣泛采用的M-RoPE,MM-RoPE核心思想是為所有3D信息在全面頻譜范圍內(nèi)編碼相對位置。如前面圖2(b)所示,MM-RoPE中文本標(biāo)記的RoPE遵循標(biāo)準(zhǔn)LLM設(shè)計,而視覺標(biāo)記的RoPE由多個元MM-RoPE組件構(gòu)成。每個元MM-RoPE內(nèi)保持3D信息比例與3D RoPE相同(即2:3:3),同時最小化總維度以維持分布式設(shè)計。具體而言,我們首先分配時間信息通道,然后對稱交錯高度和寬度通道建??臻g信息。首個元MM-RoPE的注意力計算可表述為:

48塊GPU訓(xùn)練對標(biāo)千億參數(shù)SOTA!達(dá)摩院等發(fā)布基于LLM的自回歸視頻生成模型Lumos-1-AI.x社區(qū)

其中每個元MM-RoPE組件包含16個通道;其他組件類似定義,共同構(gòu)成視覺標(biāo)記的RoPE策略。

此外,對于聯(lián)合處理文本和視覺標(biāo)記的模型,兩種模態(tài)間的相互作用對確保視覺-語言對齊至關(guān)重要。然而,表示文本或視覺數(shù)據(jù)的位置范圍往往不同。盡管視覺數(shù)據(jù)的潛在分辨率較低(例如448×256×25的視頻經(jīng)過8×8×4壓縮后變?yōu)?6×32×7),當(dāng)代視覺生成系統(tǒng)通常使用極長描述性標(biāo)題進(jìn)行訓(xùn)練。為平衡兩種模態(tài),本文提出縮放3D位置以確保均衡學(xué)習(xí)。具體而言,我們通過乘以壓縮比將潛在3D位置經(jīng)驗(yàn)性地縮放至RGB空間,如下圖5(a)所示。這一簡單縮放操作從另一角度通過略微加快旋轉(zhuǎn)速度提升了視覺標(biāo)記的RoPE分辨率。實(shí)驗(yàn)部分證明其有效性,從而表明從RoPE角度平衡兩種模態(tài)的重要性。

48塊GPU訓(xùn)練對標(biāo)千億參數(shù)SOTA!達(dá)摩院等發(fā)布基于LLM的自回歸視頻生成模型Lumos-1-AI.x社區(qū)

然而鑒于視頻的自回歸生成特性,這種縮放可能并非最優(yōu)解。更先進(jìn)的解決方案留待未來工作。

自回歸離散擴(kuò)散強(qiáng)制

最樸素的生成范式(即下一標(biāo)記預(yù)測)存在生成效率低下的問題,使其不適用于自回歸視覺生成。本文采用離散擴(kuò)散技術(shù)生成視覺內(nèi)容,并結(jié)合時序因果依賴實(shí)現(xiàn)時序自回歸生成范式。但由于Lumos-1的自回歸特性,原始隨機(jī)掩碼(全局隨機(jī)掩碼)或時序獨(dú)立掩碼(擴(kuò)散強(qiáng)制)均會導(dǎo)致顯著的損失不平衡——后期幀的視覺標(biāo)記往往具有更低損失。由于在充足歷史幀上下文條件下預(yù)測幀的任務(wù)難度遠(yuǎn)低于根據(jù)文本提示預(yù)測首幀或根據(jù)首幀預(yù)測第二幀,模型會傾向于優(yōu)化更簡單任務(wù),導(dǎo)致時序?qū)W習(xí)退化。

48塊GPU訓(xùn)練對標(biāo)千億參數(shù)SOTA!達(dá)摩院等發(fā)布基于LLM的自回歸視頻生成模型Lumos-1-AI.x社區(qū)

48塊GPU訓(xùn)練對標(biāo)千億參數(shù)SOTA!達(dá)摩院等發(fā)布基于LLM的自回歸視頻生成模型Lumos-1-AI.x社區(qū)

48塊GPU訓(xùn)練對標(biāo)千億參數(shù)SOTA!達(dá)摩院等發(fā)布基于LLM的自回歸視頻生成模型Lumos-1-AI.x社區(qū)

48塊GPU訓(xùn)練對標(biāo)千億參數(shù)SOTA!達(dá)摩院等發(fā)布基于LLM的自回歸視頻生成模型Lumos-1-AI.x社區(qū)

48塊GPU訓(xùn)練對標(biāo)千億參數(shù)SOTA!達(dá)摩院等發(fā)布基于LLM的自回歸視頻生成模型Lumos-1-AI.x社區(qū)

48塊GPU訓(xùn)練對標(biāo)千億參數(shù)SOTA!達(dá)摩院等發(fā)布基于LLM的自回歸視頻生成模型Lumos-1-AI.x社區(qū)

實(shí)現(xiàn)

架構(gòu)Lumos-1架構(gòu)遵循Llama,默認(rèn)集成RMSNorm和SwiGLU。為穩(wěn)定訓(xùn)練,本文采用Chameleon的查詢-鍵歸一化(QK-Norm)。模型包含三個規(guī)模(0.5B/1B/3B),架構(gòu)細(xì)節(jié)見附錄。注意快速消融研究使用0.5B版本。

標(biāo)記器為統(tǒng)一視覺與文本標(biāo)記處理,采用Cosmos標(biāo)記器的離散版本,實(shí)現(xiàn)8×8×4的時空壓縮率。文本標(biāo)記保留Chameleon的文本標(biāo)記器。因此Lumos-1總碼本大小為129,536(65,536文本標(biāo)記+64,000視覺標(biāo)記)。

序列格式化視覺標(biāo)記與文本標(biāo)記在序列中間隔排列,文本標(biāo)記指定元數(shù)據(jù)(包括文本提示、視頻分辨率、幀率及幀數(shù))。借此設(shè)計,本文無需調(diào)整尺寸即可訓(xùn)練不同寬高比的圖像和視頻。

GPU內(nèi)存友好實(shí)現(xiàn)

默認(rèn)使用Flash Attention加速注意力計算,降低Lumos-1訓(xùn)練和推理時的內(nèi)存開銷。此外,觀察到大型碼本訓(xùn)練時GPU內(nèi)存消耗顯著,因此取消語言相關(guān)損失(如文本的下一標(biāo)記預(yù)測),將最終logit矩陣尺寸縮減至僅匹配視覺標(biāo)記。雖然文本標(biāo)記嵌入(將文本索引映射為嵌入)仍可訓(xùn)練,此舉使模型聚焦視頻生成。若目標(biāo)為支持語言模態(tài)的統(tǒng)一模型,可重新添加該損失。最后,針對129K標(biāo)記類型的損失計算存在極高內(nèi)存消耗(易引發(fā)內(nèi)存溢出),采用分塊交叉熵?fù)p失:通過上轉(zhuǎn)型并逐塊計算softmax logits,保持完整softmax精度。默認(rèn)分塊大小為2,000,顯著降低峰值內(nèi)存使用。

分階段訓(xùn)練

鑒于Lumos-1的自回歸特性,視頻生成訓(xùn)練可分為兩項(xiàng)能力:1) 文本到圖像;2) 單圖/多圖到視頻。盡管AR-DF訓(xùn)練大幅緩解學(xué)習(xí)不平衡問題,仍觀察到后者任務(wù)相對更易。因此需分階段訓(xùn)練確保視頻生成成功:

  • 專用文本到圖像訓(xùn)練(256p分辨率)
  • 圖像-視頻聯(lián)合訓(xùn)練(256p分辨率)
  • 聯(lián)合訓(xùn)練(384p分辨率視覺數(shù)據(jù))

實(shí)驗(yàn)

實(shí)驗(yàn)細(xì)節(jié)

數(shù)據(jù)集

  • 圖像數(shù)據(jù)集:6,000萬張(保留原始寬高比)
  • 視頻數(shù)據(jù)集:1,000萬段(剪輯為25幀/段)

48塊GPU訓(xùn)練對標(biāo)千億參數(shù)SOTA!達(dá)摩院等發(fā)布基于LLM的自回歸視頻生成模型Lumos-1-AI.x社區(qū)

視覺生成對比

文本到圖像生成(下表1):

  • 優(yōu)于同規(guī)模擴(kuò)散模型(如SD-XL),媲美FLUX
  • 自回歸模型中媲美EMU3,且離散擴(kuò)散推理效率顯著更高
  • 在位置/屬性綁定任務(wù)中表現(xiàn)優(yōu)異,證明無需文本預(yù)訓(xùn)練即可實(shí)現(xiàn)卓越語言理解與視覺-語言對齊

48塊GPU訓(xùn)練對標(biāo)千億參數(shù)SOTA!達(dá)摩院等發(fā)布基于LLM的自回歸視頻生成模型Lumos-1-AI.x社區(qū)

圖像到視頻生成(下表2):

  • 未專門訓(xùn)練該任務(wù),但通過指定首幀實(shí)現(xiàn)
  • 超越VideoCrafter-I2V,媲美數(shù)據(jù)量(1億>1千萬)和算力(1萬張H100>48張H20)遠(yuǎn)超的COSMOS-Video2World

48塊GPU訓(xùn)練對標(biāo)千億參數(shù)SOTA!達(dá)摩院等發(fā)布基于LLM的自回歸視頻生成模型Lumos-1-AI.x社區(qū)

文本到視頻生成(下表3):

  • 盡管采用離散標(biāo)記器,仍媲美OpenSoraPlan等擴(kuò)散模型(且無需笨重預(yù)訓(xùn)練文本編碼器)
  • 自回歸特性通過首幀質(zhì)量保障視頻質(zhì)量,在物體中心指標(biāo)(物體類別與顏色)上表現(xiàn)突出

48塊GPU訓(xùn)練對標(biāo)千億參數(shù)SOTA!達(dá)摩院等發(fā)布基于LLM的自回歸視頻生成模型Lumos-1-AI.x社區(qū)

分析與消融研究

定性視覺對比

本文在下圖6中將Lumos-1與主流視頻生成方法進(jìn)行對比。對于文本到視頻(T2V),我們的384p視頻在視覺質(zhì)量上不遜色于LTX-Video的512p視頻。在提供的案例中,Lumos-1生成了更自然的運(yùn)動(水波)且更貼合提示詞(穿紅色衣服的滑雪者和波浪)。對于圖像到視頻(I2V),Lumos-1在多物體(示例1中的多個漂浮熱氣球)和細(xì)粒度運(yùn)動(示例3中海岸線周圍的細(xì)微漣漪)處理上顯著優(yōu)于Stable Video DiffusionSVD),后者僅生成全局相機(jī)運(yùn)動。在示例2中,SVD產(chǎn)生了明顯模糊,而Lumos-1實(shí)現(xiàn)了物體的平滑動畫。更多可視化結(jié)果見附錄。

48塊GPU訓(xùn)練對標(biāo)千億參數(shù)SOTA!達(dá)摩院等發(fā)布基于LLM的自回歸視頻生成模型Lumos-1-AI.x社區(qū)

48塊GPU訓(xùn)練對標(biāo)千億參數(shù)SOTA!達(dá)摩院等發(fā)布基于LLM的自回歸視頻生成模型Lumos-1-AI.x社區(qū)

48塊GPU訓(xùn)練對標(biāo)千億參數(shù)SOTA!達(dá)摩院等發(fā)布基于LLM的自回歸視頻生成模型Lumos-1-AI.x社區(qū)

MM-RoPE的有效性。下圖7(b)展示了0.5B模型在四種RoPE設(shè)置下的驗(yàn)證損失。需注意,M-RoPE表示兩種設(shè)計均被移除??梢杂^察到,MM-RoPE始終收斂更快且穩(wěn)定在最低損失,證實(shí)了其對細(xì)粒度時空信息建模的優(yōu)勢。盡管單獨(dú)移除任一組件均會提高損失,但移除分布式設(shè)計的負(fù)面影響大于移除縮放位置設(shè)計,表明全面的頻率分配是主導(dǎo)因素。同時移除兩種增強(qiáng)會導(dǎo)致最慢收斂和最高平臺期,說明這兩種機(jī)制在高效視頻生成中具有互補(bǔ)性。

48塊GPU訓(xùn)練對標(biāo)千億參數(shù)SOTA!達(dá)摩院等發(fā)布基于LLM的自回歸視頻生成模型Lumos-1-AI.x社區(qū)

MM-RoPE中元MM-RoPE數(shù)量的影響。MM-RoPE將嵌入通道劃分為若干元組。更多元組意味著某一類信息(時間、高度或?qū)挾龋┠塬@得更廣譜的頻率建模。下圖9(a)繪制了0.5B模型在四種設(shè)置下的驗(yàn)證損失:

  • 無分布式設(shè)計:沿用此前設(shè)計,將前2/8通道分配給時間建模,3/8通道分別分配給高度和寬度建模;
  • 元MM-RoPE數(shù)量=1:配置一個64通道的元MM-RoPE,同時保持時間、高度和寬度建模的比例(2:3:3)。此變體通過交錯高度和寬度通道提升了兩個空間維度的頻譜范圍;
  • 元MM-RoPE數(shù)量=2:配置兩個32通道的元MM-RoPE,進(jìn)一步擴(kuò)展時間、高度和寬度信息的頻譜范圍;
  • 元MM-RoPE數(shù)量=4(默認(rèn)設(shè)計):每個元MM-RoPE保持最小通道數(shù)(16通道),使時間、高度或?qū)挾染S度的頻譜覆蓋最全面。

結(jié)果證實(shí),通過增加元MM-RoPE數(shù)量拓寬各維度頻譜,能顯著提升時空建模和整體訓(xùn)練效率。

48塊GPU訓(xùn)練對標(biāo)千億參數(shù)SOTA!達(dá)摩院等發(fā)布基于LLM的自回歸視頻生成模型Lumos-1-AI.x社區(qū)

48塊GPU訓(xùn)練對標(biāo)千億參數(shù)SOTA!達(dá)摩院等發(fā)布基于LLM的自回歸視頻生成模型Lumos-1-AI.x社區(qū)

MM-RoPE的推理開銷分析。與M-RoPE類似,MM-RoPE需定位視覺標(biāo)記起始位置后應(yīng)用RoPE機(jī)制,需少量計算。表4對比了使用標(biāo)準(zhǔn)1D RoPE、M-RoPE和MM-RoPE生成圖像和視頻的推理速度??捎^察到:1)相比1D RoPE,引入3D先驗(yàn)僅增加3.5%-4.1%推理延遲;2)相比M-RoPE,MM-RoPE未引入額外延遲。

48塊GPU訓(xùn)練對標(biāo)千億參數(shù)SOTA!達(dá)摩院等發(fā)布基于LLM的自回歸視頻生成模型Lumos-1-AI.x社區(qū)

CFG縮放的敏感性分析。前面圖7(c)使用1B模型研究了引導(dǎo)縮放對GenEval的影響。發(fā)現(xiàn)縮放值在13至16(默認(rèn)值)區(qū)間內(nèi)效果良好。

對寬高比的魯棒性。盡管訓(xùn)練數(shù)據(jù)寬高比多為7:4,但表5顯示Lumos-1 1B因統(tǒng)一碼本設(shè)計能很好適應(yīng)不同寬高比的視覺生成。

48塊GPU訓(xùn)練對標(biāo)千億參數(shù)SOTA!達(dá)摩院等發(fā)布基于LLM的自回歸視頻生成模型Lumos-1-AI.x社區(qū)

結(jié)論

Lumos-1,一種利用LLM架構(gòu)的自回歸視頻生成模型。本文提出MM-RoPE以改進(jìn)時空動態(tài)建模,并提出AR-DF以在考慮幀內(nèi)雙向性和幀間時序因果性的前提下實(shí)現(xiàn)高效訓(xùn)練與推理。期待Lumos-1成為構(gòu)建基礎(chǔ)統(tǒng)一模型的重要一步。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/D508qfcOEjXGZW2F_PN6og??

標(biāo)簽
已于2025-7-17 10:25:14修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦