偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Open-Sora 2.0全面開源,20萬復刻百萬級大片!11B媲美閉源巨頭,224張GPU創(chuàng)奇跡

人工智能 新聞
潞晨科技正式推出 Open-Sora 2.0——一款全新開源的SOTA視頻生成模型,僅20萬美元(224張GPU)成功訓練商業(yè)級11B參數(shù)視頻生成大模型。

今天,視頻生成領域迎來開源革命!

Open-Sora 2.0——全新開源的SOTA(State-of-the-Art)視頻生成模型正式發(fā)布,僅用20萬美元(224張GPU)成功訓練出商業(yè)級11B參數(shù)視頻生成大模型,性能直追HunyuanVideo和30B參數(shù)的Step-Video。

權(quán)威評測VBench及用戶偏好測試均證實其卓越表現(xiàn),在多項關(guān)鍵指標上媲美動輒數(shù)百萬美元訓練成本的閉源模型。

此次發(fā)布全面開源模型權(quán)重、推理代碼及分布式訓練全流程,讓高質(zhì)量視頻生成真正觸手可及,進一步提升視頻生成的可及性與可拓展性。

GitHub開源倉庫:https://github.com/hpcaitech/Open-Sora

圖片

體驗與指標雙在線

震撼視覺:Open-Sora 2.0 Demo先行

觀看宣傳片,體驗Open-Sora 2.0的強大生成能力:

動作幅度可控:可根據(jù)需求設定運動幅度,以更好地展現(xiàn)人物或場景的細膩動作。

圖片

圖片

畫質(zhì)與流暢度:提供720p高分辨率和24 FPS流暢視頻,讓最終視頻擁有穩(wěn)定幀率與細節(jié)表現(xiàn)。

圖片


圖片

豐富場景切換:從鄉(xiāng)村景色到自然風光場景,Open-Sora 2.0生成的畫面細節(jié)與過渡平滑度都有出色的表現(xiàn)。

圖片

圖片

11B參數(shù)規(guī)模媲美主流閉源大模型

· 媲美HunyuanVide和30B Step-Video

Open-Sora 2.0采用11B參數(shù)規(guī)模,訓練后在VBench人工偏好(Human Preference)評測上都取得與用高昂成本開發(fā)的主流閉源大模型同等水平。

· 用戶偏好評測

在視覺表現(xiàn)、文本一致性和動作表現(xiàn)三個評估維度上,Open Sora在至少兩個指標上超越了開源SOTA HunyuanVideo,以及商業(yè)模型Runway Gen-3 Alpha等。以小成本獲取了好性能。

圖片

· VBench 指標表現(xiàn)強勢

根據(jù)視頻生成權(quán)威榜單VBench的評測結(jié)果,Open-Sora模型的性能進步顯著。

從Open-Sora 1.2升級到2.0版本后,與行業(yè)領先的OpenAI Sora閉源模型之間的性能差距大幅縮小,從之前的4.52%縮減至僅0.69%,幾乎實現(xiàn)了性能的全面追平。

此外,Open-Sora 2.0在VBench評測中取得的分數(shù)已超過騰訊的HunyuanVideo,以更低的成本實現(xiàn)了更高的性能,為開源視頻生成技術(shù)樹立了全新標桿!

圖片

實現(xiàn)突破:低成本訓練與高效能優(yōu)化

Open Sora自開源以來,憑借其在視頻生成領域的高效與優(yōu)質(zhì)表現(xiàn),吸引了眾多開發(fā)者的關(guān)注與參與。

然而,隨著項目的深入推進,也面臨著高質(zhì)量視頻生成成本居高不下的問題。

為解決這些挑戰(zhàn),Open Sora團隊展開了一系列卓有成效的技術(shù)探索,顯著降低了模型訓練成本。

根據(jù)估算,市面上10B以上的開源視頻模型,動輒需要上百萬美元的單次訓練成本,而Open Sora 2.0將該成本降低了5-10倍。

圖片

作為開源視頻生成領域的領導者,Open-Sora不僅繼續(xù)開源了模型代碼和權(quán)重,更開源了全流程訓練代碼,成功打造了強大的開源生態(tài)圈。

據(jù)第三方技術(shù)平臺統(tǒng)計,Open-Sora的學術(shù)論文引用量半年內(nèi)獲得近百引用,在全球開源影響力排名中穩(wěn)居首位,領先所有開源的I2V/T2V視頻生成項目,成為全球影響力最大的開源視頻生成項目之一。

圖片

模型架構(gòu)

Open-Sora 2.0延續(xù)Open-Sora 1.2的設計思路,繼續(xù)采用3D自編碼器Flow Matching訓練框架,并通過多桶訓練機制,實現(xiàn)對不同視頻長度和分辨率的同時訓練。

在模型架構(gòu)上,引入3D全注意力機制,進一步提升視頻生成質(zhì)量。同時,采用最新的MMDiT架構(gòu),更精準地捕捉文本信息與視頻內(nèi)容的關(guān)系,并將模型規(guī)模從1B擴展至11B。

此外,借助開源圖生視頻模型FLUX進行初始化,大幅降低訓練成本,實現(xiàn)更高效的視頻生成優(yōu)化。

高效訓練方法和并行方案全開源

為了追求極致的成本優(yōu)化,Open-Sora 2.0從四個方面著手削減訓練開銷。

首先,通過嚴格的數(shù)據(jù)篩選,確保高質(zhì)量數(shù)據(jù)輸入,從源頭提升模型訓練效率。

采用多階段、多層次的篩選機制,結(jié)合多種過濾器,有效提升視頻質(zhì)量,為模型提供更精準、可靠的訓練數(shù)據(jù)。

圖片

其次,高分辨率訓練的成本遠超低分辨率,達到相同數(shù)據(jù)量時,計算開銷可能高達40倍。

256px、5秒的視頻為例,其tokens數(shù)量約8千,而768px的視頻tokens數(shù)量接近8萬,相差10倍,再加上注意力機制的平方級計算復雜度,高分辨率訓練的代價極其昂貴。

因此,Open-Sora優(yōu)先將算力投入到低分辨率訓練,以高效學習運動信息,在降低成本的同時確保模型能夠捕捉關(guān)鍵的動態(tài)特征。

圖片

與此同時,Open-Sora優(yōu)先訓練圖生視頻任務,以加速模型收斂。

相比直接訓練高分辨率視頻,圖生視頻模型在提升分辨率時具備更快的收斂速度,從而進一步降低訓練成本。

在推理階段,除了直接進行文本生視頻(T2V),還可以結(jié)合開源圖像模型,通過文本生圖再生視頻(T2I2V),以獲得更精細的視覺效果。

最后,Open-Sora采用高效的并行訓練方案,結(jié)合ColossalAI和系統(tǒng)級優(yōu)化,大幅提升計算資源利用率,實現(xiàn)更高效的視頻生成訓練。為了最大化訓練效率,我們引入了一系列關(guān)鍵技術(shù),包括:

  1. 高效的序列并行和ZeroDP,優(yōu)化大規(guī)模模型的分布式計算效率。
  2. 細粒度控制的Gradient Checkpointing,在降低顯存占用的同時保持計算效率。
  3. 訓練自動恢復機制,確保99%以上的有效訓練時間,減少計算資源浪費。
  4. 高效數(shù)據(jù)加載與內(nèi)存管理,優(yōu)化I/O,防止訓練阻塞,加速訓練流程。
  5. 高效異步模型保存,減少模型存儲對訓練流程的干擾,提高GPU利用率。
  6. 算子優(yōu)化,針對關(guān)鍵計算模塊進行深度優(yōu)化,加速訓練過程。

這些優(yōu)化措施協(xié)同作用,使Open-Sora 2.0在高性能與低成本之間取得最佳平衡,大大降低了高質(zhì)量視頻生成模型的訓練。

高壓縮比AE帶來更高速度

在訓練完成后,Open-Sora面向未來,進一步探索高壓縮比視頻自編碼器的應用,以大幅降低推理成本。

目前,大多數(shù)視頻模型仍采用4×8×8的自編碼器,導致單卡生成768px、5秒視頻耗時近30分鐘。

為解決這一瓶頸,Open-Sora訓練了一款高壓縮比(4×32×32)的視頻自編碼器,將推理時間縮短至單卡3分鐘以內(nèi),推理速度提升10倍。

圖片

要實現(xiàn)高壓縮比編碼器,需要解決兩個核心挑戰(zhàn):如何訓練高壓縮但仍具備優(yōu)秀重建效果的自編碼器,以及如何利用該編碼器訓練視頻生成模型

針對前者,Open-Sora團隊在視頻升降采樣模塊中引入殘差連接,成功訓練出一款重建質(zhì)量媲美當前開源SoTA視頻壓縮模型,且具備更高壓縮比的VAE,自此奠定了高效推理的基礎。

圖片

高壓縮自編碼器在訓練視頻生成模型時面臨更高的數(shù)據(jù)需求和收斂難度,通常需要更多訓練數(shù)據(jù)才能達到理想效果。

為解決這一問題,Open-Sora 提出了基于蒸餾的優(yōu)化策略,以提升AE(自編碼器)特征空間的表達能力,并利用已經(jīng)訓練好的高質(zhì)量模型作為初始化,減少訓練所需的數(shù)據(jù)量和時間。

此外,Open-Sora還重點訓練圖生視頻任務,利用圖像特征引導視頻生成,進一步提升高壓縮自編碼器的收斂速度,使其在更短時間內(nèi)達到一定生成效果。

Open-Sora認為,高壓縮比視頻自編碼器將成為未來降低視頻生成成本的關(guān)鍵方向。

目前的初步實驗結(jié)果已展現(xiàn)出顯著的推理加速效果,希望能進一步激發(fā)社區(qū)對這一技術(shù)的關(guān)注與探索,共同推動高效、低成本的視頻生成發(fā)展。

加入Open-Sora 2.0,共同推動AI視頻革命

今天,Open-Sora 2.0正式開源!

GitHub開源倉庫:https://github.com/hpcaitech/Open-Sora技術(shù)報告:https://github.com/hpcaitech/Open-Sora-Demo/blob/main/paper/Open_Sora_2_tech_report.pdf

責任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-03-18 08:02:26

2025-03-13 12:39:22

2024-12-26 11:48:27

2024-04-25 13:14:19

模型數(shù)據(jù)

2024-10-15 14:00:00

AdobeAI生成

2022-04-23 09:52:34

EarthlyMPL 2.0BSL

2025-06-09 15:25:43

3D生成AI

2025-08-01 14:32:35

AI模型訓練

2018-04-23 16:46:59

開源

2021-03-08 16:08:21

AIOps工具開源

2025-01-10 09:40:00

視頻生成AI開源

2025-06-13 09:03:00

2024-10-08 16:00:00

視頻AI生成

2024-03-18 10:02:00

AI開源

2025-03-10 08:30:00

AI模型訓練

2010-04-12 15:57:48

無線網(wǎng)絡協(xié)議標準

2025-10-15 08:59:23

2013-11-19 11:55:14

2011-06-08 10:29:37

開源閉源蘋果

2014-08-22 11:15:52

點贊
收藏

51CTO技術(shù)棧公眾號