偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

開源!上海AI Lab視頻生成大模型書生·筑夢(mèng) 2.0來了

人工智能 新聞
上海人工智能實(shí)驗(yàn)室的書生·筑夢(mèng)團(tuán)隊(duì)由來自上海人工智能實(shí)驗(yàn)室和新加坡南洋理工大學(xué)S-Lab的成員組成,專注于視頻生成技術(shù)的前沿研究與應(yīng)用開發(fā)。

近日,上海人工智能實(shí)驗(yàn)室推出新一代視頻生成大模型 “書生?筑夢(mèng) 2.0”(Vchitect 2.0)。根據(jù)官方介紹,書生?筑夢(mèng) 2.0 是集文生視頻、圖生視頻、插幀超分、訓(xùn)練系統(tǒng)一體化的視頻生成大模型。

圖片


  • 主頁:https://vchitect.intern-ai.org.cn/
  • Github: https://github.com/Vchitect/Vchitect-2.0

本文將詳細(xì)介紹筑夢(mèng) 2.0 背后的核心亮點(diǎn)與技術(shù)細(xì)節(jié)。

核心亮點(diǎn)

1、 支持更長(zhǎng)的視頻生成:

目前來看,筑夢(mèng) 2.0 支持 5s-20s 長(zhǎng)視頻生成,超過其他開源模型的生成時(shí)長(zhǎng)。

同時(shí)支持高達(dá) 720x480 分辨率的生成。該模型還能夠處理多種視頻格式,包括橫屏、豎屏、4:3、9:16 和 16:9 等比例,極大地?cái)U(kuò)展了其應(yīng)用場(chǎng)景。

2. 新一代視頻增強(qiáng)算法 VEnhancer

與其他開源模型不同,筑夢(mèng) 2.0 同步開源了用于視頻增強(qiáng)的生成式模型 ——VEnhancer,集成了插幀、超分辨率和修復(fù)功能。該增強(qiáng)算法可在 2K 分辨率、24fps 的情況下生成更加清晰、流暢的視頻,解決了視頻抖動(dòng)等常見問題,顯著提升了視頻的穩(wěn)定性。

此外,該算法還可用于增強(qiáng)其他生成模型的視頻表現(xiàn),GitHub 中展示了它對(duì)快手可靈生成視頻的顯著改進(jìn),對(duì)于追求高質(zhì)量?jī)?nèi)容輸出的創(chuàng)作者來說,VEnhancer 無疑是一個(gè)重要的工具。

3. 全球首個(gè)支持長(zhǎng)視頻生成評(píng)測(cè)的框架

該在原有的 VBench 評(píng)測(cè)框架基礎(chǔ)上,優(yōu)化并升級(jí)了對(duì)長(zhǎng)視頻生成的評(píng)測(cè)能力,目前已包含 Gen-3、可靈、OpenSora 等主流模型。這使開發(fā)者和用戶能夠更系統(tǒng)地評(píng)估模型性能,尤其是在長(zhǎng)視頻生成方面。書生?筑夢(mèng) 2.0 在開源 2B 模型中表現(xiàn)卓越,性能甚至可以媲美開源最優(yōu)的 5B 模型。

筑夢(mèng) 2.0 技術(shù)解析

1、模型架構(gòu)

根據(jù)開源代碼分析,書生?筑夢(mèng) 2.0 采用了時(shí)下熱門的擴(kuò)散式 Transformer(Diffusion Transformer)網(wǎng)絡(luò)模型。不同于 CogVideoX 的全注意力機(jī)制,筑夢(mèng) 2.0 通過并行結(jié)構(gòu)的 Transformer 模塊處理視頻的空間和時(shí)間信息,包括自注意力(self-attention)、交叉注意力(cross-attention)和時(shí)間注意力(temporal-attention)。 

圖片

具體來說,自注意力模塊負(fù)責(zé)每一幀之間的 token 交互,交叉注意力則使用所有幀的 token 作為查詢,文本 token 作為鍵和值,而時(shí)間注意力則在不同幀的相同位置之間執(zhí)行 token 的注意力操作。最終,模型通過線性層融合自注意力和交叉注意力的輸出,再與時(shí)間注意力的結(jié)果相加,從而實(shí)現(xiàn)高效的視頻生成任務(wù)處理。

2、訓(xùn)練框架

此外,書生?筑夢(mèng) 2.0 同時(shí)開源了他們的訓(xùn)練和推理框架 LiteGen。從改框架的優(yōu)化介紹上看,該框架針對(duì)性地提供了 diffusion 任務(wù)所需的各項(xiàng)優(yōu)化。

圖片

對(duì)于如何進(jìn)一步優(yōu)化顯存以支持更大序列長(zhǎng)度的訓(xùn)練這一方面,他們的開源代碼采用了 Activation Offload 與 Sequence Parallel 技術(shù)進(jìn)行優(yōu)化。在實(shí)現(xiàn)上,他們的 Activation Offload 在計(jì)算時(shí)將暫未使用的中間激活 offload 到 CPU 內(nèi)存上,需要時(shí)再拷貝到顯存中,這樣可以讓 GPU 顯存中盡量只留有當(dāng)前計(jì)算所必須的激活,減少了顯存峰值使用量。從開源代碼的分析開看,他們采用了通信計(jì)算重疊的方式實(shí)現(xiàn) Activation Offload,這將有助于降低設(shè)備間拷貝通信對(duì)整體性能的影響。

據(jù)其開源代碼的說明描述,在 A100 GPU 上,采用 Activation Offload 讓筑夢(mèng) 2.0 的 2B 模型單卡序列長(zhǎng)度提升了 42%;進(jìn)一步應(yīng)用 Sequence Parallel 拓展至 8 卡,最大序列長(zhǎng)度提升 8.6 倍,可以滿足分鐘級(jí)視頻生成訓(xùn)練的計(jì)算需求。 

圖片

從其代碼實(shí)現(xiàn)上來看,他們的框架設(shè)計(jì)得較為輕量,使用接口簡(jiǎn)潔,可以在改動(dòng)比較小的情況下集成框架內(nèi)的各項(xiàng)優(yōu)化,在易用性上具有不錯(cuò)的優(yōu)勢(shì)。

圖片

團(tuán)隊(duì)介紹

上海人工智能實(shí)驗(yàn)室的書生·筑夢(mèng)團(tuán)隊(duì)由來自上海人工智能實(shí)驗(yàn)室和新加坡南洋理工大學(xué)S-Lab的成員組成,專注于視頻生成技術(shù)的前沿研究與應(yīng)用開發(fā)。他們致力于通過創(chuàng)新的算法和架構(gòu)優(yōu)化,提升視頻生成模型的質(zhì)量和效率。近期,他們的工作包括VBench、VideoBooth 、FreeU、FreeInit、Latte 、VEnhancer等,這些項(xiàng)目在視頻生成、插幀、超分辨率處理以及生成質(zhì)量評(píng)估等多個(gè)關(guān)鍵領(lǐng)域都取得了顯著進(jìn)展。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-04-15 09:08:51

系統(tǒng)數(shù)據(jù)模型

2024-11-18 10:50:39

2024-12-12 08:35:58

2024-11-08 17:34:38

2025-03-13 10:26:45

2025-04-22 15:34:08

視頻生成AI

2024-11-05 14:20:00

AI模型

2024-09-24 15:51:02

2024-12-26 07:20:00

2023-04-03 10:04:44

開源模型

2025-02-26 09:44:14

2023-11-22 11:22:57

AI模型

2024-03-25 00:30:00

AI框架

2024-10-25 14:30:00

模型AI

2024-11-04 14:40:00

AI視頻生成

2024-07-01 13:02:53

2024-10-28 07:30:00

2024-12-04 11:07:09

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)