偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

阿里開源電影級AI視頻模型!MoE架構(gòu),5B版本消費級顯卡可跑

人工智能 新聞
來自阿里,來自通義——通義萬相Wan2.2。并且率先將MoE架構(gòu)實現(xiàn)到了視頻生成擴散模型中,能夠?qū)崿F(xiàn)電影級效果。

電影級視頻生成模型來了。

來自阿里,來自通義——通義萬相Wan2.2。并且率先將MoE架構(gòu)實現(xiàn)到了視頻生成擴散模型中,能夠?qū)崿F(xiàn)電影級效果。

嗯,依然發(fā)布即開源。

就在剛剛,阿里開源了新一代視頻生成模型王者通義萬相Wan2.2,包括文生視頻、圖生視頻和混合視頻生成。

圖片

其中Wan2.2-T2V-A14BWan2.2-I2V-A14B是業(yè)界首個使用MoE架構(gòu)的視頻生成模型,可一鍵生成電影級質(zhì)感視頻;5B版本則同時支持文生視頻和圖生視頻,可在消費級顯卡部署,也是目前最快的24fps、720P的基礎(chǔ)模型。

無論是對比自家上一代模型Wan2.1,還是視頻生成模型標桿Sora,Wan2.2都明顯有更強勁的表現(xiàn)。

圖片

那么話不多說,先看幾個官方demo嘗嘗鮮。

Wan2.2首先致敬了多部經(jīng)典電影,從科幻片到愛情片,Wan2.2都能1:1還原。

圖片

當然也可以創(chuàng)作自己的原創(chuàng)電影,想象自己是帥氣的西部牛仔、沙漠中嗜血的孤狼。

圖片

仔細看,人物坐下時還能有極為真實的沙發(fā)回彈。

圖片

幻想題材也不在話下:

圖片

另外官方還做了部概念電影,點擊下方立馬大飽眼?!?/span>

難怪網(wǎng)友都直呼難以置信:

圖片

這么強還開源,一定需要用戶很強的電影技術(shù)功底吧?

No No No!Wan2.2只需要用戶自由選擇美學(xué)關(guān)鍵詞,就能輕松拍出王家衛(wèi)、諾蘭等名導(dǎo)的相同質(zhì)感畫面。

更流暢的復(fù)雜運動過程、更強的物理世界還原,電影工業(yè)要被重塑了…

操作簡單但效果不簡單

現(xiàn)在,用戶可直接通過通義萬相平臺(官網(wǎng)和APP),就能立即上手體驗,也可在GitHub、HuggingFace以及魔搭社區(qū)下載模型和代碼,具體鏈接指路本文末,都為大家準備好了。

圖片

具體上手體驗下來,就是操作簡單,但效果非常不簡單。

在Prompt前加入自己的喜歡的美學(xué)關(guān)鍵詞,就可以非常輕松地還原真實世界,多人互動也不會出現(xiàn)明顯的動作扭曲,鏡頭變化也相當流暢。

從現(xiàn)實到虛擬的過渡也很自然,不會出現(xiàn)明顯的突兀感。

在視頻內(nèi)還可以編輯文字,提升畫面層次。

尤其是Wan2.2在光影上下足了功夫,影子的變換都足夠平滑。

另外,Wan2.2本次還支持ComfyUI,借助其自動卸載功能,50億參數(shù)版本的顯存要求直接降低至8GB。

那么,具體是如何實現(xiàn)的呢?

首個MoE架構(gòu)的視頻生成模型

本次Wan2.2在模型架構(gòu)上,首次創(chuàng)新地將MoE架構(gòu)引入視頻生成。

要知道視頻生成模型目前面臨的最大瓶頸,就是在擴展參數(shù)規(guī)模時,所涉及的token長度遠超文本和圖像。

而MoE架構(gòu)通過將復(fù)雜輸入拆分給多個專家模型分別處理,可實現(xiàn)在模型參數(shù)擴充的前提下,不額外增加多余的計算負載。

圖片

傳統(tǒng)語言模型中MoE架構(gòu)是在Transformer的FFN層進行多專家的切分,Wan2.2則根據(jù)擴散模型的階段性降噪過程,利用信噪比將其分為高噪聲階段和低噪聲階段。

然后通過選擇900的去噪時間步,將模型分為高噪模型低噪模型,輸入首先交由高噪專家模型負責前期去噪并構(gòu)建主體結(jié)構(gòu),再經(jīng)過低噪專家模型進行后期去噪生成細節(jié)。

引入MoE架構(gòu)后,Wan2.2擁有了最低的驗證損失(Validation loss),即生成視頻與真實視頻之間的差異最小,質(zhì)量也最高。

圖片

相比于Wan2.1,本次模型在訓(xùn)練數(shù)據(jù)上也實現(xiàn)了顯著提升,其中圖像數(shù)據(jù)增加了65.6%,視頻數(shù)據(jù)增加83.2%

其中更多的是集中在后期的美學(xué)數(shù)據(jù)上,引入專門的美學(xué)精調(diào)階段,通過顆粒度訓(xùn)練,讓模型能夠生成與用戶給定Prompt相對應(yīng)的美學(xué)屬性。

另外,模型在訓(xùn)練過程中還融合了電影工業(yè)標準的光影塑造、鏡頭構(gòu)圖法則和色彩心理學(xué)體系,將專業(yè)導(dǎo)演的美學(xué)屬性進行分類并整理成美學(xué)提示詞。

因此用戶可自由選擇合適的提示詞組合,生成目標視頻。

在訓(xùn)練后期,模型還通過RL微調(diào),進一步對齊人類審美偏好。

為了更方便地在消費級顯卡上部署模型,5B版本采用自研的高壓縮比3D VAE結(jié)構(gòu),在視頻生成隱空間中,分別在高度(H)、寬度(W)和時間(T)三個維度上進行16x16x4的壓縮比,以減少顯存占用。

通過引入殘差采樣結(jié)構(gòu)非對稱編解碼框架,可以在更高的信息壓縮率下依舊保持重建質(zhì)量領(lǐng)先。

圖片

電影級美學(xué)控制系統(tǒng)

Wan2.2還首次推出了電影級美學(xué)控制系統(tǒng),將光影、色彩、鏡頭語言三大電影美學(xué)元素全部打包裝進模型,用戶可直接通過選擇美學(xué)關(guān)鍵詞,就能獲取電影質(zhì)感的視頻畫面。

具體來說,首先是將復(fù)雜的電影攝影技術(shù)轉(zhuǎn)化為12個美學(xué)維度,共計60多個專業(yè)級參數(shù),包括:

  • 光影氛圍塑造

可自由選擇不同時段的光線(如黃昏、黎明、夜晚),或者特定光源(如日光、人造光),也可以精準控制光線的強度(柔光或硬光)和光線方向(頂光、側(cè)光等)。

圖片

也可以修改環(huán)境對比度高低,營造出明暗對比氛圍。

  • 鏡頭語言表達

可以調(diào)用多種構(gòu)圖法(如中心構(gòu)圖、對稱構(gòu)圖等),靈活選擇近遠景或不同拍攝角度,精準控制畫面焦點。

圖片

  • 色彩情緒渲染

輕松切換色調(diào)溫度(暖色調(diào)或冷色調(diào)),傳遞不同情緒范圍,或者選擇不同程度的飽和度。

圖片

另外,模型還提供不同的鏡頭焦距(如廣角或長焦等),以及不同類型的鏡頭(如單人鏡頭、雙人鏡頭等)。

圖片

因此用戶只需要在指令前添加以上美學(xué)關(guān)鍵詞前綴,模型就會自動理解不同美學(xué)元素間的內(nèi)在聯(lián)系,并精確響應(yīng)用戶需求。

除美學(xué)控制外,本次Wan2.2也在復(fù)雜運動能力上有了大幅度提升,重點針對四類動態(tài)表現(xiàn)能力進行了優(yōu)化:

  • 面部表情的細膩表達

Wan2.2構(gòu)建了人類面部原子動作和情緒表情系統(tǒng),不僅能生成常見的喜怒哀樂,還可以還原復(fù)雜微表情,如“強忍淚水時的嘴唇顫抖”、“羞澀微笑中的臉頰微紅”等。

  • 提升手部運動的靈巧性

構(gòu)建了豐富的手部動作系統(tǒng),從基礎(chǔ)物理操作到專業(yè)領(lǐng)域的精密動作范式都能夠輕松生成。

  • 增加單人與多人交互

無論是單人表演還是多人復(fù)雜互動,模型可理解角色間的位置關(guān)系、力量傳遞等,生成符合物理規(guī)律的動作序列,避免人物穿模。

  • 提升高強度復(fù)雜體育運動的穩(wěn)定性

對高速運動(如體操、競技滑雪、花樣游泳等)中存在失真的情況,Wan2.2可以減少動作扭曲,讓畫面保持動感的同時兼具美感。

Wan2.2還擁有更為強大的復(fù)雜指令遵循能力,可以生成物理規(guī)律嚴謹且細節(jié)豐富的現(xiàn)實世界動態(tài)表現(xiàn),顯著提升視頻的真實感和可控性。

OMT

加上Wan2.2,本周阿里通義實驗室已經(jīng)連續(xù)發(fā)布四項開源模型,包括之前的Qwen3-Coder、Qwen3-235B-A22B-Instruct-2507(非思考版)模型、Qwen3-235B-A22B-Thinking-2507推理模型。

圖片

截止到目前,Qwen系列模型的累計下載量已超4億次,衍生模型超14萬,位居全球排名第一,構(gòu)建了強大的模型生態(tài)。

其中通義萬相作為通義大模型旗下的AI繪畫創(chuàng)作模型,目前開源產(chǎn)品主要涵蓋生圖和生視頻兩大類,生視頻又可細分為文生視頻和圖生視頻,以及混合視頻生成。

從2月底發(fā)布的Wan2.1開始,通義萬相陸續(xù)開源多款模型,例如首尾幀生視頻Wan2.1-VACE,而Wan2.2則主要是在Wan2.1的技術(shù)模型上進行迭代升級,預(yù)計后續(xù)通義萬相還將繼續(xù)沖擊國產(chǎn)開源視頻生成寶座。

圖片

本次除了正式宣布Wan2.2的開源,官方還公布了萬相妙思+的全球創(chuàng)作活動,鼓勵創(chuàng)作者積極探索Wan2.2的生動表現(xiàn)力,包括電影級鏡頭語言和極致運動表現(xiàn)等。

比賽要求使用通義萬相作為主要創(chuàng)作工具,視頻時長分興趣組和專業(yè)組,興趣組要求5-15秒,專業(yè)組要求30秒以上,視頻大小不超過500MB,格式為MOV或MP4。

怎么說呢,中國的AI電影時代,可能要從杭州開始了。

現(xiàn)在距離你的電影大作,不需要導(dǎo)演、不需要剪輯、不需要攝影……只需要一個會提示詞的編劇。

官網(wǎng)指路:https://wan.video/welcome

GitHub:https://github.com/Wan-Video/Wan2.2

Hugging Face:https://huggingface.co/Wan-AI

ModelScope:https://modelscope.cn/organization/Wan-AI

責任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-05-16 09:08:00

2025-03-18 14:17:57

騰訊AI3D

2023-06-12 11:49:37

GPT-4 API論文

2024-01-29 13:56:55

AI數(shù)據(jù)

2024-08-26 15:58:35

2025-04-14 00:30:00

2025-04-22 09:17:00

模型生成開源

2024-03-11 00:50:00

AI框架數(shù)據(jù)

2022-04-06 10:35:22

開源項目阿里巴巴

2024-03-27 09:09:57

模型AI開源

2024-03-07 12:30:56

數(shù)據(jù)模型

2025-09-18 08:42:46

2023-07-05 15:26:30

2022-04-22 15:20:16

AI顯卡芯片

2023-03-27 08:22:48

ChatGPT語言模型

2023-06-02 15:47:49

2024-06-13 13:54:52

2022-08-20 07:52:56

語言模型參數(shù)PaLM

2023-10-17 12:52:00

模型訓(xùn)練
點贊
收藏

51CTO技術(shù)棧公眾號