阿里開源電影級AI視頻模型!MoE架構(gòu),5B版本消費級顯卡可跑
電影級視頻生成模型來了。
來自阿里,來自通義——通義萬相Wan2.2。并且率先將MoE架構(gòu)實現(xiàn)到了視頻生成擴散模型中,能夠?qū)崿F(xiàn)電影級效果。
嗯,依然發(fā)布即開源。
就在剛剛,阿里開源了新一代視頻生成模型王者通義萬相Wan2.2,包括文生視頻、圖生視頻和混合視頻生成。

其中Wan2.2-T2V-A14B和Wan2.2-I2V-A14B是業(yè)界首個使用MoE架構(gòu)的視頻生成模型,可一鍵生成電影級質(zhì)感視頻;5B版本則同時支持文生視頻和圖生視頻,可在消費級顯卡部署,也是目前最快的24fps、720P的基礎(chǔ)模型。
無論是對比自家上一代模型Wan2.1,還是視頻生成模型標桿Sora,Wan2.2都明顯有更強勁的表現(xiàn)。

那么話不多說,先看幾個官方demo嘗嘗鮮。
Wan2.2首先致敬了多部經(jīng)典電影,從科幻片到愛情片,Wan2.2都能1:1還原。

當然也可以創(chuàng)作自己的原創(chuàng)電影,想象自己是帥氣的西部牛仔、沙漠中嗜血的孤狼。

仔細看,人物坐下時還能有極為真實的沙發(fā)回彈。

幻想題材也不在話下:

另外官方還做了部概念電影,點擊下方立馬大飽眼?!?/span>

難怪網(wǎng)友都直呼難以置信:

這么強還開源,一定需要用戶很強的電影技術(shù)功底吧?
No No No!Wan2.2只需要用戶自由選擇美學(xué)關(guān)鍵詞,就能輕松拍出王家衛(wèi)、諾蘭等名導(dǎo)的相同質(zhì)感畫面。
更流暢的復(fù)雜運動過程、更強的物理世界還原,電影工業(yè)要被重塑了…
操作簡單但效果不簡單
現(xiàn)在,用戶可直接通過通義萬相平臺(官網(wǎng)和APP),就能立即上手體驗,也可在GitHub、HuggingFace以及魔搭社區(qū)下載模型和代碼,具體鏈接指路本文末,都為大家準備好了。

具體上手體驗下來,就是操作簡單,但效果非常不簡單。
在Prompt前加入自己的喜歡的美學(xué)關(guān)鍵詞,就可以非常輕松地還原真實世界,多人互動也不會出現(xiàn)明顯的動作扭曲,鏡頭變化也相當流暢。

從現(xiàn)實到虛擬的過渡也很自然,不會出現(xiàn)明顯的突兀感。

在視頻內(nèi)還可以編輯文字,提升畫面層次。

尤其是Wan2.2在光影上下足了功夫,影子的變換都足夠平滑。

另外,Wan2.2本次還支持ComfyUI,借助其自動卸載功能,50億參數(shù)版本的顯存要求直接降低至8GB。

那么,具體是如何實現(xiàn)的呢?
首個MoE架構(gòu)的視頻生成模型
本次Wan2.2在模型架構(gòu)上,首次創(chuàng)新地將MoE架構(gòu)引入視頻生成。
要知道視頻生成模型目前面臨的最大瓶頸,就是在擴展參數(shù)規(guī)模時,所涉及的token長度遠超文本和圖像。
而MoE架構(gòu)通過將復(fù)雜輸入拆分給多個專家模型分別處理,可實現(xiàn)在模型參數(shù)擴充的前提下,不額外增加多余的計算負載。

傳統(tǒng)語言模型中MoE架構(gòu)是在Transformer的FFN層進行多專家的切分,Wan2.2則根據(jù)擴散模型的階段性降噪過程,利用信噪比將其分為高噪聲階段和低噪聲階段。
然后通過選擇900的去噪時間步,將模型分為高噪模型和低噪模型,輸入首先交由高噪專家模型負責前期去噪并構(gòu)建主體結(jié)構(gòu),再經(jīng)過低噪專家模型進行后期去噪生成細節(jié)。
引入MoE架構(gòu)后,Wan2.2擁有了最低的驗證損失(Validation loss),即生成視頻與真實視頻之間的差異最小,質(zhì)量也最高。

相比于Wan2.1,本次模型在訓(xùn)練數(shù)據(jù)上也實現(xiàn)了顯著提升,其中圖像數(shù)據(jù)增加了65.6%,視頻數(shù)據(jù)增加83.2%。
其中更多的是集中在后期的美學(xué)數(shù)據(jù)上,引入專門的美學(xué)精調(diào)階段,通過顆粒度訓(xùn)練,讓模型能夠生成與用戶給定Prompt相對應(yīng)的美學(xué)屬性。
另外,模型在訓(xùn)練過程中還融合了電影工業(yè)標準的光影塑造、鏡頭構(gòu)圖法則和色彩心理學(xué)體系,將專業(yè)導(dǎo)演的美學(xué)屬性進行分類并整理成美學(xué)提示詞。
因此用戶可自由選擇合適的提示詞組合,生成目標視頻。
在訓(xùn)練后期,模型還通過RL微調(diào),進一步對齊人類審美偏好。
為了更方便地在消費級顯卡上部署模型,5B版本采用自研的高壓縮比3D VAE結(jié)構(gòu),在視頻生成隱空間中,分別在高度(H)、寬度(W)和時間(T)三個維度上進行16x16x4的壓縮比,以減少顯存占用。
通過引入殘差采樣結(jié)構(gòu)和非對稱編解碼框架,可以在更高的信息壓縮率下依舊保持重建質(zhì)量領(lǐng)先。

電影級美學(xué)控制系統(tǒng)
Wan2.2還首次推出了電影級美學(xué)控制系統(tǒng),將光影、色彩、鏡頭語言三大電影美學(xué)元素全部打包裝進模型,用戶可直接通過選擇美學(xué)關(guān)鍵詞,就能獲取電影質(zhì)感的視頻畫面。
具體來說,首先是將復(fù)雜的電影攝影技術(shù)轉(zhuǎn)化為12個美學(xué)維度,共計60多個專業(yè)級參數(shù),包括:
- 光影氛圍塑造
可自由選擇不同時段的光線(如黃昏、黎明、夜晚),或者特定光源(如日光、人造光),也可以精準控制光線的強度(柔光或硬光)和光線方向(頂光、側(cè)光等)。

也可以修改環(huán)境對比度高低,營造出明暗對比氛圍。
- 鏡頭語言表達
可以調(diào)用多種構(gòu)圖法(如中心構(gòu)圖、對稱構(gòu)圖等),靈活選擇近遠景或不同拍攝角度,精準控制畫面焦點。

- 色彩情緒渲染
輕松切換色調(diào)溫度(暖色調(diào)或冷色調(diào)),傳遞不同情緒范圍,或者選擇不同程度的飽和度。

另外,模型還提供不同的鏡頭焦距(如廣角或長焦等),以及不同類型的鏡頭(如單人鏡頭、雙人鏡頭等)。

因此用戶只需要在指令前添加以上美學(xué)關(guān)鍵詞前綴,模型就會自動理解不同美學(xué)元素間的內(nèi)在聯(lián)系,并精確響應(yīng)用戶需求。
除美學(xué)控制外,本次Wan2.2也在復(fù)雜運動能力上有了大幅度提升,重點針對四類動態(tài)表現(xiàn)能力進行了優(yōu)化:
- 面部表情的細膩表達
Wan2.2構(gòu)建了人類面部原子動作和情緒表情系統(tǒng),不僅能生成常見的喜怒哀樂,還可以還原復(fù)雜微表情,如“強忍淚水時的嘴唇顫抖”、“羞澀微笑中的臉頰微紅”等。
- 提升手部運動的靈巧性
構(gòu)建了豐富的手部動作系統(tǒng),從基礎(chǔ)物理操作到專業(yè)領(lǐng)域的精密動作范式都能夠輕松生成。
- 增加單人與多人交互
無論是單人表演還是多人復(fù)雜互動,模型可理解角色間的位置關(guān)系、力量傳遞等,生成符合物理規(guī)律的動作序列,避免人物穿模。
- 提升高強度復(fù)雜體育運動的穩(wěn)定性
對高速運動(如體操、競技滑雪、花樣游泳等)中存在失真的情況,Wan2.2可以減少動作扭曲,讓畫面保持動感的同時兼具美感。
Wan2.2還擁有更為強大的復(fù)雜指令遵循能力,可以生成物理規(guī)律嚴謹且細節(jié)豐富的現(xiàn)實世界動態(tài)表現(xiàn),顯著提升視頻的真實感和可控性。
OMT
加上Wan2.2,本周阿里通義實驗室已經(jīng)連續(xù)發(fā)布四項開源模型,包括之前的Qwen3-Coder、Qwen3-235B-A22B-Instruct-2507(非思考版)模型、Qwen3-235B-A22B-Thinking-2507推理模型。

截止到目前,Qwen系列模型的累計下載量已超4億次,衍生模型超14萬,位居全球排名第一,構(gòu)建了強大的模型生態(tài)。
其中通義萬相作為通義大模型旗下的AI繪畫創(chuàng)作模型,目前開源產(chǎn)品主要涵蓋生圖和生視頻兩大類,生視頻又可細分為文生視頻和圖生視頻,以及混合視頻生成。
從2月底發(fā)布的Wan2.1開始,通義萬相陸續(xù)開源多款模型,例如首尾幀生視頻、Wan2.1-VACE,而Wan2.2則主要是在Wan2.1的技術(shù)模型上進行迭代升級,預(yù)計后續(xù)通義萬相還將繼續(xù)沖擊國產(chǎn)開源視頻生成寶座。

本次除了正式宣布Wan2.2的開源,官方還公布了萬相妙思+的全球創(chuàng)作活動,鼓勵創(chuàng)作者積極探索Wan2.2的生動表現(xiàn)力,包括電影級鏡頭語言和極致運動表現(xiàn)等。
比賽要求使用通義萬相作為主要創(chuàng)作工具,視頻時長分興趣組和專業(yè)組,興趣組要求5-15秒,專業(yè)組要求30秒以上,視頻大小不超過500MB,格式為MOV或MP4。
怎么說呢,中國的AI電影時代,可能要從杭州開始了。
現(xiàn)在距離你的電影大作,不需要導(dǎo)演、不需要剪輯、不需要攝影……只需要一個會提示詞的編劇。
官網(wǎng)指路:https://wan.video/welcome
GitHub:https://github.com/Wan-Video/Wan2.2
Hugging Face:https://huggingface.co/Wan-AI
ModelScope:https://modelscope.cn/organization/Wan-AI




































