偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

今天起,漢字也能AI視頻生成了!《滕王閣序》直接拿捏到位了

人工智能 新聞
據(jù)了解,新版通義萬相已經(jīng)以84.70%的成績登上權(quán)威評測集VBench榜首的位置,一路超越Gen3、Pika、CausVid等國內(nèi)外視頻生成模型。

“漢字”這個(gè)難關(guān),今天終于被AI視頻生成給拿下了!

話不多說,我們直接先來看效果:

這個(gè)“福”字,就這樣被AI水靈靈地一筆一劃滴了出來。

再如下面這個(gè)例子,我們的Prompt是:

有漢字“量子位”,古風(fēng)。

但這樣還是略顯單調(diào),我們上一下難度:

賽博朋克風(fēng)格城市夜景,鏡頭視角是車輛在馬路上行駛,對面大樓樓體有巨大的LED廣告牌,上面寫著“量子位”三個(gè)字。

好的,我們也算是打了一波賽博廣告了。

那么讓字?jǐn)?shù)再多一點(diǎn),AI是否能hold住呢?

我們直接來挑戰(zhàn)一下:

水彩透疊插畫風(fēng)格,三只不同顏色的可愛小貓咪手舉著一條超大的魚,從右邊走到左邊。它們分別穿著粉色、藍(lán)色和黃色的小背心,眼睛圓圓的,表情呆萌。充滿童趣,筆觸淡雅溫馨,簡筆畫風(fēng)格。純白背景上逐漸顯示出來幾個(gè)字體,寫著:“摸魚一天 快樂無邊”。

可以看到,這段視頻中雖然有一個(gè)小瑕疵(“摸”字多了一筆),但整體是把Prompt中的內(nèi)容給還原了出來。

當(dāng)然,復(fù)雜的漢字都能搞定,這個(gè)AI自然也可以生成英文單詞,并且還是帶“花活兒”的那種(下面還有中文版)

那么,這到底是何許AI是也?

不賣關(guān)子,它就是阿里通義萬相剛剛升級的2個(gè)新版本視頻生成模型:

  • 通義萬相2.1極速版:能夠讓AI高效、快速地生成視頻;
  • 通義萬相2.1專業(yè)版:更注重AI視頻生成的質(zhì)量。

在整體體驗(yàn)過后,我們能夠明顯感受到模型整體性能有了大幅的提升。

尤其是在處理復(fù)雜運(yùn)動(dòng)、還原真實(shí)物理規(guī)律、提升影視質(zhì)感以及優(yōu)化指令遵循方面。

據(jù)了解,新版通義萬相已經(jīng)以84.70%的成績登上權(quán)威評測集VBench榜首的位置,一路超越Gen3、Pika、CausVid等國內(nèi)外視頻生成模型。

圖片

不過有一說一,能生成漢字,也還只是通義萬相能力升級的一隅。

接下來,我們就繼續(xù)來看下它在視頻生成中的更多能力。

《滕王閣序》都能理解

值得一提的是,這個(gè)新升級的模型并不是PPT哦,是已經(jīng)上線了的那種~

現(xiàn)在人人都可以在線免費(fèi)體驗(yàn)了,入口和模型選擇如下圖所示:

圖片

如果你是開發(fā)者或者企業(yè),還可以在阿里云百煉上調(diào)用API,打造自己的專屬應(yīng)用。

鑒于此前大部分AI視頻生成,在處理復(fù)雜人物動(dòng)作時(shí),往往會(huì)出現(xiàn)轉(zhuǎn)個(gè)身就鬼畜的現(xiàn)象。

我們就直接來上個(gè)難度,超復(fù)雜動(dòng)作——Breaking。

請聽Prompt:

在室內(nèi),鏡頭平拍一個(gè)外國男子跳霹靂舞的全景,男子身穿灰色的上衣和綠色的褲子,鏡頭隨著男子的動(dòng)作而移動(dòng),男子在舞臺上進(jìn)行一系列的翻滾和旋轉(zhuǎn)動(dòng)作,背景中可以看到觀眾席上的觀眾和一些模糊的舞臺燈光,但焦點(diǎn)始終保持在舞者的動(dòng)作上。

可以看到,這段AI視頻生成一改以往的鬼畜,在如此多且復(fù)雜的動(dòng)作情況下,人物效果依舊是穩(wěn)穩(wěn)的。

再來看下跳水運(yùn)動(dòng):

圖片圖片

細(xì)節(jié)如腳背,也是拿捏的很到位了。

除了在連續(xù)復(fù)雜動(dòng)作發(fā)揮穩(wěn)定效果之外,還原真實(shí)物理規(guī)律,也是評判AI視頻生成效果的關(guān)鍵指標(biāo)之一。

我們不妨讓《滕王閣序》來考驗(yàn)一番:

落霞與孤鶩齊飛,秋水共長天一色。

圖片圖片

不難看出,通義萬相新版本是非常好地理解了這句詩的意境。

而在面對像切肉這樣的動(dòng)作時(shí),還原物理規(guī)律的體現(xiàn)會(huì)更加明顯:

圖片圖片

切肉時(shí)肉塊的自然分離、刀面上的鏡像、肉底部的油……細(xì)節(jié)如斯,細(xì)節(jié)如斯。

在真實(shí)性的基礎(chǔ)之上,若想用AI來打造質(zhì)量更高的視頻效果,那么運(yùn)鏡就是不可或缺的技巧之一。

這一點(diǎn),通義萬相也是可以完全hold住。

例如狐大仙蹦迪,我們可以來個(gè)給氛圍狠狠加分的運(yùn)鏡:

圖片圖片

像電影場景里跑車在山谷里疾馳的畫面,跟著汽車的軌跡加復(fù)雜運(yùn)鏡也是可以有的:

圖片圖片

除此之外,通義萬相還有個(gè)特點(diǎn)就是可以拿捏各種風(fēng)格的類型,頗有種影視級的感覺。

例如中世紀(jì)真人寫實(shí)風(fēng)

圖片圖片

再如卡通動(dòng)畫

圖片圖片

而且生成的視頻尺寸也是選擇的哦:

圖片

那么接下來的一個(gè)問題就是:

怎么做到的?

整體來看,這次通義萬相在技術(shù)方面采取了三步走的創(chuàng)新路線。

首先,是VAE與DiT架構(gòu)協(xié)同發(fā)力。

視頻VAE可以看做一位“壓縮大師”,擅長將視頻中的海量信息進(jìn)行高效壓縮,提取出最為關(guān)鍵的特征。

它通過將視頻拆分為若干塊(Chunk),并緩存中間特征,取代了傳統(tǒng)長視頻的端到端編解碼方式。

這一設(shè)計(jì)的關(guān)鍵在于,使顯存的使用僅與Chunk大小相關(guān),而與原始視頻長度無關(guān),從而實(shí)現(xiàn)了對無限長1080P視頻的高效編解碼。

這種機(jī)制為任意時(shí)長視頻的訓(xùn)練提供了可行性。實(shí)驗(yàn)表明,在較小模型參數(shù)下,通義萬相VAE實(shí)現(xiàn)了業(yè)內(nèi)領(lǐng)先的視頻壓縮與重構(gòu)質(zhì)量。

而DiT則像是一位“時(shí)空捕手”,能夠敏銳地捕捉視頻中的時(shí)空動(dòng)態(tài),精準(zhǔn)地建模視頻中不同元素在時(shí)間和空間上的變化關(guān)系。

通義萬相團(tuán)隊(duì)采取了以下優(yōu)化措施:

  • 時(shí)空全注意力機(jī)制:增強(qiáng)模型對復(fù)雜動(dòng)態(tài)場景的建模能力。
  • 參數(shù)共享機(jī)制:提升模型性能的同時(shí),降低訓(xùn)練成本。
  • 文本嵌入優(yōu)化:提升文本控制能力,并顯著降低計(jì)算需求。
圖片
△通義萬相2.1視頻生成架構(gòu)圖

其次,是超長序列訓(xùn)練上的突破。

在面對超長序列訓(xùn)練這一極具挑戰(zhàn)性的任務(wù)時(shí),通義萬相團(tuán)隊(duì)巧妙地運(yùn)用了4D并行策略,猶如為模型訓(xùn)練打造了一臺超強(qiáng)動(dòng)力的“引擎”。

這一策略將DP(數(shù)據(jù)并行)、FSDP( Fully Sharded Data Parallel,全量分片數(shù)據(jù)并行)、RingAttention(環(huán)形注意力機(jī)制)、Ulysses(一種優(yōu)化技術(shù))等多種先進(jìn)技術(shù)有機(jī)融合。

例如在顯存優(yōu)化方面,團(tuán)隊(duì)根據(jù)序列長度帶來的計(jì)算和通信需求,采用分層顯存優(yōu)化策略,解決顯存碎片問題,同時(shí)使用FlashAttention3提升時(shí)空注意力的計(jì)算效率。

此外,通過去冗余計(jì)算和高效Kernel實(shí)現(xiàn),進(jìn)一步降低訪存開銷。

文件系統(tǒng)優(yōu)化方面,針對阿里云高性能文件系統(tǒng)的特性,團(tuán)隊(duì)采用分片Save/Load方式優(yōu)化數(shù)據(jù)讀寫性能,并通過錯(cuò)峰內(nèi)存使用方案,解決Dataloader Prefetch、CPU Offloading與Checkpoint存儲(chǔ)引起的內(nèi)存OOM問題。

穩(wěn)定性提升方面,依托阿里云的智能調(diào)度、慢機(jī)檢測與自愈能力,模型訓(xùn)練能夠?qū)崿F(xiàn)自動(dòng)故障檢測與任務(wù)重啟,大幅提升訓(xùn)練過程的穩(wěn)定性。

圖片

△通義萬相4D并行分布式訓(xùn)練策略

最后,是數(shù)據(jù)與評估雙輪驅(qū)動(dòng)。

通義萬相團(tuán)隊(duì)打造了一套自動(dòng)化數(shù)據(jù)構(gòu)建管線,通過優(yōu)化視覺質(zhì)量和運(yùn)動(dòng)質(zhì)量,篩選整合與人類偏好分布高度一致的數(shù)據(jù)集。這些數(shù)據(jù)具有多樣性高、分布均衡等特點(diǎn),極大提升了訓(xùn)練效率。

團(tuán)隊(duì)還為此設(shè)計(jì)了一套覆蓋美學(xué)評分、運(yùn)動(dòng)分析、指令遵循等多個(gè)維度的評估體系,并訓(xùn)練了專業(yè)的打分器。通過這些自動(dòng)化指標(biāo)的反饋,顯著加速了模型的迭代與優(yōu)化。

以上便是煉成新版通義萬相的核心技術(shù)要義了。

至此,不僅是從技術(shù)創(chuàng)新方面,更是從真真切切的體驗(yàn)角度來看,國產(chǎn)Sora再次走到了AI視頻領(lǐng)域的前沿。

單就能夠生成漢字這一點(diǎn),便是全球獨(dú)一份的那種。

而從視頻生成范圍之廣,也是應(yīng)了“通義萬相”的名字——AI已經(jīng)到了可以生成“萬相”的時(shí)刻。

那么你是否也有腦洞大開的想法,并想讓它們以視頻的形式呈現(xiàn)出來呢?

快來體驗(yàn)一下最新、最Fashion的模型吧~

直接體驗(yàn)入口:https://tongyi.aliyun.com/wanxiang/videoCreation

API調(diào)用:https://bailian.console.aliyun.com/?spm=5176.29619931.J__Z58Z6CX7MY__Ll8p1ZOR.1.74cd59fckLhf3c#/model-market

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2020-03-31 17:02:06

微信QQ轉(zhuǎn)賬

2025-02-11 09:00:00

2024-10-28 07:30:00

2022-12-18 22:11:46

2024-09-23 15:40:00

2024-11-08 17:34:38

2025-02-10 13:15:00

2024-12-23 00:30:12

2023-06-27 09:53:11

論文AI

2024-12-12 08:35:58

2025-03-27 09:24:16

2024-07-05 14:29:49

2025-07-02 08:30:00

視頻生成AI模型

2024-03-11 07:15:00

機(jī)器學(xué)習(xí)人工智能

2024-11-18 10:50:39

2025-05-15 08:21:16

EasyDubSpringAI

2023-04-03 10:04:44

開源模型

2025-01-15 09:21:57

2024-07-01 13:02:53

2024-10-18 16:45:45

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號