偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<pre id="wj9qi"></pre>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

今天起，漢字也能AI視頻生成了！《滕王閣序》直接拿捏到位了

作者：量子位 2025-01-09 13:30:00

人工智能新聞

據(jù)了解，新版通義萬(wàn)相已經(jīng)以84.70%的成績(jī)登上權(quán)威評(píng)測(cè)集VBench榜首的位置，一路超越Gen3、Pika、CausVid等國(guó)內(nèi)外視頻生成模型。

“漢字”這個(gè)難關(guān)，今天終于被AI視頻生成給拿下了！

話不多說(shuō)，我們直接先來(lái)看效果：

這個(gè)“福”字，就這樣被AI水靈靈地一筆一劃滴了出來(lái)。

再如下面這個(gè)例子，我們的Prompt是：

有漢字“量子位”，古風(fēng)。

但這樣還是略顯單調(diào)，我們上一下難度：

賽博朋克風(fēng)格城市夜景，鏡頭視角是車輛在馬路上行駛，對(duì)面大樓樓體有巨大的LED廣告牌，上面寫著“量子位”三個(gè)字。

好的，我們也算是打了一波賽博廣告了。

那么讓字?jǐn)?shù)再多一點(diǎn)，AI是否能hold住呢？

我們直接來(lái)挑戰(zhàn)一下：

水彩透疊插畫風(fēng)格，三只不同顏色的可愛(ài)小貓咪手舉著一條超大的魚，從右邊走到左邊。它們分別穿著粉色、藍(lán)色和黃色的小背心，眼睛圓圓的，表情呆萌。充滿童趣，筆觸淡雅溫馨，簡(jiǎn)筆畫風(fēng)格。純白背景上逐漸顯示出來(lái)幾個(gè)字體，寫著：“摸魚一天快樂(lè)無(wú)邊”。

可以看到，這段視頻中雖然有一個(gè)小瑕疵（“摸”字多了一筆），但整體是把Prompt中的內(nèi)容給還原了出來(lái)。

當(dāng)然，復(fù)雜的漢字都能搞定，這個(gè)AI自然也可以生成英文單詞，并且還是帶“花活兒”的那種（下面還有中文版）：

那么，這到底是何許AI是也？

不賣關(guān)子，它就是阿里通義萬(wàn)相剛剛升級(jí)的2個(gè)新版本視頻生成模型：

通義萬(wàn)相2.1極速版：能夠讓AI高效、快速地生成視頻；
通義萬(wàn)相2.1專業(yè)版：更注重AI視頻生成的質(zhì)量。

在整體體驗(yàn)過(guò)后，我們能夠明顯感受到模型整體性能有了大幅的提升。

尤其是在處理復(fù)雜運(yùn)動(dòng)、還原真實(shí)物理規(guī)律、提升影視質(zhì)感以及優(yōu)化指令遵循方面。

據(jù)了解，新版通義萬(wàn)相已經(jīng)以84.70%的成績(jī)登上權(quán)威評(píng)測(cè)集VBench榜首的位置，一路超越Gen3、Pika、CausVid等國(guó)內(nèi)外視頻生成模型。

不過(guò)有一說(shuō)一，能生成漢字，也還只是通義萬(wàn)相能力升級(jí)的一隅。

接下來(lái)，我們就繼續(xù)來(lái)看下它在視頻生成中的更多能力。

《滕王閣序》都能理解

值得一提的是，這個(gè)新升級(jí)的模型并不是PPT哦，是已經(jīng)上線了的那種~

現(xiàn)在人人都可以在線免費(fèi)體驗(yàn)了，入口和模型選擇如下圖所示：

如果你是開發(fā)者或者企業(yè)，還可以在阿里云百煉上調(diào)用API，打造自己的專屬應(yīng)用。

鑒于此前大部分AI視頻生成，在處理復(fù)雜人物動(dòng)作時(shí)，往往會(huì)出現(xiàn)轉(zhuǎn)個(gè)身就鬼畜的現(xiàn)象。

我們就直接來(lái)上個(gè)難度，超復(fù)雜動(dòng)作——Breaking。

請(qǐng)聽Prompt：

在室內(nèi)，鏡頭平拍一個(gè)外國(guó)男子跳霹靂舞的全景，男子身穿灰色的上衣和綠色的褲子，鏡頭隨著男子的動(dòng)作而移動(dòng)，男子在舞臺(tái)上進(jìn)行一系列的翻滾和旋轉(zhuǎn)動(dòng)作，背景中可以看到觀眾席上的觀眾和一些模糊的舞臺(tái)燈光，但焦點(diǎn)始終保持在舞者的動(dòng)作上。

可以看到，這段AI視頻生成一改以往的鬼畜，在如此多且復(fù)雜的動(dòng)作情況下，人物效果依舊是穩(wěn)穩(wěn)的。

再來(lái)看下跳水運(yùn)動(dòng)：

圖片

細(xì)節(jié)如腳背，也是拿捏的很到位了。

除了在連續(xù)復(fù)雜動(dòng)作發(fā)揮穩(wěn)定效果之外，還原真實(shí)物理規(guī)律，也是評(píng)判AI視頻生成效果的關(guān)鍵指標(biāo)之一。

我們不妨讓《滕王閣序》來(lái)考驗(yàn)一番：

落霞與孤鶩齊飛，秋水共長(zhǎng)天一色。

圖片

不難看出，通義萬(wàn)相新版本是非常好地理解了這句詩(shī)的意境。

而在面對(duì)像切肉這樣的動(dòng)作時(shí)，還原物理規(guī)律的體現(xiàn)會(huì)更加明顯：

圖片

切肉時(shí)肉塊的自然分離、刀面上的鏡像、肉底部的油……細(xì)節(jié)如斯，細(xì)節(jié)如斯。

在真實(shí)性的基礎(chǔ)之上，若想用AI來(lái)打造質(zhì)量更高的視頻效果，那么運(yùn)鏡就是不可或缺的技巧之一。

這一點(diǎn)，通義萬(wàn)相也是可以完全hold住。

例如狐大仙蹦迪，我們可以來(lái)個(gè)給氛圍狠狠加分的運(yùn)鏡：

圖片

像電影場(chǎng)景里跑車在山谷里疾馳的畫面，跟著汽車的軌跡加復(fù)雜運(yùn)鏡也是可以有的：

圖片

除此之外，通義萬(wàn)相還有個(gè)特點(diǎn)就是可以拿捏各種風(fēng)格的類型，頗有種影視級(jí)的感覺(jué)。

例如中世紀(jì)真人寫實(shí)風(fēng)：

圖片

再如卡通動(dòng)畫：

圖片

而且生成的視頻尺寸也是選擇的哦：

那么接下來(lái)的一個(gè)問(wèn)題就是：

怎么做到的？

整體來(lái)看，這次通義萬(wàn)相在技術(shù)方面采取了三步走的創(chuàng)新路線。

首先，是VAE與DiT架構(gòu)協(xié)同發(fā)力。

視頻VAE可以看做一位“壓縮大師”，擅長(zhǎng)將視頻中的海量信息進(jìn)行高效壓縮，提取出最為關(guān)鍵的特征。

它通過(guò)將視頻拆分為若干塊（Chunk），并緩存中間特征，取代了傳統(tǒng)長(zhǎng)視頻的端到端編解碼方式。

這一設(shè)計(jì)的關(guān)鍵在于，使顯存的使用僅與Chunk大小相關(guān)，而與原始視頻長(zhǎng)度無(wú)關(guān)，從而實(shí)現(xiàn)了對(duì)無(wú)限長(zhǎng)1080P視頻的高效編解碼。

這種機(jī)制為任意時(shí)長(zhǎng)視頻的訓(xùn)練提供了可行性。實(shí)驗(yàn)表明，在較小模型參數(shù)下，通義萬(wàn)相VAE實(shí)現(xiàn)了業(yè)內(nèi)領(lǐng)先的視頻壓縮與重構(gòu)質(zhì)量。

而DiT則像是一位“時(shí)空捕手”，能夠敏銳地捕捉視頻中的時(shí)空動(dòng)態(tài)，精準(zhǔn)地建模視頻中不同元素在時(shí)間和空間上的變化關(guān)系。

通義萬(wàn)相團(tuán)隊(duì)采取了以下優(yōu)化措施：

時(shí)空全注意力機(jī)制：增強(qiáng)模型對(duì)復(fù)雜動(dòng)態(tài)場(chǎng)景的建模能力。
參數(shù)共享機(jī)制：提升模型性能的同時(shí)，降低訓(xùn)練成本。
文本嵌入優(yōu)化：提升文本控制能力，并顯著降低計(jì)算需求。

△通義萬(wàn)相2.1視頻生成架構(gòu)圖

其次，是超長(zhǎng)序列訓(xùn)練上的突破。

在面對(duì)超長(zhǎng)序列訓(xùn)練這一極具挑戰(zhàn)性的任務(wù)時(shí)，通義萬(wàn)相團(tuán)隊(duì)巧妙地運(yùn)用了4D并行策略，猶如為模型訓(xùn)練打造了一臺(tái)超強(qiáng)動(dòng)力的“引擎”。

這一策略將DP（數(shù)據(jù)并行）、FSDP（ Fully Sharded Data Parallel，全量分片數(shù)據(jù)并行）、RingAttention（環(huán)形注意力機(jī)制）、Ulysses（一種優(yōu)化技術(shù)）等多種先進(jìn)技術(shù)有機(jī)融合。

例如在顯存優(yōu)化方面，團(tuán)隊(duì)根據(jù)序列長(zhǎng)度帶來(lái)的計(jì)算和通信需求，采用分層顯存優(yōu)化策略，解決顯存碎片問(wèn)題，同時(shí)使用FlashAttention3提升時(shí)空注意力的計(jì)算效率。

此外，通過(guò)去冗余計(jì)算和高效Kernel實(shí)現(xiàn)，進(jìn)一步降低訪存開銷。

在文件系統(tǒng)優(yōu)化方面，針對(duì)阿里云高性能文件系統(tǒng)的特性，團(tuán)隊(duì)采用分片Save/Load方式優(yōu)化數(shù)據(jù)讀寫性能，并通過(guò)錯(cuò)峰內(nèi)存使用方案，解決Dataloader Prefetch、CPU Offloading與Checkpoint存儲(chǔ)引起的內(nèi)存OOM問(wèn)題。

在穩(wěn)定性提升方面，依托阿里云的智能調(diào)度、慢機(jī)檢測(cè)與自愈能力，模型訓(xùn)練能夠?qū)崿F(xiàn)自動(dòng)故障檢測(cè)與任務(wù)重啟，大幅提升訓(xùn)練過(guò)程的穩(wěn)定性。

△通義萬(wàn)相4D并行分布式訓(xùn)練策略

最后，是數(shù)據(jù)與評(píng)估雙輪驅(qū)動(dòng)。

通義萬(wàn)相團(tuán)隊(duì)打造了一套自動(dòng)化數(shù)據(jù)構(gòu)建管線，通過(guò)優(yōu)化視覺(jué)質(zhì)量和運(yùn)動(dòng)質(zhì)量，篩選整合與人類偏好分布高度一致的數(shù)據(jù)集。這些數(shù)據(jù)具有多樣性高、分布均衡等特點(diǎn)，極大提升了訓(xùn)練效率。

團(tuán)隊(duì)還為此設(shè)計(jì)了一套覆蓋美學(xué)評(píng)分、運(yùn)動(dòng)分析、指令遵循等多個(gè)維度的評(píng)估體系，并訓(xùn)練了專業(yè)的打分器。通過(guò)這些自動(dòng)化指標(biāo)的反饋，顯著加速了模型的迭代與優(yōu)化。

以上便是煉成新版通義萬(wàn)相的核心技術(shù)要義了。

至此，不僅是從技術(shù)創(chuàng)新方面，更是從真真切切的體驗(yàn)角度來(lái)看，國(guó)產(chǎn)Sora再次走到了AI視頻領(lǐng)域的前沿。

單就能夠生成漢字這一點(diǎn)，便是全球獨(dú)一份的那種。

而從視頻生成范圍之廣，也是應(yīng)了“通義萬(wàn)相”的名字——AI已經(jīng)到了可以生成“萬(wàn)相”的時(shí)刻。

那么你是否也有腦洞大開的想法，并想讓它們以視頻的形式呈現(xiàn)出來(lái)呢？

快來(lái)體驗(yàn)一下最新、最Fashion的模型吧~

直接體驗(yàn)入口：https://tongyi.aliyun.com/wanxiang/videoCreation

API調(diào)用：https://bailian.console.aliyun.com/?spm=5176.29619931.J__Z58Z6CX7MY__Ll8p1ZOR.1.74cd59fckLhf3c#/model-market

責(zé)任編輯：張燕妮來(lái)源：量子位

模型訓(xùn)練數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<ruby id="3cob1"></ruby>