偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

「黑神話」級(jí)3A大作AI實(shí)時(shí)游戲生成！港科大、中科大等祭出最強(qiáng)擴(kuò)散Transformer，火爆國(guó)外

作者：新智元 2024-11-06 13:03:49

人工智能新聞

AI顛覆游戲產(chǎn)業(yè)，一場(chǎng)無(wú)聲革命已經(jīng)開(kāi)啟！繼AI游戲模型Oasis之后，港科大、中科大等機(jī)構(gòu)聯(lián)手推出GameGen-X，首次實(shí)現(xiàn)了開(kāi)放世界游戲的AI生成與交互控制。

爆火國(guó)產(chǎn)3A大作《黑神話·悟空》，如今也能由AI生成了？

一夜之間，國(guó)內(nèi)首個(gè)實(shí)時(shí)視頻游戲生成AI，火遍全網(wǎng)。

致敬「西游記」

幾天前，專做推理芯片初創(chuàng)Etched曾推出世界首個(gè)實(shí)時(shí)生成AI游戲Oasis，每一幀都是擴(kuò)散Transformer預(yù)測(cè)。

無(wú)需游戲引擎，就能實(shí)現(xiàn)每秒20幀實(shí)時(shí)渲染，幾乎沒(méi)有延遲。

沒(méi)想到，GameGen-X一出，再次顛覆了我們對(duì)AI游戲的認(rèn)知。

來(lái)自港科大、中科大、港中文等機(jī)構(gòu)聯(lián)手，提出開(kāi)放世界視頻游戲生成AI，可以實(shí)時(shí)交互創(chuàng)建游戲。

這是首個(gè)專為生成和交互控制開(kāi)放世界游戲視頻而設(shè)計(jì)的擴(kuò)散Transformer模型。

論文地址：https://gamegen-x.github.io/

GameGen-X能夠模擬游戲引擎特性，實(shí)現(xiàn)高質(zhì)量開(kāi)放世界游戲生成。比如，創(chuàng)建新角色、動(dòng)態(tài)環(huán)境、復(fù)雜動(dòng)作和各種事件等等。

它還能進(jìn)行交互式控制，根據(jù)當(dāng)前片段預(yù)測(cè)或更改未來(lái)內(nèi)容，實(shí)現(xiàn)游戲模擬。

有網(wǎng)友表示，一切都結(jié)束了，中國(guó)再次在AI游戲領(lǐng)域拿下第一。

還有人稱，這比Oasis看起來(lái)更好。

AI實(shí)時(shí)游戲生成，驚呆歪果仁

老黃曾說(shuō)過(guò)，未來(lái)每個(gè)像素很快都將會(huì)是生成的，并非是渲染的。

不論是從谷歌GameNGen，到Oasis，再到GameGen-X，每一步的進(jìn)化都在逼近這個(gè)預(yù)言。

高質(zhì)量游戲生成

在游戲生成上，GameGen-X不僅能夠創(chuàng)建角色，還能生成動(dòng)作、動(dòng)態(tài)環(huán)境、各種事件、開(kāi)放域。

角色生成

《巫師》的Geralt of Rivia

《荒野大鏢客：救贖2》的主角Arthur Morgan

《刺客信條》的Eivor

還有這種偏卡通風(fēng)的人物——異星探險(xiǎn)家

射擊游戲中的機(jī)械戰(zhàn)警RoboCop，機(jī)器人角色生成很賽博。

環(huán)境生成

不論是春夏秋冬四季，還是山川湖海，各種名勝古跡，都能實(shí)時(shí)生成。

動(dòng)作生成

騎摩托車第一人稱視角，以及第三人稱視角。

駕馬車

飛行

事件生成

下雨、下雪、打雷、日起日落、火災(zāi)、沙塵暴、海嘯.....

開(kāi)放域生成

在中國(guó)城漫游的賽博和尚

血月下的幽靈

穿著斗篷的旅行者走在火星上

多模態(tài)交互控制

在多模態(tài)交互中，GameGen-X能夠支持結(jié)構(gòu)化指令提示、外設(shè)操作信號(hào)、視頻提示的生成。

結(jié)構(gòu)化指令提示

同在沙漠中行走的旅人，你可以通過(guò)提示要求，讓背景實(shí)時(shí)變幻。

天空之火

黑暗與星星

日落時(shí)分

霧出現(xiàn)

操作信號(hào)

游戲中角色向左向右移動(dòng)，一句話的事。

視頻提示

提供一個(gè)Canny提示的視頻

接下來(lái)，就會(huì)得到

又或者提供一個(gè)運(yùn)動(dòng)失量的視頻

就會(huì)生成一個(gè)揚(yáng)沙的視頻

GameGen-X技術(shù)

GameGen-X擅長(zhǎng)生成多樣化和創(chuàng)造性的游戲內(nèi)容，包括動(dòng)態(tài)環(huán)境、多變的角色、引人入勝的事件和復(fù)雜的動(dòng)作，樹(shù)立了該領(lǐng)域的新標(biāo)桿。

更為震撼的是，它還提供了交互式可控性，并首次將角色交互和場(chǎng)景內(nèi)容控制統(tǒng)一起來(lái)。

AI根據(jù)當(dāng)前片段預(yù)測(cè)和更改未來(lái)內(nèi)容，從而實(shí)現(xiàn)游戲模擬，賦予了游戲更多的真實(shí)性。

它首先生成一個(gè)視頻片段，以設(shè)置環(huán)境和角色。

隨后，利用當(dāng)前視頻片段和多模態(tài)用戶控制信號(hào)，生成動(dòng)態(tài)響應(yīng)用戶輸入的視頻片段。

這一過(guò)程可被視為模擬現(xiàn)實(shí)一般的體驗(yàn)，因?yàn)檫@一過(guò)程中，環(huán)境和角色都是動(dòng)態(tài)發(fā)展的！

GameGen-X的訓(xùn)練過(guò)程分為兩個(gè)階段，包括基礎(chǔ)模型預(yù)訓(xùn)練和指令微調(diào)。

首先，通過(guò)在OGameData-GEN數(shù)據(jù)集上的文本到視頻的生成和視頻延續(xù)對(duì)模型進(jìn)行預(yù)訓(xùn)練，使其具備生成長(zhǎng)序列、高質(zhì)量開(kāi)放世界游戲視頻的能力。

此外，為了實(shí)現(xiàn)交互可控性，研究團(tuán)隊(duì)在設(shè)計(jì)InstructNet時(shí)納入了與游戲相關(guān)的多模態(tài)信號(hào)控制專家系統(tǒng)。

這使得模型能夠根據(jù)用戶輸入微調(diào)潛表征，首次在視頻生成中將角色交互和場(chǎng)景內(nèi)容的調(diào)控統(tǒng)一起來(lái)。

在指令微調(diào)過(guò)程中，為了保證不損失生成視頻內(nèi)容的多樣性和質(zhì)量的情況下，實(shí)現(xiàn)多模態(tài)交互式控制，模型引入了 InstructNet。具體來(lái)說(shuō)，InstructNet 的主要目的是根據(jù)指令修改未來(lái)的預(yù)測(cè)。

當(dāng)沒(méi)有給出用戶輸入信號(hào)時(shí)，視頻自然延伸。因此會(huì)將預(yù)先訓(xùn)練好的基礎(chǔ)模型凍結(jié)，只利用OGameData-INS數(shù)據(jù)集更新InstructNet，從而將用戶輸入（如游戲環(huán)境動(dòng)態(tài)的結(jié)構(gòu)化文本指令和角色動(dòng)作與操作的鍵盤控制）映射到生成的游戲內(nèi)容上。

總之，GameGen-X代表了使用生成模型進(jìn)行開(kāi)放世界視頻游戲設(shè)計(jì)的一次重大飛躍。它展示了生成模型作為傳統(tǒng)渲染技術(shù)輔助工具的潛力，有效地將創(chuàng)意生成與交互能力融合在一起。

首個(gè)開(kāi)放世界游戲視頻數(shù)據(jù)集OGameData

為了促進(jìn)交互式控制游戲生成領(lǐng)域的發(fā)展，研究團(tuán)隊(duì)構(gòu)建了開(kāi)放世界視頻游戲數(shù)據(jù)集（Open-World Video Game Dataset，OGameData），這是首個(gè)專為游戲視頻生成和交互式控制精心設(shè)計(jì)的大規(guī)模數(shù)據(jù)集。

它提供游戲特定知識(shí)，并包含游戲名稱、玩家視角和角色細(xì)節(jié)等元素。該數(shù)據(jù)集從150多款下一代游戲中收集而來(lái)，其中包括評(píng)分、篩選、排序和結(jié)構(gòu)化注釋。

OGameData的構(gòu)建與處理流程

如表1所示，OGameData包含100萬(wàn)個(gè)高分辨率視頻片段，來(lái)源從幾分鐘到幾小時(shí)不等。

與其他特定領(lǐng)域的數(shù)據(jù)集相比，OGameData在文本-視頻對(duì)的規(guī)模、多樣性和豐富性方面脫穎而出。

即使與最新的開(kāi)放域生成數(shù)據(jù)集Miradata相比，仍然具有提供更多細(xì)粒度注釋的優(yōu)勢(shì)，其在單位時(shí)間內(nèi)提供的注釋甚至是Miradata數(shù)據(jù)集的2倍多！

該數(shù)據(jù)集具有幾個(gè)主要特點(diǎn)：OGameData 具有高度精細(xì)的文本，并擁有大量可訓(xùn)練的視頻-文本對(duì)，從而提高了模型訓(xùn)練中文本-視頻的一致性。

此外，它還包括兩個(gè)子集：生成數(shù)據(jù)集（OGameData-GEN）和指令數(shù)據(jù)集（OGameData-INS）。

其中OGameData-GEN專門用于訓(xùn)練生成基礎(chǔ)模型，而OGameData-INS則針對(duì)指令微調(diào)和交互式控制任務(wù)進(jìn)行了優(yōu)化。

OGameData-GEN需要制作詳細(xì)的注釋來(lái)描述游戲元數(shù)據(jù)、場(chǎng)景背景和關(guān)鍵角色，以確保生成基礎(chǔ)模型訓(xùn)練所需的全面文本描述。

相比之下，OGameData-INS使用基于指令的簡(jiǎn)明注釋，突出顯示初始幀和后續(xù)幀之間的差異，重點(diǎn)是描述游戲場(chǎng)景的變化，以便進(jìn)行交互式生成。

這種結(jié)構(gòu)化注釋方法可實(shí)現(xiàn)精確的生成和細(xì)粒度的控制，允許模型在保留場(chǎng)景的同時(shí)修改特定元素。該數(shù)據(jù)集的高質(zhì)量得益于10多位人類專家的精心設(shè)計(jì)。

每個(gè)視頻片段都配有使用GPT-4o生成的注釋，以保持清晰度和連貫性，并確保數(shù)據(jù)集不受用戶界面和視覺(jué)偽影的影響。

模型架構(gòu)

在將視頻片段進(jìn)行編碼時(shí)，為解決時(shí)空信息冗余問(wèn)題，GameGen-X引入了三維時(shí)空變分自編碼器（3D-VAE），將視頻片段壓縮為潛表征。

這種壓縮技術(shù)可以對(duì)具有較長(zhǎng)幀序列的高分辨率視頻進(jìn)行高效訓(xùn)練。

具體來(lái)說(shuō)，3D-VAE首先進(jìn)行空間下采樣以獲得幀級(jí)潛特征。此外，它還進(jìn)行了時(shí)間組合，以捕捉時(shí)間依賴性并有效減少幀上的冗余。

通過(guò)3D-VAE對(duì)視頻片段進(jìn)行處理，可以得到一個(gè)具有空間-時(shí)間信息并降低了維度的潛張量。這樣的張量可以支持長(zhǎng)視頻和高分辨率模型訓(xùn)練，滿足游戲內(nèi)容生成的要求。

GameGen-X還引入了掩碼時(shí)空擴(kuò)散Transformer（Masked Spatial-Temporal Diffusion Transformer，MSDiT）。

具體來(lái)說(shuō)，MSDiT結(jié)合了空間注意力、時(shí)間注意力和交叉注意力機(jī)制，可有效生成由文本提示引導(dǎo)的游戲視頻。

對(duì)于每個(gè)時(shí)間步長(zhǎng)t，模型會(huì)處理捕捉幀細(xì)節(jié)的潛特征z。

空間注意力通過(guò)對(duì)空間維度（H′、W′）的自注意力來(lái)增強(qiáng)幀內(nèi)關(guān)系。時(shí)間注意通過(guò)在時(shí)間維度F′上進(jìn)行操作，捕捉幀間的依賴關(guān)系，從而確保幀間的一致性。

交叉注意力整合了通過(guò)文本編碼器T5獲得的外部文本特征的指導(dǎo)，使視頻生成與文本提示的語(yǔ)義信息保持一致。

而掩碼機(jī)制則可以在擴(kuò)散處理過(guò)程中，將某些幀從噪聲添加和去噪中屏蔽掉。

如圖4所示，整體框架采用了將成對(duì)的空間和時(shí)間區(qū)塊堆疊在一起的設(shè)計(jì)，其中每個(gè)區(qū)塊都配備了交叉注意和空間或時(shí)間注意力機(jī)制。

這樣的設(shè)計(jì)使模型能夠同時(shí)捕捉空間細(xì)節(jié)、時(shí)間序列動(dòng)態(tài)和文本引導(dǎo)，從而使GameGen-X能夠生成高保真、時(shí)間上一致的視頻，并與所提供的文本提示緊密結(jié)合。

負(fù)責(zé)實(shí)現(xiàn)交互式控制的指令微調(diào)的部分由N個(gè)InstructNet模塊組成，每個(gè)模塊利用專門的操作集成式專家層和指令集成式專家層來(lái)整合不同的條件。

輸出特征被注入到基礎(chǔ)模型中以融合原始潛在特征，根據(jù)用戶輸入調(diào)制潛在表征，并有效地將輸出與用戶意圖對(duì)齊，這使用戶能夠影響角色動(dòng)作和場(chǎng)景動(dòng)態(tài)。

InstructNet主要通過(guò)視頻連續(xù)訓(xùn)練來(lái)模擬游戲中的控制和反饋機(jī)制。此外，還在初始幀中巧妙地添加了高斯噪聲，以減少誤差累積。

實(shí)驗(yàn)結(jié)果

為了全面評(píng)估GameGen-X在生成高質(zhì)量、逼真且可交互控制的視頻游戲內(nèi)容方面的能力，研究團(tuán)隊(duì)采用了一套十分細(xì)致的度量標(biāo)準(zhǔn)。

包括Fréchet Inception Distance（FID）、Fréchet Video Distance（FVD）、文本視頻對(duì)齊（TVA）、用戶偏好度（UP）、運(yùn)動(dòng)平滑度（MS）、動(dòng)態(tài)度（DD）、主體一致性（SC）和成像質(zhì)量（IQ）。

表2對(duì)比了GameGen-X和4個(gè)知名開(kāi)源模型，即Mira、OpenSora Plan1.2、OpenSora1.2和CogVideoX-5B。

值得注意的是，Mira和OpenSora1.2都明確提到在游戲數(shù)據(jù)上進(jìn)行訓(xùn)練，而其他兩個(gè)模型雖然不是專門為此目的設(shè)計(jì)的，但仍然可以在類似環(huán)境中滿足某些生成需求。

結(jié)果顯示，GameGen-X在FID、FVD、TVA、MS和SC等指標(biāo)上表現(xiàn)良好。這表明GameGen-X在生成高質(zhì)量和連貫的視頻游戲內(nèi)容方面具有優(yōu)勢(shì)，同時(shí)保持了競(jìng)爭(zhēng)性的視覺(jué)和技術(shù)質(zhì)量。

此外，團(tuán)隊(duì)還使用了有條件的視頻片段和密集提示詞來(lái)評(píng)估模型的生成響應(yīng)。

其中，新引入的指標(biāo)——成功率（SR），負(fù)責(zé)衡量模型對(duì)控制信號(hào)的準(zhǔn)確響應(yīng)頻率。這是由人類專家和PLLaVA共同評(píng)估的。

SR指標(biāo)分為兩部分：角色動(dòng)作的成功率（SR-C），評(píng)估模型對(duì)角色動(dòng)作的響應(yīng)能力，以及環(huán)境事件的成功率（SR-E），評(píng)估模型對(duì)天氣、光照和物體變化的處理能力。

如表3所示，GameGen-X在控制能力方面優(yōu)于其他模型，突顯了其在生成上下文適宜和互動(dòng)性游戲內(nèi)容方面的有效性。

在生成性能方面，有著8fps視頻的CogVideo和場(chǎng)景頻繁變化的OpenSora1.2，獲得了更高的DD。

圖5展示了GameGen-X在生成各種角色、環(huán)境、動(dòng)作和事件的多樣化生成能力。

這些例子顯示模型可以創(chuàng)建刺客和法師等角色，模擬櫻花森林和熱帶雨林等環(huán)境，執(zhí)行飛行和駕駛等復(fù)雜動(dòng)作，并重現(xiàn)暴風(fēng)雪和暴雨等環(huán)境事件。

圖6展示了GameGen-X根據(jù)文本指令和鍵盤輸入控制環(huán)境事件和角色動(dòng)作的能力。

在提供的示例中，模型有效地操控了場(chǎng)景的各個(gè)方面，如光照條件和大氣效果，突顯了其模擬不同時(shí)間和天氣條件的能力。此外，角色的動(dòng)作，主要涉及環(huán)境中的導(dǎo)航，通過(guò)輸入的鍵盤信號(hào)得到精確控制。

通過(guò)調(diào)整光照和大氣等環(huán)境因素，模型提供了一個(gè)逼真而沉浸的環(huán)境。同時(shí)，管理角色動(dòng)作的能力確保生成的內(nèi)容能夠直觀地響應(yīng)用戶的互動(dòng)。

通過(guò)這些能力，GameGen-X展示出了在提升開(kāi)放世界電子游戲模擬的真實(shí)感和參與度方面的潛力。

如圖7所示，GameGen-X在角色細(xì)節(jié)、視覺(jué)環(huán)境和鏡頭邏輯方面更好地滿足了游戲內(nèi)容的要求，這得益于嚴(yán)格的數(shù)據(jù)集收集和OGameData的構(gòu)建。

此外，GameGen-X還與包括Kling、Pika、Runway、Luma和Tongyi在內(nèi)的其他商業(yè)產(chǎn)品進(jìn)行了比較，如圖8所示。

在左側(cè)部分，即最初生成的視頻片段中，只有Pika、Kling1.5和GameGen-X正確地遵循了文本描述。其他模型要么未能顯示角色，要么將其描繪為進(jìn)入洞穴而非退出。

在右側(cè)部分，GameGen-X和Kling1.5都成功引導(dǎo)角色走出洞穴。GameGen-X實(shí)現(xiàn)了高質(zhì)量的控制響應(yīng)，同時(shí)保持了一致的鏡頭邏輯，并遵循了類似游戲的體驗(yàn)。這得益于整體訓(xùn)練框架和InstructNet的設(shè)計(jì)。

結(jié)論

OGameData的開(kāi)發(fā)為模型訓(xùn)練提供了重要的基礎(chǔ)，使其能夠捕捉開(kāi)放世界游戲的多樣性和復(fù)雜性。而通過(guò)兩階段的訓(xùn)練過(guò)程，GameGen-X實(shí)現(xiàn)了內(nèi)容生成和交互控制之間的相互增強(qiáng)，從而實(shí)現(xiàn)了豐富且身臨其境般的模擬體驗(yàn)。

除了技術(shù)貢獻(xiàn)之外，更重要的是：GameGen-X 還為游戲內(nèi)容設(shè)計(jì)的未來(lái)開(kāi)辟了新的視野。它表明游戲設(shè)計(jì)與開(kāi)發(fā)有可能轉(zhuǎn)向更加自動(dòng)化、數(shù)據(jù)驅(qū)動(dòng)的流程，從而顯著減少游戲內(nèi)容早期創(chuàng)建所需的手動(dòng)工作。

通過(guò)利用模型來(lái)創(chuàng)建身臨其境的世界和交互式游戲玩法，我們可能對(duì)于玩家自己通過(guò)創(chuàng)造性的探索來(lái)構(gòu)建一個(gè)游戲的未來(lái)越來(lái)越近了。

盡管挑戰(zhàn)依然存在，GameGen-X代表了游戲設(shè)計(jì)中向新穎范式邁出的重大飛躍。它為未來(lái)的研究和開(kāi)發(fā)奠定了基礎(chǔ)，也為生成模型成為創(chuàng)建下一代交互式數(shù)字世界的不可或缺的工具鋪平了道路。

團(tuán)隊(duì)介紹

Haoxuan Che

Haoxuan Che正在香港科技大學(xué)（HKUST）攻讀計(jì)算機(jī)科學(xué)與工程博士學(xué)位。他的主要研究興趣在于計(jì)算機(jī)視覺(jué)、醫(yī)學(xué)圖像分析和可信賴人工智能。

在加入香港科技大學(xué)之前，我曾畢業(yè)于西北工業(yè)大學(xué)（NWPU），獲得了軟件與微電子學(xué)院的軟件工程學(xué)士學(xué)位。

Xuanhua He（何炫華）

何炫華目前是中國(guó)科學(xué)技術(shù)大學(xué)的碩士生，由Jie Zhang和Chengjun Xie教授指導(dǎo)。他于2022年在廈門大學(xué)獲得了軟件工程學(xué)士學(xué)位，師從Yongxuan Lai教授。

他的研究興趣集中在計(jì)算機(jī)視覺(jué)領(lǐng)域，特別是圖像超分辨率、圖像增強(qiáng)和視頻生成。此前，他還曾曾探索過(guò)遙感圖像處理和聯(lián)邦學(xué)習(xí)。

責(zé)任編輯：張燕妮來(lái)源：新智元

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<legend id="eca4g"><track id="eca4g"></track></legend>

<abbr id="eca4g"></abbr>