偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

「黑神話」級(jí)3A大作AI實(shí)時(shí)游戲生成!港科大、中科大等祭出最強(qiáng)擴(kuò)散Transformer,火爆國(guó)外

人工智能 新聞
AI顛覆游戲產(chǎn)業(yè),一場(chǎng)無(wú)聲革命已經(jīng)開(kāi)啟!繼AI游戲模型Oasis之后,港科大、中科大等機(jī)構(gòu)聯(lián)手推出GameGen-X,首次實(shí)現(xiàn)了開(kāi)放世界游戲的AI生成與交互控制。

爆火國(guó)產(chǎn)3A大作《黑神話·悟空》,如今也能由AI生成了?

一夜之間,國(guó)內(nèi)首個(gè)實(shí)時(shí)視頻游戲生成AI,火遍全網(wǎng)。

致敬「西游記」

幾天前,專做推理芯片初創(chuàng)Etched曾推出世界首個(gè)實(shí)時(shí)生成AI游戲Oasis,每一幀都是擴(kuò)散Transformer預(yù)測(cè)。

無(wú)需游戲引擎,就能實(shí)現(xiàn)每秒20幀實(shí)時(shí)渲染,幾乎沒(méi)有延遲。

圖片

沒(méi)想到,GameGen-X一出,再次顛覆了我們對(duì)AI游戲的認(rèn)知。

來(lái)自港科大、中科大、港中文等機(jī)構(gòu)聯(lián)手,提出開(kāi)放世界視頻游戲生成AI,可以實(shí)時(shí)交互創(chuàng)建游戲。

這是首個(gè)專為生成和交互控制開(kāi)放世界游戲視頻而設(shè)計(jì)的擴(kuò)散Transformer模型。

圖片

論文地址:https://gamegen-x.github.io/

GameGen-X能夠模擬游戲引擎特性,實(shí)現(xiàn)高質(zhì)量開(kāi)放世界游戲生成。比如,創(chuàng)建新角色、動(dòng)態(tài)環(huán)境、復(fù)雜動(dòng)作和各種事件等等。

圖片

它還能進(jìn)行交互式控制,根據(jù)當(dāng)前片段預(yù)測(cè)或更改未來(lái)內(nèi)容,實(shí)現(xiàn)游戲模擬。

圖片

有網(wǎng)友表示,一切都結(jié)束了,中國(guó)再次在AI游戲領(lǐng)域拿下第一。

圖片

還有人稱,這比Oasis看起來(lái)更好。

圖片

AI實(shí)時(shí)游戲生成,驚呆歪果仁

老黃曾說(shuō)過(guò),未來(lái)每個(gè)像素很快都將會(huì)是生成的,并非是渲染的。

不論是從谷歌GameNGen,到Oasis,再到GameGen-X,每一步的進(jìn)化都在逼近這個(gè)預(yù)言。

高質(zhì)量游戲生成

在游戲生成上,GameGen-X不僅能夠創(chuàng)建角色,還能生成動(dòng)作、動(dòng)態(tài)環(huán)境、各種事件、開(kāi)放域。

角色生成

《巫師》的Geralt of Rivia

圖片

《荒野大鏢客:救贖2》的主角Arthur Morgan

圖片

《刺客信條》的Eivor

圖片

還有這種偏卡通風(fēng)的人物——異星探險(xiǎn)家

圖片

射擊游戲中的機(jī)械戰(zhàn)警RoboCop,機(jī)器人角色生成很賽博。

圖片

環(huán)境生成

不論是春夏秋冬四季,還是山川湖海,各種名勝古跡,都能實(shí)時(shí)生成。

圖片

圖片

圖片

圖片

動(dòng)作生成

騎摩托車第一人稱視角,以及第三人稱視角。

圖片

圖片

駕馬車

圖片

飛行

圖片

事件生成

下雨、下雪、打雷、日起日落、火災(zāi)、沙塵暴、海嘯.....

圖片

圖片

圖片

開(kāi)放域生成

在中國(guó)城漫游的賽博和尚

圖片

血月下的幽靈

圖片

穿著斗篷的旅行者走在火星上

圖片

多模態(tài)交互控制

在多模態(tài)交互中,GameGen-X能夠支持結(jié)構(gòu)化指令提示、外設(shè)操作信號(hào)、視頻提示的生成。

結(jié)構(gòu)化指令提示

同在沙漠中行走的旅人,你可以通過(guò)提示要求,讓背景實(shí)時(shí)變幻。

天空之火

圖片

黑暗與星星

圖片

日落時(shí)分

圖片

霧出現(xiàn)

圖片

操作信號(hào)

游戲中角色向左向右移動(dòng),一句話的事。

圖片

圖片

視頻提示

提供一個(gè)Canny提示的視頻

圖片

接下來(lái),就會(huì)得到

圖片

又或者提供一個(gè)運(yùn)動(dòng)失量的視頻

圖片

就會(huì)生成一個(gè)揚(yáng)沙的視頻

圖片

GameGen-X技術(shù)

GameGen-X擅長(zhǎng)生成多樣化和創(chuàng)造性的游戲內(nèi)容,包括動(dòng)態(tài)環(huán)境、多變的角色、引人入勝的事件和復(fù)雜的動(dòng)作,樹(shù)立了該領(lǐng)域的新標(biāo)桿。

更為震撼的是,它還提供了交互式可控性,并首次將角色交互和場(chǎng)景內(nèi)容控制統(tǒng)一起來(lái)。

AI根據(jù)當(dāng)前片段預(yù)測(cè)和更改未來(lái)內(nèi)容,從而實(shí)現(xiàn)游戲模擬,賦予了游戲更多的真實(shí)性。

它首先生成一個(gè)視頻片段,以設(shè)置環(huán)境和角色。

隨后,利用當(dāng)前視頻片段和多模態(tài)用戶控制信號(hào),生成動(dòng)態(tài)響應(yīng)用戶輸入的視頻片段。

這一過(guò)程可被視為模擬現(xiàn)實(shí)一般的體驗(yàn),因?yàn)檫@一過(guò)程中,環(huán)境和角色都是動(dòng)態(tài)發(fā)展的!

圖片

GameGen-X的訓(xùn)練過(guò)程分為兩個(gè)階段,包括基礎(chǔ)模型預(yù)訓(xùn)練和指令微調(diào)。

首先,通過(guò)在OGameData-GEN數(shù)據(jù)集上的文本到視頻的生成和視頻延續(xù)對(duì)模型進(jìn)行預(yù)訓(xùn)練,使其具備生成長(zhǎng)序列、高質(zhì)量開(kāi)放世界游戲視頻的能力。

此外,為了實(shí)現(xiàn)交互可控性,研究團(tuán)隊(duì)在設(shè)計(jì)InstructNet時(shí)納入了與游戲相關(guān)的多模態(tài)信號(hào)控制專家系統(tǒng)。

這使得模型能夠根據(jù)用戶輸入微調(diào)潛表征,首次在視頻生成中將角色交互和場(chǎng)景內(nèi)容的調(diào)控統(tǒng)一起來(lái)。

在指令微調(diào)過(guò)程中,為了保證不損失生成視頻內(nèi)容的多樣性和質(zhì)量的情況下,實(shí)現(xiàn)多模態(tài)交互式控制,模型引入了 InstructNet。具體來(lái)說(shuō),InstructNet 的主要目的是根據(jù)指令修改未來(lái)的預(yù)測(cè)。

當(dāng)沒(méi)有給出用戶輸入信號(hào)時(shí),視頻自然延伸。因此會(huì)將預(yù)先訓(xùn)練好的基礎(chǔ)模型凍結(jié),只利用OGameData-INS數(shù)據(jù)集更新InstructNet,從而將用戶輸入(如游戲環(huán)境動(dòng)態(tài)的結(jié)構(gòu)化文本指令和角色動(dòng)作與操作的鍵盤控制)映射到生成的游戲內(nèi)容上。

總之,GameGen-X代表了使用生成模型進(jìn)行開(kāi)放世界視頻游戲設(shè)計(jì)的一次重大飛躍。它展示了生成模型作為傳統(tǒng)渲染技術(shù)輔助工具的潛力,有效地將創(chuàng)意生成與交互能力融合在一起。

圖片

首個(gè)開(kāi)放世界游戲視頻數(shù)據(jù)集OGameData

為了促進(jìn)交互式控制游戲生成領(lǐng)域的發(fā)展,研究團(tuán)隊(duì)構(gòu)建了開(kāi)放世界視頻游戲數(shù)據(jù)集(Open-World Video Game Dataset,OGameData),這是首個(gè)專為游戲視頻生成和交互式控制精心設(shè)計(jì)的大規(guī)模數(shù)據(jù)集。

它提供游戲特定知識(shí),并包含游戲名稱、玩家視角和角色細(xì)節(jié)等元素。該數(shù)據(jù)集從150多款下一代游戲中收集而來(lái),其中包括評(píng)分、篩選、排序和結(jié)構(gòu)化注釋。

圖片

OGameData的構(gòu)建與處理流程

如表1所示,OGameData包含100萬(wàn)個(gè)高分辨率視頻片段,來(lái)源從幾分鐘到幾小時(shí)不等。

與其他特定領(lǐng)域的數(shù)據(jù)集相比,OGameData在文本-視頻對(duì)的規(guī)模、多樣性和豐富性方面脫穎而出。

即使與最新的開(kāi)放域生成數(shù)據(jù)集Miradata相比,仍然具有提供更多細(xì)粒度注釋的優(yōu)勢(shì),其在單位時(shí)間內(nèi)提供的注釋甚至是Miradata數(shù)據(jù)集的2倍多!

圖片

該數(shù)據(jù)集具有幾個(gè)主要特點(diǎn):OGameData 具有高度精細(xì)的文本,并擁有大量可訓(xùn)練的視頻-文本對(duì),從而提高了模型訓(xùn)練中文本-視頻的一致性。

此外,它還包括兩個(gè)子集:生成數(shù)據(jù)集(OGameData-GEN)和指令數(shù)據(jù)集(OGameData-INS)。

其中OGameData-GEN專門用于訓(xùn)練生成基礎(chǔ)模型,而OGameData-INS則針對(duì)指令微調(diào)和交互式控制任務(wù)進(jìn)行了優(yōu)化。

圖片

OGameData-GEN需要制作詳細(xì)的注釋來(lái)描述游戲元數(shù)據(jù)、場(chǎng)景背景和關(guān)鍵角色,以確保生成基礎(chǔ)模型訓(xùn)練所需的全面文本描述。

相比之下,OGameData-INS使用基于指令的簡(jiǎn)明注釋,突出顯示初始幀和后續(xù)幀之間的差異,重點(diǎn)是描述游戲場(chǎng)景的變化,以便進(jìn)行交互式生成。

圖片

這種結(jié)構(gòu)化注釋方法可實(shí)現(xiàn)精確的生成和細(xì)粒度的控制,允許模型在保留場(chǎng)景的同時(shí)修改特定元素。該數(shù)據(jù)集的高質(zhì)量得益于10多位人類專家的精心設(shè)計(jì)。

每個(gè)視頻片段都配有使用GPT-4o生成的注釋,以保持清晰度和連貫性,并確保數(shù)據(jù)集不受用戶界面和視覺(jué)偽影的影響。

模型架構(gòu)

在將視頻片段進(jìn)行編碼時(shí),為解決時(shí)空信息冗余問(wèn)題,GameGen-X引入了三維時(shí)空變分自編碼器(3D-VAE),將視頻片段壓縮為潛表征。

這種壓縮技術(shù)可以對(duì)具有較長(zhǎng)幀序列的高分辨率視頻進(jìn)行高效訓(xùn)練。

具體來(lái)說(shuō),3D-VAE首先進(jìn)行空間下采樣以獲得幀級(jí)潛特征。此外,它還進(jìn)行了時(shí)間組合,以捕捉時(shí)間依賴性并有效減少幀上的冗余。

通過(guò)3D-VAE對(duì)視頻片段進(jìn)行處理,可以得到一個(gè)具有空間-時(shí)間信息并降低了維度的潛張量。這樣的張量可以支持長(zhǎng)視頻和高分辨率模型訓(xùn)練,滿足游戲內(nèi)容生成的要求。

GameGen-X還引入了掩碼時(shí)空擴(kuò)散Transformer(Masked Spatial-Temporal Diffusion Transformer,MSDiT)。

具體來(lái)說(shuō),MSDiT結(jié)合了空間注意力、時(shí)間注意力和交叉注意力機(jī)制,可有效生成由文本提示引導(dǎo)的游戲視頻。

對(duì)于每個(gè)時(shí)間步長(zhǎng)t,模型會(huì)處理捕捉幀細(xì)節(jié)的潛特征z。

空間注意力通過(guò)對(duì)空間維度(H′、W′)的自注意力來(lái)增強(qiáng)幀內(nèi)關(guān)系。時(shí)間注意通過(guò)在時(shí)間維度F′上進(jìn)行操作,捕捉幀間的依賴關(guān)系,從而確保幀間的一致性。

交叉注意力整合了通過(guò)文本編碼器T5獲得的外部文本特征的指導(dǎo),使視頻生成與文本提示的語(yǔ)義信息保持一致。

而掩碼機(jī)制則可以在擴(kuò)散處理過(guò)程中,將某些幀從噪聲添加和去噪中屏蔽掉。

如圖4所示,整體框架采用了將成對(duì)的空間和時(shí)間區(qū)塊堆疊在一起的設(shè)計(jì),其中每個(gè)區(qū)塊都配備了交叉注意和空間或時(shí)間注意力機(jī)制。

圖片

這樣的設(shè)計(jì)使模型能夠同時(shí)捕捉空間細(xì)節(jié)、時(shí)間序列動(dòng)態(tài)和文本引導(dǎo),從而使GameGen-X能夠生成高保真、時(shí)間上一致的視頻,并與所提供的文本提示緊密結(jié)合。

負(fù)責(zé)實(shí)現(xiàn)交互式控制的指令微調(diào)的部分由N個(gè)InstructNet模塊組成,每個(gè)模塊利用專門的操作集成式專家層和指令集成式專家層來(lái)整合不同的條件。

輸出特征被注入到基礎(chǔ)模型中以融合原始潛在特征,根據(jù)用戶輸入調(diào)制潛在表征,并有效地將輸出與用戶意圖對(duì)齊,這使用戶能夠影響角色動(dòng)作和場(chǎng)景動(dòng)態(tài)。

InstructNet主要通過(guò)視頻連續(xù)訓(xùn)練來(lái)模擬游戲中的控制和反饋機(jī)制。此外,還在初始幀中巧妙地添加了高斯噪聲,以減少誤差累積。

實(shí)驗(yàn)結(jié)果

為了全面評(píng)估GameGen-X在生成高質(zhì)量、逼真且可交互控制的視頻游戲內(nèi)容方面的能力,研究團(tuán)隊(duì)采用了一套十分細(xì)致的度量標(biāo)準(zhǔn)。

包括Fréchet Inception Distance(FID)、Fréchet Video Distance(FVD)、文本視頻對(duì)齊(TVA)、用戶偏好度(UP)、運(yùn)動(dòng)平滑度(MS)、動(dòng)態(tài)度(DD)、主體一致性(SC) 和成像質(zhì)量(IQ)。

表2對(duì)比了GameGen-X和4個(gè)知名開(kāi)源模型,即Mira、OpenSora Plan1.2、OpenSora1.2和CogVideoX-5B。

值得注意的是,Mira和OpenSora1.2都明確提到在游戲數(shù)據(jù)上進(jìn)行訓(xùn)練,而其他兩個(gè)模型雖然不是專門為此目的設(shè)計(jì)的,但仍然可以在類似環(huán)境中滿足某些生成需求。

結(jié)果顯示,GameGen-X在FID、FVD、TVA、MS和SC等指標(biāo)上表現(xiàn)良好。這表明GameGen-X在生成高質(zhì)量和連貫的視頻游戲內(nèi)容方面具有優(yōu)勢(shì),同時(shí)保持了競(jìng)爭(zhēng)性的視覺(jué)和技術(shù)質(zhì)量。

圖片

此外,團(tuán)隊(duì)還使用了有條件的視頻片段和密集提示詞來(lái)評(píng)估模型的生成響應(yīng)。

其中,新引入的指標(biāo)——成功率(SR),負(fù)責(zé)衡量模型對(duì)控制信號(hào)的準(zhǔn)確響應(yīng)頻率。這是由人類專家和PLLaVA共同評(píng)估的。

SR指標(biāo)分為兩部分:角色動(dòng)作的成功率(SR-C),評(píng)估模型對(duì)角色動(dòng)作的響應(yīng)能力,以及環(huán)境事件的成功率(SR-E),評(píng)估模型對(duì)天氣、光照和物體變化的處理能力。

如表3所示,GameGen-X在控制能力方面優(yōu)于其他模型,突顯了其在生成上下文適宜和互動(dòng)性游戲內(nèi)容方面的有效性。

在生成性能方面,有著8fps視頻的CogVideo和場(chǎng)景頻繁變化的OpenSora1.2,獲得了更高的DD。

圖片

圖5展示了GameGen-X在生成各種角色、環(huán)境、動(dòng)作和事件的多樣化生成能力。

這些例子顯示模型可以創(chuàng)建刺客和法師等角色,模擬櫻花森林和熱帶雨林等環(huán)境,執(zhí)行飛行和駕駛等復(fù)雜動(dòng)作,并重現(xiàn)暴風(fēng)雪和暴雨等環(huán)境事件。

圖片

圖6展示了GameGen-X根據(jù)文本指令和鍵盤輸入控制環(huán)境事件和角色動(dòng)作的能力。

在提供的示例中,模型有效地操控了場(chǎng)景的各個(gè)方面,如光照條件和大氣效果,突顯了其模擬不同時(shí)間和天氣條件的能力。此外,角色的動(dòng)作,主要涉及環(huán)境中的導(dǎo)航,通過(guò)輸入的鍵盤信號(hào)得到精確控制。

通過(guò)調(diào)整光照和大氣等環(huán)境因素,模型提供了一個(gè)逼真而沉浸的環(huán)境。同時(shí),管理角色動(dòng)作的能力確保生成的內(nèi)容能夠直觀地響應(yīng)用戶的互動(dòng)。

通過(guò)這些能力,GameGen-X展示出了在提升開(kāi)放世界電子游戲模擬的真實(shí)感和參與度方面的潛力。

圖片

如圖7所示,GameGen-X在角色細(xì)節(jié)、視覺(jué)環(huán)境和鏡頭邏輯方面更好地滿足了游戲內(nèi)容的要求,這得益于嚴(yán)格的數(shù)據(jù)集收集和OGameData的構(gòu)建。

圖片

此外,GameGen-X還與包括Kling、Pika、Runway、Luma和Tongyi在內(nèi)的其他商業(yè)產(chǎn)品進(jìn)行了比較,如圖8所示。

在左側(cè)部分,即最初生成的視頻片段中,只有Pika、Kling1.5和GameGen-X正確地遵循了文本描述。其他模型要么未能顯示角色,要么將其描繪為進(jìn)入洞穴而非退出。

在右側(cè)部分,GameGen-X和Kling1.5都成功引導(dǎo)角色走出洞穴。GameGen-X實(shí)現(xiàn)了高質(zhì)量的控制響應(yīng),同時(shí)保持了一致的鏡頭邏輯,并遵循了類似游戲的體驗(yàn)。這得益于整體訓(xùn)練框架和InstructNet的設(shè)計(jì)。

圖片

結(jié)論

OGameData的開(kāi)發(fā)為模型訓(xùn)練提供了重要的基礎(chǔ),使其能夠捕捉開(kāi)放世界游戲的多樣性和復(fù)雜性。而通過(guò)兩階段的訓(xùn)練過(guò)程,GameGen-X實(shí)現(xiàn)了內(nèi)容生成和交互控制之間的相互增強(qiáng),從而實(shí)現(xiàn)了豐富且身臨其境般的模擬體驗(yàn)。

除了技術(shù)貢獻(xiàn)之外,更重要的是:GameGen-X 還為游戲內(nèi)容設(shè)計(jì)的未來(lái)開(kāi)辟了新的視野。它表明游戲設(shè)計(jì)與開(kāi)發(fā)有可能轉(zhuǎn)向更加自動(dòng)化、數(shù)據(jù)驅(qū)動(dòng)的流程,從而顯著減少游戲內(nèi)容早期創(chuàng)建所需的手動(dòng)工作。

通過(guò)利用模型來(lái)創(chuàng)建身臨其境的世界和交互式游戲玩法,我們可能對(duì)于玩家自己通過(guò)創(chuàng)造性的探索來(lái)構(gòu)建一個(gè)游戲的未來(lái)越來(lái)越近了。

盡管挑戰(zhàn)依然存在,GameGen-X代表了游戲設(shè)計(jì)中向新穎范式邁出的重大飛躍。它為未來(lái)的研究和開(kāi)發(fā)奠定了基礎(chǔ),也為生成模型成為創(chuàng)建下一代交互式數(shù)字世界的不可或缺的工具鋪平了道路。

團(tuán)隊(duì)介紹

Haoxuan Che

圖片

Haoxuan Che正在香港科技大學(xué)(HKUST)攻讀計(jì)算機(jī)科學(xué)與工程博士學(xué)位。他的主要研究興趣在于計(jì)算機(jī)視覺(jué)、醫(yī)學(xué)圖像分析和可信賴人工智能。

在加入香港科技大學(xué)之前,我曾畢業(yè)于西北工業(yè)大學(xué)(NWPU),獲得了軟件與微電子學(xué)院的軟件工程學(xué)士學(xué)位。

Xuanhua He(何炫華)

圖片

何炫華目前是中國(guó)科學(xué)技術(shù)大學(xué)的碩士生,由Jie Zhang和Chengjun Xie教授指導(dǎo)。他于2022年在廈門大學(xué)獲得了軟件工程學(xué)士學(xué)位,師從Yongxuan Lai教授。

他的研究興趣集中在計(jì)算機(jī)視覺(jué)領(lǐng)域,特別是圖像超分辨率、圖像增強(qiáng)和視頻生成。此前,他還曾曾探索過(guò)遙感圖像處理和聯(lián)邦學(xué)習(xí)。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2021-12-06 09:53:09

自然語(yǔ)言神經(jīng)網(wǎng)絡(luò)人工智能

2023-08-21 13:49:00

圖像技術(shù)

2025-01-16 10:05:00

3D模型代碼

2013-06-19 11:32:32

計(jì)算性能ISCHPC

2025-06-10 09:07:00

2024-06-17 07:10:00

2025-01-09 09:29:57

2024-04-07 09:00:00

數(shù)據(jù)模型

2012-11-23 10:15:55

SCC12全球超級(jí)計(jì)算大會(huì)

2021-05-07 09:34:20

量子芯片計(jì)算機(jī)

2023-03-17 07:59:57

AI數(shù)字化

2025-04-18 09:13:00

2022-03-28 10:32:28

AI功能手勢(shì)

2017-03-23 17:09:45

2022-02-25 23:49:31

量子研究

2021-11-17 16:13:45

IBM 處理器量子

2024-11-11 17:27:26

2013-08-21 15:13:17

英特爾中科大洋廣電行業(yè)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)